Das Histogramm ist eine Visualisierungsform aus dem Bereich der Statistik, das zur Verdeutlichung von Häufigkeitsverteilungen genutzt wird. Dabei werden die Datenpunkte gezählt, die in eine definierte Gruppe gezählt und anschließend deren Werte in einzelnen Balken dargestellt.
Was ist ein Histogramm?
In der Statistik ist es oft von Interesse, wie manche Variablen verteilt sind. Solche Häufigkeitsverteilungen lassen sich mit sogenannten Histogrammen darstellen. Dabei kann ganz einfach die Ausprägung eines Datensatzs für eine Variable dargestellt werden. In unserem Beispiel wird damit dargestellt, wie sich die Altersverteilung unserer Untersuchungseinheit darstellt.
Dasselbe Diagramm könnte man natürlich auch mit anderen Variablen darstelle, wie beispielsweise dem Gehalt, der Körpergröße oder dem Gewicht. Es zeichnet sich dabei dadurch aus, dass die sogenannte Klassenbreite frei gewählt werden kann. Beispielsweise haben wir uns dazu entschieden, immer alle Personen in Stufen von neun Jahren zusammenzufassen. Genauso könnten wir jedoch auch ein neues Histogramm erstellen, indem wir diesmal immer alle Altersstufen in einem Intervall von 20 Jahren zusammenfassen.
Darin unterscheidet sich das Histogramm auch von einem regulären Balkendiagramm, welches hingegen genutzt wird, wenn die Einordnung in Klassen, beispielsweise nach dem Geschlecht, schon von vorneherein eindeutig sind und nicht beliebig gewählt werden können.
Gleichzeitig gibt es noch die Unterscheidung, dass man das Auftreten des Merkmals entweder absolut zählt, so wie wir es getan haben, oder relativ. Dabei wird die Anzahl der Datenpunkte mit dem Merkmal geteilt durch die Anzahl aller Datenpunkte und somit die relative Häufigkeit des Merkmals dargestellt.
Wann ist es sinnvoll ein Histogramm einzusetzen und wann nicht?
Die Histogramme eignen sich vor allem dann gut, wenn folgende Merkmale erfüllt sind:
- Es soll lediglich die Verteilung nach einer Variablen dargestellt werden. In mehreren Dimensionen ist die Darstellung hingegen nicht definiert.
- Die Verteilung auf dieser Variablen sollte kontinuierlich sein, was bedeutet, dass es keine oder nur wenige Lücken gibt. Wenn in unserem Datensatz also die Altersgruppe zwischen 40 und 60 fast gar nicht repräsentiert ist, sollte möglicherweise eine andere Darstellungsform gewählt werden.
- Histogramme bieten eine sehr gute Möglichkeit, um die Aussagekraft von verschiedenen Datensätzen zu beurteilen. Es kann zum Beispiel vorkommen, dass ein Datensatz einen signifikanten Zusammenhang erkennt zwischen den Ausgaben im Online-Marketing und dem gestiegenen Umsatz der Firma, während der andere Datensatz diesen Zusammenhang nicht feststellt. Durch einen Vergleich der Histogramme beider Untersuchungseinheiten bezüglich des Alters, stellt man möglicherweise schnell fest, dass die beiden Befragungen sehr unterschiedliche Altersgruppen befragt haben und somit die Erkenntnisse nur für die untersuchten Altersschichten Gültigkeit haben.
- Mithilfe von Histogrammen lassen sich zusätzlich sehr einfach Ausreißer erkennen, da diese als einzelne Balken, die sehr abgeschlagen sind, erkennbar sind. Ausreißer können beispielsweise durch fehlerhafte Dateneingaben entstehen oder aber tatsächlich Bestandteil des Datensatzes und der Datenverteilung sein. Viele Machine Learning Modelle reagieren auf das Vorhandensein von Ausreißern mit schlechteren Ergebnissen, weshalb der Datensatz im Vorfeld durchsucht werden muss. Histogramme eignen sich dazu, diese schnell zu erkennen und geeignete Methoden zur Filterung zu erkennen.
Wie bereits erwähnt, sollte man ein Histogramm jedoch nicht mit dem herkömmlichen Balkendiagramm verwechseln, das vor allem dann genutzt werden sollte, wenn die Variablen nicht numerisch, sondern kategorisch sind. Das heißt die Klasse ist an sich schon vorgegeben, wie beispielsweise das Geschlecht, und kann nicht frei gewählt werden, wie die Altersspanne in unserem Beispiel.
Das Histogramm ist eine Möglichkeit zur Darstellung einer Häufigkeitsverteilung. Eine solche ist natürlich erst ab einer gewissen Datenmenge wirklich erkennbar, weshalb diese Darstellungsform erst ab einer gewissen Datensatzgröße verwendet werden sollte. Ansonsten zieht man schnell einen falschen Schluss über die zugrundeliegende Verteilung des Datensatzes. Hinzu kommt, dass das Histogramm nicht wirklich geeignet ist, wenn er Datensatz nicht für alle Gruppen Informationen enthält und dadurch gewisse Bereiche des Diagramms nicht befüllt werden können.
Was sollte bei der Nutzung von Histogrammen beachtet werden?
Damit Histogramme richtig genutzt und interpretiert werden, sollte man einige Regeln beachten, die sich als Best Practice herausgestellt haben. Zum einen ist es sinnvoll, als Basiswert immer Null zu verwenden, um so eine bessere Vergleichbarkeit zu gewährleisten. Wenn die y-Achse nicht bei Null beginnt kann es ansonsten oft zu Verwirrungen in der Interpretation kommen.
Die Anzahl der Klassen ist ein wichtiger Faktor der die Qualität der Analyse maßgeblich beeinflusst. Wenn zu viele Klassen, also Balken dargestellt werden, kann es dazu kommen, dass signifikante Merkmal nicht mehr richtig dargestellt werden und das Diagramm auch eher unübersichtlich wird, da die einzelnen Balken vergleichsweise dünn sind. Bei zu wenigen Klassen hingegen, leidet die Aussagekraft des Diagramms, da nicht genügend Details dargestellt werden.
Schließlich sollten die Klassen gleich groß sein, damit der Nutzer oder die Nutzerin schnell die Aussage verstehen kann. Das Vorkommen eines Merkmals in einer Klasse wird durch den Flächeninhalt des Balkens dargestellt. Wenn die einzelnen Klassen unterschiedlich groß sind, ändert sich die Breite der Balken. Bei der Interpretation fällt es jedoch deutlich einfacher lediglich die Höhe der Balken zu betrachten, anstatt die Fläche, also die Höhe und Breite der Balken vergleichen zu müssen.
Welche Anwendungen nutzen diesen Diagrammtyp?
Diese Visualisierungsart findet in verschiedenen Bereichen Anwendung:
- In der Statistik kann man mithilfe des Histogramms die Wahrscheinlichkeitsverteilung eines Datensatzes visualisieren und untersuchen.
- In der Fotografie hingegen wird diese Darstellungsform auch das Tonwertdiagramm genannt und zeigt an, wie häufig eine Farbe in einem Bild vorkommt. Dabei wird für jede Farbe die Anzahl der Pixel gezählt, die in dem Bild die spezifizierte Farbe haben. Mithilfe dieses Diagramms kann ein Fotograf erkennen, ob die Belichtung und der Kontrast richtig gewählt sind und entsprechend Änderungen vornehmen.
Wie lassen sich Histogramme mit Matplotlib erstellen?
Mithilfe von Matplotlib lassen sich verschiedenste Diagramme in Python möglichst einfach darstellen. Für die meisten Diagrammtypen gibt es bereits vorkonfigurierte Module, die man relativ einfach für das eigene Beispiel nutzen kann.
Dementsprechend kann man auch einen einfachen Befehl definieren, zur Erstellung eines einfachen Diagrammes. Das Beispiel wurde so der Website von Matplotlib entnommen:
Nachdem man die Module importiert hat, können wir eine Normalverteilung mithilfe von Numpy definieren, die wir dann im Diagramm anzeigen wollen. Dabei definieren wir den Mittelwert von 170 mit einer Standardabweichung von 10 und einer Datensatzgröße von 250.
Dieses Numpy Array kann man einfach mit der Funktion “hist” in ein Diagramm verwandeln. Der Befehl “plt.show()” wird dann bei Matplotlib genutzt, um das erstellte Diagramm anzuzeigen.
Welche Arten von Diagrammen werden in Business Intelligence Anwendungen genutzt?
Es gibt verschiedene Arten von Diagrammen, die in Business Intelligence (BI) verwendet werden, um Daten darzustellen und Benutzern bei der Visualisierung und Analyse von Informationen zu helfen. Hier sind einige der gängigsten Diagrammtypen:
- Balkendiagramme: Balkendiagramme werden verwendet, um Daten über Kategorien oder Gruppen hinweg zu vergleichen, und sind eine der häufigsten Diagrammarten in BI. Sie sind zwar sehr ähnlich zu Histogrammen, sollten jedoch nicht verwechselt werden.
- Histogramme: Das Histogramm ist eine Visualisierungsform aus dem Bereich der Statistik, das zu Verdeutlichung von Häufigkeitsverteilungen genutzt wird. Dabei werden die Datenpunkte gezählt, die in eine definierte Gruppe gezählt und anschließend deren Werte in einzelnen Balken dargestellt.
- Liniendiagramme: Liniendiagramme werden zur Darstellung von Trends im Zeitverlauf verwendet und eignen sich zur Visualisierung von Datenveränderungen in einem bestimmten Zeitraum.
- Streudiagramme: Streudiagramme werden zur Darstellung der Beziehung zwischen zwei Variablen verwendet und werden in der BI häufig eingesetzt, um Muster und Korrelationen zu erkennen.
- Wärmekarten: Heatmaps werden zur farblichen Darstellung von Daten genutzt und eignen sich zur Hervorhebung von Mustern und Trends in großen Datensätzen.
- Baumkarten: Zur Darstellung hierarchischer Daten werden Baumdiagramme in der BI genutzt, um die Größe und Zusammensetzung verschiedener Datenkategorien darzustellen.
- Kreisdiagramme: Tortendiagramme werden zur Darstellung der Zusammensetzung von Daten verwendet und eignen sich für die Darstellung von Proportionen und Prozentsätzen.
- Sankey-Diagramme: Sankey-Diagramme werden zur Visualisierung des Datenflusses oder von Prozessen verwendet und sind hilfreich, um komplexe Systeme und Prozesse zu verstehen.
- Blasendiagramme: Zur Darstellung der Beziehung zwischen drei Variablen werden Blasendiagramme häufig in der BI verwendet, um Muster und Korrelationen zu erkennen.
Dies sind nur einige Beispiele für die vielen Arten von Diagrammen, die in der Business Intelligence verwendet werden. Die Wahl des Diagrammtyps hängt von den zu analysierenden Daten, den Zielen der Analyse und den Präferenzen des Benutzers ab.
Das solltest Du mitnehmen
- Das Histogramm ist eine Visualisierungsform aus dem Bereich der Statistik, das zu Verdeutlichung von Häufigkeitsverteilungen genutzt wird.
- Es wird genutzt um stetige, numerische Variablen und deren Verteilungen darzustellen. In der Praxis sind das beispielsweise Merkmale, wie Alter, Größe oder Einkommen.
- In der Fotografie wird das Histogramm genutzt, um die genutzten Farben in einem Bild darzustellen. Fotografen nutzen diese Information, um die Belichtung und andere Merkmale richtig einzustellen.
Was ist Gibbs-Sampling?
Erforschen Sie Gibbs-Sampling: Lernen Sie die Anwendungen kennen und erfahren Sie, wie sie in der Datenanalyse eingesetzt werden.
Was ist ein Bias?
Auswirkungen und Maßnahmen zur Abschwächung eines Bias: Dieser Leitfaden hilft Ihnen, den Bias zu verstehen und zu erkennen.
Was ist die Varianz?
Die Rolle der Varianz in der Statistik und der Datenanalyse: Verstehen Sie, wie man die Streuung von Daten messen kann.
Was ist die KL Divergence (Kullback-Leibler Divergence)?
Erkunden Sie die Kullback-Leibler Divergence (KL Divergence), eine wichtige Metrik in der Informationstheorie und im maschinellen Lernen.
Was ist MLE: Maximum-Likelihood-Methode?
Verstehen Sie die Maximum-Likelihood-Methode (MLE), ein leistungsfähiges Werkzeug zur Parameterschätzung und Datenmodellierung.
Was ist der Varianzinflationsfaktor (VIF)?
Erfahren Sie, wie der Varianzinflationsfaktor (VIF) Multikollinearität in Regressionen erkennt, um eine bessere Datenanalyse zu ermöglichen.
Andere Beiträge zum Thema Histogramm
Die Dokumentation von Matplotlib zu Histogrammen findest Du hier.
Niklas Lang
Seit 2020 bin ich als Machine Learning Engineer und Softwareentwickler tätig und beschäftige mich leidenschaftlich mit der Welt der Daten, Algorithmen und Softwareentwicklung. Neben meiner Arbeit in der Praxis unterrichte ich an mehreren deutschen Hochschulen, darunter die IU International University of Applied Sciences und die Duale Hochschule Baden-Württemberg, in den Bereichen Data Science, Mathematik und Business Analytics.
Mein Ziel ist es, komplexe Themen wie Statistik und maschinelles Lernen so aufzubereiten, dass sie nicht nur verständlich, sondern auch spannend und greifbar werden. Dabei kombiniere ich praktische Erfahrungen aus der Industrie mit fundierten theoretischen Grundlagen, um meine Studierenden bestmöglich auf die Herausforderungen der Datenwelt vorzubereiten.