Der Median spielt eine zentrale Rolle in der Statistik und der Datenanalyse, da er als Maß der zentralen Tendenz eines Datensatzes genutzt werden kann. Er ist dabei der Wert im Datensatz, welcher die Mitte bildet und die Zahlen in zwei gleich große Teile teilt. Im Vergleich zum Mittelwert ist er nicht anfällig gegenüber Ausreißern und liefert dadurch auch bei ungleich verteilten Daten ein zuverlässiges Bild der zentralen Lage. Aufgrund von dieser Eigenschaft wird die Kennzahl in den verschiedensten Bereichen, wie beispielsweise der Medizin, den Sozialwissenschaften oder der Wirtschaft eingesetzt.
In diesem Beitrag erklären wir alle Einzelheiten rund um den Median und gehen im Detail auf die Berechnung dieser Kennzahl mithilfe von unterschiedlichen Beispielen ein. Außerdem vergleichen wir den Median mit anderen statistischen Kennzahlen wie dem Mittelwert oder dem Modus und zeigen auf, welche Anwendungen den Median einsetzen. Zu einem vollständigen Bild gehört es auch, die Vor- und Nachteile dieser Kennzahl im Detail zu erläutern, damit man eine informierte Entscheidung treffen kann, ob der Einsatz des Medians gerechtfertigt ist. Abschließend schauen wir uns an, wie man die Kennzahl in Python oder Excel berechnen kann.
Was ist der Median?
Der Median ist eine statistische Kennzahl, welche eine Aussage über die zentrale Tendenz des Datensatzes liefert. Es ist der Wert, welcher genau in der Mitte einer geordneten Datenreihe liegt, sodass alle Elemente in der einen Hälfte des Datensatzes kleiner als der Median sind und alle Elemente in der anderen Hälfte des Datensatzes größer als der Median sind. Durch diese Eigenschaft wird der Median zu einer robusten Wahl, da er auch bei ungleichmäßig verteilten Daten identisch bleibt. Die Kennzahl ändert sich nämlich nicht, wenn sich die konkreten Werte der unteren Hälfte verändert, solange die Anzahl der Werte gleichbleibt und sie alle weiterhin kleiner sind als der Medianwert. Dadurch haben auch extreme Ausreißer erstmal keinen Einfluss auf diese Kennzahl.
Der Mittelwert hingegen berechnet den arithmetischen Durchschnitt des Datensatzes, anstatt die Mitte des Datensatzes zu finden. Dadurch haben Datenpunkte mit extrem großen oder kleinen Werten einen starken Einfluss auf den Durchschnitt. Der Median wird in verschiedensten Anwendungen verwendet, in denen es zu Ausreißern kommen kann, um eine realistischere Einschätzung der zentralen Lage zu bekommen. Bei Einkommenserhebungen beispielsweise unterscheiden sich der Durchschnitt und der Median teilweise sehr deutlich.
Wie berechnet sich der Median?
Der Median ist der mittlere Wert in einer Datenreihe und kann abhängig von der Größe der Datenreihe ein Wert aus der Menge sein oder auch ein Wert, der nicht in der Menge direkt vorkommt. Im ersten Schritt der Berechnung wird die Datenreihe der Größe nach aufsteigend sortiert. Wenn dies geschehen ist, hängt die weitere Berechnung davon ab, ob die Anzahl der Elemente gerade oder ungerade ist.
Datenmengen mit einer ungeraden Anzahl an Elementen
Bei einer ungeraden Anzahl von Elementen in der Datenreihe ist die Berechnung deutlich einfacher. Dazu wird aus der sortierten Datenreihe einfach der Wert genommen, der genau in der Mitte liegt. Dadurch, dass die Anzahl ungerade ist, ist auch sichergestellt, dass ein solcher Wert existiert.
In der Datenreihe [3,7,9] beispielsweise liegt die 7 genau in der Mitte, da es genau einen Wert gibt, der größer ist, und genau einen Wert der kleiner ist. Somit ist der Median dieser Datenreihe 7. Die Datenreihe [3,7,9,13,18] hat fünf Elemente und somit auch eine ungerade Größe. In diesem Fall liegt die 9 genau in der Mitte der Datenreihe und der Median ist somit 9.
Datenmengen mit einer geraden Anzahl an Elementen
Bei einer geraden Anzahl an Elementen kann der gerade beschriebene Ansatz nicht genutzt werden, weil es keinen Datenpunkt gibt, welcher genau in der Mitte der Datenreihe liegt. Bei der Datenreihe [3,7,9,11] beispielsweise ist dieser Mittelpunkt nicht vorhanden. Deshalb muss man sich behelfen, indem man die beiden mittleren Werte, also in diesem Fall 7 und 9, verwendet und daraus den Durchschnitt, also (7+9)/2 = 8, verwendet. Der Median in dieser Datenreihe liegt also bei 8.
Durch diese Vorgehensweise wird deutlich, warum der Median robust gegenüber Ausreißern ist, da die Werte außerhalb der Mitte für die Berechnung nicht relevant sind, solange sie die Reihenfolge der einzelnen Elemente nicht verändern. Wenn wir beispielsweise die Reihe [3,7,9] verwenden, bleibt die 7 der Median, auch wenn sich der Wert der beiden anderen Elemente stark verändert. Dadurch ist 7 auch der Median der Datenreihe [1,7,100] und es ist auch der Median der Datenreihe [0.001,7,10000].
Was sind Median, Modus und Mittelwert und wie unterscheiden sie sich?
Der Median, Modus und Mittelwert sind unterschiedliche Kennzahlen, welche verschiedene Aspekte der „Mitte“ eines Datensatzes beschreiben. Abhängig von der Art und den Eigenschaften der Daten hat jedes dieser Maße seine eigenen Vor- und Nachteile, die wir in diesem Abschnitt genauer beleuchten. Ein zentraler Aspekt für die Wahl des geeigneten Maßes ist dabei auch die Verteilung der Daten, welche beispielsweise beinhaltet, ob Ausreißer vorhanden sind.
Mittelwert
Der Mittelwert berechnet sich, indem alle Datenpunkte in einem Datensatz addiert werden und anschließend durch die Anzahl der Daten geteilt werden. Dadurch dient er als eine Art Balancepunkt des Datensatzes. Diese Berechnung macht den Mittelwert jedoch auch anfällig für Ausreißer, also besonders hohe oder niedrige Werte, und für ungleichmäßige Verteilungen. In diesen Fällen gibt der Mittelwert möglicherweise kein genaues Bild über den Datensatz ab.
Da der Mittelwert alle Werte zu gleichem Gewicht in die Berechnung mit aufnimmt, kann ein einzelner extrem hoher oder niedriger Wert den Durchschnitt stark beeinflussen. Ein solcher Wert kann somit dazu führen, dass der Mittelpunkt nicht mehr die typische Mitte des Datensatzes repräsentiert. Dadurch ist der Mittelwert ungeeignet für asymmetrische oder verzerrte Daten.
Beispiel: Angenommen, wir haben einen Datensatz über die Einkommensverteilung in einer kleinen Gruppe. Dabei werden die folgenden Einkommen ermittelt: [30.000, 32.000, 35.000, 500.000]. Von der Betrachtung der Daten würden wir rein nach dem Gefühl davon ausgehen, dass eine „durchschnittliche Person“ in diesem Datensatz etwa zwischen 32.000 und 35.000 verdient. Durch den sehr starken Ausreißer jedoch erhalten wir einen errechneten Durchschnitt von (30.000 + 32.000 + 35.000 + 500.000) / 4 = 149.250. Dieser Wert ist jedoch viel höher als die typischen Einkommen, die wir im Datensatz beobachten, was sich auf das höchste Einkommen von 500.000 zurückführen lässt.
Aufgrund von diesen Eigenschaften ist der Mittelwert besonders für normalverteilte Daten, ohne extreme Ausreißer geeignet, wie sie zum Beispiel in der Chemie, der Physik oder der Finanzanalyse vorkommen. Diese können häufig auf eine gleichmäßige Verteilung der Daten zurückgreifen.
Median
Der Median ist der mittlere Wert einer Datenreihe und teilt den Datensatz so, dass die Hälfte der Daten oberhalb und die andere Hälfte unterhalb des Medians liegt. Durch diese Eigenschaft ist der Median deutlich unempfindlicher gegenüber Ausreißern bzw. stark abweichenden Datenpunkten, da für ihn lediglich die Lage der extremen Datenpunkte eine Rolle spielt und jedoch nicht deren absolute Höhe. Für das obige Einkommensbeispiel ergibt sich dadurch, dass der Median genau zwischen 32.000 und 35.000 liegen muss, da dort die Mitte des Datensatzes liegt. Somit ergibt sich ein Median von (32.000 + 35.000) / 2 = 33.500. Dieser Wert gibt eine realistischere Aussage über die Mitte der Datenverteilung im Vergleich zum Mittelwert, da er nicht von dem Ausreißereinkommen verzerrt wird.
Aufgrund von dieser Eigenschaft wird diese Kennzahl vor allem in Anwendungen genutzt, in denen Daten oftmals verzerrt und Ausreißer eine große Rolle spielen, wie etwa in der Einkommensstatistik, bei Immobilienpreisen oder bei medizinischen Daten.
Modus
Der Modus unterscheidet sich von den beiden bisher vorgestellten Kennzahlen und umschreibt den häufigsten Wert in einer Datenreihe. Damit ist er ein Maß der zentralen Tendenz, welches sich ausschließlich mit der Häufigkeit von Werten beschäftigt. Diese Eigenschaft ermöglicht es, dass der Modus als einziges auch für nominale Daten, also solche, welche nicht numerisch sind, eingesetzt werden kann.
Der Modus wird häufig in Umfragen und in der Marktforschung genutzt, da er die Möglichkeit bietet, die häufigsten Antworten oder beliebte Produkte zu identifizieren. Hierbei wird jedoch auch das Hauptproblem des Modus deutlich, nämlich, wenn eine Reihe mehrdeutig ist, sodass zwei Werte in der Umfrage genau gleichhäufig vorkommen. Wenn beispielsweise bei einer Umfrage der beliebtesten Automarken sowohl „Audi“ als auch „BMW“ gleich häufig genannt werden, dann spricht man davon, dass die Datenreihe bimodal ist, da genau zwei Kategorien am häufigsten vorkommen. Bei einer multimodalen Datenreihe gibt es sogar mehr als zwei Werte, welche am häufigsten in der Umfrage genannt wurden.
Der Median bietet im Vergleich zum Mittelwert und zum Modus eine ausgewogene Möglichkeit, die zentrale Tendenz eines Datensatzes numerisch auszudrücken. Vor allem bei verzerrten Daten mit Ausreißern weist er Stärken auf, da er sich von diesen nicht beeinflussen lässt, solange der mittlere Wert des Datensatzes derselbe bleibt. Der Mittelwert hingegen ist bei normalverteilten Daten, ohne die Gefahr von Ausreißern, besser geeignet und der Modus kann auch für nominale Datensätze genutzt werden, bei denen der Median nicht verwendet werden kann.
Was sind die Vor- und Nachteile des Medians?
Der Median ist ein häufig verwendetes Maß zur Bestimmung der zentralen Tendenz eines Datensatzes. In diesem Artikel haben wir bereits einige Vor- und Nachteile genannt, die die Verwendung dieser Kennzahl mit sich bringen. In diesem Abschnitt wollen wir die Punkte nochmals übersichtlich zusammenfassen und auch ein paar neue Aspekte mit aufnehmen.
Vorteile
- Robustheit gegenüber Ausreißern: Wie bereits mehrfach erläutert, besteht der Hauptvorteil des Medians darin, dass er sich auch bei extremen Werten und Ausreißern nicht oder nur wenig verändert und im Gegensatz zum Mittelwert deutlich robuster gegenüber diesen Erscheinungen ist. Da er sich allein auf die Position der Daten bezieht, spielt die Höhe der Daten und deren Unterschiede lediglich eine untergeordnete Rolle.
- Bessere Repräsentation bei schiefen Verteilungen: Bei schiefen Verteilungen, wie der Einkommensstatistik oder bei Immobilienpreisen, stellt diese Kennzahl häufig ein realistischeres Bild dar im Vergleich zum Mittelwert. Solche Daten sind oft rechtsschief, wodurch der Mittelwert unnatürlich nach oben gezogen wird und der Median dadurch eine bessere Mitte der Daten darstellt.
- Leichte Interpretation: Der Median lässt sich auch bei großen Datensätzen schnell und einfach interpretieren und kann dadurch auch von einem fachfremden Publikum einfach verstanden werden. Durch die einfache Berechnungsweise ist er deutlich unkomplizierter, was beispielsweise in Berichten oder Präsentationen eine höhere Akzeptanz beim Publikum hervorruft.
- Nutzung bei ordinalen Daten: Schließlich kann diese Kennzahl, anders als der Durchschnitt, auch bei ordinalen Daten mit Bewertungsskalen oder Rangfolgen genutzt werden, wodurch er deutlich flexibler einsetzbar ist. Etwa in der Marktforschung ist dies ein weiterer Vorteil, der es möglich macht, dass die Daten weder messbar noch intervallskaliert sein müssen.
Nachteile:
- Verlust von Details: Da der Median sich lediglich an der Lage der Daten orientiert und die Abstände der Datenpunkte nicht beachtet, verliert diese Kennzahl wichtige Informationen über die Lage und die Verteilung der Daten. In Verteilungen jedoch, in denen die Abstände eine wichtige Rolle spielen, wie beispielsweise bei Messwerten in wissenschaftlichen Experimenten, ist dies ein Ausschlusskriterium.
- Empfindlichkeit bei Datenänderungen in geraden Datensätzen: Bei geraden Datensätzen wird diese Kennzahl als Durchschnitt aus den beiden mittleren Datenpunkten errechnet. Dadurch kann er in einem solchen Szenario anfällig für Datenänderungen sein, gerade dann, wenn die Stichprobe besonders klein ist.
- Begrenzte Aussagekraft bei normalverteilten Daten: Bei normalverteilten oder symmetrischen Daten unterscheidet sich der Median kaum vom Mittelwert, da Ausreißer nur eine untergeordnete Rolle spielen. Da beide Werte dann nahezu identisch sind, bietet der Median keinerlei Vorteile und es kann sogar passieren, dass er weniger Informationen über die Verteilung selbst vermittelt. Der Mittelwert hingegen kann zusammen mit der Standardabweichung bereits wichtige Eigenschaften der Verteilung beschreiben.
- Fehlende Anwendbarkeit bei statistischen Tests: Viele statistische Tests, wie beispielsweise der t-Test oder die Varianzanalyse, setzen auf den Mittelwert als Maß für die zentrale Tendenz. Der Median ist hierbei oft nicht anwendbar und er müsste erst aufwendig transformiert werden, um für diese inferenzstatistischen Tests anwendbar zu sein.
Der Median hat genau wie andere statistische Kennzahlen auch, Vor- und Nachteile, welche vor der Nutzung abgewogen werden sollten. Die Hauptvorteile liegen darin, dass er nicht so stark auf Ausreißer reagiert, wie der Mittelwert, und dadurch ein besseres Bild der zentralen Tendenz liefern kann. In normalverteilten Datenverteilungen jedoch, unterscheidet sich der Median kaum vom Mittelwert und es gehen hingegen noch Informationen zu den Abständen zwischen den Datenpunkten verloren.
Wie kann man den Median in Python und Excel berechnen?
Die Berechnung des Medians ist ein wichtiger Schritt in vielen statistischen Analysen und kann mithilfe von Python oder Excel einfach und schnell umgesetzt werden. In diesem Abschnitt schauen wir uns die Berechnung in unkomplizierten Beispielen genauer an.
Berechnung in Excel
In Excel kann die Berechnung des Medians einfach mithilfe der „MEDIAN“ Funktion umgesetzt werden. Dazu kann man beispielsweise die Einkommen in einem Datensatz in einer Spalte sammeln und in einer neuen Zelle die Funktion anwenden, indem man den Bereich definiert, in dem die Zahlen abgelegt sind.
In unserem Fall haben wir zehn Einkommensdaten in der Spalte A abgelegt und mit der Überschrift „Incomes“ überschrieben. Entsprechend sind also die Zahlenwerte in den Zelle A2 bis A11 hinterlegt.
Der Median kann nun in einer neuen Zelle berechnet werden, indem die Funktion aufgerufen wird, mithilfe des Gleichheitszeichens und der MEDIAN-Funktion.
In den runden Klammern definieren wir den Zahlenbereich, in dem die Einkommen hinterlegt sind und erhalten, nachdem wir die ENTER-Taste drücken das schlussendliche Ergebnis.
Mithilfe von diesen einfachen Schritten, kann in Excel schnell der Median einer Datenreihe berechnet werden.
Berechnung in Python
In Python kann man verschiedene Bibliotheken für die Berechnung des Medians nutzen, wie beispielsweise NumPy oder Pandas. In NumPy hinterlegt man dafür die Daten in einer Liste und nutzt dann die Funktion np.median
, welcher die Liste dann übergeben wird.
Die Nutzung von NumPy kann vor allem bei großen Datenmengen effizient sein, da die Berechnung speziell optimiert wurde. Wenn die Daten hingegen in einem DataFrame gespeichert sind, ist die Verwendung von Pandas naheliegend. Diese Bibliothek liefert bereits die .median()
Funktion, welche direkt auf eine DataFrame Spalte angewandt werden kann.
Mithilfe von diesen Tools kann der Median schnell und einfach berechnet werden.
Das solltest Du mitnehmen
- Der Median ist eine grundlegende Kennzahl, welche eine Aussage über die zentrale Tendenz des Datensatzes liefert.
- Sie bestimmt einen Wert, welcher genau in der Mitte der Datenreihe ist und dadurch im Vergleich zum Mittelwert nicht so stark von Ausreißern beeinflusst wird.
- Neben dem Median kann auch der Mittelwert oder der Modus genutzt werden, um die zentrale Tendenz eines Datensatzes zu bestimmen.
- Der Median hat auch Nachteile, wie beispielsweise, dass Informationen über die Abstände der Datenpunkte verloren gehen.
- Es gibt verschiedene Computerprogramme, welche zur Berechnung des Medians genutzt werden können, wie zum Beispiel die Programmiersprache Python oder Excel.
Was ist Gibbs-Sampling?
Erforschen Sie Gibbs-Sampling: Lernen Sie die Anwendungen kennen und erfahren Sie, wie sie in der Datenanalyse eingesetzt werden.
Was ist ein Bias?
Auswirkungen und Maßnahmen zur Abschwächung eines Bias: Dieser Leitfaden hilft Ihnen, den Bias zu verstehen und zu erkennen.
Was ist die Varianz?
Die Rolle der Varianz in der Statistik und der Datenanalyse: Verstehen Sie, wie man die Streuung von Daten messen kann.
Was ist die KL Divergence (Kullback-Leibler Divergence)?
Erkunden Sie die Kullback-Leibler Divergence (KL Divergence), eine wichtige Metrik in der Informationstheorie und im maschinellen Lernen.
Was ist MLE: Maximum-Likelihood-Methode?
Verstehen Sie die Maximum-Likelihood-Methode (MLE), ein leistungsfähiges Werkzeug zur Parameterschätzung und Datenmodellierung.
Was ist der Varianzinflationsfaktor (VIF)?
Erfahren Sie, wie der Varianzinflationsfaktor (VIF) Multikollinearität in Regressionen erkennt, um eine bessere Datenanalyse zu ermöglichen.
Andere Beiträge zum Thema Median
Dieser Link führt Dich zu meiner Deepnote-App, in der Du den gesamten Code findest, den ich in diesem Artikel verwendet habe, und ihn selbst ausführen kannst.
Niklas Lang
Seit 2020 bin ich als Machine Learning Engineer und Softwareentwickler tätig und beschäftige mich leidenschaftlich mit der Welt der Daten, Algorithmen und Softwareentwicklung. Neben meiner Arbeit in der Praxis unterrichte ich an mehreren deutschen Hochschulen, darunter die IU International University of Applied Sciences und die Duale Hochschule Baden-Württemberg, in den Bereichen Data Science, Mathematik und Business Analytics.
Mein Ziel ist es, komplexe Themen wie Statistik und maschinelles Lernen so aufzubereiten, dass sie nicht nur verständlich, sondern auch spannend und greifbar werden. Dabei kombiniere ich praktische Erfahrungen aus der Industrie mit fundierten theoretischen Grundlagen, um meine Studierenden bestmöglich auf die Herausforderungen der Datenwelt vorzubereiten.