Zum Inhalt springen

Was ist der Median?

Der Median ist ein statistisches Maß, das den zentralen Wert eines Datensatzes darstellt. Er ist der Wert, der den Datensatz in zwei gleiche Hälften teilt, wobei die Hälfte der Werte höher und die andere Hälfte niedriger als der Median ist. In diesem Artikel erfährst Du, was diese Kennzahl aussagt, wie sie berechnet wird und wie sie in der Statistik und Datenanalyse verwendet wird.

Was ist der Median?

Der Median ist ein Maß für die zentrale Tendenz in der Statistik. Er ist der Wert, der einen Datensatz in zwei gleiche Hälften trennt. Um ihn zu berechnen, müssen wir zunächst die Werte im Datensatz entweder in aufsteigender oder absteigender Reihenfolge sortieren. Sobald die Werte sortiert sind, können wir den mittleren Wert oder den Durchschnitt der beiden mittleren Werte ermitteln, wenn der Datensatz eine gerade Anzahl von Werten enthält. Der daraus resultierende Wert ist der Median.

Median
Beispiel für sieben numerische Werte | Quelle: Autor

Betrachten wir zum Beispiel den folgenden Datensatz mit 7 Werten: 4, 6, 8, 10, 11, 15, 20. Um den Median zu ermitteln, sortieren wir die Werte zunächst in aufsteigender Reihenfolge: 4, 6, 8, 10, 11, 15, 20. Da es 7 Werte gibt, ist der Mittelwert der vierte Wert, also 10. Daher ist der Median dieses Datensatzes 10.

Wie berechnet man den Median?

Das Verfahren zur Berechnung dieses Maßes ist immer gleich und kann mit diesem Algorithmus beschrieben werden:

  1. Sortiere die Werte des Datensatzes entweder in aufsteigender oder absteigender Reihenfolge.
  2. Ermittle den/die mittleren Wert(e) des Datensatzes auf der Grundlage der Anzahl der Werte im Datensatz:
    • Bei einer ungeraden Anzahl von Werten ist der Median der mittlere Wert.
    • Bei einer geraden Anzahl von Werten ist es der Durchschnitt der beiden mittleren Werte.
  3. Der daraus resultierende Wert ist der Median.

Was ist der Unterschied zwischen dem Median und dem Mittelwert?

Wenn es um die Messung der zentralen Tendenz geht, sind der Median und der Mittelwert zwei der am häufigsten verwendeten Maße. Obwohl beide Informationen über die Mitte der Daten liefern, haben sie unterschiedliche Eigenschaften und sind für verschiedene Arten von Daten geeignet.

Der Mittelwert wird berechnet, indem alle Werte des Datensatzes addiert und durch die Gesamtzahl der Werte geteilt werden. Er reagiert empfindlich auf Extremwerte, die auch als Ausreißer bezeichnet werden, und neigt dazu, in Richtung der Ausreißer verzerrt zu sein. Im Gegensatz dazu ist der Median der mittlere Wert im Datensatz, wenn die Werte in aufsteigender oder absteigender Reihenfolge angeordnet sind. Er reagiert weniger empfindlich auf Ausreißer, was ihn zu einem robusten Maß für die zentrale Tendenz macht.

Hier zeigt sich bereits ein Unterschied zwischen diesen beiden Maßen. In den meisten Fällen ist der Mittelwert aufgrund der Art seiner Berechnung ein Wert außerhalb des Datensatzes. Nur in sehr seltenen Fällen nimmt er einen Wert an, der bereits im Datensatz enthalten ist. Der Median hingegen befindet sich in der Regel innerhalb des Datensatzes, wenn die Anzahl der Datenpunkte ungerade ist.

Mean
Vergleich von Mittelwert und Median in einem Datensatz | Quelle: Autor

Hier sind einige wichtige Unterschiede zwischen Median und Mittelwert:

  1. Ausreißer: Wie bereits erwähnt, wird der Mittelwert durch Extremwerte oder Ausreißer beeinflusst, während das andere Maß der zentralen Tendenz dies nicht tut. Wenn es Ausreißer in den Daten gibt, ist der Mittelwert möglicherweise kein repräsentatives Maß für die zentrale Tendenz, und der Median ist möglicherweise die bessere Wahl.
  2. Schiefe: Der Mittelwert neigt dazu, in Richtung der Ausreißer schief zu sein, was ihn für schiefe Datensätze ungeeignet machen kann. Der Median hingegen ist robust gegenüber Schieflage und kann in diesen Fällen eine genauere Darstellung der zentralen Tendenz liefern.
  3. Stichprobengröße: Der Mittelwert wird durch den Stichprobenumfang beeinflusst, der Median hingegen nicht. Mit zunehmender Stichprobengröße wird der Mittelwert stabiler und zuverlässiger, während der andere Wert gleich bleibt.
  4. Art der Daten: Der Median eignet sich für Ordinal- und Intervalldaten, während der Mittelwert für Intervall- und Verhältnisdaten geeignet ist.

Zusammenfassend lässt sich sagen, dass sowohl der Median als auch der Mittelwert nützliche Maße für die zentrale Tendenz sind, ihre Eignung hängt jedoch von den Eigenschaften der Daten ab. Wenn die Daten schief sind oder Ausreißer enthalten, ist der Median möglicherweise die bessere Wahl, während der Mittelwert eher für große, normal verteilte Datensätze geeignet ist.

Welche Anwendungsfälle gibt es für den Median?

Er ist ein nützliches Maß in der Statistik und Datenanalyse

  • Deskriptive Statistik: Der Median ist ein gängiges Maß für die zentrale Tendenz, das in der deskriptiven Statistik zur Zusammenfassung eines Datensatzes verwendet wird. Er wird verwendet, um einen Überblick über den typischen oder zentralen Wert in einem Datensatz zu geben.
  • Schiefe Daten: Das Maß ist robuster als der Mittelwert für schiefe Datensätze, da es weniger von Extremwerten oder Ausreißern beeinflusst wird.
  • Einkommensverteilung: Das Maß wird zur Messung der Einkommensungleichheit in einer Bevölkerung verwendet, da es das Einkommensniveau darstellt, bei dem die Hälfte der Bevölkerung mehr und die andere Hälfte weniger verdient.
  • Überlebensanalyse: Der Median wird in der Überlebensanalyse verwendet, um den Zeitpunkt darzustellen, zu dem die Hälfte der Probanden in einer Studie ein Ereignis hat oder ausfällt.

Ganz allgemein gibt es viele andere Anwendungen, bei denen dieses Maß der zentralen Tendenz verwendet wird.

In der Statistik wird es als Maß für die zentrale Tendenz verwendet, das im Gegensatz zum Mittelwert nicht von Extremwerten beeinflusst wird. Dies macht es nützlich bei der Analyse von Datensätzen mit Ausreißern oder schiefen Verteilungen. Es wird auch in der Inferenzstatistik verwendet, um Konfidenzintervalle zu berechnen und Parameter zu schätzen.

Im Finanzwesen wird dieses Maß verwendet, um den mittleren Preis von Aktien oder Vermögenswerten zu berechnen, der eine genauere Darstellung des Marktes als der mittlere Preis liefern kann. In der Immobilienbranche wird sie zur Ermittlung des mittleren Preises von Häusern oder Wohnungen in einem bestimmten Gebiet verwendet, was sowohl für Käufer als auch für Verkäufer hilfreich sein kann.

Im Gesundheitswesen wird es verwendet, um die Überlebenszeit von Patienten mit einer bestimmten Krankheit oder einem bestimmten Zustand zu berechnen. Dies kann Ärzten und Forschern helfen, die Wirksamkeit von Behandlungen zu bewerten und neue Therapien zu entwickeln.

Im Verkehrswesen wird der Median zur Berechnung der Reisezeit oder der Entfernung zwischen Orten verwendet, was bei der Planung und Optimierung von Routen helfen kann.

Der Median wird auch in den Sozialwissenschaften verwendet, um das Einkommen oder Vermögen einer Bevölkerung zu berechnen, was bei der Bewertung wirtschaftlicher Trends und politischer Maßnahmen hilfreich sein kann. Er wird auch im Bildungswesen verwendet, um die erwarteten Testergebnisse von Schülern zu ermitteln, was bei der Bewertung der akademischen Leistung und der Ermittlung verbesserungswürdiger Bereiche hilfreich sein kann.

Was sind die Vor- und Nachteile dieser Kennzahl?

Der Median hat mehrere Vorteile gegenüber anderen Maßen der zentralen Tendenz, wie z. B. dem Mittelwert:

  • Robustheit: Es ist ein robusteres Maß als der Mittelwert für schiefe Datensätze, da es weniger von Extremwerten oder Ausreißern beeinflusst wird.
  • Einfach zu berechnen: Das Maß ist leicht zu berechnen, auch für große Datensätze.
  • Aussagekräftig für ordinale Daten: Der Median ist aussagekräftig für ordinale Daten, bei denen die Werte eine natürliche Reihenfolge haben, aber die Unterschiede zwischen den Werten nicht aussagekräftig sind.

Das statistische Maß hat jedoch auch einige Nachteile:

  • Nicht für alle Werte empfindlich: Der Median reagiert nicht auf alle Werte im Datensatz, sondern nur auf den/die mittleren Wert(e). Daher ist er möglicherweise nicht das beste Maß für die zentrale Tendenz bei Datensätzen mit vielen Extremwerten.
  • Kann mehrdeutig sein: Es kann mehrdeutig sein, wenn es in einem Datensatz Gleichstände oder wiederholte Werte gibt. In solchen Fällen kann es mehr als einen Wert geben.

Was sind die Grenzen des Medians?

Der Median ist zwar ein nützliches Maß für die zentrale Tendenz, hat aber auch einige Einschränkungen. In manchen Situationen sind andere Maße besser geeignet. Im Folgenden werden einige Einschränkungen des Medians und Situationen genannt, in denen andere Maße für die zentrale Tendenz geeigneter sein können:

  • Schiefe Verteilungen: Wenn die Verteilung der Daten schief ist, ist der Median möglicherweise kein gutes Maß für die zentrale Tendenz. In solchen Fällen kann der Mittelwert besser geeignet sein.
  • Ausreißer: Wenn ein Datensatz Extremwerte oder Ausreißer aufweist, kann der Median davon betroffen sein. In solchen Fällen kann der getrimmte Mittelwert oder der winsorisierte Mittelwert ein besseres Maß für die zentrale Tendenz sein.
  • Kleine Stichprobengrößen: Bei kleinen Stichprobenumfängen ist der Median möglicherweise nicht so zuverlässig wie der Mittelwert. In solchen Fällen kann der Modus ein besseres Maß für die zentrale Tendenz sein.
  • Kontinuierliche Daten: Bei kontinuierlichen Daten ist der Median möglicherweise nicht sinnvoll, insbesondere wenn die Daten gleichmäßig verteilt sind. In solchen Fällen kann der Mittelwert oder das geometrische Mittel ein besseres Maß für die zentrale Tendenz sein.
  • Nominale Daten: Der Median kann nicht für nominale Daten berechnet werden, d. h. für Daten, die keine Ordnung oder Hierarchie aufweisen. In solchen Fällen ist der Modus das geeignete Maß für die zentrale Tendenz.

Zusammenfassend lässt sich sagen, dass die Wahl des geeigneten Maßes für die zentrale Tendenz von der Verteilung der Daten, dem Vorhandensein von Ausreißern, dem Stichprobenumfang, der Art der Daten und der Forschungsfrage abhängt. Daher ist es wichtig, die Stärken und Grenzen der einzelnen Messgrößen zu kennen und diejenige auszuwählen, die für die jeweilige Forschungsfrage am besten geeignet ist.

Was ist der Unterschied zwischen dem Median und anderen Quantilen?

Der Median ist ein Maß für die zentrale Tendenz, das in der Statistik häufig verwendet wird, um die Verteilung eines Datensatzes zu beschreiben. Er ist eine Art Quantil, d. h. ein Wert, der einen Datensatz auf der Grundlage der Rangfolge der Werte in gleiche Teile unterteilt. Obwohl es sich um eine Art Quantil handelt, gibt es einige wichtige Unterschiede zwischen dem Median und anderen Quantilen.

Ein wichtiger Unterschied besteht darin, dass der Median der mittlere Wert in einem Datensatz ist, während andere Quantile den Datensatz in gleiche Teile unterteilen, aber nicht unbedingt in die Mitte fallen. So ist beispielsweise das erste Quartil (Q1) der Wert, der die niedrigsten 25 % des Datensatzes vom Rest trennt, während das dritte Quartil (Q3) die höchsten 25 % des Datensatzes vom Rest trennt.

Ein weiterer Unterschied besteht darin, dass das Maß der zentralen Tendenz robuster gegenüber Ausreißern ist als andere Quantile. Ausreißer sind Werte, die viel größer oder kleiner sind als die anderen Werte im Datensatz, und sie können einen erheblichen Einfluss auf den Mittelwert und andere Maße der zentralen Tendenz haben. Da der Median auf dem mittleren Wert des Datensatzes basiert, wird er weniger von Ausreißern beeinflusst als der Mittelwert oder andere Quantile.

Schließlich wird der Median häufig verwendet, wenn der Datensatz nicht normalverteilt ist oder wenn es extreme Werte im Datensatz gibt. Andere Quantile sind besser geeignet, wenn der Datensatz normalverteilt ist und keine Extremwerte enthält.

Wie berechnet man diese Kennzahl in Python?

In Python kannst Du das Maß mit der gleichnamigen Funktion median() berechnen, die vom Statistikmodul bereitgestellt wird. Hier ist ein Beispiel:

Alternativ dazu kannst Du auch die NumPy-Bibliothek verwenden:

Das Ergebnis ist das gleiche wie zuvor.

Das solltest Du mitnehmen

  • Der Median ist ein Maß für die zentrale Tendenz, das den mittleren Wert in einem Datensatz darstellt.
  • Er ist nützlich in Situationen, in denen Extremwerte oder Ausreißer die Daten verzerren können.
  • Im Vergleich zum Mittelwert wird er weniger von Ausreißern beeinflusst und ist robuster.
  • Allerdings ist er nicht in allen Situationen das beste Maß für die zentrale Tendenz, und andere Maße wie der Modus oder der Mittelwert sind möglicherweise besser geeignet.
  • Er kann in Python mit der NumPy-Bibliothek leicht berechnet werden.

Vielen Dank an Deepnote für das Sponsoring dieses Artikels! Deepnote bietet mir die Möglichkeit, Python-Code einfach und schnell auf dieser Website einzubetten und auch die zugehörigen Notebooks in der Cloud zu hosten.

Variance Inflation Factor (VIF) / Varianzinflationsfaktor

Was ist der Varianzinflationsfaktor (VIF)?

Erfahren Sie, wie der Varianzinflationsfaktor (VIF) Multikollinearität in Regressionen erkennt, um eine bessere Datenanalyse zu ermöglichen.

Dummy Variable Trap

Was ist die Dummy Variable Trap?

Entkommen Sie der Dummy Variable Trap: Erfahren Sie mehr über Dummy-Variablen, ihren Zweck und die Folgen der Falle.

R-Squared / Bestimmtheitsmaß

Was ist das Bestimmtheitsmaß?

Einführung in das Bestimmtheitsmaß: Lernen Sie seine Bedeutung, Berechnung und Grenzen in der Regressionsanalyse kennen.

Arima

Was ist das ARIMA Modell?

Beherrschen Sie Prognosen mit ARIMA-Modellen: Lernen Sie, Trends in Daten zu analysieren und vorherzusagen mit Python-Beispielen.

Game Theory / Spieltheorie

Was ist die Spieltheorie?

Entdecken Sie die Macht der Spieltheorie und ihre praktischen Anwendungen bei Verhandlungen und bei der Entscheidungsfindung.

Multivariate Analysis / Multivariate Analyse

Was ist die Multivariate Analyse?

Entdecken Sie die Multivariate Analyse: Lernen Sie in unserem Artikel Techniken zur Analyse von Beziehungen in Ihren Daten.

Andere Beiträge zum Thema Median

Dieser Link führt Dich zu meiner Deepnote-App, in der Du den gesamten Code findest, den ich in diesem Artikel verwendet habe, und ihn selbst ausführen kannst.

Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Schlagwörter:
Cookie Consent mit Real Cookie Banner