Zum Inhalt springen

Normalverteilung – einfach erklärt!

Die Normalverteilung, oder auch Gauß-Verteilung, ist die wichtigste stetige Wahrscheinlichkeitsverteilung, da nahezu alle Werte, die wir in unserem Umfeld haben, normalverteilt sind. Körpergröße (innerhalb eines Geschlechts), die 100m Zeiten eines Schwimmers bei verschiedenen Wettkämpfen aber auch so etwas spezielles wie das Gewicht von mehreren Kaffeepackungen folgen ab einer ausreichend großen Stichprobe der Gauß-Verteilung. 

Wenn wir ein Zufallsexperiment durchführen, wie beispielsweise die Zeiten eines Schwimmers immer wieder messen, dann wollen wir zum einen eine sogenannte Dichtefunktion erhalten. Diese gibt uns an wie häufig ein gewisses Ereignis vorkommt. Es könnte uns zum Beispiel interessieren, wie wahrscheinlich es ist, dass der Schwimmer die 100m in einer Zeit von 1:15 min vollendet. Zusätzlich könnte uns aber auch interessieren, wie hoch die Wahrscheinlichkeit ist, dass der Sportler die 100m in unter oder maximal 1:15min schwimmt. Diese Frage können wir mit hilfe der Verteilungsfunktion beantworten. Die Verteilungsfunktion gibt an mit welcher Wahrscheinlichkeit das Ergebnis des Zufallsexperiment kleiner oder gleich eines bestimmten Wertes ist. 

Wie ist die Definition der Normalverteilung?

Eine stetige Zufallsgröße X mit einer Dichtefunktion f(x) der Form

\(\) \[f(x) = \frac{1}{\sigma \sqrt{2 \pi}} \cdot e^{-\frac{1}{2} \cdot \frac{(x – \mu)^2}{\sigma}}\]

mit dem Erwartungswert µ und der Varianz σ² heißt normalverteilt (kurz: N(µ, σ²)). Der Erwartungswert µ…

  • … ist eine reelle Zahl, er kann also auch negativ werden.
  • … ist die X-Koordinate des Maximums der Dichtefunktion.

Die Varianz σ²…

  • … ist die quadrierte Standardabweichung σ. 
  • … muss immer größer 0 sein.
  • … bestimmt wie stark der Graph horizontal gestreckt oder gestaucht ist. Eine geringe Varianz bedeutet, dass der Graph schmal ist. 

Was ist die Dichtefunktion?

Im Zusammenhang mit der Normalverteilung, wird meistens die Dichtefunktion mit ihrer bekannten Glockenkurve gezeigt. Kurz gesagt nutzt man diesen Graphen, um für einen Erwartungswert X die Wahrscheinlichkeit abzulesen, mit der dieses Ereignis eintritt.

Der Graph bildet die Normalverteilung von Körpergrößen in Zentimetern ab, die bei männlichen Testpersonen gemessen wurden. Der Erwartungswert µ = 180 sagt aus, dass der Großteil der Probanden 180cm groß waren. Die Varianz σ² beträgt in diesem Beispiel 7. Die Wahrscheinlichkeit für den Erwartungswert X = 176 beträgt etwa 5%, d.h. eine zufällige, männliche Testperson ist mit einer Wahrscheinlichkeit von 5% genau 176cm groß.

Das Bild zeigt die Dichtefunktion der Normalverteilung auf einem karierten Hintergrund.
Normalverteilung Dichtefunktion | Quelle: Autor

Was ist die Verteilungsfunktion?

Die Verteilungsfunktion F(x) der Normalverteilung ist definiert durch

\(\) \[f(x) = \frac{1}{\sigma \sqrt{2 \pi}} \cdot \int_{- \infty}^{x} e^{-\frac{1}{2} \cdot \frac{(x – \mu)^2}{\sigma}} \]

Also das Integral der Dichtefunktion f(x) im Bereich von – bis zur Zufallsgröße X. Die Verteilungsfunktion gibt entsprechend an, wie hoch die Wahrscheinlichkeit ist, dass die Zufallsgröße einen Wert von kleiner oder gleich X annimmt: 

\(\) \[ f(x) = Prob(X \leq x) \]

Für den Erwartungswert X = 176 erhalten wir in der Verteilungsfunktion eine Wahrscheinlichkeit von etwa 6,7%. Eine zufällige, männliche Person ist somit mit einer Wahrscheinlichkeit von 6,7% kleiner oder genau 176cm groß. 

Was ist die empirische Regel der Normalverteilung?

Die empirische Regel, auch bekannt als 68-95-99,7-Regel, ist eine statistische Richtlinie für die Normalverteilung. Sie besagt, dass:

Diese Regel kann beim Interpretieren und Verstehen von Daten, die einer Normalverteilung folgen, hilfreich sein. Wenn wir zum Beispiel wissen, dass ein Datensatz normalverteilt ist, und wir seinen Mittelwert und seine Standardabweichung berechnen, können wir die empirische Regel verwenden, um den Anteil der Daten zu schätzen, der in bestimmte Bereiche fällt.

Standardabweichung
Beispiel einer Standardabweichung anhand von Schulnoten | Quelle: Autor

Es ist wichtig zu beachten, dass die empirische Regel nur eine Annäherung ist und nicht für alle Normalverteilungen gilt. Außerdem gilt sie nur für kontinuierliche Daten, die einer Normalverteilung folgen, und nicht für kategoriale oder diskrete Daten. Nichtsdestotrotz kann die empirische Regel ein nützliches Instrument sein, um Einblicke in normalverteilte Daten zu gewinnen.

Welche Alternativen zur Normalverteilung gibt es?

Die Normalverteilung ist zwar eine häufig verwendete Verteilung zur Modellierung kontinuierlicher Zufallsvariablen in der Statistik, es gibt jedoch Situationen, in denen andere Verteilungen besser geeignet sind. Hier sind einige der Alternativen zur Normalverteilung:

  • Binomialverteilung: wird verwendet, um die Anzahl der Erfolge bei einer festen Anzahl von Versuchen zu modellieren, wobei jeder Versuch ein binäres Ergebnis hat (z. B. Kopf oder Zahl)
  • Poisson-Verteilung: zur Modellierung der Anzahl von Ereignissen, die in einem festen Zeit- oder Raumintervall auftreten, wenn die Ereignisse selten und zufällig sind
  • Exponentialverteilung: wird verwendet, um die Zeit zwischen aufeinander folgenden Ereignissen zu modellieren, die in einem Poisson-Prozess auftreten, z. B. die Zeit zwischen zwei Erdbeben oder die Zeit zwischen zwei Kunden, die in einem Geschäft eintreffen
  • Gamma-Verteilung: eine Familie von Verteilungen, die die Exponentialverteilung als Spezialfall enthält und zur Modellierung der Wartezeit bis zum Eintreten einer bestimmten Anzahl von Ereignissen in einem Poisson-Prozess verwendet werden kann
  • Beta-Verteilung: wird verwendet, um Wahrscheinlichkeiten oder Anteile zu modellieren, die einen begrenzten Bereich haben, wie z. B. der Anteil der Wähler, die für einen bestimmten Kandidaten stimmen
  • Weibull-Verteilung: wird verwendet, um die Zeit bis zum Ausfall eines Systems zu modellieren, wobei die Ausfallrate mit der Zeit zunimmt oder abnimmt
  • Gleichverteilung: wird verwendet, um Zufallsvariablen mit einer konstanten Wahrscheinlichkeitsdichtefunktion über einen endlichen Bereich zu modellieren.

Es ist wichtig, die geeignete Verteilung auf der Grundlage der Art der Daten und der vorliegenden Forschungsfrage zu wählen. Da die Wahl der richtigen Verteilung immens wichtig für die späteren Ergebnisse ist und es so viele verschiedene Auswahlmöglichkeiten gibt, beschäftigen wir uns nun damit, wie man die optimale Verteilung für den Datensatz findet.

Wie wählt man die passende Datenverteilung?

Bei der Arbeit mit Daten ist es wichtig, die richtige Verteilung für den jeweiligen Datensatz zu wählen. Die Wahl der falschen Verteilung kann zu falschen Annahmen über die Daten führen und die Ergebnisse der durchgeführten Analyse oder Modellierung beeinträchtigen.

Eine Möglichkeit, die richtige Verteilung zu wählen, besteht darin, die Merkmale der Daten zu untersuchen. Wenn die Daten beispielsweise einen einzigen Spitzenwert oder Modus aufweisen, kann es angemessen sein, eine Normalverteilung anzunehmen. Wenn die Daten positiv schief sind, kann es sinnvoll sein, eine Lognormal- oder Gamma-Verteilung anzunehmen. Sind die Daten hingegen negativ geneigt, kann es sinnvoll sein, eine inverse Gamma- oder Weibull-Verteilung anzunehmen.

Ein anderer Ansatz ist die Verwendung statistischer Tests, um die Anpassung verschiedener Verteilungen an die Daten zu vergleichen. Zu den häufig verwendeten Tests gehören der Kolmogorov-Smirnov-Test, der Anderson-Darling-Test und der Chi-Quadrat-Test. Mit Hilfe dieser Tests lässt sich feststellen, welche Verteilung die beste Anpassung an die Daten bietet.

Es ist auch wichtig, den Kontext der Analyse oder Modellierung zu berücksichtigen. Wenn die Daten beispielsweise eine Anzahl von diskreten Ereignissen darstellen, kann es angemessen sein, eine Poisson- oder negative Binomialverteilung anzunehmen. Wenn die Daten einen Anteil darstellen, kann eine Beta-Verteilung angemessener sein.

Letztendlich erfordert die Wahl der richtigen Verteilung für die Daten eine sorgfältige Abwägung und ein Verständnis der Daten und des Kontexts, in dem sie verwendet werden sollen.

Was sind Hypothesentests und wie nutzen sie die Normalverteilung?

Die Hypothesenprüfung ist eine statistische Methode, mit der auf der Grundlage von Stichprobendaten festgestellt werden kann, ob eine Hypothese über einen Populationsparameter wahrscheinlich zutrifft oder nicht. Die Normalverteilung ist eine häufig verwendete Verteilung bei Hypothesentests, da viele natürliche Phänomene normalverteilt sind. Bei der Hypothesenprüfung wird zunächst eine Nullhypothese formuliert, d. h. eine Aussage über den zu prüfenden Populationsparameter. Anschließend werden Stichprobendaten gesammelt und zur Berechnung einer Teststatistik verwendet.

Wenn die Stichprobendaten die Nullhypothese bestätigen, wird sie angenommen. Wenn die Stichprobendaten der Nullhypothese widersprechen, lehnen wir sie ab und schließen, dass die Alternativhypothese wahrscheinlicher ist. Um festzustellen, ob die Nullhypothese abgelehnt werden sollte, vergleichen wir die Teststatistik mit einem kritischen Wert, der durch das Signifikanzniveau und die Freiheitsgrade bestimmt wird. Ist die Teststatistik größer als der kritische Wert, wird die Nullhypothese verworfen.

Die Normalverteilung wird häufig bei Hypothesentests verwendet, da viele natürliche Phänomene normalverteilt sind. Das bedeutet, dass wir, wenn wir eine Hypothese über eine normalverteilte Population testen, die Eigenschaften der Normalverteilung nutzen können, um Rückschlüsse auf den Populationsparameter zu ziehen. So können wir beispielsweise den Mittelwert und die Standardabweichung einer Stichprobe verwenden, um den Mittelwert und die Standardabweichung der Grundgesamtheit zu schätzen, und wir können die Eigenschaften der Normalverteilung nutzen, um die Wahrscheinlichkeit der Beobachtung eines bestimmten Werts oder Wertebereichs zu berechnen.

Es ist jedoch wichtig zu beachten, dass nicht alle Phänomene normalverteilt sind. Wenn die Daten nicht normalverteilt sind, müssen wir bei der Hypothesenprüfung möglicherweise eine andere Verteilung verwenden. Es gibt viele verschiedene Wahrscheinlichkeitsverteilungen, jede mit ihren eigenen Eigenschaften und Anwendungen. Die Wahl der richtigen Verteilung für einen bestimmten Datensatz erfordert eine sorgfältige Prüfung der Art der Daten und der zu prüfenden Hypothese.

Das solltest Du mitnehmen

  • Die Normalverteilung ist ein grundlegendes Konzept in der Statistik und Wahrscheinlichkeitstheorie.
  • Sie wird häufig zur Modellierung verschiedener Phänomene in den Natur- und Sozialwissenschaften verwendet.
  • Die empirische Regel bietet einen nützlichen Leitfaden für das Verständnis der Verteilung von Daten.
  • Obwohl die Normalverteilung ein gängiges und nützliches Modell ist, ist es wichtig, gegebenenfalls auch alternative Verteilungen in Betracht zu ziehen.
  • Die Wahl der richtigen Verteilung für die Daten ist für eine genaue statistische Analyse unerlässlich.
  • Hypothesentests sind ein leistungsfähiges Instrument, das sich auf die Normalverteilung stützt, um Rückschlüsse auf Populationsparameter zu ziehen.
  • Das Verständnis der Normalverteilung und ihrer Eigenschaften ist eine wichtige Grundlage für weitere Studien im Bereich Statistik und Datenanalyse.

Andere Beiträge zum Thema Normalverteilung

  • Eine prägnante Zusammenfassung zu dem Thema findest Du hier.
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner