Zum Inhalt springen

Was ist die Standardabweichung?

Die Standardabweichung ist ein sogenanntes Streumaß, welches eine Aussage darüber trifft, wie weit die Datenpunkte in einem Datensatz vom Mittelwert entfernt liegen. In der Praxis wird der griechische Buchstabe σ (Sigma) als Symbol genutzt.

Was ist die Standardabweichung?

In der Statistik gibt es verschiedene Kennwerte, die einen Datensatz oder eine Verteilung von Werten genauer beschreiben. Häufig wird dafür beispielsweise der Erwartungswert herangezogen, der bei einer Wahrscheinlichkeitsverteilung den Wert ausgibt, der am wahrscheinlichsten eintreten wird.

\(\) \[E(X) = x_1 \cdot P(X = x_1) + x_2 \cdot P(X = x_2) + … + x_n * P(X = x_n)\]

Der Wert alleine reicht jedoch nicht aus, um detaillierte Informationen über einen Datensatz zu liefern. Angenommen wir wollen zwei Schulklassen vergleichen, die dieselbe Klausur geschrieben haben und nach der Bewertung, denselben Notendurchschnitt, also denselben Erwartungswert, von 2,5 erzielt haben. Würden wir nun annehmen, dass die Schüler beider Klassen in etwa dasselbe Wissen besitzen?

Wahrscheinlich nur dann, wenn die Schüler der beiden Klassen ähnliche Noten erzielt haben. In Klasse A kommt der Durchschnitt von 2,5 jedoch dadurch zustande, dass einige starke Schüler eine 1,0 geschrieben haben, während andere, schwächere Schüler in der Klausur nur eine 4,0 erzielen konnten. In Klasse B hingegen liegen die Schüler sehr viel enger beieinander und es wurden vor allem die Note 2 und die Note 3 erzielt. Ausreißer nach oben und unten gab es hingegen gar nicht.

In der Statistik nennt man diese Kennwerte das Streuungsmaß. Man schaut sich dabei an, wie weit die einzelnen Werte, in unserem Fall die Schüler, vom Erwartungswert, also dem Notendurchschnitt, entfernt sind. Zwei Datensätze können zwar denselben Erwartungswert haben, jedoch sehr unterschiedliche Streuungsmaße.

Was ist die Varianz und wie berechnet man sie?

Die Varianz ist ein Streuungsmaß aus der Statistik. Es berechnet die Summe der durchschnittlichen Abweichung der Datensätze vom Mittelwert und setzt diese Differenz ins Quadrat. Durch das Quadrat werden positive und negative Abweichungen vom Mittelwert mit einbezogen und können sich nicht gegenseitig aufheben. Außerdem fallen durch das Quadrieren große Abweichungen viel stärker ins Gewicht als kleine.

\(\) \[\sigma^2 = \sum_{i=1}^{n}(x_{i} – E(X)) \cdot p_{i}\]

Wer bis hierher aufgepasst hat stellt fest, dass die Varianz kein eigenes Symbol oder einen eigenen griechischen Buchstaben besitzt, sondern mit σ^2 gekennzeichnet wird. Wie wir bereits gesagt hatten, steht σ für die Standardabweichung. Somit ist die Varianz die quadrierte Standardabweichung.

Wie berechnet man die Standardabweichung?

Da wir nun bereits den Zusammenhang zwischen Varianz und Standardabweichung kennen, lässt sich die dazugehörige Formel ziemlich einfach aufstellen, da es sich lediglich um die Wurzel der Varianz handelt:

\(\) \[\sigma = \sqrt{\sigma^2} = \sqrt{\sum_{i=1}^{n}(x_{i} – E(X)) \cdot p_{i}}\]

Wie interpretiert man den Wert?

Wie wir bereits erklärt haben, macht es bei der Varianz durchaus Sinn, die Differenz aus dem Datenpunkt und dem Erwartungswert zu quadrieren. Jedoch ist die Varianz dadurch auch deutlich schwieriger zu interpretieren, da sie nicht wirklich praktikabel ist.

Bei der Standardabweichung ist das hingegen anders, da wir hier wieder die Wurzel ziehen und somit wieder in der ursprünglichen Einheit sind. Für unser Klausurbeispiel würde somit eine Standardabweichung von 1,2 bedeuten, dass die Klasse im Schnitt eine Note erzielt, die 1,2 über oder unter dem Notendurchschnitt von 2,5 liegt. Durch diesen Wert wird also ein Intervall von 1,3 bis 3,7 eröffnet, da die Richtung der Abweichung nicht angegeben ist.

Standardabweichung
Beispiele Notendurchschnitt einer Klausur | Quelle: Autor

Eine niedrigere Standardabweichung bedeutet also allgemein, dass der Datensatz relativ nah am Erwartungswert gelegen ist und die einzelnen Datensätze nur sehr wenig von ihm abweichen.

Wann nutzt man die Standardabweichung für die Grundgesamtheit und wann für die Stichprobe?

In mancher Literatur werden zwei verschiedene Standardabweichungen unterschieden, nämlich für die Grundgesamtheit, die dann mit σ beschrieben wird, und die für die Stichprobe, welche mit s, gekennzeichnet wird. Die beiden Begriffe unterscheiden sich in der zugrundeliegenden Menge, die untersucht wurde:

  • Die Untersuchungseinheit (auch Stichprobe oder Sample (engl.) genannt) sind einzelne Elemente aller Objekte (z.B. die Gesellschaft) von denen in einer Untersuchung Daten erhoben werden. Diese können dann für eine statistische Analyse genutzt werden. 
  • Die Grundgesamtheit (Population (engl.) genannt) ist die Zusammenfassung aller Untersuchungseinheiten. Für diese Gruppe will man mithilfe der statistischen Analyse Aussagen treffen können. 

In der Statistik ist es eigentlich nicht möglich oder einfach nicht praktikabel die komplette Grundgesamtheit zu befragen. Deshalb wird versucht, eine möglichst repräsentative Untersuchungseinheit zu finden, die eine Verallgemeinerung auf die Grundgesamtheit zulässt.

In der Formel für die Standardabweichung unterscheiden sich die beiden Varianten lediglich dadurch, dass man für die Grundgesamtheit durch die Größe der Stichprobe teilt und für die Standardabweichung der Stichprobe lediglich durch die Größe der Stichprobe – 1 teilt.

Was ist die empirische Regel der Normalverteilung?

Die empirische Regel, auch bekannt als 68-95-99,7-Regel, ist eine statistische Richtlinie für die Normalverteilung. Sie besagt, dass:

  • Ungefähr 68 % der Daten liegen innerhalb einer Standardabweichung des Mittelwerts.
  • Ungefähr 95 % der Daten liegen innerhalb von zwei Standardabweichungen vom Mittelwert.
  • Ungefähr 99,7 % der Daten liegen innerhalb von drei Standardabweichungen vom Mittelwert.

Diese Regel kann beim Interpretieren und Verstehen von Daten, die einer Normalverteilung folgen, hilfreich sein. Wenn wir zum Beispiel wissen, dass ein Datensatz normalverteilt ist, und wir seinen Mittelwert und seine Standardabweichung berechnen, können wir die empirische Regel verwenden, um den Anteil der Daten zu schätzen, der in bestimmte Bereiche fällt.

Das Diagramm zeigt mehrere Glockenkurven der Gauß-Verteilung.
Beispiel einer Normalverteilung | Quelle: Wikipedia

Es ist wichtig zu beachten, dass die empirische Regel nur eine Annäherung ist und nicht für alle Normalverteilungen gilt. Außerdem gilt sie nur für kontinuierliche Daten, die einer Normalverteilung folgen, und nicht für kategoriale oder diskrete Daten. Nichtsdestotrotz kann die empirische Regel ein nützliches Instrument sein, um Einblicke in normalverteilte Daten zu gewinnen.

Was wird bei der Standardabweichung oft missverstanden?

Es gibt mehrere häufige Missverständnisse über die Standardabweichung, die zu falschen Interpretationen von Daten führen können. Einige dieser Missverständnisse sind:

  • Der Glaube, dass ein kleiner Wert darauf hinweist, dass die Daten genau oder präzise sind.
  • Die Annahme, dass eine hohe Standardabweichung bedeutet, dass die Daten unzuverlässig oder fehlerhaft sind.
  • Die Annahme, dass die Normalverteilung die einzige Verteilung ist, bei der diese Kenngröße angewendet werden kann.
  • Missverständnis des Unterschieds zwischen der Standardabweichung der Grundgesamtheit und der Standardabweichung der Stichprobe und der Frage, wann die beiden Werte zu verwenden sind.

Um diese Missverständnisse zu vermeiden, ist es wichtig, die zugrunde liegenden Konzepte und ihre Grenzen zu verstehen. Hier sind einige Tipps zur Vermeidung häufiger Missverständnisse:

  • Setze eine geringe Abweichung nicht mit Genauigkeit oder Präzision gleich. Eine geringe Standardabweichung zeigt nur an, dass die Datenpunkte nahe am Mittelwert liegen, nicht unbedingt, dass sie genau oder präzise sind.
  • Eine hohe Abweichung bedeutet nicht unbedingt, dass die Daten unzuverlässig oder fehlerhaft sind. Sie bedeutet nur, dass die Datenpunkte weiter vom Mittelwert entfernt sind.
  • Diese Kenngröße kann für jede Verteilung verwendet werden, nicht nur für die Normalverteilung. Es ist jedoch wichtig, die Eigenschaften der betreffenden Verteilung zu kennen, bevor man die Standardabweichung verwendet.
  • Wenn Du mit einer Stichprobe arbeitest, verwende die Stichprobenstandardabweichung anstelle der Abweichung der Grundgesamtheit. Die Stichprobenstandardabweichung liefert eine bessere Schätzung der Abweichung der Grundgesamtheit.

Wenn Analysten und Forscher diese Missverständnisse kennen und wissen, wie sie zu vermeiden sind, können sie sicherstellen, dass sie die Standardabweichung korrekt verwenden und genaue Schlussfolgerungen aus ihren Daten ziehen.

Wie hängen Standardabweichung, Hypothesentests und Konfidenzintervalle zusammen?

Die Standardabweichung spielt bei Hypothesentests und Konfidenzintervallen eine entscheidende Rolle. Die Hypothesenprüfung ist eine statistische Methode, mit der festgestellt werden kann, ob eine Hypothese über einen Populationsparameter durch die Daten bestätigt wird. Konfidenzintervalle werden verwendet, um den Wertebereich zu schätzen, in den der wahre Wert eines Populationsparameters wahrscheinlich fällt.

Bei der Hypothesenprüfung wird die Abweichung zur Berechnung der Teststatistik verwendet, die dann mit einem kritischen Wert verglichen wird, um festzustellen, ob die Nullhypothese abgelehnt werden kann. Die Teststatistik wird als Differenz zwischen dem Stichprobenmittelwert und dem hypothetischen Populationsmittelwert, dividiert durch den Standardfehler des Mittelwerts, berechnet. Der Standardfehler des Mittelwerts ist die Standardabweichung der Stichprobenverteilung des Mittelwerts, die die Variabilität der Stichprobenmittelwerte bei mehrfacher Wiederholung des Stichprobenverfahrens darstellt.

Konfidenzintervalle werden anhand des Stichprobenmittelwerts und dem Abweichungswert konstruiert. Das Konfidenzintervall wird berechnet als der Stichprobenmittelwert plus oder minus einer Fehlermarge, die durch Multiplikation des Standardfehlers des Mittelwerts mit einem kritischen Wert auf der Grundlage des gewünschten Konfidenzniveaus bestimmt wird. Die Standardabweichung spielt eine Schlüsselrolle bei der Bestimmung der Breite des Konfidenzintervalls.

Durch die Verwendung der Abweichungskenngröße bei Hypothesentests und Konfidenzintervallen können Analysten fundiertere Entscheidungen über die von ihnen untersuchten Populationsparameter treffen. Die Standardabweichung ermöglicht ein besseres Verständnis der Variabilität der Daten, was wiederum zu genaueren Schätzungen und Schlussfolgerungen führt.

Das solltest Du mitnehmen

  • Die Standardabweichung ist ein sogenanntes Streuungsmaß aus der Statistik.
  • Es gibt Auskunft darüber, wie weit die einzelnen Datenpunkte im Schnitt vom Erwartungswert entfernt sind. Eine niedrige Standardabweichung sagt aus, dass die Datenpunkte relativ nahe am Erwartungswert gelegen sind und vice versa.
  • Die Standardabweichung ist eng verwandt mit der Varianz, da sie lediglich die Quadratwurzel der Varianz ist.
Median

Was ist der Median?

Lernen Sie den Median und seine Bedeutung in der Datenanalyse kennen. Erkunden Sie seine Berechnung, Anwendungen und Grenzen.

Arima

Was ist das ARIMA Modell?

Beherrschen Sie Prognosen mit ARIMA-Modellen: Lernen Sie, Trends in Daten zu analysieren und vorherzusagen mit Python-Beispielen.

Game Theory / Spieltheorie

Was ist die Spieltheorie?

Entdecken Sie die Macht der Spieltheorie und ihre praktischen Anwendungen bei Verhandlungen und bei der Entscheidungsfindung.

Multivariate Analysis / Multivariate Analyse

Was ist die Multivariate Analyse?

Entdecken Sie die Multivariate Analyse: Lernen Sie in unserem Artikel Techniken zur Analyse von Beziehungen in Ihren Daten.

Bayesian Statistics / Bayessche Statistik

Was ist die Bayessche Statistik?

Bayessche Statistik für neue Erkenntnisse: Optimierung der Entscheidungsfindung und Quantifizierung der Unsicherheit für Analysen!

Confidence Intervals / Konfidenzintervalle

Was sind Konfidenzintervalle?

Treffen Sie fundierte Entscheidungen mit Konfidenzintervallen: Messen Sie die Zuverlässigkeit von Schätzungen und verbessern Sie Analysen.

Andere Beiträge zum Thema Standardabweichung

Statista bietet einen ausführlichen Beitrag zum Thema.

Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner