Zum Inhalt springen

Grundgesamtheit und Untersuchungseinheit – einfach erklärt!

Die Untersuchungseinheit (auch Stichprobe oder Sample (engl.) genannt) sind einzelne Elemente aller Objekte (z.B. die Gesellschaft) von denen in einer Untersuchung Daten erhoben werden. Diese können dann für eine statistische Analyse genutzt werden. 

Die Grundgesamtheit (Population (engl.) genannt) ist die Zusammenfassung aller Untersuchungseinheiten. Für diese Gruppe will man mithilfe der statistischen Analyse Aussagen treffen können. 

Diese werden genutzt um wissenschaftliche Experimente durchzuführen und festzustellen, ob es eine statistische Beziehung zwischen mehreren Variablen gibt (Korrelation und Kausalität).

Das Bild zeigt mehrere Menschengruppen. Die größte ist die gesamte Grundgesamtheit und die kleinere die Stichprobe.
Grundgesamtheit und Untersuchungseinheit | Quelle: Autor

Ein kurzes Beispiel: Am Abend der Bundestagswahl wird pünktlich um 18 Uhr die erste Hochrechnung mit Ergebnissen gezeigt. Da die Wahllokale erst um diese Zeit schließen, kann nur ein Bruchteil aller abgegebenen Stimmen ausgezählt sein, die Untersuchungseinheit. Mithilfe der Hochrechnung soll eine zutreffende, statistische Aussage darüber getroffen werden, wie das Ergebnis bei allen abgegebenen Wählerstimmen, der Grundgesamtheit, aussehen wird. Im Laufe des Abends und damit mit mehr ausgewerteten Stimmzetteln nähert sich auch die Hochrechnung dem tatsächlichen späteren Wahlergebnis an und bildet die Realität immer genauer ab.

Grundgesamtheit vs. Untersuchungseinheit Beispiele

Forschungsfrage / Research QuestionGrundgesamtheitUntersuchungseinheit
Wie viel Geld gibt ein deutscher BürgerIn pro Monat für Lebensmittel aus?Alle deutschen Staatsbürger (über 18 Jahre)10.000 zufällig angetroffene Supermarktbesucher
Wie alt ist ein durchschnittlicher Student an der Universität Stuttgart?Alle an der Universität Stuttgart eingeschriebenen StudierendenBefragung von Studenten, die an einem Samstag die Stuttgarter Universitätsbibliothek besuchen
Wie lang ist ein Song (Songdauer) auf der Streamingplattform Spotify?Alle Songs die zu dem Zeitpunkt auf der Plattform hochgeladen waren, exklusive Podcasts100.000 zufällig gewählte Songs, die in Deutschland verfügbar sind
Praktische Beispiele für Population und Sample

Welche Arten der Grundgesamtheit gibt es?

In der Statistik werden drei Arten von Grundgesamtheiten unterschieden, die sich aufgrund der Anzahl der Elemente ergibt und der tatsächlichen Zählbarkeit dieser Population.

  • Endliche Grundgesamtheit: Die endliche Population umfasst eine endliche Menge von Mitgliedern, die also innerhalb der ganzen Zahlen messbar ist. Eine endliche Population stellt beispielsweise die Belegschaft eines Unternehmens dar oder die Gesamtzahl der Haushalte in einem Gebiet oder Land. Ein Großteil der untersuchten Populationen lässt sich durch eine endliche Grundgesamtheit abbilden.
  • Unendliche Population: Die unendliche Population hingegen enthält eine unendliche Anzahl von Mitgliedern. Somit ist es gar nicht möglich, die komplette Population zu untersuchen. Zu dieser Gruppe zählt beispielsweise die Menge aller möglichen Münzwürfe oder die Anzahl von Bakterien in einer bestimmten Umgebung, die sich beide nicht endlich darstellen lassen.
  • Theoretische Population: Die theoretische Population umfasst eine Gruppe von Menschen, Tieren oder Objekten, die für eine statistische Untersuchung in Betracht gezogen werden und theoretisch auch endlich sind, aber diese Population schlicht nicht erfassbar ist. Beispielsweise wenn versucht wird eine Aussage über alle Menschen zu treffen, die jemals auf dem Planet Erde gewohnt haben. Genauso ist jedoch auch die Gesamtheit an Menschen mit einem bestimmten genetischen Merkmal eine theoretische Population, da es schlicht nicht möglich ist, jeden Menschen genetisch zu untersuchen.

Das Wissen über diese Arten von Grundgesamtheiten ist essenziell für die Auswahl einer geeigneten Stichprobenmethode und vor allem für richtige, statistische Schlussfolgerungen. Ohne diese Kenntnisse kann es zu falschen Verallgemeinerungen kommen.

4 Gründe für die Nutzung von Untersuchungseinheiten statt Population

  • Praktikabilität: Es ist einfacher und praktikabler Daten nur von der Stichprobe, statt der gesamten Population sammeln zu müssen.
  • Ressourceneffizienz: Die Untersuchung spart Kosten für die Befragung beispielsweise durch einen geringeren Zeitaufwand bei den Wissenschaftlern oder geringere logistische Kosten, wie Reisekosten.   
  • Notwendigkeit: Je nach Forschungsfrage, kann es auch nahezu unmöglich sein die komplette Grundgesamtheit zu untersuchen. Die USA beispielsweise führen lediglich alle 10 Jahre eine komplette Volkszählung durch. Aufgrund der fehlenden Meldepflicht in den Staaten, stellt dies einen so großen Aufwand dar, dass er nur einmal im Jahrzehnt eingegangen werden kann.
  • Einfachere Datenverwaltung: Durch die geringere Anzahl an untersuchten Personen fallen insgesamt auch weniger Daten an. Somit entstehen geringere Kosten für das Speichern und die Verarbeitung der Daten. Zusätzlich können die Berechnungen auch deutlich schneller und einfacher durchgeführt werden.

Welche Sampling Methoden gibt es?

Um eine Stichprobe einer Population zu erhalten, werden zwei Arten des Samplings unterschieden: 

Die Zufallsstichproben (im Englischen: Probability Sampling) zeichnet sich dadurch aus, dass jedes Element einer Population die gleiche Chance hat Teil der Stichprobe zu sein. Bei einer Grundgesamtheit von 100 Personen bedeutet das beispielsweise, dass jede Person mit einer Wahrscheinlichkeit von 1 zu 100 (= 1%) Teil der Stichprobe wird. Diese Methoden sind meist sehr aufwändig, da sie kosten- und zeitintensiv sind. 

Die Nicht-Zufallsstichproben (im Englischen: Non-Probability Sampling) stellen das genaue Gegenteil dar. In diesem Fall haben nicht alle Elemente der Grundgesamtheit dieselbe Wahrscheinlichkeit Teil der Studie zu werden. Ein Beispiel dafür wäre es, wenn die Universität Stuttgart eine Auswertung für alle deutschen Studierenden treffen will, für die Studie aber lediglich die Studierenden der eigenen Universität befragt. Dadurch erspart sich das Forschungsteam Zeit- und Kostenaufwände, die für die Befragung und Untersuchung von Studenten außerhalb von Stuttgart entstehen würden. 

Neben dieser sehr allgemeinen Unterteilung können auch noch detailliertere Sampling Methoden gefunden werden:

  • Geschichtete Stichprobe: Hierbei wird die Grundgesamtheit in Untergruppen aufgeteilt, die abhängig von bestimmten Merkmalen, wie beispielsweise Alter oder Geschlecht, gebildet werden. Aus jeder dieser Untergruppen wird dann eine Stichprobe gebildet, deren Größe abhängig ist vom Verhältnis der Größe der Untergruppe in der Grundgesamtheit. Aufgrund dieses Vorgehens ist gewährleistet, dass die Gesamtstichprobe auch repräsentativ für die Grundgesamtheit ist.
  • Cluster-Stichproben: Die Cluster-Stichprobe erstellt Cluster aus der Grundgesamtheit. Diese können zum Beispiel regional sein, wie Städte oder Landkreise. Anschließend wird aus jedem Cluster eine Zufallsstichprobe entnommen. Dieses Verfahren kann effizienter sein als eine Stichprobe auf die komplette Grundgesamtheit, wenn die Cluster möglichst homogen sind. Bei heterogenen Clustern hingegen führt es zu ineffizienteren Ergebnissen als bei einer Zufallsstichprobe auf die komplette Grundgesamtheit.
  • Systematische Stichprobe: Bei dieser Methode werden die Mitglieder der Methode nach einem bestimmten Merkmal sortiert und anschließend immer das n-te Mitglied in die Stichprobe aufgenommen. Bei einer großen Grundgesamtheiten und einem einfachen Merkmal zur Sortierung kann es zu einer effizienteren Zufallsstichprobe führen.
  • Zufallsstichprobe: Diese klassische Methode wird verwendet, um schnelle und kostengünstige Stichproben zu erstellen. Dabei werden die Personen ausgewählt die leicht verfügbar sind bzw. leicht zu erreichen sind. Eine Befragung ausgewählter Besucher eines Wochenmarktes ist ein Beispiel für eine Zufallsstichprobe. Jedoch kann es bei dieser Methode zu ernsthaften Verzerrungen kommen, wenn die Stichprobe nicht repräsentativ für die Grundgesamtheit ist.

Die Wahl der geeigneten Stichprobenmethode hängt von verschiedenen Faktoren ab, z. B. von der Forschungsfrage, den Merkmalen der Grundgesamtheit, den verfügbaren Ressourcen und dem gewünschten Präzisions- und Genauigkeitsgrad. Es ist wichtig, diese Faktoren sorgfältig abzuwägen und eine Stichprobenmethode zu wählen, die für die spezifische Forschungsstudie geeignet ist.

Wie findet man die richtige Größe der Untersuchungseinheit?

Vor dem Beginn der statistischen Analyse und Erhebung der Daten sollte festgelegt werden, wie groß der Stichprobenumfang optimalerweise sein sollte. Dieser Wert ist abhängig von einigen Einflussfaktoren. Einer der wichtigsten Faktoren ist hierbei die Größe der Grundgesamtheit selbst. Bei einer größeren Population, sollte auch die Stichprobe entsprechend größer sein. Außerdem wirkt sich auf das Stichprobenverfahren auf die benötigte Größe der Stichprobe ab. Bei einer Zufallsstichprobe beispielsweise sollten möglichst viele Mitglieder Teil der Stichprobe sein, um Verzerrungen zu verhindern.

Außerdem sollte auch zur Größe der Stichprobe immer ein gewisser Puffer eingeplant werden, vor allem bei längerfristigen Untersuchungen, da es im Versuchsverlauf zu Problemen kommen kann, die es erfordern Mitglieder aus der Stichprobe auszulassen, wodurch sich der Stichprobenumfang verringert.

Der gewünschte Präzisionsgrad ist ein weiteres Merkmal, das einen Einfluss auf den Stichprobenumfang hat. Wenn ein höherer Genauigkeitsgrad erzielt werden soll, müssen auch mehr Mitglieder in die Stichprobe mit aufgenommen werden. Dabei spielt beispielsweise auch das erhoffte Konfidenzintervall der Hypothese eine wichtige Rolle. Außerdem spielt auch die Variabilität des Merkmals in der Grundgesamtheit eine wichtige Rolle. Eine größere Variabilität erfordert einen größeren Stichprobenumfang.

Das Diagramm zeigt die Glockenkurve mit dem Erwartungswert (Expected Value) in Orange in der Mitte der Kurve.
Konfidenzintervall bei einer Normalverteilung | Quelle: Autor

Abschließend sollten auch die verfügbaren Ressourcen beachtet werden, um die Größe der Stichprobe zu bestimmen. In vielen Fällen begrenzt das zeitliche und kostentechnische Budget der Studie den Umfang der Stichprobe.

Es wird also deutlich, dass viele verschiedene Faktoren einen Einfluss auf den Umfang der Stichprobe haben und deshalb berücksichtigt werden sollten. Zu den wichtigsten Punkten zählen hierbei die Größe der Grundgesamtheit, das Stichprobenverfahren, der gewünschte Genauigkeitsgrad und das vorhandene Budget. Außerdem gibt es einige Formeln und Software-Tools, die anhand dieser Merkmale bei der Berechnung eines geeigneten Stichprobenumfangs helfen können.

Das solltest Du mitnehmen

  • Die Untersuchungseinheit sind einzelne Element aller Objekte von denen in einer Untersuchung Daten erhoben werden.
  • Die Grundgesamtheit ist die Zusammenfassung aller Untersuchungseinheiten.
  • Die Nutzung von Untersuchungseinheiten ist aus verschiedenen Gründen, bspw. Praktikabilität oder Ressourceneffizienz, besser als die gesamte Grundgesamtheit zu nutzen.
  • Untersuchungseinheiten können entweder durch eine Zufallsstichprobe oder durch eine Nicht-Zufallsstichprobe erhoben werden. Der Unterschied ist, dass in der Zufallsstichprobe alle Elemente der Population die gleiche Wahrscheinlichkeit haben in der Stichprobe aufzutauchen. In der Nicht-Zufallsstichprobe ist das nicht der Fall.
Gibbs Sampling / Gibbs-Sampling

Was ist Gibbs-Sampling?

Erforschen Sie Gibbs-Sampling: Lernen Sie die Anwendungen kennen und erfahren Sie, wie sie in der Datenanalyse eingesetzt werden.

Bias

Was ist ein Bias?

Auswirkungen und Maßnahmen zur Abschwächung eines Bias: Dieser Leitfaden hilft Ihnen, den Bias zu verstehen und zu erkennen.

Varianz / Variance

Was ist die Varianz?

Die Rolle der Varianz in der Statistik und der Datenanalyse: Verstehen Sie, wie man die Streuung von Daten messen kann.

Kullback-Leibler Divergence / Kullback-Leibler Divergenz / KL Divergence

Was ist die KL Divergence (Kullback-Leibler Divergence)?

Erkunden Sie die Kullback-Leibler Divergence (KL Divergence), eine wichtige Metrik in der Informationstheorie und im maschinellen Lernen.

Maximum Likelihood Estimation / MLE / Maximum Likelihood Methode

Was ist MLE: Maximum-Likelihood-Methode?

Verstehen Sie die Maximum-Likelihood-Methode (MLE), ein leistungsfähiges Werkzeug zur Parameterschätzung und Datenmodellierung.

Variance Inflation Factor (VIF) / Varianzinflationsfaktor

Was ist der Varianzinflationsfaktor (VIF)?

Erfahren Sie, wie der Varianzinflationsfaktor (VIF) Multikollinearität in Regressionen erkennt, um eine bessere Datenanalyse zu ermöglichen.

Andere Beiträge zum Thema Population und Untersuchungseinheit

  • Die Auswahlverfahren für Untersuchungseinheiten werden hier nochmal genauer beschrieben.
  • Vor- und Nachteile zu den Erhebungsmethoden gibt es ausführlich hier.
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Niklas Lang

Seit 2020 bin ich als Machine Learning Engineer und Softwareentwickler tätig und beschäftige mich leidenschaftlich mit der Welt der Daten, Algorithmen und Softwareentwicklung. Neben meiner Arbeit in der Praxis unterrichte ich an mehreren deutschen Hochschulen, darunter die IU International University of Applied Sciences und die Duale Hochschule Baden-Württemberg, in den Bereichen Data Science, Mathematik und Business Analytics.

Mein Ziel ist es, komplexe Themen wie Statistik und maschinelles Lernen so aufzubereiten, dass sie nicht nur verständlich, sondern auch spannend und greifbar werden. Dabei kombiniere ich praktische Erfahrungen aus der Industrie mit fundierten theoretischen Grundlagen, um meine Studierenden bestmöglich auf die Herausforderungen der Datenwelt vorzubereiten.

Cookie Consent mit Real Cookie Banner