Zum Inhalt springen

Was ist der Selection Bias?

Ein Selection Bias, oder Stichprobenverzerrung, tritt auf, wenn eine Stichprobe nicht komplett zufällig gewählt wurde und somit nicht mehr repräsentativ ist. Die Stichprobenverzerrung führt dazu, dass die Verteilung der Merkmale nicht dieselbe ist, wie in der Grundgesamtheit.

Was ist der Selection Bias?

Der Selection Bias bezeichnet eine Verzerrung bei der Zusammensetzung von Stichproben, die zur Verfälschung von Daten in Befragungen oder Untersuchungen führen kann. Deshalb muss man vorsichtig sein bei der Interpretation solcher Daten. Eine Verzerrung der Stichprobe ist nicht unbedingt direkt erkennbar, sondern wird erst bei genauer Untersuchung der Stichprobenermittlung deutlich.

Eine perfekte Stichprobe ist so ausgewählt, dass jede Person aus der Grundgesamtheit dieselbe Wahrscheinlichkeit besitzt in ihr vertreten zu sein. Wenn dieser Umstand nicht gegeben ist, ist die Stichprobe verzerrt. Je nachdem kann die Verzerrung stärker oder schwächer sein.

Welche Beispiele gibt es für einen Selection Bias?

Angenommen wir wollen herausfinden, wie viel Geld die Menschen im Durchschnitt für den Konsum ausgeben. Eine Befragung aller deutschen Erwachsenen wäre jedoch zu zeit- und kostenaufwändig. Deshalb entscheiden wir uns eine Stichprobe zu nehmen und gehen dazu in die Münchner Innenstadt und befragen zufällig vorbeilaufende Passanten.

Aufgrund der zufälligen Auswahl der Teilnehmer gehen wir davon aus, dass unsere Stichprobe aussagekräftig ist. Jedoch hagelt es bei der Veröffentlichung der Ergebnisse massive Kritik. Der Vorwurf: Selection Bias! Folgende Probleme ergeben sich mit unserer Auswahl:

  1. Hat wirklich jeder deutsche Erwachsene dieselbe Wahrscheinlichkeit in der Stichprobe vorzukommen? Was ist mit Erwachsenen aus Berlin oder Hamburg?
  2. Ist das Einkommensniveau von München vergleichbar mit dem deutschen Durchschnitt? Wenn nein, was hat das für Auswirkungen auf unsere Stichprobe?
  3. Was ist mit den Erwachsenen, die vor allem im Internet und E-Commerce ihre Konsumausgaben generieren? Wie würden diese Personen das Ergebnis verändern?
  4. Welche Altersgruppen treffen wir an einem Freitag Nachmittag in München an? Welche Altersgruppen sind zu dieser Zeit möglicherweise nicht verteten?

Die Fehler bei der Stichprobenerstellung müssen nicht immer so offensichtlich vorliegen, wie bei unserem Beispiel. Manchmal lassen sie sich sogar nicht verhindern und müssen bei der Interpretation der Ergebnisse mit einbezogen werden.

Das Bild zeigt mehrere Menschengruppen. Die größte ist die gesamte Population und die kleinere die das Sample.
Auswahl der korrekten Stichprobe | Quelle: Autor

Ein anderes Beispiel für den Selection Bias ist bei vielen die Berufswahl. Wenn man sich hierbei lediglich auf Erfahrungen und Meinung aus dem engen Familien- und Freundeskreis verlässt, unterliegt man bereits einem Bias. Diese Auswahl deckt nämlich nur eine bestimmte Auswahl an Berufen ab und ist nicht repräsentativ für alle möglichen Berufe. Dadurch wird das Ergebnis verzerrt, da man sich über gewisse Berufsgruppen gar nicht oder nur sehr wenig informiert.

Folgende Beispiele unterliegen auch einem Bias:

  • Umfragen: Die Personen können selbst entscheiden, ob sie an einer Umfrage teilnehmen oder nicht. Dies führt gezwungenermaßen zu einer Verzerrung, da eine gewisse Personengruppe, nämlich die, die nicht an Umfragen teilnimmt, nicht in der Stichprobe vorhanden ist.
  • Art der Befragung: Auch die Art wie die Ergebnisse der Stichprobe erfasst wurden, kann Einfluss auf eine Verzerrung haben. Den meisten Menschen wird es wahrscheinlich unangenehm sein in einer direkten Befragung zuzugeben, dass sie schon einmal betrunken Auto gefahren sind. Bei einer schriftlichen Befragung hingegen könnten mehr Teilnehmer ehrlich antworten.

Welche Arten des Selection Bias gibt es?

Es gibt eine Vielzahl von Gründen für die Verzerrung von Stichproben. Hier haben wir lediglich die Arten von Stichprobenverzerrung aufgeführt, die am häufigsten vorkommen:

  • Attrition Bias tritt auf, wenn Teilnehmer die Studie oder Umfrage vorzeitig abgebrochen haben und aus diesem Grund nicht in das Endergebnis gezählt werden. Hierbei darf nicht der Fehler gemacht werden, diese Probanden einfach aus der Stichprobe zu entfernen, da bei ihnen die Behandlung beispeilsweise nicht funktioniert hat.
  • Ein ähnliches Phänomen ist der sogenannte Volunteer Bias, bei dem der Bias dadurch entsteht, dass die Teilnehmer sich aktiv bereit erklären Teil der Stichprobe zu sein. Die Einwillung zur Teilnahme kann dabei schon ein Merkmal sein, dass die Stichprobe von der Grundgesamtheit unterscheidet und somit das Ergebnis verzerrt. In der Realität lässt sich dieser Bias oft nur schwer verhindern. Er sollte jedoch bei der Ergebnisinterpretation mit einbezogen werden.
  • Der Social Bias tritt auf, wenn durch die Art der Befragung oder Studie die Wahrscheinlichkeit hoch ist, dass nicht wahrheitsgemäß geantwortet wird. Es kann dabei zu dem Problem kommen, dass nicht die wahrheitsgemäße Antwort gegeben wird, sondern die, die gesellschaftlich akzeptiert ist oder den Befragten in einem besseren Licht stehen lassen.

Warum entsteht die Stichprobenverzerrung?

Neben dem Selection Bias gibt es auch andere Faktoren, die zu einer Stichprobenverzerrung führen können. In diesem Kapitel werden einige Punkte genannt, die vor einem Experiment überprüft werden sollten, um die Gefahr einer Verzerrung so gering wie möglich zu halten.

  • Schlechtes Studiendesign: Die Auswahl der Stichprobe und das Studiendesign sollten immer darauf hinterfragt werden, ob sie wirklich repräsentativ für die untersuche Gesamtbevölkerung ist. Diese Bevölkerungsgruppe sollte anschließend genauestens definiert und eingegrenzt werden, damit ein gutes Verfahren zur Stichprobenbestimmung definiert werden kann.
  • Unzureichender Stichprobenumfang: Eine zu kleine Stichprobe erhöht das Risiko für eine wenig repräsentative Studie. Natürlich ist die Größe nicht alles, aber es sollten abhängig vom Budget und dem zeitlichen Rahmen eine Balance zwischen Stichprobengröße und Einzugsradius der Teilnehmer geben. Wenn man beispielsweise eine Aussage über junge Menschen getroffen werden sollen, sollten nicht nur die Studierenden der eigenen Universität befragt werden, da dies mit wenig Aufwand verbunden ist.
  • Fehlerhafte Datenerhebungsmethoden: Auch die Gestaltung und Durchführung der Fragen oder Experimente sollte genauestens hinterfragt werden, um beispielsweise einen Interviewbias durch suggestive Fragen zu verhindern. Zusätzlich kann es Verzerrungen bei den Antworten kommen, zum Beispiel bei der Frage wie viel Sport eine Person macht. Hier neigen die Befragten oft zu optimistischeren Antworten, um sozial möglicherweise besser dazustehen. Solche Dinge sollten bei der Fragenauswahl und -formulierung beachtet werden.
  • Selbstselektion der Teilnehmer: Ein weiterer Grund für eine Verzerrung der Studie ist die Selbstauswahl der Teilnehmer. Bei einer Befragung zur politischen Lage beispielsweise werden freiwillig wohl eher BürgerInnen teilnehmen, die sich sowieso für Politik interessieren und deshalb auf die Studie gestoßen sind. Nach Möglichkeit sollte das Forschungsteam aktiv auf die Teilnehmenden zugehen und diese gezielt auswählen, um einen Selbstselektionsbias zu vermeiden.
  • Ausschlusskriterien: Bei der Wahl der Teilnehmenden kann es auch zu einer Verzerrung kommen, wenn gezielte Gruppen oder Einzelpersonen ausgelassen werden. So können beispielsweise Personen mit einer Vorerkrankung nicht an bestimmten Studien teilnehmen. Dieser Ausschluss sollte jedoch bei der Interpretation der Ergebnisse und deren Allgemeingültigkeit berücksichtigt werden.

Es gibt sehr viele Fallen und Probleme, die bei der Erstellung einer Studie zu Verzerrungen der Ergebnisse führen können. Deshalb ist es wichtig, das Studiendesign und vor allem die Auswahl der Teilnehmenden genauestens zu hinterfragen, um von vornherein das Risiko für einen Bias gering zu halten. Doch nicht immer lassen sich die genannten Punkte verhindern. Deshalb sollten sie in den Studienergebnissen selbst genannt werden, um dem Leser die Probleme zu verdeutlichen und klarzustellen, dass die Ergebnisse möglicherweise nicht für die Gesamtbevölkerung repräsentativ sind. Ein Verschweigen der Risiken für Verzerrungen machen solche Studien oft unnötigerweise angreifbar.

Welche Probleme entstehen durch den Selection Bias?

Selektionsverzerrungen können mehrere Folgen haben. Erstens kann sie zu Ergebnissen führen, die die untersuchte Grundgesamtheit nicht genau widerspiegeln, was zu irreführenden Schlussfolgerungen oder Empfehlungen auf der Grundlage fehlerhafter Daten führt. Zweitens: Wenn eine Stichprobe nicht repräsentativ für die Gesamtbevölkerung ist, lassen sich die Ergebnisse möglicherweise nicht auf andere Bevölkerungsgruppen verallgemeinern. Dies kann die Anwendbarkeit der Ergebnisse einschränken und die Möglichkeit verringern, umfassendere Schlussfolgerungen oder Empfehlungen zu geben. Drittens kann ein Selektionsfehler die statistische Aussagekraft einer Studie verringern, so dass es schwieriger wird, signifikante Unterschiede oder Zusammenhänge zwischen Variablen festzustellen.

Und schließlich können Anzeichen von Selektionsverzerrungen das Vertrauen in die Ergebnisse mindern und die Gültigkeit der Studie oder Analyse untergraben. Insgesamt können Selektionsverzerrungen erhebliche Auswirkungen auf die Genauigkeit, Verallgemeinerbarkeit und Validität von Studienergebnissen haben, was sich auf die Fähigkeit auswirken kann, fundierte Entscheidungen oder Empfehlungen auf der Grundlage der Ergebnisse zu treffen.

Wie kann der Selection Bias verhindert werden?

Der wichtigste Punkt bei der Verhinderung des Selection Bias ist erstmal das Bewusstsein über mögliche Problematiken im eigenen Experimentaufbau. Hinzu kommt, dass sich manche Stichprobenverzerrungen einfach nicht verhindern lassen. Wenn man eine groß angelegte Studie durchführen will, beispielsweise im medizinischen Bereich, dann ist man auf freiwillige Teilnehmer angewiesen und der Volunteer Bias lässt sich nicht verhindern.

Somit lassen sich auch keine allgemeinen Tipps geben, wie der Selection Bias vermieden werden kann, da dies stark vom Einzelfall abhängig ist. Wichtig ist lediglich, dass man bei der Veröffentlichung der Ergebnisse ehrlich ist und möglichst viele Informationen über die Stichprobenerstellung gibt. Hilfreich ist es hierbei auch immer schon direkt offen mögliche Probleme zu nennen und transparent zu sein.

Das solltest Du mitnehmen

  • Ein Selection Bias, oder Stichprobenverzerrung, tritt auf, wenn eine Stichprobe nicht komplett zufällig gewählt wurde und somit nicht mehr repräsentativ ist.
  • Es gibt viele verschiedene Arten von Selection Bias, wie beispielsweise der Volunteer Bias oder Attrition Bias, die abhängig vom Experiment auftreten können.
  • Mögliche Strategien zur Verhinderung von Stichprobenverzerrungen sind vom Einzelfall abhängig. Wichtig ist jedoch, dass man bei der Ergebnisveröffentlichung transparent aufzeigt, wie die Stichproben erstellt wurden.
  • Auswahlverzerrungen können die Genauigkeit, Verallgemeinerbarkeit und Gültigkeit von Studienergebnissen erheblich beeinträchtigen.
  • Er kann zu irreführenden Schlussfolgerungen, verminderter statistischer Aussagekraft und geringerem Vertrauen in die Ergebnisse führen.
  • Ursachen für Selektionsverzerrungen können Stichprobenverzerrungen, Nonresponse-Verzerrungen und Überlebensverzerrungen sein.
  • Das Bewusstsein für Selektionsverzerrungen und ihre potenziellen Folgen ist entscheidend für die Gewährleistung der Gültigkeit und Zuverlässigkeit von Forschungsergebnissen.
Variance Inflation Factor (VIF) / Varianzinflationsfaktor

Was ist der Varianzinflationsfaktor (VIF)?

Erfahren Sie, wie der Varianzinflationsfaktor (VIF) Multikollinearität in Regressionen erkennt, um eine bessere Datenanalyse zu ermöglichen.

Dummy Variable Trap

Was ist die Dummy Variable Trap?

Entkommen Sie der Dummy Variable Trap: Erfahren Sie mehr über Dummy-Variablen, ihren Zweck und die Folgen der Falle.

R-Squared / Bestimmtheitsmaß

Was ist das Bestimmtheitsmaß?

Einführung in das Bestimmtheitsmaß: Lernen Sie seine Bedeutung, Berechnung und Grenzen in der Regressionsanalyse kennen.

Median

Was ist der Median?

Lernen Sie den Median und seine Bedeutung in der Datenanalyse kennen. Erkunden Sie seine Berechnung, Anwendungen und Grenzen.

Arima

Was ist das ARIMA Modell?

Beherrschen Sie Prognosen mit ARIMA-Modellen: Lernen Sie, Trends in Daten zu analysieren und vorherzusagen mit Python-Beispielen.

Game Theory / Spieltheorie

Was ist die Spieltheorie?

Entdecken Sie die Macht der Spieltheorie und ihre praktischen Anwendungen bei Verhandlungen und bei der Entscheidungsfindung.

Andere Beiträge zum Thema Selection Bias

  • Die University of Oxford hat hier eine Sammlung von Biases veröffentlicht.
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner