Zum Inhalt springen

Was ist die Bayes’sche Statistik?

Die Bayes’sche Statistik ist ein zentraler Aspekt in der heutigen Analyse von Unsicherheiten und bei der Entscheidungsfindung. Im Vergleich zur klassischen frequentistischen Interpretation, nutzt diese Methode das Bayes Theorem und kann dadurch auch Vorwissen in die Wahrscheinlichkeitsverteilung mit einbeziehen. Deshalb wird sie besonders wertvoll für Anwendungen in denen Vorwissen vorhanden ist und/oder der Datensatz unvollständig ist, sodass er mit dem bestehenden Wissen noch erweitert werden kann. 

In diesem Artikel beschäftigen wir uns mit den grundlegenden Annahmen der Bayes’schen Statstik und erklären dazu auch im Detail das Bayes Theorem. Dabei untersuchen wir zusätzlich, wie sich die Bayes’sche Statistik von der klassischen frequentistischen Statistik unterscheidet. Nachdem wir uns die Vor- und Nachteile dieses Ansatzes angeschaut haben, beleuchten wir noch verschiedene Anwendungsfelder, welche die Bayes’sche Statistik nutzen.  

Was ist die Bayes’sche Statistik?

Die Bayes’sche Statistik ist ein Zweig der Statistik, welcher auf dem Bayes Theorem beruht und die Wahrscheinlichkeit eines Ereignisses als „Grad der Überzeugung“ interpretiert. In diese Überzeugung fließt das Vorwissen zu einem Vorgang ein, welches dann mithilfe der vorliegenden Daten entsprechend angepasst wird. In dieser Annahme unterscheidet sich die Bayes’sche Statistik stark von der frequentistischen Statistik, welche die Wahrscheinlichkeit eines Ereignisses lediglich als die relative Häufigkeit des Ereignisses bei ausreichender Wiederholung darstellt. 

Das zentrale Element in der Bayes’schen Statistik ist die Verwendung des Priors, also eine Art von Vorwissen, welche wir über einen Vorgang besitzen, bevor Daten berücksichtigt werden. Anschließend wird dieses Vorwissen anhand der Vorkommnisse in einem Datensatz lediglich aktualisiert und daraus die sogenannte Posterior-Wahrscheinlichkeit berechnet. Die Grundlage für diese Berechnung bildet das Bayes Theorem, welches in den folgenden Abschnitten noch genauer erläutert wird. 

In der modernen Datenanalyse ist die Bayes’sche Statistik ein unverzichtbares Werkzeug geworden, da es auch bei kleineren Datensätzen verwendet werden kann, bei denen die frequentistische Statistik an ihre Grenzen stößt. 

Was ist der Unterschied zwischen der Bayes’schen Statistik und der frequentistischen Statistik?

Der Kern von Statistik ist der Versuch, Unsicherheiten zu modellieren und konkrete Werte für Wahrscheinlichkeiten zu finden, mit denen gewisse Ereignisse eintreten. Bei einem Münzwurf beispielsweise können bei jedem Wurf nur einer von zwei Zuständen „Kopf“ und „Zahl“ eintreten. Die Statistik beschäftigt sich nun allgemein mit der Frage, wie wir mathematisch ausdrücken können, welches der beiden Ereignisse eintreten wird. 

Die klassische, frequentistische Statistik beantwortet diese Frage, indem sie das Ereignis hinreichend oft wiederholt und dann die Wahrscheinlichkeit als relative Häufigkeit des Ereignisses darstellt. Wenn also bei 100 Münzwürfen 53mal Kopf als Ereignis eingetreten ist und 47mal Zahl, dann besagt die frequentistische Statistik, dass die Wahrscheinlichkeit für Kopf 53% ist. Dabei stützt sich dieser Zweig der Statistik auf den sogenannten Grenzwert der relativen Häufigkeit, welcher einfach ausgedrückt besagt, dass die relative Häufigkeit bei unendlich vielen Wiederholungen in die tatsächliche Wahrscheinlichkeit übergeht. Umso häufiger wir also das Zufallsereignis ausführen, umso genauer wird die Ereigniswahrscheinlichkeit. 

Das problematische an dieser Herangehensweise ist, dass keinerlei Vorwissen in der Wahrscheinlichkeitsberechnung involviert ist und auch die Anzahl der Wiederholungen, die für ein ausreichend genaues Ergebnis benötigt wird, nur sehr schwammig ist. Angenommen wir werfen die Münze lediglich zwei Mal und sie landet beide Male so, dass Kopf nach oben zeigt, dann geht die frequentistische Statistik davon aus, dass die Eintrittswahrscheinlichkeit von Kopf bei 100% liegt, obwohl wir wissen, dass dieses Ergebnis falsch ist. 

Die Bayes’sche Statistik setzt genau an diesem Punkt an und definiert die Wahrscheinlichkeit nicht als die relative Häufigkeit, sondern als persönliche Überzeugung, dass ein Ereignis eintritt. Diese Überzeugung wird lediglich mit der Zeit und neuen Experimenten aktualisiert. Dieser Ansatz mag sehr philosophisch und wenig mathematisch klingen, jedoch sind für diese Aktualisierung genaue Algorithmen definiert, die sich aus dem Bayes Theorem ableiten.

Für unser Münzwurfbeispiel bedeutet diese Herangehensweise, dass wir mit einem Vorwissen an den Münzwurf herangehen, der besagt, dass beide Ereignisse gleich wahrscheinlich sind, also jeweils eine Wahrscheinlichkeit von 50% besitzen. Nachdem wir die Münze nun 100-mal geworfen haben, stehen uns jedoch neue Informationen zur Verfügung, die unser Vorwissen aktualisieren. Daraus berechnen wir die sogenannte A-posteriori Wahrscheinlichkeit, welche dann unsere neue Überzeugung darstellt. Wie diese Berechnung genau aussieht, wird in den folgenden Abschnitten im Detail erläutert

Was besagt das Bayes Theorem?

Um die Dynamik hinter der Bayes’schen Statistik besser verstehen zu können, ist es wichtig, die mathematischen und statistischen Grundlagen zu verstehen. Deshalb machen wir uns in diesem Abschnitt mit der Wahrscheinlichkeitstheorie, den bedingten Wahrscheinlichkeiten und abschließend mit dem Bayes Theorem vertraut. 

In der Wahrscheinlichkeitstheorie befassen wir uns mit der Quantifizierung von Unsicherheiten. Es wird also versucht, Ereignisse zu beschreiben, deren Ausgang nicht sicher ist. Die Wahrscheinlichkeit gibt dann den Grad der Unsicherheit an, mit dem das Ereignis eintritt. Eine besondere Form der Wahrscheinlichkeit ist hierbei die sogenannte konditionale Wahrscheinlichkeit, welche einfach gesagt ausdrückt, mit welcher Wahrscheinlichkeit ein Ereignis eintritt, unter der Bedingung, dass ein anderes Ereignis bereits mit Sicherheit eingetreten ist. 

Angenommen wir haben zwei Variablen A und B, dann repräsentiert die bedingte Wahrscheinlichkeit \(P(A|B)\), die Wahrscheinlichkeit, dass \(A\) eintritt, wenn \(B\) bereits mit Sicherheit eingetreten ist. Das Bayes Theorem wiederum eröffnet eine Möglichkeit, wie wir unsere Annahmen von Wahrscheinlichkeiten im Laufe der Zeit verändern können, wenn neue Informationen oder Daten verfügbar sind. Allgemein gesprochen ergibt sich die bedingte Wahrscheinlichkeit zwischen den Ereignissen \(A\) und \(B\) mithilfe der folgenden Formel: 

\(\)\[P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\]

Hierbei sind: 

  • \(P(A|B)\) ist die bedingte Wahrscheinlichkeit, dass das Ereignis \(A\) eintritt, wenn das Ereignis \(B\) bereits mit Sicherheit eingetreten ist. In der Fachsprache spricht man hierbei von der Posterior-Wahrscheinlichkeit, also die aktualisierte Wahrscheinlichkeit von \(A\), wenn \(B\) bereits mit Sicherheit eingetreten ist. 
  • \(P(B|A)\) ist die bedingte Wahrscheinlichkeit, dass Ereignis B eintritt, wenn Ereignis \(A\) mit Sicherheit eingetreten ist, diese wird auch als Likelihood bezeichnet. 
  • \(P(A)\) ist die Wahrscheinlichkeit, dass das Ereignis A eintritt, welche auch als Priorwahrscheinlichkeit bezeichnet wird. Es handelt sich hierbei um das Vorwissen, also die Wahrscheinlichkeit von \(A\), bevor die neuen Daten bekannt wurden. 
  • \(P(B)\) ist die Wahrscheinlichkeit, dass das Ereignis \(B\) eintritt oder auch die Normalisierungswahrscheinlichkeit, welche abbildet, wie wahrscheinlich es ist, dass \(B\) eintritt. 

Kommen wir nun zu unserem Beispiel des Münzwurfs zurück, um uns die konkrete Berechnung genauer anzuschauen. Um diese zu vereinfachen, schauen wir uns den abgespeckten Versuchsablauf an, bei welchem nur zehnmal gewürfelt wurde und dabei insgesamt sechsmal Kopf nach oben gezeigt hat, während viermal Zahl nach oben gezeigt hat. 

Dabei sind wir vor der Versuchsreihe davon ausgegangen, dass die Münze fair ist und somit die Wahrscheinlichkeit für Kopf identisch ist zu der Wahrscheinlich von Zahl, also 50%. Dies ist das sogenannte Vorwissen oder auch die Priorwahrscheinlichkeit. Nachdem die Münze nun zehnmal geworfen wurde, wollen wir herausfinden, wie sich die bedingte Wahrscheinlichkeit verändert hat, dass die Münze immer noch als fair angenommen werden kann, nachdem wir die Beobachtungen gemacht haben. Wir wollen also das folgende Bayes Theorem berechnen: 

\(\)\[P(Fair|Daten) = \frac{P(Daten|Fair) \cdot P(Fair)}{P(Daten)}\]

Hierbei sind die einzelnen Komponenten: 

  • \(P(Fair)\) ist die sogenannte Priorwahrscheinlichkeit, also das Vorwissen. Hierbei gehen wir davon aus, dass die Münze als Fair betrachtet wurde, sodass \(P(Fair) = 0,5 \).
  • \(P(Daten|Fair)\) ist die Likelihood, also die Wahrscheinlichkeit, dass die beobachteten Daten eintreffen, wenn die Münze wirklich fair ist. Diese folgt einer Binomialverteilung, sodass wir die Wahrscheinlichkeit mithilfe der folgenden Formel berechnen können: 

\(\)\[P(Daten|Fair)\ = \left(\begin{matrix}10\\6\\\end{matrix}\right) \cdot {0,5}^6 \cdot {0,5}^4\ = \frac{10!}{6! \cdot (10-6)!} \cdot {0,5}^{10} = 210 \cdot 0,0009765 = 0,205\]

  • Die Wahrscheinlichkeit \(P(Daten)\) ist hierbei die Gesamtwahrscheinlichkeit, dass die Daten eintreten, die sich zusammensetzt aus dem Fall, dass die Münze fair ist, und aus dem Fall, dass die Münze unfair ist. Die bedingte Wahrscheinlichkeit für eine faire Münze haben wir mit \(P(Daten|Fair)\) bereits berechnet. Für eine unfaire Münze müssen wir diese noch berechnen und gehen davon aus, dass eine unfaire Münze häufiger Kopf anzeigt, und zwar mit einer Wahrscheinlichkeit von 70%. Mit einer unfairen Münze wäre also, die bedingte Wahrscheinlichkeit, dass bei zehn Würfen sechsmal Kopf gezeigt wird: 

\(\)\[P(Daten|Unfair) = \left(\begin{matrix}10\\6\\\end{matrix}\right) \cdot {0,7}^6 \cdot {0,3}^4 = \frac{10!}{6! \cdot (10-6)!} \cdot {0,5}^{10} = 210 \cdot 0,0081 = 0,200\]

Somit ergibt sich für \(P(Daten)\) die folgende Wahrscheinlichkeit: 

\(\)\[P(Daten) = P(Daten|Fair)\cdot P(Fair) + P(Daten|Unfair)\cdot P(Unfair) = 0,205 \cdot 0,5 + 0,200 \cdot 0,5 = 0,2025 \]

Mithilfe des Bayes Theorem können wir nun auch die neue Posteriorwahrscheinlichkeit berechnen, indem wir unsere Vorergebnisse in die Formel einsetzen: 

\(\)\[P(Fair|Daten) = \frac{P(Daten|Fair) \cdot P(Fair)}{P(Daten)} = \frac{0,205 \cdot 0,5}{0,2025} \approx 0,506\]

Nachdem wir also die Daten berücksichtigen, beträgt die neue Wahrscheinlichkeit, dass die Münze fair ist, nun 50,6%. Das heißt, obwohl wir in unserem Datensatz beobachtet haben, dass häufiger Kopf vorkommt, deutet dies nicht stark genug darauf hin, dass die Münze unfair ist. Außerdem haben wir in der Berechnung gesehen, warum das Bayes Theorem für große Datensätze besonders rechenintensiv wird, da es die Fakultätsberechnung einschließt und außerdem die Berechnung der Normalisierungswahrscheinlichkeit in realen Anwendungen deutlich komplexer ist, als hier gezeigt. 

Was sind die Vorteile und Herausforderungen der Bayes’schen Statistik?

Die Bayes’sche Statistik bietet verschiedene Vorteile bei der Anwendung in der Datenanalyse, weshalb sie sich zu einem oft eingesetzten Werkzeug entwickelt hat. In diesem Abschnitt gehen wir im Detail auf die Vorteile ein und zeigen gleichzeitig auch die Herausforderungen auf, welche sich durch die Bayes’sche Statistik ergeben. 

Vorteile

  1. Integration von Vorwissen: Der Hauptvorteil der Bayes’schen Statistik ist die Möglichkeit, Vorwissen in die Wahrscheinlichkeitsrechnung mit einzubeziehen und einen zweiten Gegenpol zum Datensatz selbst zu bieten. Vor allem dann, wenn nur wenige Daten vorhanden sind, kann durch dieses Expertenwissen trotzdem eine gute Modellgenauigkeit erzielt werden. In der frequentistischen Statistik hingegen kann ein unzureichender Datensatz meist keine guten Ergebnisse liefern.   
  2. Flexibilität bei der Aktualisierung: Das Wahrscheinlichkeitsmodell kann durchgehend mithilfe von neuen Informationen auf dem aktuellen Stand gehalten werden. Dies ist vor allem in Umgebungen von Vorteil, die sich schnell verändern und ständig neue Daten liefern. 
  3. Geeignet für unsichere Daten: Die Bayes’sche Statistik kann in vielen Anwendungen genutzt werden, in denen andere Wahrscheinlichkeitsmodelle an ihre Grenzen stoßen, zum Beispiel beim Umgang mit unsicheren oder unvollständigen Daten. In diesen Szenarien ist es von Vorteil, dass die Bayes’sche Statistik nicht nur konkrete Ereignisse bewertet, sondern die Unsicherheit im Allgemeinen modelliert. 

Herausforderungen:

  1. Subjektivität des Priors: In vielen Fällen ist der Prior, also das Vorwissen, eine rein subjektive Einschätzung, die meist aus einem Expertenkreis gezogen wird. Wenn jedoch wenig Vorwissen vorhanden ist, kann es auch passieren, dass sehr subjektives Vorwissen verwendet werden muss, da ansonsten keine Vorhersage möglich ist. Das Ergebnis wird jedoch stark vom Prior beeinflusst, wodurch es zu Unsicherheiten bei der Interpretation kommen kann. 
  2. Hoher Rechenaufwand: Ein weiteres Problem bei der Nutzung der Bayes’schen Statistik ist der meist hohe Rechenaufwand bei komplexen Modellen. Die Berechnung der Posterior-Verteilung ist in vielen Fällen durch direkte Integration nicht möglich. Daher werden in der Praxis häufig Monte Carlo Methoden, wie zum Beispiel die Markov Chain Monte Carlo eingesetzt, die jedoch sehr rechen- und zeitaufwändig sind. Insbesondere bei großen Datensätzen oder Modellen mit vielen Dimensionen kann die Anwendung dieser Methoden sehr ressourcenintensiv sein. 

Die Bayes’sche Statistik ist eine leistungsfähige Methodik, die es ermöglicht mithilfe von Vorwissen auch kleinere Datensätze oder unvollständige Daten zu nutzen und die Wahrscheinlichkeiten konstant zu aktualisieren. Jedoch ist sie sehr abhängig vom Vorwissen und meist sehr rechenintensiv, sodass in jeder Anwendung konkret abgeschätzt werden muss, ob sich der Aufwand lohnt und ein belastbares Vorwissen vorhanden ist. 

Welche Anwendungen nutzen die Bayes’sche Statistik?

Die Bayes’sche Statistik findet in den unterschiedlichsten Bereichen Anwendung, vor allem dann, wenn Unsicherheiten unter Einbezug von Vorwissen kalkuliert werden sollen. In diesem Abschnitt stellen wir einige bedeutende Anwendungsbereiche vor:

  1. Medizin: In der Medizin kommt die Bayes’sche Statistik für die Erstellung von Diagnosemodellen zum Einsatz, für die bisheriges Wissen aus anderen Untersuchungen kombiniert werden kann mit den Daten aus der neuen Versuchsreihe. Vor allem bei seltenen und gefährlichen Krankheiten sind Versuchsreihen nicht nur kostenintensiv, sondern es ist auch schwierig, Testpersonen ausfindig zu machen. Deshalb ist es wichtig, dass zukünftige Forschungsgruppen auf die bisherige Arbeit aufbauen und diese erweitern können, anstatt von Null beginnen zu müssen. 
  2. Maschinelles Lernen: Im Bereich des Machine Learnings gibt es konkrete Modellarchitekturen, welche auf den Konzepten der Bayes’schen Statistik aufbauen und damit Vorhersagemodelle trainieren. Die Naive Bayes Klassifizierung, zum Beispiel, ist einfach zu implementieren und liefert trotzdem aussagekräftige Vorhersagen unter der Annahme, dass die Eingabemerkmale bedingt voneinander abhängig sind. Diese Modelle können dann beispielsweise in der Erkennung von Spam-Mails oder bei der Textklassifikation verwendet werden. 
  3. Wirtschaft: In der Wirtschaftstheorie spielt vor allem die Risikobewertung von Anlagen eine große Rolle und es muss dabei möglich sein, historische Krisen und Aktienbewegungen für die Analyse von aktuellen Aktienkursen mit zu berücksichtigen, damit dieselben Fehler nicht nochmals wiederholt werden. Außerdem ergeben sich ständig neue Marktinformationen, welche in die bestehenden Modelle mit einbezogen werden müssen. Hierbei bildet die Bayes’sche Statistik eine besondere Möglichkeit, da in regelmäßigen Abständen die aktuelle Posterior-Wahrscheinlichkeit errechnet werden kann. 
  4. Naturwissenschaften: Auch in den Naturwissenschaften wird die Bayes’sche Statistik in verschiedenen Disziplinen angewendet, um Hypothesen zu prüfen. In der Biologie beispielsweise kann sie zur Analyse von Genexpressionen verwendet werden oder zur Modellierung von Populationsdynamiken, welche unter unsicheren Daten getroffen werden müssen. 

Die Bayes’sche Statistik ist eine etablierte Methode, die in unterschiedlichsten Anwendungen verwendet wird, um Vorhersagemodelle bei unsicheren Daten zu erstellen und außerdem auf bestehendem Vorwissen aufbauen zu können. 

Was ist die Markov-Chain-Monte-Carlo (MCMC) Methode?

Die Markov-Chain-Monte-Carlo Methode ist eine zentrale Simulation innerhalb der Bayes’schen Statistik, welche es ermöglicht die Posteriorwahrscheinlichkeit auch bei komplexen Modellen mit zahlreichen Dimensionen zu berechnen, indem sie eine Annäherung für die Normalisierungswahrscheinlichkeit gibt. Wie wir in unserem Beispiel mit dem Münzwurf gesehen haben, ist die Berechnung des Nenners im Bayes Theorem bereits im einfachen Fall einer Binomialverteilung sehr aufwendig. In den meisten realen Anwendung wird diese Berechnung jedoch deutlich komplexer oder sogar unmöglich, insbesondere bei mehrdimensionalen Parameterräumen oder bei schwierigen Likelihood Funktionen. 

Mithilfe der Markov-Chain-Monte-Carlo kann diese Berechnung umgangen werden, indem Stichproben aus der Posteriorverteilung gezogen werden. Dadurch kann dann, anstatt die konkrete Verteilung zu berechnen, die Verteilung anhand der gesammelten Stichproben analysiert werden. Diese Methode kann auf nahezu jede Prior- und Likelihoodfunktion angewendet werden, unabhängig von der Dimensionalität. Außerdem bietet sie eine skalierbare Möglichkeit für die Analyse von Modellen bei den klassische, statistische Methoden überfordert wären.  

Das solltest Du mitnehmen

  • Die Bayes’sche Statistik bietet im Vergleich zur frequentistischen Statistik einen Gegenpol, indem sie Wahrscheinlichkeiten nicht als relative Häufigkeit von Ereignissen interpretiert, sondern als Grad der Überzeugung.
  • Dabei wird ein gewisses Vorwissen über ein Ereignis genutzt, welches dann mithilfe des Bayes Theorem und einem Datensatz lediglich über die Zeit aktualisiert wird.
  • Durch diese Vorgehensweise kann Expertenwissen in die Wahrscheinlichkeitsrechnung mit einbezogen werden und außerdem können diese Modelle für Anwendungen verwendet werden, in denen ständig neue Daten verwendet werden. Jedoch sind solche Modelle sehr rechenintensiv und außerdem stark von der Qualität des Prior-Wissens abhängig.
  • In der Praxis werden häufig Monte Carlo Simulationen verwendet, um die Likelihood-Funktionen abzuschätzen.
Gibbs Sampling / Gibbs-Sampling

Was ist Gibbs-Sampling?

Erforschen Sie Gibbs-Sampling: Lernen Sie die Anwendungen kennen und erfahren Sie, wie sie in der Datenanalyse eingesetzt werden.

Bias

Was ist ein Bias?

Auswirkungen und Maßnahmen zur Abschwächung eines Bias: Dieser Leitfaden hilft Ihnen, den Bias zu verstehen und zu erkennen.

Varianz / Variance

Was ist die Varianz?

Die Rolle der Varianz in der Statistik und der Datenanalyse: Verstehen Sie, wie man die Streuung von Daten messen kann.

Kullback-Leibler Divergence / Kullback-Leibler Divergenz / KL Divergence

Was ist die KL Divergence (Kullback-Leibler Divergence)?

Erkunden Sie die Kullback-Leibler Divergence (KL Divergence), eine wichtige Metrik in der Informationstheorie und im maschinellen Lernen.

Maximum Likelihood Estimation / MLE / Maximum Likelihood Methode

Was ist MLE: Maximum-Likelihood-Methode?

Verstehen Sie die Maximum-Likelihood-Methode (MLE), ein leistungsfähiges Werkzeug zur Parameterschätzung und Datenmodellierung.

Variance Inflation Factor (VIF) / Varianzinflationsfaktor

Was ist der Varianzinflationsfaktor (VIF)?

Erfahren Sie, wie der Varianzinflationsfaktor (VIF) Multikollinearität in Regressionen erkennt, um eine bessere Datenanalyse zu ermöglichen.

Andere Beiträge zum Thema Bayessche Statistik

Auf GitHub gibt es einen ausführlichen Artikel über Bayes’sche Statistik.

Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Niklas Lang

Seit 2020 bin ich als Machine Learning Engineer und Softwareentwickler tätig und beschäftige mich leidenschaftlich mit der Welt der Daten, Algorithmen und Softwareentwicklung. Neben meiner Arbeit in der Praxis unterrichte ich an mehreren deutschen Hochschulen, darunter die IU International University of Applied Sciences und die Duale Hochschule Baden-Württemberg, in den Bereichen Data Science, Mathematik und Business Analytics.

Mein Ziel ist es, komplexe Themen wie Statistik und maschinelles Lernen so aufzubereiten, dass sie nicht nur verständlich, sondern auch spannend und greifbar werden. Dabei kombiniere ich praktische Erfahrungen aus der Industrie mit fundierten theoretischen Grundlagen, um meine Studierenden bestmöglich auf die Herausforderungen der Datenwelt vorzubereiten.

Cookie Consent mit Real Cookie Banner