Die Korrelation bezeichnet das Verhältnis zwischen zwei statistischen Variablen. Die beiden Variablen sind dann voneinander abhängig und ändern sich gemeinsam. Eine positive Korrelation zweier Variablen bedeutet also, dass eine Steigerung von A auch zu einer Steigerung von B führt. Die Abhängigkeit ist dabei ungerichtet. Es gilt also auch im umgekehrten Fall und eine Steigerung der Variable B verändert auch die Steigung von A im gleichen Umfang.
Eine Kausalität hingegen beschreibt einen Ursache-Wirkungs-Zusammenhang zwischen zwei Variablen. Eine Kausalität zwischen A und B bedeutet also, dass die Steigerung in A auch die Ursache für die Erhöhung von B ist.
Was ist der Unterschied zwischen Korrelation und Kausalität?
Der Unterschied wird an einem einfachen Beispiel schnell deutlich. Eine Studie könnte sehr wahrscheinlich einen positiven Zusammenhang zwischen dem Hautkrebsrisiko eines Menschen und der Anzahl an Freibadbesuchen finden. Wenn eine Person also häufig das Freibad besucht, dann erhöht sich auch ihr Risiko an Hautkrebs zu erkranken. Eine eindeutige positive Abhängigkeit. Doch besteht auch eine Kausalität zwischen Freibadbesuchen und Hautkrebs? Wahrscheinlich eher nicht, denn das würde bedeuten, dass alleinig der Freibadbesuche die Ursache für das erhöhte Hautkrebsrisiko sind.
Vielmehr ist es so, dass Menschen, die sich häufiger im Freibad aufhalten auch deutlich mehr Sonneneinstrahlung ausgesetzt sind. Wenn dann nicht ausreichend mit Sonnencreme oder ähnlichem vorgesorgt wird, kann es zu mehr Sonnenbränden kommen und diese erhöhen das Hautkrebsrisiko. Man sieht deutlich, dass die Korrelation zwischen Freibadbesuchen und Hautkrebsrisiko keine Kausalität sind.

Eine Vielzahl von kuriosen Zusammenhängen, die sehr wahrscheinlich keine Kausalität aufzeigen, finden sich auf tylervigen.com.

Es besteht beispielsweise eine sehr hohe Abhängigkeit zwischen der Scheidungsrate im amerikanischen Bundesstaat Maine und dem Pro-Kopf-Konsum von Margarine. Ob es sich dabei auch um eine Kausalität handelt, kann man bezweifeln.
Welche Arten der Korrelation gibt es?
Im Allgemeinen unterscheidet man zwei Arten von Zusammenhängen, die unterschieden werden können:
- Linear oder Nicht-Linear: Die Abhängigkeiten sind linear, wenn die Änderungen in der Variablen A immer eine Änderung mit einem konstanten Faktor bei der Variablen B auslöst. Wenn dies nicht der Fall ist, spricht man von einer nicht-linearen Abhängigkeit. Eine lineare Korrelation besteht beispielsweise zwischen der Körpergröße und dem Körpergewicht. Mit jedem neu gewonnen Zentimeter an Körpergröße nimmt man sehr wahrscheinlich auch eine feste Menge an Körpergewicht zu, solange sich die Statur nicht ändert. Ein nicht-linearer Zusammenhang besteht beispielsweise zwischen der Umsatzentwicklung und der Aktienkursentwicklung eines Unternehmens. Mit der Zunahme des Umsatzes um 30 % wird sich der Aktienkurs womöglich noch um 10 % erhöhen, hingegen bei den darauffolgenden 30 % Umsatzsteigerung wird der Aktienkurs möglicherweise nur noch um 5 % zulegen.
- Positiv oder Negativ: Wenn die Steigerung der Variablen A zu einer Steigerung der Variablen B führt, dann ist eine positive Korrelation gegeben. Wenn hingegen die Steigerung von A zu einer Abnahme von B führt, dann ist die Abhängigkeit negativ.

Was ist der Korrelationskoeffizient?
Der Korrelationskoeffizient gibt an, wie stark die Abhängigkeit zwischen den beiden Variablen ausgeprägt ist. Im Beispiel von tylervigen.com ist diese Korrelation mit 99,26 % sehr stark ausgeprägt und bedeutet, dass die beiden Variablen sich nahezu 1 zu 1 bewegen, also eine Steigerung des Margarinekonsums um 10 % führt auch zu einer Steigerung der Scheidungsrate um 10 %. In dem oben gezeigten Screenshot ist dies verdeutlicht, da der Margarinekonsum und die Scheidungsrate nahezu parallel abnehmen. Somit zeigt, dass eine Abnahme des Margarinekonsums auch zur Abnahme der Scheidungsrate führt.
Der Korrelationskoeffizient kann dabei auch negativer Werte annehmen. Ein Korrelationskoeffizient kleiner 0 beschreibt die Antikorrelation und sagt aus, dass sich die beiden Variablen gegensätzlich verhalten. Eine negative Abhängigkeit besteht beispielsweise zwischen dem aktuellen Alter und der verbleibenden Lebenserwartung älter man wird, desto geringer ist die noch verbleibende Lebenserwartung eines Menschen.
Eine Korrelation mit dem Koeffizienten Null hingegen besagt, dass keine Abhängig zwischen den beiden Werten besteht und diese somit nicht korreliert sind.
Welche Rolle spielt die Korrelation im Bereich des Machine Learnings?
Die Korrelation spielt beim maschinellen Lernen eine wichtige Rolle. Sie hilft bei der Identifizierung der Beziehungen zwischen den Merkmalen und der Zielvariablen im Datensatz. Der Korrelationskoeffizient misst den Grad des Zusammenhangs zwischen zwei Variablen. Algorithmen für maschinelles Lernen nutzen die Korrelation, um Muster und Abhängigkeiten zwischen den Merkmalen in den Daten zu erkennen.
Es gibt verschiedene Arten von Korrelationsmaßen wie den Pearson-Korrelationskoeffizienten, den Rangkorrelationskoeffizienten von Spearman und den Tau-Korrelationskoeffizienten von Kendall, die in Modellen für maschinelles Lernen verwendet werden können.
Der Zusammenhang zwischen den Merkmalen und der Zielvariablen kann bei der Auswahl der relevanten Merkmale für das Modell helfen. Wenn zwei Merkmale stark korreliert sind, kann eines der beiden aus dem Modell entfernt werden, da es keine zusätzlichen Informationen liefert. Dieser Vorgang wird als Merkmalsauswahl bezeichnet.
Die Korrelation kann auch dabei helfen, die Richtung der Beziehung zwischen den Merkmalen und der Zielvariablen zu ermitteln. Eine positive Korrelation zwischen Alter und Einkommen bedeutet zum Beispiel, dass mit steigendem Alter auch das Einkommen steigt. Diese Informationen können dabei helfen, Vorhersagen oder Empfehlungen auf der Grundlage der Eingabedaten zu machen.
Es ist jedoch wichtig zu beachten, dass Korrelation nicht gleichbedeutend mit Kausalität ist. Modelle des maschinellen Lernens sollten nicht von einer Kausalität ausgehen, nur weil zwei Variablen stark korreliert sind. Es ist notwendig, Experimente oder randomisierte kontrollierte Studien durchzuführen, um einen kausalen Zusammenhang zwischen den Variablen herzustellen.
Daher ist die Korrelation zwar ein wichtiges Instrument des maschinellen Lernens, sollte aber in Kombination mit anderen statistischen Methoden und Techniken verwendet werden, um genaue und zuverlässige Vorhersagen zu gewährleisten.
Wie weist man eine Kausalität nach?
Um eine Kausalität verlässlich nachweisen zu können werden wissenschaftliche Experimente durchgeführt. Darin versucht man Menschen oder Versuchsobjekte in Gruppen aufzuteilen (wie das genau passiert kannst du in unserem Beitrag zu Sampeln nachlesen), sodass im Optimalfall alle Merkmale der Teilnehmer ähnlich oder identisch sind bis auf das Merkmal, das als Ursache vermutet wird.
Für den „Hautkrebs-Freibad-Fall“ bedeutet das konkret, dass versucht wird zwei Gruppen zu bilden in denen beide Teilnehmerkreise in wichtigen Merkmalen, wie Alter, Geschlecht, körperliche Gesundheit und auch ausgesetzte Sonneneinstrahlung pro Woche ähnliche oder am besten sogar gleiche Ausprägungen aufweisen. Nun wird untersucht, ob die Freibadbesuche der einen Gruppe (Merke: die ausgesetzte Sonneneinstrahlung muss konstant bleiben), das Hautkrebsrisiko im Vergleich zu der Gruppe, die nicht ins Freibad gegangen ist, verändert. Wenn diese Veränderung ein gewisses Level übersteigt, kann man von einer Kausalität reden.
Warum sind Experimente wichtig, um eine Kausalität nachzuweisen?
Die Bedeutung von Experimenten und randomisierten kontrollierten Studien (RCTs) für den Nachweis von Kausalität kann gar nicht hoch genug eingeschätzt werden. Hier sind einige Gründe dafür:
- Kontrolle: Mit einem experimentellen Design können Forscher alle Störfaktoren kontrollieren, die die Ergebnisvariable beeinflussen könnten. Bei einer RCT werden die Teilnehmer nach dem Zufallsprinzip einer Behandlungs- oder Kontrollgruppe zugewiesen, wodurch sichergestellt wird, dass etwaige Unterschiede bei den Ergebnissen auf die Intervention und nicht auf bereits bestehende Unterschiede zwischen den Gruppen zurückgeführt werden können.
- Replikation: Die Verwendung von Experimenten und RCTs ermöglicht die Replikation der Ergebnisse durch andere Forscher. Dies trägt dazu bei, die Robustheit der Ergebnisse und die Verallgemeinerbarkeit der Intervention festzustellen.
- Genauigkeit: Durch die Kontrolle aller möglichen Störvariablen können Experimente und RCTs genauere Schätzungen der kausalen Auswirkungen liefern.
- Ethische Erwägungen: In einigen Fällen kann es unethisch sein, den Kausalzusammenhang allein durch Beobachtungsstudien nachzuweisen. So wäre es beispielsweise unethisch, die Auswirkungen eines schädlichen Medikaments auf schwangere Frauen zu beobachten, ohne es zuvor in einer RCT zu testen.
- Politische Implikationen: Der Nachweis der Kausalität ist für fundierte politische Entscheidungen unerlässlich. Ohne experimentelle Beweise könnten politische Entscheidungsträger Entscheidungen allein auf der Grundlage von Korrelationen treffen, was zu unwirksamen oder schädlichen Maßnahmen führen würde.
- Wissenschaftlicher Fortschritt: Schließlich sind Experimente und RCTs für den wissenschaftlichen Fortschritt unerlässlich. Sie ermöglichen es Forschern, Hypothesen zu testen, Theorien zu verfeinern und neue Interventionen zu entwickeln, die das Leben der Menschen verbessern können.
Zusammenfassend lässt sich sagen, dass Experimente und RCTs unerlässlich sind, um Kausalität nachzuweisen und unser Verständnis komplexer Phänomene in Bereichen wie Medizin, Psychologie und Wirtschaft zu verbessern. Beobachtungsstudien können zwar wertvolle Informationen liefern, sollten aber als Ergänzung zur experimentellen Forschung und nicht als Ersatz gesehen werden.
Das solltest Du mitnehmen
- Nur in sehr wenigen Fällen bedeutet eine Korrelation auch eine Kausalität.
- Korrelation bedeutet, dass sich zwei Variablen immer gemeinsam ändern. Kausalität hingegen bedeutet, dass die Änderung einer Variablen die Ursache ist für die Änderung der anderen.
- Der Korrelationskoeffizient gibt die Ausprägungsstärke der Abhängigkeit an. Er kann sowohl positiv als auch negativ sein. Bei einem negativen Koeffizienten spricht man von Antikorrelation.
- Um eine Kausalität nachzuweisen benötigt man aufwendige Experimente.
Andere Beiträge zum Thema Korrelation und Kausalität
- Ausführliche Definitionen zu den Begrifflichkeiten findest Du hier.