Zum Inhalt springen

Was ist eine Logistische Regression?

Die logistische Regression ist eine spezielle Form der Regressionsanalyse, die genutzt wird, wenn die abhängige, also die vorherzusagende, Variable, nur eine bestimmte Anzahl an möglichen Werten annehmen kann. Man spricht dann auch davon, dass diese Variable nominal- bzw. ordinalskaliert ist. Die logistische Regression liefert uns als Ergebnis eine Wahrscheinlichkeit mit der der Datensatz einer Klasse zuzuordnen ist.

Mögliche Fragestellungen

In Anwendungsfällen kommt es tatsächlich sehr häufig vor, dass wir nicht einen konkreten Zahlenwert vorhersagen wollen, sondern lediglich bestimmen, in welche Klasse oder welchen Bereich ein Datensatz fällt. Hier mal ein paar klassische, praktische Beispiele für die man die logistische Regression nutzen kann:

  • Politik: Welche der möglichen fünf Parteien wird eine Person wählen, wenn nächsten Sonntag Wahlen wären?
  • Medizin: Ist eine Person „anfällig“ oder „nicht anfällig“ für eine bestimmte Krankheit abhängig von einigen medizinischen Parametern der Person?
  • Betriebswirtschaft: Wie hoch ist die Wahrscheinlichkeit, dass ein bestimmtes Produkt gekauft wird abhängig von Alter, Wohnort und Beruf einer Person?

Hinleitung zur logistischen Regression

Bei der linearen Regression haben wir versucht einen konkreten Wert für die abhängige Variable vorherzusagen, statt eine Wahrscheinlichkeit auszurechnen, mit der die Variable einer bestimmten Klasse angehört. Beispielsweise haben wir versucht die konkrete Klausurnote eines Studenten zu bestimmen, abhängig von den Stunden, die der Student für das Fach gelernt hat. Die Grundlage für die Schätzung des Modells ist die Regressionsgleichung und entsprechend auch der Graph, der sich daraus ergibt.

Ein Beispiel: Wir wollen ein Modell aufbauen, das uns die Wahrscheinlichkeit vorhersagt, dass eine Person ein E-Bike kauft, abhängig von ihrem Alter. Nachdem wir ein paar Probanden befragt haben, erhalten wir folgendes Bild:

Der Graph zeigt ein Beispiel für eine Logistische Regression, in der auf der y-Achse die Wahrscheinlichkeit für den Kauf eines Produktes abgetragen ist und auf der x-Achse das Alter der Probanden.
Datensatz für Produktkäufe

Aus unserer kleinen Probandengruppe können wir die Verteilung erkennen, dass junge Personen größtenteils kein E-Bike gekauft haben (unten links im Diagramm) und vor allem ältere Menschen sich ein E-Bike kaufen (oben rechts im Diagramm). Natürlich gibt es in beiden Altersschichten auch Ausreißer, aber der Großteil der Befragten entspricht der Regel, dass mit steigendem Alter die Wahrscheinlichkeit wächst, dass man sich ein E-Bike zulegt. Diese Regel, die wir in den Daten erkannt haben, wollen wir nun auch mathematisch belegen.

Dazu müssen wir eine Funktion finden, die möglichst nahe an der Punkteverteilung, die wir im Diagramm sehen, liegt und zusätzlich nur Werte zwischen 0 und 1 annimmt. Somit fällt eine lineare Funktion, wie wir sie bei der linearen Regression genutzt haben bereits raus, da diese im Bereich zwischen -∞ und +∞ liegt. Jedoch gibt es eine andere mathematische Funktion, die unseren Anforderungen entspricht: die Sigmoid Funktion.

Beispiel einer Sigmoid Funktion

Die Funktionsgleichung des Sigmoid Graphen sieht folgendermaßen aus:

\(\) \[S(x) = \frac{1}{1+e^{-x}}\]

Oder für unser Beispiel:

\(\) \[P(\text{Kauf E-Bike})) = \frac{1}{1+e^{-(a + b_1 \cdot \text{Alter})}}\]

Damit haben wir eine Funktion, die uns als Ergebnis die Wahrscheinlichkeit des E-Bike Kaufs liefert und als Variable das Alter der Person nutzt. Der Graph würde dann für unser Beispiel in etwa so aussehen:

Das Bild zeigt eine logistische Regression für den E-Bike Kauf mit Funktionsgraph
Funktionsgraph für die logistische Regression

In der Praxis sieht man häufig nicht die Schreibweise, die wir genutzt haben. Stattdessen stellt man die Funktion so um, dass die eigentliche Regressionsgleichung deutlich wird:

\(\) \[logit(P(\text{Kauf E-Bike}) = a + b_1 \cdot \text{Alter}\]

Interpretation der logistischen Regression

Die Zusammenhänge zwischen unabhängiger und abhängiger Variable, die man bei einer logistischen Regression bekommt, sind nicht linear und können somit auch nicht so einfach interpretiert werden, wie bei einer linearen Regression.

Eine grundlegende Interpretation ist trotzdem möglich. Wenn der Koeffizient vor der unabhängigen Variable (Alter) positiv ist, dann steigt auch mit Zunahme der Variable die Wahrscheinlichkeit der Sigmoid Funktion. In unserem Fall bedeutet das, dass wenn b1 positiv ist, mit zunehmendem Alter auch die Wahrscheinlichkeit des E-Bike Kaufs zunimmt. Das Gegenteil trifft natürlich auch zu, also bei positivem b1, sinkt auch die Wahrscheinlichkeit des E-Bike Kaufs mit abnehmendem Alter.

Darüber hinaus sind verständliche Interpretationen mit einer logistischen Regression nur sehr schwierig möglich. In vielen Fällen berechnet man die sogenannte Odds Ratio, also das Verhältnis aus der Wahrscheinlichkeit des Eintritts und der Wahrscheinlichkeit des Nicht-Eintritts:

\(\) \[odds = \frac{p}{1-p}\]

Wenn man zusätzlich den Logarithmus aus diesem Bruch bildet, erhält man den sogenannten Logit:

\(\) \[z = Logit = \ln (\frac{p}{1-p})\]

Das sieht verwirrend aus. Widmen wir uns wieder unserem Beispiel, um hier mehr Klarheit reinzubringen. Angenommen für unser Beispiel erhalten wir die folgende logistische Regressionsgleichung:

\(\) \[logit(P(\text{Kauf E-Bike})) = 0.2 + 0.05 \cdot \text{Alter}\]

Diese Funktion können wir erstmal linear interpretieren, also ein Jahr erhöht den logit(p) um 0.05. Der logit(p) ist nach unserer Definition nichts anderes als ln(p/(1-p)). Wenn sich also ln(p/(1-p)), um 0.05 erhöht, dann erhöht sich p/(1-p), um exp(0.05) (Merke: Der Logarithmus ln und die e-Funktion (exp) lösen sich gegenseitig auf). Mit jedem Jahr, das man älter wird, erhöht sich also die Chance (nicht Wahrscheinlichkeit!) ein E-Bike zu kaufen um exp(0.05) = 1.051, also um 5.1 Prozent.

Das solltest Du mitnehmen

  • Die logistische Regression wird genutzt wenn die Ergebnisvariable kategorisch ist.
  • Wir nutzen die Sigmoid Funktion als Regressionsgleichung, die nur Werte zwischen 0 und 1 annehmen kann.
  • Die logistische Regression und deren Parameter lassen sich nicht so einfach interpretieren, wie die lineare Regression.

Andere Beiträge zum Thema logistische Regression

close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner