Zum Inhalt springen

Lineare Regression – Grundlagen

Regressionen werden dafür genutzt einen mathematischen Zusammenhang zwischen zwei Variablen x und y herzustellen. Sowohl die Statistik als auch die Grundlagen von Machine Learning beschäftigen sich damit, wie man die Variable y mithilfe einer oder mehreren Variablen x erklären kann. Hier ein paar Beispiele:

  • Welchen Einfluss hat die Lerndauer (=x) auf die Klausurnote (=y)?
  • Wie hängt die Nutzung von Pflanzendünger (=x) mit der zu tatsächlich erzielten Ernte (=y) zusammen?
  • Wie ändert sich die Kriminalitätsrate in einer Stadt (=y) abhängig von der Anzahl an Polizisten in der Stadt (=x)?

Die zu erklärende Variable y wird dabei als abhängige Variable, Kriterium oder Regressand bezeichnet. 

Die erklärende Variable x hingegen ist die sogenannte unabhängige Variable, Prädiktor oder Regressor.

Das Ziel der Linearen Regression ist es, einen mathematischen Zusammenhang zu formulieren, der den Einfluss von x auf y auch in Zahlen beschreibt: 

\(\) \[y = β_0 + β_1x + u \]

  • β0: Schnittpunkt mit der y-Achse, bspw. die Klausurnote, die man erreichen würde ohne zu lernen.
  • β1: Steigerung der Regressionsgeraden, bspw. der Einfluss, den eine zusätzliche Stunde Lernen auf die Klausurnote hat. 
  • u: Fehlerterm, bspw. alle Einflüsse, die eine Auswirkung auf die Klausurnote haben, aber nicht über die Lerndauer erfasst werden, bspw. Vorwissen. 
  • y: Variable, die man vorhersagen möchte mit hilfe der Linearen Regression.
  • x: Variable, die als Grundlage der Vorhersage genutzt wird und eine Auswirkung auf y haben.

Bildlich gesprochen bedeutet dies, dass wir versuchen die Gerade durch die Punktewolke an Datensätzen zu finden, die den geringsten Abstand zu allen Punkten aufweist.

Das Bild zeigt ein zweidimensionales Diagramm mit verschiedenen orangenen Punkten und einer blauen Linie, die durch die Punktewolke verläuft. Dies ist die Gerade der Linearen Regression.
Lineare Regression

Beispiel: Interpretation der Regressionsgleichung

Angenommen wir erhalten für das Beispiel mit der Klausurvorbereitung die folgende Regressionsgleichung: 

\(\) \[y = 5,0 – 0,2x + u \]

In diesem Fall ist der y-Achsenabschnitt (β0) 5,0. Das bedeutet, dass die untersuchten Personen ohne eine Stunde zu lernen, die Klausur voraussichtlich mit der Note 5,0 abschließen werden.

Das Regressionsgewicht (β1) beträgt in diesem Fall -0,2. Somit wird die Klausurnote mit jeder Stunde in der für das Fach gelernt wird um 0,2 Noten besser. Mit 5h Lernaufwand wäre also die voraussichtliche Note des Studenten oder der Studentin um 1,0 besser verglichen mit dem Fall, dass nicht gelernt wurde.  

Insgesamt könnten die Studenten nach dieser Regression nach 10h Lernaufwand mit einer endgültigen Note von 3,0 rechnen. Gleichzeitig können sie ablesen, dass sie mindestens 5h lernen sollten um zu bestehen. 

Fehlerkonstante

In unseren bisherigen Ausführungen wurde auf den Fehlerterm u nicht genauer eingegangen, obwohl er eine entscheidende Bedeutung hat für die Interpretation der Regression. Wenn wir für eine Regression lediglich ein oder zwei unabhängige Variablen nutzen wird dies in vielen Fällen nicht ausreichen, um alle Einflussfaktoren auf die abhängige Variable y abzubilden. Natürlich ist nicht du die Anzahl der gelernten Stunden ausschlaggebend für die finale Klausurnote. Es gibt noch einige andere Faktoren, die dort mit reinspielen bspw. der Umgang mit Stresssituationen oder die Zahl der besuchten Vorlesungen. 

Dieser Umstand ist erstmal nicht schlimm, da wir nur die unabhängigen Variablen wählen, die für unsere Auswertung von Interesse sind. In unserem Beispiel wollen wir nur explizit eine Aussage treffen über den Zusammenhang zwischen Lernen und der Prüfungsnote. Deshalb müssen wir die Zahl der besuchten Vorlesungen nicht explizit als Variable aufführen, sondern können sie als eine von vielen in der Fehlerkonstante belassen. 

Kritisch wird es jedoch dann, wenn die unabhängige Variable “Lernstunden” mit einem Faktor korreliert (siehe Korrelation und Kausalität), der noch in der Fehlerkonstanten versteckt ist. Dann ist der Regressionsfaktor (β1) nicht korrekt und wir machen einen Fehler in der Interpretation. 

Angenommen wir wollen bestimmen, wie sich der Bildungsgrad auf den Lohn pro Stunde auswirkt. Dazu nutzen wir die Bildung in Jahren als unabhängige Variable x und den aktuellen Stundenlohn als abhängige Variable y:

\(\) \[\text{Stundenlohn} = β_0 + β_1 \cdot \text{(Bildung in Jahren)} + u \]

Im Fehlerterm wären in diesem Beispiel Faktoren wie Betriebszugehörigkeit, Anzahl der Beförderungen oder allgemeine Intelligenz. In diesem Fall kann es zu Problemen kommen, wenn wir mit hilfe dieser Gleichung β1 als Einfluss interpretieren, den ein zusätzliches Jahr Bildung auf den Stundenlohn hat. Der Faktor Intelligenz ist nämlich sehr wahrscheinlich mit der Variablen Bildung positiv korreliert. Eine Person mit einem höheren Intelligenzquotienten wird sehr wahrscheinlich auch einen höheren Bildungsabschluss besitzen und somit mehr Jahre in der Schule oder an der Universität verbracht haben.

Das solltest Du mitnehmen

  • Die Lineare Regression ist ein Spezialfall der Regressionsanalyse.
  • Es wird versucht eine lineare Funktion zu finden, die beschreibt, wie die unabhängige Variable x die abhängige Variable y beeinflusst.

Andere Beiträge zum Thema Lineare Regression

  • Ein anderes Beispiel für eine Lineare Regression inklusive Video ist hier.
  • Die mathematischen Grundlagen sind hier ausführlicher beschrieben, als in unserem Beitrag.
close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner