Regressionen werden dafür genutzt einen mathematischen Zusammenhang zwischen zwei Variablen x und y herzustellen. Sowohl die Statistik als auch die Grundlagen von Machine Learning beschäftigen sich damit, wie man die Variable y mithilfe einer oder mehreren Variablen x erklären kann. Hier ein paar Beispiele:
- Welchen Einfluss hat die Lerndauer (=x) auf die Klausurnote (=y)?
- Wie hängt die Nutzung von Pflanzendünger (=x) mit der zu tatsächlich erzielten Ernte (=y) zusammen?
- Wie ändert sich die Kriminalitätsrate in einer Stadt (=y) abhängig von der Anzahl an Polizisten in der Stadt (=x)?
Die zu erklärende Variable y wird dabei als abhängige Variable, Kriterium oder Regressand bezeichnet.
Die erklärende Variable x hingegen ist die sogenannte unabhängige Variable, Prädiktor oder Regressor.
Das Ziel der Linearen Regression ist es, einen mathematischen Zusammenhang zu formulieren, der den Einfluss von x auf y auch in Zahlen beschreibt:
\(\) \[y = β_0 + β_1x + u \]
- β0: Schnittpunkt mit der y-Achse, bspw. die Klausurnote, die man erreichen würde ohne zu lernen.
- β1: Steigerung der Regressionsgeraden, bspw. der Einfluss, den eine zusätzliche Stunde Lernen auf die Klausurnote hat.
- u: Fehlerterm, bspw. alle Einflüsse, die eine Auswirkung auf die Klausurnote haben, aber nicht über die Lerndauer erfasst werden, bspw. Vorwissen.
- y: Variable, die man vorhersagen möchte mit hilfe der Linearen Regression.
- x: Variable, die als Grundlage der Vorhersage genutzt wird und eine Auswirkung auf y haben.
Bildlich gesprochen bedeutet dies, dass wir versuchen die Gerade durch die Punktewolke an Datensätzen zu finden, die den geringsten Abstand zu allen Punkten aufweist.

Beispiel: Interpretation der Regressionsgleichung
Angenommen wir erhalten für das Beispiel mit der Klausurvorbereitung die folgende Regressionsgleichung:
\(\) \[y = 5,0 – 0,2x + u \]
In diesem Fall ist der y-Achsenabschnitt (β0) 5,0. Das bedeutet, dass die untersuchten Personen ohne eine Stunde zu lernen, die Klausur voraussichtlich mit der Note 5,0 abschließen werden.
Das Regressionsgewicht (β1) beträgt in diesem Fall -0,2. Somit wird die Klausurnote mit jeder Stunde in der für das Fach gelernt wird um 0,2 Noten besser. Mit 5h Lernaufwand wäre also die voraussichtliche Note des Studenten oder der Studentin um 1,0 besser verglichen mit dem Fall, dass nicht gelernt wurde.
Insgesamt könnten die Studenten nach dieser Regression nach 10h Lernaufwand mit einer endgültigen Note von 3,0 rechnen. Gleichzeitig können sie ablesen, dass sie mindestens 5h lernen sollten um zu bestehen.
Fehlerkonstante
In unseren bisherigen Ausführungen wurde auf den Fehlerterm u nicht genauer eingegangen, obwohl er eine entscheidende Bedeutung hat für die Interpretation der Regression. Wenn wir für eine Regression lediglich ein oder zwei unabhängige Variablen nutzen wird dies in vielen Fällen nicht ausreichen, um alle Einflussfaktoren auf die abhängige Variable y abzubilden. Natürlich ist nicht du die Anzahl der gelernten Stunden ausschlaggebend für die finale Klausurnote. Es gibt noch einige andere Faktoren, die dort mit reinspielen bspw. der Umgang mit Stresssituationen oder die Zahl der besuchten Vorlesungen.
Dieser Umstand ist erstmal nicht schlimm, da wir nur die unabhängigen Variablen wählen, die für unsere Auswertung von Interesse sind. In unserem Beispiel wollen wir nur explizit eine Aussage treffen über den Zusammenhang zwischen Lernen und der Prüfungsnote. Deshalb müssen wir die Zahl der besuchten Vorlesungen nicht explizit als Variable aufführen, sondern können sie als eine von vielen in der Fehlerkonstante belassen.
Kritisch wird es jedoch dann, wenn die unabhängige Variable “Lernstunden” mit einem Faktor korreliert (siehe Korrelation und Kausalität), der noch in der Fehlerkonstanten versteckt ist. Dann ist der Regressionsfaktor (β1) nicht korrekt und wir machen einen Fehler in der Interpretation.
Angenommen wir wollen bestimmen, wie sich der Bildungsgrad auf den Lohn pro Stunde auswirkt. Dazu nutzen wir die Bildung in Jahren als unabhängige Variable x und den aktuellen Stundenlohn als abhängige Variable y:
\(\) \[\text{Stundenlohn} = β_0 + β_1 \cdot \text{(Bildung in Jahren)} + u \]
Im Fehlerterm wären in diesem Beispiel Faktoren wie Betriebszugehörigkeit, Anzahl der Beförderungen oder allgemeine Intelligenz. In diesem Fall kann es zu Problemen kommen, wenn wir mit hilfe dieser Gleichung β1 als Einfluss interpretieren, den ein zusätzliches Jahr Bildung auf den Stundenlohn hat. Der Faktor Intelligenz ist nämlich sehr wahrscheinlich mit der Variablen Bildung positiv korreliert. Eine Person mit einem höheren Intelligenzquotienten wird sehr wahrscheinlich auch einen höheren Bildungsabschluss besitzen und somit mehr Jahre in der Schule oder an der Universität verbracht haben.
Das solltest Du mitnehmen
- Die Lineare Regression ist ein Spezialfall der Regressionsanalyse.
- Es wird versucht eine lineare Funktion zu finden, die beschreibt, wie die unabhängige Variable x die abhängige Variable y beeinflusst.