Zum Inhalt springen

Mean Squared Error (MSE) verstehen: Eine Schlüsselzahl im Machine Learning!

Bei jedem Training eines Machine Learning Modells stellt man sich die Frage, wie gut die Vorhersagen des Modells wirklich sind. Dafür kommen die sogenannten Verlustfunktionen ins Spiel, die messen, wie weit sich die Vorhersagen von den tatsächlichen Werten im Datensatz unterscheiden. Jedes Modell ist dabei so aufgesetzt, dass es versucht im Trainingsverlauf die Verlustfunktion zu minimieren. Die Mittlere Quadratische Abweichung (engl. Mean Squared Error oder kurz MSE) ist eine Standard-Verlustfunktion, die für Regressionsaufgaben genutzt wird. 

In diesem Beitrag untersuchen wir den MSE genauer und schauen uns die mathematische Berechnung, die Anwendungen, Vor- und Nachteile, sowie die Umsetzung in Python genauer an. Damit erhälst Du ein grundlegendes Verständnis für diese Verlustfunktion und kannst sie in Deinen eigenen Projekten sicher anwenden. 

Was ist der Zweck des MSE?

Im Machine Learning ist die Bewertung der Leistung von Machine Learning Modellen unerlässlich. Damit soll sichergestellt werden, dass auch bei neuen, ungesehenen Daten gute Vorhersagen getroffen werden und führen während dem Lernprozess zur Konvergenz. Im Bereich des Supervised Learnings berechnet man dabei die Differenz zwischen der Vorhersage und dem tatsächlichen Label im Datensatz. Umso größer dieser Unterschied, umso schlechter ist die Leistung des Modells. In der Praxis gibt es jedoch unterschiedlichste sogenannte Verlustfunktionen, die sich meinst in der genauen Berechnung unterscheiden. Der Mean Squared Error ist eine standardisierte Verlustfunktion für viele Machine Learning Modelle, wie Regressionen oder neuronalen Netzwerken. 

Im Allgemeinen werden der MSE und andere Verlustfunktionen im Allgemeinen aus den folgenden Gründen genutzt: 

  • Fehler quantifizieren: “You can’t manage what you can’t measure.” Dieser Grundsatz gilt so auch im Machine Learning, da sich das Modell nur verbessern kann, wenn die Fehler gemessen werden können. Eine Verlustfunktion stellt sicher, dass sich schlechte Vorhersagen quantifizieren lassen und dadurch eine mathematische Basis für eine Verbesserung liefert. 
  • Gemeinsamer Maßstab für die Bewertung: Durch gemeinsame Verlustfunktionen oder Kennzahlen können mehrere Modelle gezielt miteinander verglichen werden. Dies dient auch genauso für den Vergleich von mehreren Trainingsdurchläufen, wenn beispielsweise Hyperparameter angepasst wurden. Dadurch lässt sich unabhängig entscheiden, ob die Änderungen zu einer Verbesserung oder Verschlechterung geführt haben. 
  • Verbesserung der Modellleistung: Verlustfunktionen werden nicht nur für die schlussendliche Beurteilung des Modells genutzt, sondern helfen auch bereits während des Trainings dabei die Vorhersagen immer genauer zu gestalten. Das Ziel ist es, den Fehler zu minimieren und die Vorhersagen besser an die tatsächlichen anzupassen. Dabei helfen Algorithmen wie der Gradientenabstieg, der als Basis die Verlustfunktion nutzt, um die Modellparameter so zu verändern, dass sich die Modellleistung verbessert. 
  • Unterstützung von Entscheidungen: Verlustfunktionen werden auch in der realen Praxis genutzt, um zu entscheiden, ob ein Modell zum Einsatz kommt oder nicht. In der Portfolioverwaltung beispielsweise wird eine Aktienkursvorhersage über die Genauigkeit bewertet, um festzustellen, ob das finanzielle Risiko durch falsche Vorhersagen tragbar ist oder nicht. Nach derselben Logik werden Algorithmen im Gesundheitswesen oder in der Fertigung ausgewählt. 
  • Diagnosewerkzeug: Durch eine genauere Analyse der Verlustfunktion lassen sich auch gezielte Datenpunkte ausfindig machen, mit denen das Modell Probleme hatte. Dadurch können Schwächen identifiziert werden und das Modell kann entsprechend angepasst werden. 

Die Verlustfunktionen und auch der Mean Squared Error ist somit nicht nur eine reine Berechnung der Abweichung zwischen Vorhersage und den tatsächlichen Werten, sondern dient als zentrales Instrument im Machine Learning und der Datenanalyse. Die Aufgaben reichen von der Quantifizierung von Fehlern über einen gemeinsamen Vergleichspunkt bis hin zur Diagnose von Schwachstellen des Modells. Im Verlauf des Artikels versuchen wir deshalb den MSE genauer zu verstehen, um ihn gezielt einsetzen zu können. 

Wie berechnet man den MSE (einschließlich eines Beispiels)?

Mathematisch gesehen berechnet der Mean Squared Error die Differenz zwischen Vorhersage und dem tatsächlichen Label des Datenpunkts. Diese Differenz wird anschließend quadriert, damit das Vorzeichen der Abweichung keine Rolle spielt und außerdem große Abweichungen (>1) stärker ins Gewicht fallen, als kleine Abweichungen (<1). Diese quadrierten Differenzen werden anschließend für alle Datenpunkte aufsummiert und daraus der Mittelwert errechnet, indem die Gesamtsumme durch die Anzahl der Datenpunkte geteilt wird. 

Mathematische Formel

Die Formel für den Mean Squared Error lautet wie folgt:

\(\) \[MSE = \frac{1}{n} \sum_{i=1}^{n}(y_i – \hat{y}_i)^2\]

Dabei:

  • MSE steht als Abkürzung für den Mean Squared Error.
  • n steht für die Gesamtzahl der Datenpunkte im Datensatz. 
  • 𝑦𝑖 bezeichnet einen einzelnen Wert des i-ten Datepnpunkt im Datensatz. 
  • 𝑦̂𝑖 ist die Vorhersage, die das Modell für den i-ten Datenpunkt getroffen hat. 

Beispiel in Python

Die Berechnung des Mean Squared Errors wird in vielen Machine Learning Aufgaben benötigt und lässt sich auch in Python einfach ausführen, da es als Funktion in der Bibliothek Scikit-Learn hinterlegt ist. In diesem Beispiel berechnen wir ein beispielhaftes Modell zur Vorhersage von Immobilienpreisen in Kalifornien und visiualisieren dann den Mean Squared Errors unseres Modells. 

Schritt 1: Importieren der erforderlichen Bibliotheken

Als erstes werden alle Bibliotheken importiert, die für dieses Beispiel genutzt werden. Neben Scikit-Learn ist dies auch Pandas und NumPy. 

MSE

Schritt 2: Laden und Vorbereiten des Datensatzes

Als Datensatz verwenden wir den kalifornischen Housing Datensatz, der über Scikit-Learn geladen werden kann. Darauf werden wir eine Lineare Regression trainieren und teilen deshalb den Datensatz in die Zielvariable und die Inputvariablen auf. 

MSE

Schritt 3: Aufteilung der Daten in Trainings- und Testgruppen

Um die Qualität des Modells unabhängig bewerten zu können, wird der Datensatz in Trainings- und Testset aufgeteilt, um nachher Vorhersagen für ungesehene Daten erzeugen zu können. Nach diesem Split kann auch bereits ein grundlegendes Modell trainiert werden. 

Schritt 4: Berechnung des mittleren quadratischen Fehlers

Nach dem Training des Modells kann nun der mittlere quadratische Fehler für das Testset berechnet werden, um zu beurteilen, wie gut das Modell Vorhersagen für ungesehene Daten treffen kann. 

MSE

Dieser Wert kann nun beispielsweise genutzt werden, um mehrere Trainingsdurchläufe mit verschiedenen Inputparametern oder mit einer anderen Modellarchitektur zu vergleichen.

Schritt 5: Erstellen einer Visualisierung

Mithilfe der Visualisierung kann verdeutlicht werden, ob der Mean Squared Error von wenigen krassen Fehlervorhersagen geprägt war oder alle Vorhersagen nur leicht vom tatsächlichen Wert abgewichen sind. Dazu kann ein Streudiagramm dienen, das die tatsächlichen Werte und die Vorhersagen aufzeigt und die Differenz veranschaulicht. Bei einem perfekten Modell würden alle Punkte auf einer 45° Geraden von links unten nach rechts oben liegen. Die Abweichungen werden mit roten Linien zwischen dem tatsächlichen Wert und der dazugehörigen Vorhersage gekennzeichnet: 

MSE

Hier die einzelnen Schritte, die der Code ausführt: 

  • Als erstes wird ein Streudiagramm erstellt bei dem auf der x-Achse die tatsächlichen Werte (y_test) und auf der y-Achse die vorhergesagten Werte (y_pred) als blaue Punkte abgebildet werden. 
  • Anschließend wird die Differenz zwischen der Vorhersage und dem tatsächlichen Wert für jeden einzelnen Datenpunkt berechnet. 
  • Diese Differenz wird dann mit einer vertikalen roten Linie zwischen den Punkten gekennzeichnet. 

Diese Visualisierung hilft dabei Ausreißer zu erkennen und liefert Einblicke in die Größe und Richtung der Fehler. Eine solche Veranschaulichung ist meist ein gutes Werkzeug, das zusätzlich mit dem Mean Squared Error genutzt werden sollte, um ein besseres Verständnis für die Fehler herzustellen. Häufig lassen sich hieraus auch gezielte Maßnahmen zur Verringerung des Fehlers ableiten. 

Wie interpretierst Du den MSE?

Damit der Mean Squared Error richtig genutzt werden kann, ist es wichtig den Wert richtig zu interpretieren. Dabei gibt es einige wichtige Punkte, die beachtet werden sollten, um die richtigen Rückschlüsse aus dem MSE zu ziehen: 

  • Größenvariation: Durch das Quadrieren der Differenz ist der Mean Squared Error immer positiv. Niedrigere Werte, die näher bei Null sind, deuten auf eine bessere Vorhersagequalität hin, da die Vorhersagen und die tatsächlichen Werte im Datensatz näher beieinander liegen. Ein hoher Fehlerwert hingegen spricht für eine schlechte Vorhersageleistung des Modells. Hierbei ist jedoch wichtig zu beachten, dass der Mean Squared Error nicht normiert ist, sodass die Größenordnung der Zielvariablen einen Einfluss auf die Größenordnung des Mean Squared Errors haben. Wenn beispielsweise Hauspreise vorhergesagt werden, die meist sechsstellig sind, wird der Mean Squared Errors eines guten Modells trotzdem höher sein, als wenn die Regression die Preise von Lebensmitteln vorhersagt. 
  • Einheiteneinblick: Es ist wichtig zu beachten, dass beim Quadrieren auch die Einheiten der Zielvariablen mit quadriert werden. Bei unserem Beispiel in dem die Hauspreise in Dollar vorhergesagt werden sollten, hat der MSE dann entsprechend die Einheit Dollar im Quadrat. 
  • Modellvergleich: Wenn verschiedene Modelle mit dem gleichen Datensatz trainiert wurden, sollte das Modell priorisiert werden, das den niedrigsten Mean Squared Error hat. Ein signifikant niedrigerer Fehler im Vergleich zu den anderen Algorithmen deutet dabei auch auf eine deutlich bessere Vorhersageleistung hin. 
  • Empfindlichkeit gegenüber Ausreißern: Bei der Interpretation des Mean Squared Errors sollte beachtet werden, dass Ausreißer mit einem außergewöhnlich großen Fehler einen Einfluss auf den Mean Squared Error haben. Solche Ausreißer sollten also untersucht werden, bevor Schlussfolgerungen getroffen werden können. 
  • Wert der Residualanalyse: Als Residuen bezeichnet man den Unterschied zwischen den tatsächlichen und den vorhergesagten Werten. Bei einem guten Modell sollten die Residuen normalverteilt sein, sodass sie einen Mittelwert von Null haben. Wenn dies nicht erfüllt ist, deutet es darauf hin, dass es Probleme bei der Anpassung des Modells an die Daten gab. Der Mean Squared Error kann zu einer ersten Beurteilung der Residuen dienen. 
  • Betrachtung der Skalierung: Wie bereits erwähnt wurde ist es wichtig zu beachten, dass die Skalierung der Daten auch einen Einfluss auf die Skalierung des Mean Squared Errors hat. Deshalb sollten die MSEs zwischen zwei Modellen mit unterschiedlichen Skalen der Zielvariablen nicht miteinander verglichen werden, da dies keine Aussagekraft hat. 
  • Verwendung ergänzender Metriken: Der MSE, genau wie andere Bewertungsmetriken, sollten nicht als einzige Kennzahl für die Qualität eines Modells verwendet werden. Am besten sollte ein Modell immer aus verschiedenen Blickwinkeln betrachtet werden und andere Metriken zusätzlich genutzt werden. 

Der Mean Squared Error ist insgesamt ein wertvolles Instrument zur Beurteilung der Vorhersagenqualität eines Regressionsmodells. Ein niedriger Wert ist dabei ein Indikator für eine gute Vorhersageleistung muss jedoch immer im Kontext des Problems interpretiert werden und sollte im Zusammenhang mit anderen Metriken genutzt werden. 

Was sind die Vor- und Nachteile des Mean Squared Error?

Der MSE ist eine weit verbreitete Verlustfunktion, die für verschiedenste Regressionsmodelle genutzt wird. Jedoch hat es wie jedes Messinstrument eigene Vor- und Nachteile: 

Vorteile des Mean Squared Error:

  • Ableitbarkeit: Mathematisch gesehen ist der Mean Squared Error eine stetige und ableitbare Funktion, sodass er mit Optimierungstechniken kompatibel ist, die Ableitungen vornehmen. Diese Eigenschaft ist zum Beispiel besonders nützlich bei der Arbeit mit neuronalen Netzen, da diese auf dem Gradientenverfamren beruhen, welches eine ableitbare Verlustfunktion benötigt. 
  • Empfindlichkeit gegenüber Abweichungen: Durch das Quadrieren der Differenzen zwischen Vorhersage und tatsächlichem Wert wird großen Abweichungen ein höheres Gewicht zugewiesen. Dadurch lassen sich Modelle trainieren, die Vorhersagen mit starken Abweichungen verhindern. 
  • Mathematische Eigenschaften: Neben der Stetigkeit und der Ableitbarkeit weist der Mean Squared Error weitere vorteilhafte mathematische Eigenschaften auf. Dazu zählt beispielsweise, dass der Mean Squared Error eng verwandt ist mit der Cross Entropie. 
  • Wohldefinierte Optimierung: Der MSE führt zu einer stabilen Konvergenz des Modells, da die durchschnittliche quadratische Differenz zwischen Vorhersagen und tatsächlichen Werten minimiert wird und es keine Sprünge oder ähnliches gibt. 

Nachteile des Mean Squared Error:

  • Empfindlichkeit gegenüber Ausreißern: Wenn Datensätze Ausreißer enthalten, die das Modell nicht gut genug Vorhersagen kann, ist der Mean Squared Error womöglich eine schlechte Verlustfunktion, da er die Vorhersagequalität des Modells nicht richtig wiedergibt und von einzelnen falschen Vorhersagen stark verzerrt werden kann. 
  • Einheitenungleichgewicht: Durch das Quadrieren hat der MSE nicht dieselben Einheiten wie die Vorhersage, wodurch die Interpretation des Wertes deutlich erschwert wird. Um den Verlust richtig interpretieren zu können, müssen andere Fehler herangezogen werden, die sich in derselben Größenordnung wie die Zielvariable befinden. 
  • Keine Einblicke in die Richtung: Je nach Anwendung ist es auch interessant zu erfahren, ob das Modell die Zielvariable eher über- oder unterschätzt. Diese Information wird vom MSE verschleiert und es behandelt jeden Fehler identisch. 
  • Nicht robust gegenüber Modellannahmen: Diese Verlustfunktion setzt voraus, dass die Fehler einer Normalverteilung mit einer konstanten Varianz folgen. Das kann jedoch nicht in manchen Anwendungen nicht der Fall sein, sodass die Modellleistung vom MSE nicht genau gemessen wird. 
  • Potenzielles Overfitting: Bei einem zu komplexen Modell kann es auch mit diesem Fehler zu Overfitting kommen, sodass sich der Algorithmus zu stark an die Trainingsdaten anpassen, aber für neue Daten nur sehr schlechte Vorhersagen liefert. 
  • Begrenzte Anwendbarkeit: Der MSE ist eine standardisierte Verlustfunktion und sollte nur dann genutzt werden, wenn auch die Modellanforderungen ziemlich standardisiert sind. Wenn beispielsweise Fehler unterschiedliche Kosten haben, sollte auf andere Verlustfunktionen zurückgegriffen werden. 

Der Mean Squared Error ist eine bevorzugte Verlustfunktion aufgrund seiner mathematischen Eigenschaften und der Empfindlichkeit gegenüber starken Abweichungen. Er kann die Modellleistung vor allem in Regressionsanwendungen genau messen, sollte jedoch mit Vorsicht verwendet werden, wenn im Datensatz Ausreißer enthalten sind, die zu hohen Abweichungen führen können. Allgemein ist es sinnvoll mehrere Bewertungskriterien für die Qualität eines Modells zu Rate zu ziehen. 

Welche Anwendungen nutzen den Mean Squared Error?

Im Bereich des Machine Learnings wird der Mean Squared Error im Allgemeinen in drei Bereichen der Modellentwicklung genutzt. Diese drei Phasen sind:

  • Modellbewertung: Nach dem Training kann dieser Fehler genutzt werden, um das trainierte Modell und dessen Vorhersageleistung zu bewerten. Durch die einfache Berechnung kann schnell beurteilt werden, ob sich gute Vorhersagen treffen lassen.
  • Algorithmusvergleich: Noch während des Trainings kann der Mean Squared Error genutzt werden, um verschiedene Modellarchitekturen oder sogar verschiedene Algorithmen für einen Datensatz zu vergleichen. Dadurch können die Tests unterschieden werden und festgestellt werden, welche Modellarchitektur am optimalsten für die Anwendung geeignet ist.
  • Modelloptimierung während des Trainings: Viele Modelle können den Mean Squared Error als Verlustfunktion nutzen, sodass er während des Trainings für die Optimierung des Modells und eine Konvergenz sorgt. Durch die guten mathematischen Eigenschaften bietet er sich vor allem für das Gradientenverfahren an, da er ableitbar und stetig ist, was für diesen Algorithmus vorausgesetzt wird.

Dieser Fehler ist somit eine zentrale Verlustfunktion und Kennzahl im Bereich des Machine Learnings das in verschiedensten Modellen und unterschiedlichen Stadien des Trainings eingesetzt wird.

Was sind Erweiterungen und Alternativen zum Mean Squared Error?

Da der Mean Squared Error nicht nur Vorteile mit sich bringt, haben sich im Laufe der Zeit leicht abgewandelte Metriken gebildet, die entweder Erweiterungen für bestimmte Szenarien beinhalten oder auf andere Anwendungen speziell zugeschnitten sind. Durch diese Anpassungen wurden Nachteile des Mean Squared Errors gezielt verbessert und eine umfassendere Sicht auf die Modellleistung ermöglicht. Die weit verbreitesten Alternativen sind: 

  1. Root Mean Squared Error (RMSE): Dieser Fehler ist die Quadratwurzel des Mean Squared Errors. Dadurch wird ermöglicht, dass der Fehler dieselbe Einheit wie die Zielvariable aufweist und dadurch leichter zu interpretieren ist. Dies wird häufig bevorzugt, wenn der Fehler auch für die Interpretation genutzt werden soll und nicht nur als reines Bewertungskriterium für die Modellleistung. 
  2. Mean Absolute Error (MAE): Der Mean Absolute Error berechnet die absoluten Unterschiede zwischen den vorhergesagten und den tatsächlichen Werten. Dadurch ist er weniger empfindlicher gegenüber Ausreißern, da extreme Fehler nicht überproportional stärker bestraft werden als kleinere Fehler. Er wird häufig in Regressionsanalysen verwendet, in denen Ausreißer toleriert werden müssen und deshalb die Bewertung der Modellleistung nicht zu stark beeinflussen sollten. 
  3. Mean Absolute Percentage Error (MAPE): Dieser Fehler berechnet die durchschnittlichen prozentualen Abweichungen zwischen den vorhergesagten und den tatsächlichen Werten. Er ist weit verbreitet in geschäftlichen Kontexten, in denen es üblich ist, Abweichungen in prozentualen Schritten zu messen. 

Aus diesem Portfolio können verschiedene Kennzahlen für unterschiedliche Anwendungen genutzt werden. Diese stellen sinnvolle Erweiterungen des weit verbreiteten Mean Squared Errors dar. 

Das solltest Du mitnehmen

  • Der Mean Squared Error ist eine weit verbreitete Verlustfunktion, der die durchschnittliche, quadratische Abweichung zwischen Vorhersage und tatsächlichem Wert misst. 
  • Ein Vorteil dieser Metrik ist, dass extreme Abweichungen stärker ins Gewicht fallen als kleine. Dies hat jedoch den Nachteil, dass die Einheit des Fehlers die quadrierte Einheit der Zielvariablen ist, wodurch eine Interpretation nur schwer möglich ist. 
  • Außerdem ist der MSE empfindlich gegenüber Ausreißern und kann durch diese verfälscht werden, sodass die Modellleistung nicht richtig bewertet wird. 
  • Der MSE wird in verschiedensten Anwendungen genutzt, wie beispielsweise dem Finanz- oder Gesundheitswesen. 
  • Über die Jahre haben sich verschiedene Erweiterungen des MSE entwickelt, die den Fehler für andere Anwendungen optimieren und bestimmte Nachteile beheben. 
Gibbs Sampling / Gibbs-Sampling

Was ist Gibbs-Sampling?

Erforschen Sie Gibbs-Sampling: Lernen Sie die Anwendungen kennen und erfahren Sie, wie sie in der Datenanalyse eingesetzt werden.

Bias

Was ist ein Bias?

Auswirkungen und Maßnahmen zur Abschwächung eines Bias: Dieser Leitfaden hilft Ihnen, den Bias zu verstehen und zu erkennen.

Varianz / Variance

Was ist die Varianz?

Die Rolle der Varianz in der Statistik und der Datenanalyse: Verstehen Sie, wie man die Streuung von Daten messen kann.

Kullback-Leibler Divergence / Kullback-Leibler Divergenz / KL Divergence

Was ist die KL Divergence (Kullback-Leibler Divergence)?

Erkunden Sie die Kullback-Leibler Divergence (KL Divergence), eine wichtige Metrik in der Informationstheorie und im maschinellen Lernen.

Maximum Likelihood Estimation / MLE / Maximum Likelihood Methode

Was ist MLE: Maximum-Likelihood-Methode?

Verstehen Sie die Maximum-Likelihood-Methode (MLE), ein leistungsfähiges Werkzeug zur Parameterschätzung und Datenmodellierung.

Variance Inflation Factor (VIF) / Varianzinflationsfaktor

Was ist der Varianzinflationsfaktor (VIF)?

Erfahren Sie, wie der Varianzinflationsfaktor (VIF) Multikollinearität in Regressionen erkennt, um eine bessere Datenanalyse zu ermöglichen.

Andere Beiträge zum Thema Mean Squared Error

IBM bietet einen interessanten Artikel zu diesem Thema, den Du hier finden kannst.

Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Niklas Lang

Seit 2020 bin ich als Machine Learning Engineer und Softwareentwickler tätig und beschäftige mich leidenschaftlich mit der Welt der Daten, Algorithmen und Softwareentwicklung. Neben meiner Arbeit in der Praxis unterrichte ich an mehreren deutschen Hochschulen, darunter die IU International University of Applied Sciences und die Duale Hochschule Baden-Württemberg, in den Bereichen Data Science, Mathematik und Business Analytics.

Mein Ziel ist es, komplexe Themen wie Statistik und maschinelles Lernen so aufzubereiten, dass sie nicht nur verständlich, sondern auch spannend und greifbar werden. Dabei kombiniere ich praktische Erfahrungen aus der Industrie mit fundierten theoretischen Grundlagen, um meine Studierenden bestmöglich auf die Herausforderungen der Datenwelt vorzubereiten.

Cookie Consent mit Real Cookie Banner