Zum Inhalt springen

Was ist Supervised Learning?

Supervised Learning ist eine Unterkategorie von Künstlicher Intelligenz und Machine Learning. Es zeichnet sich dadurch aus, dass die Trainingsdaten bereits ein richtiges Label enthalten. Damit kann ein Algorithmus diese Labels für neue Datenobjekte lernen richtig vorherzusagen. Das Gegenteil davon ist das sogenannte Unsupervised Learning, bei dem diese Labels im Datensatz nicht vorliegen und der Algorithmus entsprechend anders trainiert werden muss.

Wie funktioniert Supervised Learning?

Supervised Learning Algorithmen nutzen Datensätze, um aus den Inputs Zusammenhänge zu lernen und aus diesen dann die gewünschte Vorhersage zu treffen. Im Optimalfall sind die Vorhersage und das Label aus dem Datensatz identisch. Der Trainingsdatensatz enthält Inputs und bereits die korrekten Outputs dafür. Diese kann das Modell nutzen, um in mehreren Iterationen daraus zu lernen. Die Genauigkeit wiederum gibt an, wie oft der richtige Output aus den gegebenen Inputs vorhergesagt werden konnte. Diese wird mithilfe der Verlustfunktion berechnet und der Algorithmus versucht sie so lange zu minimieren, bis ein zufriedenstellendes Ergebnis erreicht wurde.

Man kann sich das vorstellen, wie bei einer Person, die Englisch lernen möchte und bereits Deutsch sprechen kann. Mit einem Deutsch-Englisch Wörterbuch oder einem Vokabelheft, kann die Person relativ einfach selbst lernen, indem sie die englische Spalte abdeckt und dann versucht aus dem deutschen Wort das englische Wort „vorherzusagen“. Dieses Training wird sie so lange wiederholen, bis sie die englischen Wörter ausreichend oft richtig vorhersagen kann. Ihren Fortschritt kann sie messen, indem sie die Wörter zählt die sie falsch übersetzt hat und sie ins Verhältnis setzt zu allen übersetzten Wörtern. Dieses Verhältnis versucht die Person mit der Zeit immer weiter zu minimieren, bis sie alle deutschen Wörter richtig ins Englische übersetzen kann.

Supervised Learning lässt sich in zwei grobe Kategorien unterteilen:

  • Klassifizierung wird genutzt, um neue Datenobjekte einer oder mehreren vordefinierten Kategorien zuzuordnen. Das Modell versucht aus den Inputs Zusammenhänge zu erkennen, die für die Zuordnung zu einer Kategorie sprechen. Ein Beispiel hierfür sind Bilder, die erkannt und dann einer Klasse zugeordnet werden sollen. Das Modell kann dann für ein Bild beispielsweise vorhersagen, ob darin ein Hund zu erkennen ist oder nicht.
  • Regressionen erklären den Zusammenhang zwischen den Inputs, den sogenannten unabhängigen Variablen, und den Outputs, also den abhängigen Variablen. Wenn wir beispielsweise den Umsatz eines Unternehmens vorhersagen wollen und die Marketingaktivität und den Durchschnittspreis des Vorjahres haben, kann die Regression Aufschluss darüber geben, wie hoch der Einfluss der Marketinganstrengungen auf den Umsatz ist.

Supervised Learning Anwendungen

Es gibt eine Vielzahl von Business Anwendungen, die von Supervised Learning Algorithmen profitieren können. Die beliebtesten haben wir im Folgenden kurz zusammengefasst:

  • Objekterkennung in Bildern: Wie bereits erwähnt, können Supervised Learning Modelle genutzt werden, um Objekte in Bildern zu erkennen oder Bilder einer Klasse zu zuzuordnen. Unternehmen nutzen diese Eigenschaft beispielsweise beim Autonomen Fahren, um Objekte zu erkennen, auf die das Auto reagieren sollte.
  • Vorhersage: Wenn Unternehmen in der Lage sind zukünftige Szenarien oder Zustände sehr genau vorhersagen zu können, können sie verschiedene Entscheidungsmöglichkeiten gut gegeneinander abwägen und die beste Option wählen. Eine qualitativ hochwertige Regressionsanalyse für den zu erwartenden Umsatz im nächsten Jahr kann beispielsweise genutzt werden, um zu entscheiden, wie viel Budget für das Marketing eingeplant werden soll.
  • Kundenstimmungsanalyse: Durch das Internet haben Kunden viele Kanäle, um ihre Bewertungen der Marke oder eines Produktes öffentlich zu machen. Unternehmen müssen deshalb den Überblick darüber behalten, ob die Kunden größtenteils zufrieden sind oder nicht. Mit wenigen Rezensionen, welche als gut oder schlecht klassifiziert sind, können effiziente Modelle trainiert werden, die dann automatische eine Vielzahl von Kommentaren einordnen können.
  • Spamerkennung: In vielen Mailprogrammen gibt es die Möglichkeit konkrete E-Mails als Spam zu kennzeichnen. Diese Daten werden genutzt um Machine Learning Modelle zu trainieren, die zukünftige Mails direkt als Spam kennzeichnen, sodass sie der Endnutzer gar nicht erst angezeigt bekommt.

Probleme mit Supervised Learning

Die guten Ergebnisse die Supervised Learning Modelle in vielen Fällen erreichen, haben leider auch einige Nachteile, die diese Algorithmen mit sich bringen:

  • Das Labeln von Trainingsdaten ist in vielen Fällen ein aufwendiger und teurer Prozess, wenn die Kategorien noch nicht vorliegen. Es gibt beispielsweise nur wenige Bilder für die kategorisiert ist, ob darin ein Hund zu sehen ist oder nicht. Das muss erst händisch geschehen.
  • Das Training von Supervised Learning Modellen kann sehr zeitaufwändig sein.
  • Menschliche Fehler oder Diskriminierungen werden mitgelernt. Wenn also ein Trainingsdatensatz zur Klassifizierung von Jobbewerbern gegen gewissen Gesellschaftsgruppen diskriminiert, wird das Modell das sehr wahrscheinlich auch weiterführen.

Supervised und Unsupervised Machine Learning im Vergleich

Nehmen wir an, wir wollen einem Kind eine neue Sprache beibringen, beispielsweise Englisch. Wenn wir dies nach dem Prinzip des Supervised Learnings tun, geben wir ihm einfach ein Wörterbuch mit den englischen Wörtern und der Übersetzung in dessen Muttersprache, beispielsweise deutsch. Dem Kind wird es relativ einfach fallen mit dem Lernen zu beginnen und wahrscheinlich auch sehr schnell Fortschritte machen können, indem es sich die Übersetzungen einprägt. Darüber hinaus wird es aber Probleme haben Texte auf Englisch zu lesen und verstehen zu können, da es lediglich die Deutsch-Englisch Übersetzungen gelernt hat und nicht den grammatikalischen Aufbau von Sätzen in der englischen Sprache.

Nach dem Prinzip des Unsupervised Learnings würde das Szenario ganz anders aussehen. Wir würden dem Kind nämlich einfach beispielsweise fünf englische Bücher vorlegen und alles übrige müsste es sich selbstständig aneignen. Das ist natürlich eine sehr viel komplexere Aufgabe. Das Kind könnte mithilfe der „Daten“ beispielsweise erkennen, dass das Wort „I“ (deutsch: Ich) relativ häufig in Texten vorkommt und in vielen Fällen auch am Anfang eines Satzes steht und daraus Schlüsse ziehen.

An diesem Beispiel werden auch die Unterschiede zwischen Supervised und Unsupervised Learning sehr schön deutlich. Supervised Learning ist in vielen Fällen ein einfacherer Algorithmus und hat dadurch auch meist kürzere Trainingszeiten. Dafür lernt das Modell jedoch nur Zusammenhänge, die explizit im Trainingsdatensatz vorhanden sind und als Input dem Model gegeben wurden. Das englisch lernende Kind beispielsweise wird mithilfe des Wörterbuchs zwar relativ gut einzelne, deutsche Wörter ins Englische übersetzen können, hat jedoch nicht gelernt englische Texte lesen und verstehen zu können.

Das Bild zeigt die verschiedenen Machine Learning Felder im Überblick.
Übersicht der verschiedenen Machine Learning Kategorien

Das Unsupervised Learning hingegen steht vor einer viel komplexeren Aufgabe, da es eigenständig Strukturen erkennen und erlernen muss. Dadurch ist die Trainingszeit und der Trainingsaufwand auch höher. Der Vorteil dabei ist jedoch, dass das austrainierte Modell auch Zusammenhänge erkennt, die ihm nicht explizit antrainiert wurden. Das Kind, welches sich die englische Sprache mithilfe von fünf englischen Romanen beigebracht hat, kann möglicherweise englische Texte lesen, einzelne Wörter ins Deutsche übersetzen und auch die englische Grammatik verstehen.

Das solltest Du mitnehmen

  • Supervised Learning ist eine Unterkategorie von Künstlicher Intelligenz und beschreibt Modelle, die auf Datensätzen trainiert werden, welche bereits ein korrektes Outputlabel enthalten.
  • Supervised Learning Algorithmen können in Klassifizierungs- und Regressionsmodelle unterteilt werden.
  • Unternehmen nutzen diese Modelle für verschiedenste Anwendungen, wie beispielsweise Spamerkennung oder Objekterkennung in Bildern.
  • Supervised Learning ist nicht unproblematisch, da das Labeln von Datensätzen teuer ist und menschliche Fehler enthalten kann.

Andere Beiträge zum Thema Supervised Learning

  • IBM hat einen interessanten Beitrag zum Thema Supervised Learning geschrieben, in dem auch konkrete Supervised Learning Algorithmen kurz beschrieben werden.
close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner