Zum Inhalt springen

Was ist Supervised Learning?

Supervised Learning ist eine Unterkategorie von Künstlicher Intelligenz und Machine Learning. Es zeichnet sich dadurch aus, dass die Trainingsdaten bereits ein richtiges Label enthalten. Damit kann ein Algorithmus diese Labels für neue Datenobjekte lernen richtig vorherzusagen. Das Gegenteil davon ist das sogenannte Unsupervised Learning, bei dem diese Labels im Datensatz nicht vorliegen und der Algorithmus entsprechend anders trainiert werden muss.

Wie funktioniert Supervised Learning?

Supervised Learning Algorithmen nutzen Datensätze, um aus den Inputs Zusammenhänge zu lernen und aus diesen dann die gewünschte Vorhersage zu treffen. Im Optimalfall sind die Vorhersage und das Label aus dem Datensatz identisch. Der Trainingsdatensatz enthält Inputs und bereits die korrekten Outputs dafür. Diese kann das Modell nutzen, um in mehreren Iterationen daraus zu lernen. Die Genauigkeit wiederum gibt an, wie oft der richtige Output aus den gegebenen Inputs vorhergesagt werden konnte. Diese wird mithilfe der Verlustfunktion berechnet und der Algorithmus versucht sie so lange zu minimieren, bis ein zufriedenstellendes Ergebnis erreicht wurde.

Man kann sich das vorstellen, wie bei einer Person, die Englisch lernen möchte und bereits Deutsch sprechen kann. Mit einem Deutsch-Englisch Wörterbuch oder einem Vokabelheft, kann die Person relativ einfach selbst lernen, indem sie die englische Spalte abdeckt und dann versucht aus dem deutschen Wort das englische Wort „vorherzusagen“. Dieses Training wird sie so lange wiederholen, bis sie die englischen Wörter ausreichend oft richtig vorhersagen kann. Ihren Fortschritt kann sie messen, indem sie die Wörter zählt die sie falsch übersetzt hat und sie ins Verhältnis setzt zu allen übersetzten Wörtern. Dieses Verhältnis versucht die Person mit der Zeit immer weiter zu minimieren, bis sie alle deutschen Wörter richtig ins Englische übersetzen kann.

Supervised Learning lässt sich in zwei grobe Kategorien unterteilen:

  • Klassifizierung wird genutzt, um neue Datenobjekte einer oder mehreren vordefinierten Kategorien zuzuordnen. Das Modell versucht aus den Inputs Zusammenhänge zu erkennen, die für die Zuordnung zu einer Kategorie sprechen. Ein Beispiel hierfür sind Bilder, die erkannt und dann einer Klasse zugeordnet werden sollen. Das Modell kann dann für ein Bild beispielsweise vorhersagen, ob darin ein Hund zu erkennen ist oder nicht.
  • Regressionen erklären den Zusammenhang zwischen den Inputs, den sogenannten unabhängigen Variablen, und den Outputs, also den abhängigen Variablen. Wenn wir beispielsweise den Umsatz eines Unternehmens vorhersagen wollen und die Marketingaktivität und den Durchschnittspreis des Vorjahres haben, kann die Regression Aufschluss darüber geben, wie hoch der Einfluss der Marketinganstrengungen auf den Umsatz ist.

Supervised Learning Anwendungen

Es gibt eine Vielzahl von Business Anwendungen, die von Supervised Learning Algorithmen profitieren können. Die beliebtesten haben wir im Folgenden kurz zusammengefasst:

  • Objekterkennung in Bildern: Wie bereits erwähnt, können Supervised Learning Modelle genutzt werden, um Objekte in Bildern zu erkennen oder Bilder einer Klasse zu zuzuordnen. Unternehmen nutzen diese Eigenschaft beispielsweise beim Autonomen Fahren, um Objekte zu erkennen, auf die das Auto reagieren sollte.
  • Vorhersage: Wenn Unternehmen in der Lage sind zukünftige Szenarien oder Zustände sehr genau vorhersagen zu können, können sie verschiedene Entscheidungsmöglichkeiten gut gegeneinander abwägen und die beste Option wählen. Eine qualitativ hochwertige Regressionsanalyse für den zu erwartenden Umsatz im nächsten Jahr kann beispielsweise genutzt werden, um zu entscheiden, wie viel Budget für das Marketing eingeplant werden soll.
  • Kundenstimmungsanalyse: Durch das Internet haben Kunden viele Kanäle, um ihre Bewertungen der Marke oder eines Produktes öffentlich zu machen. Unternehmen müssen deshalb den Überblick darüber behalten, ob die Kunden größtenteils zufrieden sind oder nicht. Mit wenigen Rezensionen, welche als gut oder schlecht klassifiziert sind, können effiziente Modelle trainiert werden, die dann automatische eine Vielzahl von Kommentaren einordnen können.
  • Spamerkennung: In vielen Mailprogrammen gibt es die Möglichkeit konkrete E-Mails als Spam zu kennzeichnen. Diese Daten werden genutzt um Machine Learning Modelle zu trainieren, die zukünftige Mails direkt als Spam kennzeichnen, sodass sie der Endnutzer gar nicht erst angezeigt bekommt.

Probleme mit Supervised Learning

Die guten Ergebnisse die Supervised Learning Modelle in vielen Fällen erreichen, haben leider auch einige Nachteile, die diese Algorithmen mit sich bringen:

  • Das Labeln von Trainingsdaten ist in vielen Fällen ein aufwendiger und teurer Prozess, wenn die Kategorien noch nicht vorliegen. Es gibt beispielsweise nur wenige Bilder für die kategorisiert ist, ob darin ein Hund zu sehen ist oder nicht. Das muss erst händisch geschehen.
  • Das Training von Supervised Learning Modellen kann sehr zeitaufwändig sein.
  • Menschliche Fehler oder Diskriminierungen werden mitgelernt. Wenn also ein Trainingsdatensatz zur Klassifizierung von Jobbewerbern gegen gewissen Gesellschaftsgruppen diskriminiert, wird das Modell das sehr wahrscheinlich auch weiterführen.

Das solltest Du mitnehmen

  • Supervised Learning ist eine Unterkategorie von Künstlicher Intelligenz und beschreibt Modelle, die auf Datensätzen trainiert werden, welche bereits ein korrektes Outputlabel enthalten.
  • Supervised Learning Algorithmen können in Klassifizierungs- und Regressionsmodelle unterteilt werden.
  • Unternehmen nutzen diese Modelle für verschiedenste Anwendungen, wie beispielsweise Spamerkennung oder Objekterkennung in Bildern.
  • Supervised Learning ist nicht unproblematisch, da das Labeln von Datensätzen teuer ist und menschliche Fehler enthalten kann.

Andere Beiträge zum Thema Supervised Learning

  • IBM hat einen interessanten Beitrag zum Thema Supervised Learning geschrieben, in dem auch konkrete Supervised Learning Algorithmen kurz beschrieben werden.
close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner