Supervised Learning ist eine Unterkategorie von Künstlicher Intelligenz und Machine Learning. Es zeichnet sich dadurch aus, dass die Trainingsdaten bereits ein richtiges Label enthalten. Damit kann ein Algorithmus diese Labels für neue Datenobjekte lernen richtig vorherzusagen. Das Gegenteil davon ist das sogenannte Unsupervised Learning, bei dem diese Labels im Datensatz nicht vorliegen und der Algorithmus entsprechend anders trainiert werden muss.
Wie funktioniert Supervised Learning?
Supervised Learning Algorithmen nutzen Datensätze, um aus den Inputs Zusammenhänge zu lernen und aus diesen dann die gewünschte Vorhersage zu treffen. Im Optimalfall sind die Vorhersage und das Label aus dem Datensatz identisch. Der Trainingsdatensatz enthält Inputs und bereits die korrekten Outputs dafür. Diese kann das Modell nutzen, um in mehreren Iterationen daraus zu lernen. Die Genauigkeit wiederum gibt an, wie oft der richtige Output aus den gegebenen Inputs vorhergesagt werden konnte. Diese wird mithilfe der Verlustfunktion berechnet und der Algorithmus versucht sie so lange zu minimieren, bis ein zufriedenstellendes Ergebnis erreicht wurde.
Man kann sich das vorstellen, wie bei einer Person, die Englisch lernen möchte und bereits Deutsch sprechen kann. Mit einem Deutsch-Englisch Wörterbuch oder einem Vokabelheft, kann die Person relativ einfach selbst lernen, indem sie die englische Spalte abdeckt und dann versucht aus dem deutschen Wort das englische Wort “vorherzusagen”. Dieses Training wird sie so lange wiederholen, bis sie die englischen Wörter ausreichend oft richtig vorhersagen kann. Ihren Fortschritt kann sie messen, indem sie die Wörter zählt die sie falsch übersetzt hat und sie ins Verhältnis setzt zu allen übersetzten Wörtern. Dieses Verhältnis versucht die Person mit der Zeit immer weiter zu minimieren, bis sie alle deutschen Wörter richtig ins Englische übersetzen kann.
Supervised Learning lässt sich in zwei grobe Kategorien unterteilen:
- Klassifizierung wird genutzt, um neue Datenobjekte einer oder mehreren vordefinierten Kategorien zuzuordnen. Das Modell versucht aus den Inputs Zusammenhänge zu erkennen, die für die Zuordnung zu einer Kategorie sprechen. Ein Beispiel hierfür sind Bilder, die erkannt und dann einer Klasse zugeordnet werden sollen. Das Modell kann dann für ein Bild beispielsweise vorhersagen, ob darin ein Hund zu erkennen ist oder nicht.
- Regressionen erklären den Zusammenhang zwischen den Inputs, den sogenannten unabhängigen Variablen, und den Outputs, also den abhängigen Variablen. Wenn wir beispielsweise den Umsatz eines Unternehmens vorhersagen wollen und die Marketingaktivität und den Durchschnittspreis des Vorjahres haben, kann die Regression Aufschluss darüber geben, wie hoch der Einfluss der Marketinganstrengungen auf den Umsatz ist.
Welche Anwendungen nutzen Supervised Learning?
Es gibt eine Vielzahl von Business Anwendungen, die von Supervised Learning Algorithmen profitieren können. Die beliebtesten haben wir im Folgenden kurz zusammengefasst:
- Objekterkennung in Bildern: Wie bereits erwähnt, können Supervised Learning Modelle genutzt werden, um Objekte in Bildern zu erkennen oder Bilder einer Klasse zu zuzuordnen. Unternehmen nutzen diese Eigenschaft beispielsweise beim Autonomen Fahren, um Objekte zu erkennen, auf die das Auto reagieren sollte.
- Vorhersage: Wenn Unternehmen in der Lage sind zukünftige Szenarien oder Zustände sehr genau vorhersagen zu können, können sie verschiedene Entscheidungsmöglichkeiten gut gegeneinander abwägen und die beste Option wählen. Eine qualitativ hochwertige Regressionsanalyse für den zu erwartenden Umsatz im nächsten Jahr kann beispielsweise genutzt werden, um zu entscheiden, wie viel Budget für das Marketing eingeplant werden soll.
- Kundenstimmungsanalyse: Durch das Internet haben Kunden viele Kanäle, um ihre Bewertungen der Marke oder eines Produktes öffentlich zu machen. Unternehmen müssen deshalb den Überblick darüber behalten, ob die Kunden größtenteils zufrieden sind oder nicht. Mit wenigen Rezensionen, welche als gut oder schlecht klassifiziert sind, können effiziente Modelle trainiert werden, die dann automatische eine Vielzahl von Kommentaren einordnen können.
- Spamerkennung: In vielen Mailprogrammen gibt es die Möglichkeit konkrete E-Mails als Spam zu kennzeichnen. Diese Daten werden genutzt um Machine Learning Modelle zu trainieren, die zukünftige Mails direkt als Spam kennzeichnen, sodass sie der Endnutzer gar nicht erst angezeigt bekommt.
Welche Probleme hat das Supervised Learning?
Die guten Ergebnisse die Supervised Learning Modelle in vielen Fällen erreichen, haben leider auch einige Nachteile, die diese Algorithmen mit sich bringen:
- Das Labeln von Trainingsdaten ist in vielen Fällen ein aufwendiger und teurer Prozess, wenn die Kategorien noch nicht vorliegen. Es gibt beispielsweise nur wenige Bilder für die kategorisiert ist, ob darin ein Hund zu sehen ist oder nicht. Das muss erst händisch geschehen.
- Das Training von Supervised Learning Modellen kann sehr zeitaufwändig sein.
- Menschliche Fehler oder Diskriminierungen werden mitgelernt. Wenn also ein Trainingsdatensatz zur Klassifizierung von Jobbewerbern gegen gewissen Gesellschaftsgruppen diskriminiert, wird das Modell das sehr wahrscheinlich auch weiterführen.
Welchen Einfluss hat die Modellauswahl im Supervised Learning?
Modellauswahl und -abstimmung sind entscheidende Schritte beim Supervised Learning, die die Leistung des Modells stark beeinflussen können. In diesem Abschnitt werden wir die verschiedenen Methoden zur Auswahl und Abstimmung von Modellen erörtern.
Modellauswahl
Die Modellauswahl bezieht sich auf den Prozess der Auswahl des besten Modells aus einer Reihe von Kandidatenmodellen. Beim Supervised Learning besteht das Ziel darin, ein Modell auszuwählen, das sich gut auf neue Daten verallgemeinern lässt. Es gibt mehrere Methoden für die Modellauswahl, darunter:
- Kreuzvalidierung: Bei der Kreuzvalidierung handelt es sich um eine Technik zur Schätzung der Leistung eines Modells bei unbekannten Daten. Dabei werden die Daten in einen Trainings- und einen Validierungssatz unterteilt und das Modell iterativ auf verschiedenen Teilmengen der Daten trainiert und evaluiert. Die durchschnittliche Leistung über alle Iterationen wird als Schätzwert für die Leistung des Modells verwendet.
- Grid Search: Die Gittersuche ist eine Technik zur erschöpfenden Suche in einem Hyperparameterraum, um den optimalen Satz von Hyperparametern für ein Modell zu finden. Hyperparameter sind Parameter, die nicht aus den Daten gelernt werden, sondern vom Benutzer festgelegt werden, z. B. die Lernrate, der Regularisierungsparameter oder die Anzahl der versteckten Schichten in einem neuronalen Netz.
- Bayes’sche Optimierung: Die Bayes’sche Optimierung ist eine Technik zur Ermittlung des optimalen Satzes von Hyperparametern, bei der ein probabilistisches Modell der Zielfunktion erstellt wird, das als Leitfaden für die Suche nach den optimalen Hyperparametern dient.
Modellabstimmung
Die Modellabstimmung bezieht sich auf den Prozess der Anpassung der Hyperparameter eines Modells, um dessen Leistung zu verbessern. Dies geschieht in der Regel nach der Modellauswahl, da das ausgewählte Modell möglicherweise nicht das bestmögliche Modell für die vorliegende Aufgabe ist. Für das Modelltuning gibt es mehrere Methoden, darunter:
- Zufällige Suche: Die Zufallssuche ist eine Technik zur Suche in einem Hyperparameterraum durch zufällige Auswahl von Hyperparametern aus einer vordefinierten Verteilung.
- Gradientenbasierte Optimierung: Die gradientenbasierte Optimierung ist eine Technik zur Optimierung der Hyperparameter eines Modells durch Berechnung des Gradienten der Zielfunktion in Bezug auf die Hyperparameter und Aktualisierung der Hyperparameter in Richtung des Gradienten.
- Genetische Algorithmen: Genetische Algorithmen sind eine Familie von Optimierungsalgorithmen, die durch den Prozess der natürlichen Selektion inspiriert sind. Dabei wird eine Population von Lösungskandidaten erstellt und diese iterativ ausgewählt, mutiert und rekombiniert, um eine neue Population besserer Lösungen zu erzeugen.
In der Praxis kann eine Kombination dieser Methoden für die Modellauswahl und -abstimmung verwendet werden, je nach Größe des Hyperparameterraums, der Menge der verfügbaren Rechenressourcen und den spezifischen Anforderungen der jeweiligen Aufgabe. Es ist wichtig zu bedenken, dass die Modellauswahl und -abstimmung iterative Prozesse sind und sorgfältiges Experimentieren und Evaluieren erfordern, um das beste Modell für eine bestimmte Aufgabe zu finden.
Supervised und Unsupervised Machine Learning im Vergleich
Nehmen wir an, wir wollen einem Kind eine neue Sprache beibringen, beispielsweise Englisch. Wenn wir dies nach dem Prinzip des Supervised Learnings tun, geben wir ihm einfach ein Wörterbuch mit den englischen Wörtern und der Übersetzung in dessen Muttersprache, beispielsweise deutsch. Dem Kind wird es relativ einfach fallen mit dem Lernen zu beginnen und wahrscheinlich auch sehr schnell Fortschritte machen können, indem es sich die Übersetzungen einprägt. Darüber hinaus wird es aber Probleme haben Texte auf Englisch zu lesen und verstehen zu können, da es lediglich die Deutsch-Englisch Übersetzungen gelernt hat und nicht den grammatikalischen Aufbau von Sätzen in der englischen Sprache.
Nach dem Prinzip des Unsupervised Learnings würde das Szenario ganz anders aussehen. Wir würden dem Kind nämlich einfach beispielsweise fünf englische Bücher vorlegen und alles übrige müsste es sich selbstständig aneignen. Das ist natürlich eine sehr viel komplexere Aufgabe. Das Kind könnte mithilfe der “Daten” beispielsweise erkennen, dass das Wort “I” (deutsch: Ich) relativ häufig in Texten vorkommt und in vielen Fällen auch am Anfang eines Satzes steht und daraus Schlüsse ziehen.
An diesem Beispiel werden auch die Unterschiede zwischen Supervised und Unsupervised Learning sehr schön deutlich. Supervised Learning ist in vielen Fällen ein einfacherer Algorithmus und hat dadurch auch meist kürzere Trainingszeiten. Dafür lernt das Modell jedoch nur Zusammenhänge, die explizit im Trainingsdatensatz vorhanden sind und als Input dem Model gegeben wurden. Das englisch lernende Kind beispielsweise wird mithilfe des Wörterbuchs zwar relativ gut einzelne, deutsche Wörter ins Englische übersetzen können, hat jedoch nicht gelernt englische Texte lesen und verstehen zu können.
Das Unsupervised Learning hingegen steht vor einer viel komplexeren Aufgabe, da es eigenständig Strukturen erkennen und erlernen muss. Dadurch ist die Trainingszeit und der Trainingsaufwand auch höher. Der Vorteil dabei ist jedoch, dass das austrainierte Modell auch Zusammenhänge erkennt, die ihm nicht explizit antrainiert wurden. Das Kind, welches sich die englische Sprache mithilfe von fünf englischen Romanen beigebracht hat, kann möglicherweise englische Texte lesen, einzelne Wörter ins Deutsche übersetzen und auch die englische Grammatik verstehen.
Das solltest Du mitnehmen
- Supervised Learning ist eine Unterkategorie von Künstlicher Intelligenz und beschreibt Modelle, die auf Datensätzen trainiert werden, welche bereits ein korrektes Outputlabel enthalten.
- Supervised Learning Algorithmen können in Klassifizierungs- und Regressionsmodelle unterteilt werden.
- Unternehmen nutzen diese Modelle für verschiedenste Anwendungen, wie beispielsweise Spamerkennung oder Objekterkennung in Bildern.
- Supervised Learning ist nicht unproblematisch, da das Labeln von Datensätzen teuer ist und menschliche Fehler enthalten kann.
Was ist die Poisson Regression?
Lernen Sie die Poisson-Regression kennen, ein statistisches Modell für die Analyse von Zähldaten, inkl. einem Beispiel in Python.
Was ist blockchain-based AI?
Entdecken Sie das Potenzial der blockchain-based AI in diesem aufschlussreichen Artikel über Künstliche Intelligenz und Blockchain.
Was ist Boosting im Machine Learning?
Boosting: Eine Ensemble-Technik zur Modellverbesserung. Lernen Sie in unserem Artikel Algorithmen wie AdaBoost, XGBoost, uvm. kennen.
Was ist Feature Engineering?
Meistern Sie die Kunst des Feature Engineering: Steigern Sie die Modellleistung und -genauigkeit mit der Datentransformationen!
Was sind N-grams?
Die Macht des NLP: Erforschen Sie n-Grams in der Textanalyse, Sprachmodellierung und verstehen Sie deren Bedeutung im NLP.
Was ist das No-Free-Lunch Theorem (NFLT)?
Entschlüsselung des No-Free-Lunch-Theorems: Implikationen und Anwendungen in ML und Optimierung.
Andere Beiträge zum Thema Supervised Learning
- IBM hat einen interessanten Beitrag zum Thema Supervised Learning geschrieben, in dem auch konkrete Supervised Learning Algorithmen kurz beschrieben werden.
Niklas Lang
Seit 2020 bin ich als Machine Learning Engineer und Softwareentwickler tätig und beschäftige mich leidenschaftlich mit der Welt der Daten, Algorithmen und Softwareentwicklung. Neben meiner Arbeit in der Praxis unterrichte ich an mehreren deutschen Hochschulen, darunter die IU International University of Applied Sciences und die Duale Hochschule Baden-Württemberg, in den Bereichen Data Science, Mathematik und Business Analytics.
Mein Ziel ist es, komplexe Themen wie Statistik und maschinelles Lernen so aufzubereiten, dass sie nicht nur verständlich, sondern auch spannend und greifbar werden. Dabei kombiniere ich praktische Erfahrungen aus der Industrie mit fundierten theoretischen Grundlagen, um meine Studierenden bestmöglich auf die Herausforderungen der Datenwelt vorzubereiten.