Zum Inhalt springen

Was ist Unsupervised Learning?

Unsupervised Learning (deutsch: unüberwachtes Lernen) bezeichnet Algorithmen, die eigenständig und ohne Anweisung Strukturen und Muster in einem Datensatz erkennen. Es ist eine von insgesamt vier Lernmethoden im Machine Learning. In der Praxis werden solche Modelle zum Beispiel eingesetzt, um Datenpunkte zu Gruppen, sogenannten Clustern, zuzuordnen.

Wie definiert man Unsupervised Machine Learning?

Unsupervised Learning umfasst alle Algorithmen der Künstlichen Intelligenz, welche Strukturen und Gruppen in Daten erkennen, die vorher noch nicht explizit ausgewiesen waren. Dazu zählen beispielsweise Clustering Methoden, wie k-Means Clustering, oder die Verringerung der Dimensionalität von Daten, wie sie bei der Principal Component Analysis gemacht wird.

Das unüberwachte Lernen zeichnet sich auch durch eine sehr geringe menschliche Einflussnahme aus, da der Algorithmus fast nahezu ohne Vorgaben Zusammenhänge erlernt. Beim Clustering beispielsweise ist die einzige menschliche Vorgabe die Anzahl der Clusterzentren. Deshalb bezeichnet man Unsupervised Learning auch als Knowledge Discovery.

Der Unterschied zum Supervised Learning besteht darin, dass der Algorithmus kein vorgegebenes Mapping von Eingabedaten und Vorhersagen erlernt, sondern selbstständig nach interessanten und statistischen Strukturen und Abhängigkeiten im Datensatz Ausschau hält.

Das unüberwachte Lernen wird gerne genutzt, wenn es keine gruppierten Trainingsdaten gibt oder diese nur sehr schwierig zu besorgen wären. Das kann jedoch zu Kosten anderer Probleme sein, die bei der Nutzung von Unsupervised Machine Learning entstehen. Beispielsweise gibt es keine zentrale Metrik, welche Auskunft über die Qualität des Modells gibt. Beim Supervised Machine Learning können wir die Genauigkeit als zentrale Kenngröße nutzen, um zu bestimmen, wie häufig ein Modell das richtige Label vorhersagt.

Diese Kenngröße ist beim Unsupervised Machine Learning nicht vorhanden, da es kein richtiges Label gibt. Deshalb muss das Modell mit konkreten Beispielen getestet werden und anhand dessen die Qualität des Modells beurteilt werden.

Wie funktioniert Unsupervised Machine Learning?

Für das unüberwachte Lernen kommen vor allem Künstliche Neuronale Netze zum Einsatz. Diese sind dem biologischen Aufbau des Gehirns nachempfunden. Jedes Eingabesignal durchläuft dabei verschiedene Schichten von Neuronen, welche es anhand von erlernten Regeln verarbeiten. Diese Netzwerke eignen sich sehr gut, um komplexe Aufgaben zu bearbeiten und Zusammenhänge zu erkennen und zu erlernen.

Ein Vorgang, der in diesem Zusammenhang stattfindet, ist das sogenannte Clustering. Das Ziel ist es Daten ohne Gruppenzuordnung, also ohne Label, einer Gruppe zuzuweisen. Wir könnten beispielsweise einen Bilddatensatz mit Darstellungen von Hunden und Katzen untersuchen. Die Bilder haben jedoch kein Label, also es gibt keine Beschriftung, die uns für jedes Foto sagt, ob es sich um einen Hund oder eine Katze handelt.

Den Unsupervised Learning Algorithmus würden wir anschließend darauf trainieren, die Bilder in zwei Cluster zu gruppieren. In der Trainingsphase muss das Modell dann erkennen, worin sich das Abbild eines Hundes und einer Katze unterscheidet. Dies könnte ein Ansatzpunkt sein, an dem das Modell die Gruppierung vornehmen kann.

Welche Anwendungen von Unsupervised Learning gibt es?

Unüberwachtes Lernen kann in den verschiedensten Bereichen eingesetzt werden und es kommen immer neue Anwendungsfälle dazu. Die Anforderungen an die Datenqualität sind nicht hoch, weil wir keine Zuordnungen im Trainingssatz benötigen, wie beim Supervised Learning.

Die folgenden Beispiele sind die beliebtesten Anwendungen für Unsupervised Learning:

  • Kundensegmentierung im Marketing: Mithilfe von unüberwachtem Lernen können bisher unerkannte Zusammenhänge zwischen Kunden genutzt werden, um diese in möglichst homogene Gruppen aufzuteilen. Diese Gruppierungen können dann genutzt werden, um eine Werbekampagne speziell auf sie abzustimmen.
  • Anomalie – Erkennung: Eine Bank verarbeitet am Tag mehrere Tausend Geldüberweisungen. Daher können betrügerische Überweisungen schnell in der Masse untergehen. Mithilfe von Unsupervised Learning lassen sich solche Betrugsversuche einfacher erkennen, falls verdächtige Transaktionen gegen sonst gültige Zusammenhänge verstoßen.
  • Warenkorbanalysen im Einzelhandel: Unüberwachtes Learning kann auch genutzt werden, um sogenannte Assoziationen herauszubilden nach dem Muster „Wer x kauft, hat danach auch y gekauft“.
  • Sprachverarbeitung: Bei Sprachassistenten, wie Siri oder Alexa, erkennen diese Modelle mit der Zeit Angewohnheiten und Sprachweisen des Nutzers. Dadurch können die Geräte besser auf den Dialekt oder die Aussprache des Anwenders eingehen.

Supervised und Unsupervised Machine Learning im Vergleich

Nehmen wir an, wir wollen einem Kind eine neue Sprache beibringen, beispielsweise Englisch. Wenn wir dies nach dem Prinzip des Supervised Learnings tun, geben wir ihm einfach ein Wörterbuch mit den englischen Wörtern und der Übersetzung in dessen Muttersprache, beispielsweise deutsch. Dem Kind wird es relativ einfach fallen mit dem Lernen zu beginnen und wahrscheinlich auch sehr schnell Fortschritte machen können, indem es sich die Übersetzungen einprägt. Darüber hinaus wird es aber Probleme haben Texte auf Englisch zu lesen und verstehen zu können, da es lediglich die Deutsch-Englisch Übersetzungen gelernt hat und nicht den grammatikalischen Aufbau von Sätzen in der englischen Sprache.

Nach dem Prinzip des Unsupervised Learnings würde das Szenario ganz anders aussehen. Wir würden dem Kind nämlich einfach beispielsweise fünf englische Bücher vorlegen und alles übrige müsste es sich selbstständig aneignen. Das ist natürlich eine sehr viel komplexere Aufgabe. Das Kind könnte mithilfe der „Daten“ beispielsweise erkennen, dass das Wort „I“ (deutsch: Ich) relativ häufig in Texten vorkommt und in vielen Fällen auch am Anfang eines Satzes steht und daraus Schlüsse ziehen.

An diesem Beispiel werden auch die Unterschiede zwischen Supervised und Unsupervised Learning sehr schön deutlich. Supervised Learning ist in vielen Fällen ein einfacherer Algorithmus und hat dadurch auch meist kürzere Trainingszeiten. Dafür lernt das Modell jedoch nur Zusammenhänge, die explizit im Trainingsdatensatz vorhanden sind und als Input dem Model gegeben wurden. Das englisch lernende Kind beispielsweise wird mithilfe des Wörterbuchs zwar relativ gut einzelne, deutsche Wörter ins Englische übersetzen können, hat jedoch nicht gelernt englische Texte lesen und verstehen zu können.

Das Bild zeigt die verschiedenen Machine Learning Felder im Überblick.
Übersicht der verschiedenen Machine Learning Kategorien

Das Unsupervised Learning hingegen steht vor einer viel komplexeren Aufgabe, da es eigenständig Strukturen erkennen und erlernen muss. Dadurch ist die Trainingszeit und der Trainingsaufwand auch höher. Der Vorteil dabei ist jedoch, dass das austrainierte Modell auch Zusammenhänge erkennt, die ihm nicht explizit antrainiert wurden. Das Kind, welches sich die englische Sprache mithilfe von fünf englischen Romanen beigebracht hat, kann möglicherweise englische Texte lesen, einzelne Wörter ins Deutsche übersetzen und auch die englische Grammatik verstehen.

Das solltest Du mitnehmen

  • Unsupervised Learning ist eine von insgesamt vier Lernmethoden im Machine Learning.
  • Die Modelle zeichnen sich dadurch aus, dass sie ohne Anweisung (also ohne Label im Trainingsdatensatz) Muster und Strukturen in Datensätzen erkennen können.
  • Diese Fähigkeit wird beispielsweise in der Sprachverarbeitung, bei der Kundensegmentierung oder Erkennung von Auffälligkeiten in Prozessen genutzt.

Andere Beiträge zum Thema Unsupervised Learning

close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner