Zum Inhalt springen

Was ist Unsupervised Learning?

Unsupervised Learning (deutsch: unüberwachtes Lernen) bezeichnet Algorithmen, die eigenständig und ohne Anweisung Strukturen und Muster in einem Datensatz erkennen. Es ist eine von insgesamt vier Lernmethoden im Machine Learning. In der Praxis werden solche Modelle zum Beispiel eingesetzt, um Datenpunkte zu Gruppen, sogenannten Clustern, zuzuordnen.

Wie definiert man Unsupervised Machine Learning?

Unsupervised Learning umfasst alle Algorithmen der Künstlichen Intelligenz, welche Strukturen und Gruppen in Daten erkennen, die vorher noch nicht explizit ausgewiesen waren. Dazu zählen beispielsweise Clustering Methoden, wie k-Means Clustering, oder die Verringerung der Dimensionalität von Daten, wie sie bei der Principal Component Analysis gemacht wird.

Das unüberwachte Lernen zeichnet sich auch durch eine sehr geringe menschliche Einflussnahme aus, da der Algorithmus fast nahezu ohne Vorgaben Zusammenhänge erlernt. Beim Clustering beispielsweise ist die einzige menschliche Vorgabe die Anzahl der Clusterzentren. Deshalb bezeichnet man Unsupervised Learning auch als Knowledge Discovery.

Der Unterschied zum Supervised Learning besteht darin, dass der Algorithmus kein vorgegebenes Mapping von Eingabedaten und Vorhersagen erlernt, sondern selbstständig nach interessanten und statistischen Strukturen und Abhängigkeiten im Datensatz Ausschau hält.

Das unüberwachte Lernen wird gerne genutzt, wenn es keine gruppierten Trainingsdaten gibt oder diese nur sehr schwierig zu besorgen wären. Das kann jedoch zu Kosten anderer Probleme sein, die bei der Nutzung von Unsupervised Machine Learning entstehen. Beispielsweise gibt es keine zentrale Metrik, welche Auskunft über die Qualität des Modells gibt. Beim Supervised Machine Learning können wir die Genauigkeit als zentrale Kenngröße nutzen, um zu bestimmen, wie häufig ein Modell das richtige Label vorhersagt.

Diese Kenngröße ist beim Unsupervised Machine Learning nicht vorhanden, da es kein richtiges Label gibt. Deshalb muss das Modell mit konkreten Beispielen getestet werden und anhand dessen die Qualität des Modells beurteilt werden.

Wie funktioniert Unsupervised Machine Learning?

Für das unüberwachte Lernen kommen vor allem Künstliche Neuronale Netze zum Einsatz. Diese sind dem biologischen Aufbau des Gehirns nachempfunden. Jedes Eingabesignal durchläuft dabei verschiedene Schichten von Neuronen, welche es anhand von erlernten Regeln verarbeiten. Diese Netzwerke eignen sich sehr gut, um komplexe Aufgaben zu bearbeiten und Zusammenhänge zu erkennen und zu erlernen.

Ein Vorgang, der in diesem Zusammenhang stattfindet, ist das sogenannte Clustering. Das Ziel ist es Daten ohne Gruppenzuordnung, also ohne Label, einer Gruppe zuzuweisen. Wir könnten beispielsweise einen Bilddatensatz mit Darstellungen von Hunden und Katzen untersuchen. Die Bilder haben jedoch kein Label, also es gibt keine Beschriftung, die uns für jedes Foto sagt, ob es sich um einen Hund oder eine Katze handelt.

Das Bild zeigt ein Koordinatensystem mit zwei Klassen von Daten in blau und gelb.
Finden von Clustern in Daten | Quelle: Autor

Den Unsupervised Learning Algorithmus würden wir anschließend darauf trainieren, die Bilder in zwei Cluster zu gruppieren. In der Trainingsphase muss das Modell dann erkennen, worin sich das Abbild eines Hundes und einer Katze unterscheidet. Dies könnte ein Ansatzpunkt sein, an dem das Modell die Gruppierung vornehmen kann.

Welche Anwendungen von Unsupervised Learning gibt es?

Unüberwachtes Lernen kann in den verschiedensten Bereichen eingesetzt werden und es kommen immer neue Anwendungsfälle dazu. Die Anforderungen an die Datenqualität sind nicht hoch, weil wir keine Zuordnungen im Trainingssatz benötigen, wie beim Supervised Learning.

Die folgenden Beispiele sind die beliebtesten Anwendungen für Unsupervised Learning:

  • Kundensegmentierung im Marketing: Mithilfe von unüberwachtem Lernen können bisher unerkannte Zusammenhänge zwischen Kunden genutzt werden, um diese in möglichst homogene Gruppen aufzuteilen. Diese Gruppierungen können dann genutzt werden, um eine Werbekampagne speziell auf sie abzustimmen.
  • Anomalie – Erkennung: Eine Bank verarbeitet am Tag mehrere Tausend Geldüberweisungen. Daher können betrügerische Überweisungen schnell in der Masse untergehen. Mithilfe von Unsupervised Learning lassen sich solche Betrugsversuche einfacher erkennen, falls verdächtige Transaktionen gegen sonst gültige Zusammenhänge verstoßen.
  • Warenkorbanalysen im Einzelhandel: Unüberwachtes Learning kann auch genutzt werden, um sogenannte Assoziationen herauszubilden nach dem Muster “Wer x kauft, hat danach auch y gekauft”.
  • Sprachverarbeitung: Bei Sprachassistenten, wie Siri oder Alexa, erkennen diese Modelle mit der Zeit Angewohnheiten und Sprachweisen des Nutzers. Dadurch können die Geräte besser auf den Dialekt oder die Aussprache des Anwenders eingehen.

Supervised und Unsupervised Machine Learning im Vergleich

Nehmen wir an, wir wollen einem Kind eine neue Sprache beibringen, beispielsweise Englisch. Wenn wir dies nach dem Prinzip des Supervised Learnings tun, geben wir ihm einfach ein Wörterbuch mit den englischen Wörtern und der Übersetzung in dessen Muttersprache, beispielsweise deutsch. Dem Kind wird es relativ einfach fallen mit dem Lernen zu beginnen und wahrscheinlich auch sehr schnell Fortschritte machen können, indem es sich die Übersetzungen einprägt. Darüber hinaus wird es aber Probleme haben Texte auf Englisch zu lesen und verstehen zu können, da es lediglich die Deutsch-Englisch Übersetzungen gelernt hat und nicht den grammatikalischen Aufbau von Sätzen in der englischen Sprache.

Nach dem Prinzip des Unsupervised Learnings würde das Szenario ganz anders aussehen. Wir würden dem Kind nämlich einfach beispielsweise fünf englische Bücher vorlegen und alles übrige müsste es sich selbstständig aneignen. Das ist natürlich eine sehr viel komplexere Aufgabe. Das Kind könnte mithilfe der “Daten” beispielsweise erkennen, dass das Wort “I” (deutsch: Ich) relativ häufig in Texten vorkommt und in vielen Fällen auch am Anfang eines Satzes steht und daraus Schlüsse ziehen.

An diesem Beispiel werden auch die Unterschiede zwischen Supervised und Unsupervised Learning sehr schön deutlich. Supervised Learning ist in vielen Fällen ein einfacherer Algorithmus und hat dadurch auch meist kürzere Trainingszeiten. Dafür lernt das Modell jedoch nur Zusammenhänge, die explizit im Trainingsdatensatz vorhanden sind und als Input dem Model gegeben wurden. Das englisch lernende Kind beispielsweise wird mithilfe des Wörterbuchs zwar relativ gut einzelne, deutsche Wörter ins Englische übersetzen können, hat jedoch nicht gelernt englische Texte lesen und verstehen zu können.

Das Bild zeigt die verschiedenen Machine Learning Felder im Überblick.
Übersicht der verschiedenen Machine Learning Kategorien | Quelle: Autor

Das Unsupervised Learning hingegen steht vor einer viel komplexeren Aufgabe, da es eigenständig Strukturen erkennen und erlernen muss. Dadurch ist die Trainingszeit und der Trainingsaufwand auch höher. Der Vorteil dabei ist jedoch, dass das austrainierte Modell auch Zusammenhänge erkennt, die ihm nicht explizit antrainiert wurden. Das Kind, welches sich die englische Sprache mithilfe von fünf englischen Romanen beigebracht hat, kann möglicherweise englische Texte lesen, einzelne Wörter ins Deutsche übersetzen und auch die englische Grammatik verstehen.

Was sind die Grenzen und Herausforderungen von Unsupervised Learning?

Beim Unsupervised Learning werden im Gegensatz zum Supervised Learning keine beschrifteten Daten verwendet, um Vorhersagen zu treffen. Stattdessen geht es darum, Muster, Beziehungen und Strukturen in den Daten zu finden, um sie in Clustern zu gruppieren und zu segmentieren, ihre Dimensionalität zu reduzieren oder Anomalien zu erkennen. Trotz seines Potenzials, verborgene Erkenntnisse in Daten zu entdecken, hat das unüberwachte Lernen mehrere Herausforderungen und Einschränkungen:

  • Fehlen einer klaren Bewertungsmetrik: Beim Unsupervised Learning ist das Ziel oft unklar, und es gibt keine klare Bewertungsmetrik zur Messung der Leistung des Modells. Im Gegensatz zum überwachten Lernen, bei dem die Vorhersagegenauigkeit eine allgemein akzeptierte Messgröße ist, werden unüberwachte Lernmodelle danach bewertet, wie gut sie Muster erkennen, Daten segmentieren oder Anomalien aufdecken können.
  • Schwierigkeit bei der Auswahl des richtigen Algorithmus: Es gibt mehrere Algorithmen für unüberwachtes Lernen, die jeweils ihre Stärken und Schwächen haben. Die Wahl des richtigen Algorithmus, der für das jeweilige Problem geeignet ist, kann eine Herausforderung darstellen. Außerdem reagieren Algorithmen für Unsupervised Learning empfindlich auf die Wahl der Hyperparameter, und die Wahl der richtigen Hyperparameter kann ohne umfangreiche Experimente schwierig sein.
  • Schwierigkeit bei der Interpretation der Ergebnisse: Unsupervised Learning liefern oft Ergebnisse, die schwer zu interpretieren sind. Im Gegensatz zum überwachten Lernen, bei dem sich die Vorhersagen des Modells anhand seiner Eingangsmerkmale erklären lassen, lassen sich die von unüberwachten Lernmodellen erzeugten Cluster möglicherweise nicht eindeutig interpretieren. Das macht es schwierig, sinnvolle Erkenntnisse aus den Ergebnissen zu ziehen.
  • Umgang mit großen Datensätzen: Algorithmen für Unsupervised Learning können sehr rechenintensiv sein, insbesondere bei großen Datensätzen. Außerdem sind einige Algorithmen möglicherweise nicht skalierbar, um große Datensätze zu verarbeiten.
  • Umgang mit Rauschen und Ausreißern: Unüberwachte Lernmodelle sind empfindlich gegenüber Rauschen und Ausreißern in den Daten. Ausreißer können die Ergebnisse des Clustering oder der Erkennung von Anomalien erheblich beeinträchtigen und zu falschen Schlussfolgerungen führen.
  • Domänenwissen: Unüberwachte Lernmodelle erfordern Domänenwissen, um die Ergebnisse sinnvoll zu interpretieren. Ohne Vorkenntnisse über den Problembereich kann es schwierig sein, die Ergebnisse zu interpretieren und sinnvolle Erkenntnisse zu gewinnen.
  • Fehlende Basiswahrheit: Unüberwachte Lernmodelle verfügen nicht über eine Basiswahrheit, mit der sie ihre Vorhersagen vergleichen können. Dies kann es schwierig machen, die Ergebnisse zu validieren und verschiedene Modelle zu vergleichen.

Trotz dieser Herausforderungen hat das unüberwachte Lernen mehrere vielversprechende Anwendungen in verschiedenen Bereichen wie Bild- und Textanalyse, Erkennung von Anomalien, Clustering und Dimensionalitätsreduktion. Da Forscher und Praktiker weiterhin robustere Algorithmen für unüberwachtes Lernen entwickeln, ist es wahrscheinlich, dass die Herausforderungen und Grenzen des unüberwachten Lernens angegangen werden und es zu einem noch leistungsfähigeren Werkzeug für die Datenanalyse wird.

Das solltest Du mitnehmen

  • Unsupervised Learning ist eine wertvolle Technik zur Entdeckung von Mustern und Strukturen in Daten, ohne dass eine ausdrückliche Kennzeichnung erforderlich ist.
  • Es hat eine breite Palette von Anwendungen in verschiedenen Bereichen, einschließlich der Verarbeitung natürlicher Sprache, der Bild- und Spracherkennung und der Erkennung von Anomalien.
  • Unsupervised Learning hat jedoch seine Tücken und Grenzen, z. B. die Schwierigkeit, die Qualität der Ergebnisse zu bewerten, und die Abhängigkeit von den Annahmen der verwendeten Algorithmen.
  • Trotz dieser Einschränkungen ist das Unsupervised Learning nach wie vor ein aktives Forschungsgebiet, und es werden neue Techniken entwickelt, um diese Herausforderungen zu bewältigen.
  • Mit der zunehmenden Verfügbarkeit großer und komplexer Datensätze wird die Bedeutung der unüberwachten Lerntechniken in Zukunft wahrscheinlich noch zunehmen.
Correlation Matrix / Korrelationsmatrix

Korrelationsmatrix – einfach erklärt!

Korrelationsmatrix erforschen: Korrelationen verstehen, Konstruktion, Interpretation und Visualisierung.

Decentralised AI / Decentralized AI

Was ist Decentralised AI?

Das Potenzial von decentralised AI freisetzen: Transformation der Technologie durch verteilte Intelligenz und kollaborative Netzwerke.

Ridge Regression

Was ist die Ridge Regression?

Erforschung der Ridge Regression: Vorteile, Implementierung in Python und die Unterschiede zu Ordinary Least Squares (OLS).

Aktivierungsfunktion / Activation Function

Was ist eine Aktivierungsfunktion?

Erfahren Sie mehr über die Bausteine des Deep Learnings: Maximieren Sie die Modellleistung mit der richtigen Aktivierungsfunktion.

Regularization / Regularisierung

Was ist die Regularisierung im Machine Learning?

Regularisierung verstehen: Erfahren Sie, wie Regularisierungstechniken die Modellleistung verbessern und eine Überanpassung verhindern.

Conditional Random Field

Was ist ein Conditional Random Field (CRF)?

Entfesseln Sie die Macht der Conditional Random Fields: Entdecken Sie fortgeschrittene Techniken und Anwendungen in diesem Leitfaden.

Andere Beiträge zum Thema Unsupervised Learning

Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner