Zum Inhalt springen

Reinforcement Learning: Bestärkendes Lernen erklärt!

Das Reinforcement Learning (Deutsch: Bestärkendes Lernen) ist neben Supervised, Unsupervised und Semi-Supervised Learning die vierte große Lernmethode im Bereich des Machine Learnings. Der Hauptunterschied besteht darin, dass das Modell kein Datenmaterial zum Trainieren benötigt. Es erlernt Strukturen, indem es für gewünschte Verhaltensweisen belohnt und für schlechte bestraft wird.

Beispiele von Reinforcement Learning

Bevor wir uns im Detail anschauen können, wie der Ablauf eines Trainings bei solchen Modellen aussieht, sollten wir verstehen, in welchen Situationen diese Algorithmen helfen können:

  • Bestärkendes Lernen wird genutzt, wenn man einem Computer beibringen will Spiele zu spielen. Es soll gelernt werden, welche Taktiken zum Sieg führen und welche nicht.
  • Beim Autonomen Fahren kommen diese Lernalgorithmen auch zum Einsatz, damit das Fahrzeug von selbst entscheiden kann, welche Handlungsoption die Beste ist.
  • Für die Klimatisierung von Server Räumen werden auch Reinforcement Learning Modelle genutzt, die entscheiden, wann und wie stark man den Raum herunterkühlen muss.

Die Anwendungen von Reinforcement Learning sind im Allgemeinen dadurch gekennzeichnet, dass eine Vielzahl von aufeinanderfolgenden Entscheidungen getroffen werden müssen. Diese könnte der Programmierer auch konkret dem Computer vorschreiben (Beispiel Raumtemperatur: „Wenn die Temperatur über 24 °C steigt, dann kühle runter auf 20 °C“).

Mithilfe von Bestärkendem Lernen will man jedoch verhindern eine Kette von Wenn-Dann-Bedingungen zu formulieren. Zum einen kann dies in vielen Anwendungsfällen, wie beispielsweise dem Autonomen Fahren, schlicht unmöglich sein, da der Programmierer nicht alle Eventualitäten absehen kann. Zum anderen erhofft man sich durch diese Modelle auch die Entwicklung von neuen Strategien für komplexe Fragestellungen, zu denen ein Mensch möglicherweise auch gar nicht in der Lage wäre.

Funktionsweise von Reinforcement Learning

Reinforcement Learning Modelle sollen darauf trainiert werden eine Reihe von Entscheidungen selbstständig zu treffen. Angenommen wir wollen einen solchen Algorithmus, den Agenten, darauf trainieren das Spiel Pac-Man möglichst erfolgreich zu spielen. Der Agent startet auf einer beliebigen Stelle im Spielfeld und hat eine begrenzte Anzahl an möglichen Aktionen, die er ausführen kann. In unserem Fall wären das die vier Richtungen (oben, unten, rechts oder links), die er auf dem Spielfeld gehen kann.

Die Umwelt in der sich der Algorithmus in diesem Spiel befindet ist das Spielfeld und die Bewegung der Geister, denen man nicht begegnen darf. Nach jeder Aktion, beispielsweise gehe nach oben, erhält der Agent ein direktes Feedback, den Reward. Bei Pac-Man sind dies entweder das Erhalten von Punkten oder eine Begegnung mit einem Geist. Es kann auch vorkommen, dass nach einer Aktion kein direkter Reward erfolgt, sondern dieser erst in Zukunft stattfindet, also beispielsweise erst in ein oder zwei weiteren Aktionen. Für den Agenten sind Rewards, die in der Zukunft liegen, weniger wert als unmittelbare Rewards.

Über die Zeit bildet der Agent eine sogenannte Policy aus, also eine Strategie von Aktionen, die ihm langfristig den höchsten Reward versprechen. In den ersten Runden wählt der Algorithmus komplett zufällige Aktionen aus, da er noch keinerlei Erfahrungen sammeln konnte. Mit der Zeit jedoch bildet sich eine erfolgsversprechende Strategie heraus.

Unterschiede zwischen Machine Learning Lernmethoden

Im Bereich des Machine Learning unterscheidet man insgesamt vier verschiedene Lernmethoden:

  1. Supervised Learning Algorithmen erlernen Zusammenhänge mithilfe eines Datensatzes, der bereits das Label enthält, welches das Modell vorhersagen soll. Sie können jedoch nur Strukturen erkennen und erlernen, die in den Trainingsdaten enthalten sind. Supervised Modelle werden beispielsweise in der Klassifizierung von Bildern eingesetzt. Mithilfe von Bildern, die bereits einer Klasse zugeordnet sind, lernen Sie Zusammenhänge zu erkennen, die sie dann auf neue Bilder anwenden können.
  2. Unsupervised Learning Algorithmen lernen aus einem Datensatz, der diese Labels jedoch noch nicht hat. Sie versuchen eigene Regeln und Strukturen zu erkennen, um die Daten in Gruppen einteilen zu können, die möglichst gleiche Eigenschaften aufweisen. Unsupervised Learning kann beispielsweise genutzt werden, wenn man Kunden in Gruppen aufteilen will, anhand gemeinsamer Merkmale. Dazu können zum Beispiel die Bestellhäufigkeit oder die Bestellhöhe genutzt werden. Welche Eigenschaften das Modell konkret nutzt, entscheidet es selbst.
  3. Semi-Supervised Learning ist die Mischung aus Supervised Learning und Unsupervised Learning. Das Modell hat einen relativ kleinen Datensatz mit Labels zur Verfügung und einen deutlich größeren Datensatz mit unbeschrifteten Daten. Das Ziel ist es, aus den wenigen beschrifteten Daten Zusammenhänge zu lernen und diese in dem unbeschrifteten Datensatz zu testen, um daraus zu lernen.
  4. Das Reinforcement Learning unterscheidet sich zu den bisherigen Methoden darin, dass es keine Trainingsdaten braucht, sondern lediglich über das beschriebene Belohnungssystem funktioniert und lernt.

Ist Reinforcement Learning die Zukunft von Deep Learning?

Reinforcement Learning wird Deep Learning auch in Zukunft nicht ersetzen können. Diese zwei Teilbereiche sind zwar stark miteinander verbunden sind jedoch nicht dasselbe. Deep Learning Algorithmen sind sehr gut geeignet, Strukturen in großen Datensätzen zu erkennen und auf neue, unbekannte Daten anzuwenden. Reinforcement Learning Modelle hingegen führen Entscheidungen herbei, auch ohne Trainingsdatensätze.

In vielen Teilbereichen werden auch weiterhin Machine Learning und Deep Learning Modell ausreichend sein, um ein gutes Ergebnis zu erzielen. Der Erfolg von Reinforcement Learning führt hingegen dazu, dass nun auch neue Bereiche von Künstlicher Intelligenz erschlossen werden können, die vorher undenkbar werden. Es gibt jedoch auch Anwendungen, wie beispielsweise das Handeln von Aktien, in denen das Bestärkende Lernen Deep Learning Modelle ablösen wird, da es bessere Ergebnisse liefert.

In diesem Bereich wurde bisher versucht, das Erkennen und Handeln von neuen Aktien aus vergangenen Marktdaten erlernen zu können. Für das Aktiengeschäft kann es jedoch deutlich vielversprechender sein einen Reinforcement Learning Algorithmus darauf zu trainieren eine konkrete Strategie zu entwickeln, unabhängig von vergangenen Daten.

Das solltest Du mitnehmen

  • Reinforcement Learning bezeichnet eine Lernmethode im Bereich des Machine Learnings.
  • Es bezeichnet Modelle, die darauf trainiert werden eine Abfolge von Entscheidungen vorhersagen zu können, die eine möglichst hohe Erfolgsquote versprechen.
  • Reinforcement Learning wird beispielsweise genutzt, um Computern Spiele beizubringen oder die richtigen Entscheidungen beim Autonomen Fahren zu treffen.

Andere Beiträge zum Thema Reinforcement Learning

close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner