In der heutigen Machine Learning Literatur führt kein Weg mehr an Transformer Modellen aus dem Paper „Attention is all you need“ (Vaswani et al. (2017)) vorbei. Speziell im Bereich des Natural Language Processing sind die darin erstmals beschriebenen Transformer Modelle (bspw. GPT-2 oder BERT) nicht mehr wegzudenken. In diesem Beitrag wollen wir die Kernpunkte dieses vielzitierten Papers erklären und die daraus resultierenden Neuerungen aufzeigen.
Was sind Transformer?
Soweit wir wissen, ist der Transformer jedoch das erste Transduktionsmodell, das sich ausschließlich auf die Selbstaufmerksamkeit (im Englischen: Self-Attention) stützt, um Repräsentationen seiner Eingabe und Ausgabe zu berechnen, ohne sequenzorientierte RNNs oder Faltung (im Englischen Convolution) zu verwenden.
Übersetzt aus dem englischen Originaltext: Attention is all you need (Vaswani et al. (2017)).
In verständlichem Deutsch bedeutet dies, dass das Transformer Modell die sogenannte Self-Attention nutzt, um für jedes Wort innerhalb eines Satzes die Beziehung zu den anderen Wörtern im gleichen Satz herauszufinden. Dafür müssen nicht, wie bisher, Recurrent Neural Networks oder Convolutional Neural Networks zum Einsatz kommen. Um zu verstehen, warum das so außergewöhnlich ist, sollten wir uns erstmal genauer anschauen, in welchen Bereichen Transformer zum Einsatz kommen.
Wo kommen Transformer zum Einsatz?
Transformer werden aktuell vor allem für Übersetzungsaufgaben genutzt, wie beispielsweise auch bei www.deepl.com. Darüber hinaus sind diese Modelle auch für weitere Anwendungsfälle innerhalb des Natural Language Processings (NLP) geeignet, wie bspw. das Beantworten von Fragen, Textzusammenfassung oder das Klassifizieren von Texten. Das GPT-2 Modell ist eine Implementierung von Transformern, dessen Anwendungen und die Ergebnisse man hier ausprobieren kann.
Self-Attention am Beispiel einer Übersetzung
Wie wir bereits festgestellt haben, war die große Neuheit des Papers von Vaswani et al. (2017) die Nutzung des sogenannten Self-Attention Mechanismus für textuelle Aufgabenstellungen. Dass dies ein Hauptbestandteil der Modelle ist, sieht man auch bei einem Blick auf die allgemeine Architektur der Transformer.

Was dieser Mechanismus konkret bewirkt und warum er so viel besser ist, als die vorherigen Ansätze wird im folgenden Beispiel deutlich. Dazu soll der folgende deutsche Satz mithilfe von Machine Learning ins Englische übersetzt werden:
„Das Mädchen hat das Auto nicht gesehen, weil es zu müde war.“
Für einen Computer ist diese Aufgabe leider nicht so einfach, wie für uns Menschen. Die Schwierigkeit an diesem Satz ist das kleine Wort „es“, das theoretisch für das Mädchen oder das Auto stehen könnte, obwohl aus dem Kontext deutlich wird, dass das Mädchen gemeint ist. Und hier ist der Knackpunkt: der Kontext. Wie programmieren wir einen Algorithmus, der den Kontext einer Sequenz versteht?
Vor Veröffentlichung des Papers „Attention is all you need“ waren sogenannte Recurrent Neural Networks die state-of-the-art Technologie für solche Fragestellungen. Diese Netzwerke verarbeiten Wort für Wort eines Satzes. Bis man also bei dem Wort „es“ angekommen ist, müssen erst alle vorherigen Wörter verarbeitet worden sein. Dies führt dazu, dass nur noch wenig Information des Wortes „Mädchen“ im Netzwerk vorhanden sind bis der Algorithmus überhaupt bei dem Wort „es“ angekommen ist. Die vorhergegangenen Worte „weil“ und „gesehen“ sind zu diesem Zeitpunkt noch deutlich stärker im Bewusstsein des Algorithmus. Es besteht also das Problem, dass Abhängigkeiten innerhalb eines Satzes verloren gehen, wenn sie sehr weit auseinander liegen.
Was machen Transformer Modelle anders? Diese Algorithmen prozessieren den kompletten Satz gleichzeitig und gehen nicht Wort für Wort vor. Sobald der Algorithmus das Wort „es“ in unserem Beispiel übersetzen will, wird zuerst die sogenannte Self-Attention Layer durchlaufen. Diese hilft dem Programm andere Wörter innerhalb des Satzes zu erkennen, die helfen könnten das Wort „es“ zu übersetzen. In unserem Beispiel werden die meisten Wörter innerhalb des Satzes einen niedrigen Wert für die Attention haben und das Wort Mädchen einen hohen Wert. Dadurch ist der Kontext des Satzes bei der Übersetzung erhalten geblieben.
Welche Arten von Transformern gibt es?
Transformer sind eine Art von maschinellen Lernmodellen, die in den letzten Jahren an Popularität gewonnen haben, insbesondere im Bereich der Verarbeitung natürlicher Sprache. Es gibt mehrere Arten von Transformer, die häufig beim maschinellen Lernen verwendet werden, jeder mit seinen eigenen Stärken und Schwächen.
- Transformer-Encoder: Dieses Modell ist eine Art von Transformer, der in der bahnbrechenden Arbeit „Attention is All You Need“ von Vaswani et al. (2017) eingeführt wurde. Es wurde entwickelt, um sequentielle Daten wie Text- oder Zeitreihendaten zu verarbeiten, indem es einen Mechanismus der Selbstaufmerksamkeit nutzt, der es ihm ermöglicht, sich auf verschiedene Teile der Eingabesequenz zu konzentrieren. Das Modell hat bei einer Reihe von Aufgaben zur Verarbeitung natürlicher Sprache, einschließlich maschineller Übersetzung und Stimmungsanalyse, Spitzenergebnisse erzielt.
- BERT: Das BERT-Modell (Bidirectional Encoder Representations from Transformers) wurde in der Veröffentlichung „BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding“ von Devlin et al. (2018) vorgestellt. Es wird auf großen Mengen von Textdaten mit einem maskierten Sprachmodellierungsziel vortrainiert, wodurch es kontextuelle Repräsentationen von Wörtern und Sätzen lernen kann. Das BERT-Modell hat beeindruckende Ergebnisse bei einer Reihe von Aufgaben zur Verarbeitung natürlicher Sprache erzielt, darunter die Beantwortung von Fragen und die Inferenz natürlicher Sprache.
- GPT: Das GPT-Modell (Generative Pre-trained Transformer) ist ein weiterer Typ von Transformer, der in der Arbeit „Improving Language Understanding by Generative Pre-Training“ von Radford et al. (2018) vorgestellt wurde. Das GPT-Modell wird ebenfalls auf großen Mengen von Textdaten vortrainiert, verwendet aber ein generatives Sprachmodellierungsziel, um zu lernen, kohärenten Text zu erzeugen. Das GPT-Modell hat beeindruckende Ergebnisse bei einer Reihe von Aufgaben zur Erzeugung natürlicher Sprache erzielt, z. B. bei der Übersetzung und Vervollständigung von Texten.
- XLNet: Das XLNet-Modell ist ein transformatorbasiertes Sprachmodell, das in der Publikation „XLNet“ in dem Artikel „Generalized Autoregressive Pretraining for Language Understanding“ von Yang et al. (2019) vorgestellt wurde. XLNet verwendet eine permutationsbasierte Vortrainingsmethode, die es ermöglicht, alle möglichen Ordnungen der Eingabesequenz zu modellieren. Diese Methode hat gezeigt, dass sie BERT bei einer Reihe von Aufgaben zur Verarbeitung natürlicher Sprache übertrifft.
- T5: Das T5-Modell (Text-to-Text Transfer Transformer) ist ein transformatorbasiertes Sprachmodell, das in der Arbeit „Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer“ von Raffel et al. (2019) vorgestellt wurde. T5 ist ein vielseitiges Modell, das für eine Reihe von Aufgaben zur Verarbeitung natürlicher Sprache fein abgestimmt werden kann, indem die Aufgabe einfach als Eingabe- und Ausgabepaare bereitgestellt wird. T5 hat bei einer Reihe von Aufgaben zur Verarbeitung natürlicher Sprache, einschließlich Zusammenfassungen, maschineller Übersetzung und Beantwortung von Fragen, Spitzenergebnisse erzielt.
Insgesamt haben die verschiedenen Arten jeweils ihre eigenen Stärken und Schwächen und eignen sich für unterschiedliche Arten von maschinellen Lernaufgaben. Die Forscher erforschen weiterhin neue Anwendungen und Verbesserungen bestehender Transformer-Modelle mit dem Ziel, die Genauigkeit und Effizienz dieser leistungsstarken Modelle zu verbessern.
LSTM und RNN vs. Transformer
Die Künstliche Intelligenz ist aktuell sehr kurzlebig, was bedeutet, dass neue Erkenntnisse teilweise schon sehr schnell wieder überholt und verbessert wurden. Genaus so wie LSTM die Schwachstellen von Recurrent Neural Networks beseitigt hat, können sogenannte Transformer Modelle noch bessere Ergebnisse liefern als LSTM.

Die Transformer unterscheiden sich grundsätzlich darin zu bisheringen Modellen, dass sie Texte nicht Wort für prozessieren, sondern ganze Abschnitte als ganzes betrachten. Dadurch haben sie deutliche Vorteile Kontexte besser zu verstehen. Dadurch sind auch die Probleme des Kurz- und Langzeitgedächtnises, die mithilfe von LSTMs teilweise gelöst wurden, nicht mehr vorhanden, denn wenn man den Satz sowieso als Ganzes betrachtet, gibt es keinerlei Probleme, dass Abhängigkeiten vergessen werden könnten.
Darüber hinaus sind Transformer in der Berechnung bidirektional, was bedeutet, dass sie bei der Verarbeitung von Worten auch die unmittelbar folgenden und vorherigen Wörter in die Berechnung mit einbeziehen können. Klassische RNN oder LSTM Modelle können dies nicht, da sie sequenziell arbeiten und somit nur vorangegangene Wörter Teil der Berechnung sind. Dieser Nachteil wurde zwar versucht mit sogenannten bidirektionalen RNNs zu vermeiden, jedoch sind diese deutlich rechenaufwändiger als Transformer.
Die bidirektionalen Recurrent Neural Networks haben jedoch noch kleine Vorteile gegenüber den Transformern, da die Informationen in sogenannten Self-Attention Schichten gespeichert werden. Mit jedem Token mehr, das aufgenommen werden soll, wird diese Schicht schwerer zu berechnen und erhöht somit die benötigte Rechenleistung. Diese Erhöhung des Aufwands gibt es hingegen bei bidirektionalen RNNs nicht in diesem Ausmaß.
Was sind die Grenzen von Transformer-Modellen?
Transformer-Modelle haben sich bei einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung bewährt. Allerdings haben sie auch ihre Grenzen. Zum einen benötigen diese Modelle große Mengen an Trainingsdaten, was sie in Situationen, in denen Daten knapp oder teuer sind, schwierig macht.
Zusätzlich können diese Modelle rechenintensiv sein, insbesondere bei der Feinabstimmung für bestimmte Aufgaben, was zu Schwierigkeiten beim Training großer Modelle auf Standardhardware führt. Ohne die Verwendung einer Grafikkarte ist ein Training dieser Modelle nicht oder nur mit langen Wartezeiten möglich.
Drittens können Transformer-Modelle schwierig zu interpretieren sein, insbesondere wenn sie für komplexe Aufgaben wie die Generierung natürlicher Sprache verwendet werden. Infolgedessen kann es schwierig sein, zu verstehen, wie das Modell seine Vorhersagen trifft oder Fehlerquellen oder Verzerrungen zu erkennen.
Zusätzlich haben Transformer-Modelle zwar bei einer Reihe von Aufgaben zur Verarbeitung natürlicher Sprache beeindruckende Ergebnisse erzielt, aber es besteht nach wie vor Bedarf an Modellen, die sich auf neue Bereiche oder Sprachen verallgemeinern lassen. Aktuelle Modelle haben möglicherweise Schwierigkeiten, sich an neue Datenverteilungen anzupassen oder Sprachen mit begrenzten Trainingsdaten zu verarbeiten.
Schließlich können Transformationsmodelle anfällig für Verzerrungen in den Trainingsdaten sein, was zu verzerrten Vorhersagen führt. Dies kann Bedenken hinsichtlich Fairness und Gerechtigkeit aufwerfen. Daher besteht ein Bedarf an Techniken zur Identifizierung und Abschwächung von Verzerrungen in Transformationsmodellen, um faire und gerechte Ergebnisse zu gewährleisten.
Zusammenfassend lässt sich sagen, dass Transformationsmodelle zwar erhebliche Fortschritte bei der Verarbeitung natürlicher Sprache gemacht haben, dass es aber wichtig ist, ihre Grenzen zu berücksichtigen und neue Techniken zu entwickeln, um diese Herausforderungen zu bewältigen.
Das solltest Du mitnehmen
- Transformer ermöglichen neue Fortschritte im Bereich des Natural Language Processings.
- Transformer nutzen sogenannte Attention Layer. Dadurch werden alle Wörter in einer Sequenz für die Aufgabe genutzt, egal wie weit die Worte in der Anordnung voneinander entfernt sind.
- Transformer lösen Recurrent Neural Networks für solche Aufgaben ab.
Andere Beiträge zum Thema Transformer Modelle
- Das ursprüngliche Paper findest Du hier.