Zum Inhalt springen

Was ist GPT-3?

Der Generative Pretrained Transformer 3, kurz GPT-3, ist ein Deep Learning Modell aus dem Bereich des Natural Language Processings, das unter anderem in der Lage ist selbstständig Texte zu verfassen, Dialoge zu führen oder aus Text Programmiercode abzuleiten. Die dritte Version des Modells, genauso wie die vorherigen, wurde von OpenAI trainiert und zur Verfügung gestellt.

Was ist ein Generative Pretrained Transformer?

Wenn man den Namen Generative Pretrained Transformer genauer betrachtet, handelt es sich bei dem GPT-3 Modell im Kern um ein Transformer Modell. Transformer Modelle sind sogenannte Sequence-to-Sequence Modelle, das heißt sie nutzen eine Wortsequenz als Input und generieren daraus eine passende Wortsequenz als Output.

Das neue an diesem Artificial Intelligence Algorithmus ist die Nutzung von sogenannten Attention Masks. Sie geben Aufschluss darüber, welche Wörter oder Tokens innerhalb einer Sequenz wichtig für die Aufgabe sind. Dadurch kann auch der Kontext eines Satzes über viele Wörter hinweg erhalten bleiben. Das war ein komplett neuer Ansatz im Vergleich zu anderen Modellen, wie beispielsweise LSTM, die für solche Anwendungen genutzt wurden.

Die verschiedenen Generationen der GPT Modelle unterscheiden sich in ihrem technischen Aufbau nicht wirklich, sondern basieren auf unterschiedlichen Datensätzen mit denen sie trainiert wurden. Das GPT-3 Modell beispielsweise nutzt diese Datensätze:

  • Common Crawl umfasst Daten aus zwölf Jahren Web Scraping inklusive Website Daten, Metadaten und Texten.
  • WebText2 enthält Websites, die in Reddit Posts erwähnt wurden. Als Qualitätsmerkmal müssen die URLs mindestens einen Reddit Score von 3 haben.
  • Books1 und Books2 sind zwei Datensätze bestehend aus Büchern, die im Internet verfügbar sind.
  • Wikipedia Corpus enthält englische Wikipedia Seiten zu verschiedensten Themen.

Wofür kann man es nutzen?

Es gibt verschiedene Anwendungsfälle für den Einsatz eines GPT-3 Modells. Neben der reinen Texterstellung und -weiterführung können unter anderem auch komplette Computerprogramme erstellt werden. Hier sind einige Beispielanwendungen, die OpenAI auf ihrer Homepage nennen:

  • Question-Answering System: Mithilfe eines kurzen, inhaltlichen Textes können auf verschiedenste Fragen die passenden Antworten generiert werden.
  • Grammatikkorrekturen: In der englischen Sprache können grammatikalisch falsche Sätze verbessert werden.
  • Zusammenfassungen: Längere Texte können in kurze, prägnante Abschnitte zusammengefasst werden. Dabei können auch die Schwierigkeitsstufen frei gewählt werden, sodass kompliziertere Texte in möglichst einfacher Sprache zusammengefasst werden.
  • Umwandlung von natürlicher Sprache in Programmiercode: Das GPT-3 Modell kann sprachliche Umschreibungen von Algorithmen in konkreten Code umwandeln. Dabei werden verschiedene Sprachen und Anwendungen unterstützt, wie beispielsweise Python oder SQL.
  • Marketingtext generieren: Das Modell kann auch genutzt werden, um aus einfachen und kurzen Produktbeschreibungen ansprechende Werbetexte zu generieren, die auf das Produkt angepasst sind.

Was sind die Schwächen eines GPT-3 Modells?

Obwohl das GPT-3 Modell ein breites Spektrum an Aufgaben abdeckt und in diesen auch sehr gute Ergebnisse liefert, gibt es ein paar, wenn auch sehr wenige, Schwächen des Modells. Die zwei Hauptpunkte, die in vielen Beiträgen dazu genannt werden, sind:

  1. Das Modell kann aktuell nur 2048 tokens (etwa 1.500 Wörter) als Input nutzen und als Output wieder zurückgeben. Aktuelle Forschungsprojekte versuchen diese Größe weiter zu erhöhen.
  2. Das GPT-3 Modell hat keine Art von Gedächtnis. Das bedeutet, dass jede Berechnung und jeder Task einzeln betrachtet wird, unabhängig von dem, was das Modell davor oder danach berechnet.

Wenn man die Anwendungsfälle aus unserem vorherigen Kapitel sieht, kann man schnell denken, dass dieses Modell viele menschliche Tätigkeiten bereits in naher Zukunft ersetzen kann. Obwohl die Ergebnisse in einzelnen Fällen bereits sehr beeindruckend sind, ist das Modell jedoch aktuell noch eher weit davon entfernt wirkliche Aufgaben oder Jobs zu übernehmen. Wenn wir beispielsweise Programmieren als Anwendungsfall nehmen, werden nur wenige Programme mit 1.500 „Wörtern“ als Output auskommen. Selbst wenn der Code in verschiedenen Stufen berechnet und zusammengesetzt wird, ist es eher unwahrscheinlich, dass die unabhängig generierten Bausteine einwandfrei zusammenarbeiten können.

Das solltest Du mitnehmen

  • Der Generative Pretrained Transformer, kurz GPT-3, ist ein Modell von OpenAI, welches im Bereich des Natural Language Processings eingesetzt wird.
  • Es kann unter anderem dazu genutzt werden, natürliche Sprache in Programmiercode umzuwandeln, inhaltstreue Zusammenfassungen von Texten zu erstellen oder ein Frage-Antwort System aufzubauen.
  • Obwohl die Fortschritte in diesem Bereich erstaunlich sind, ist die Output Größe von 2048 Tokens oder etwa 1.500 Wörtern aktuell noch eine große Schwäche.

Andere Beiträge zum Thema GPT-3

  • Über die OpenAI API steht das GPT-3 Modell frei zur Verfügung und kann für eigene Anwendungen genutzt werden.
close
Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Schlagwörter:
Cookie Consent mit Real Cookie Banner