Zum Inhalt springen

Was ist der Stochastic Gradient Descent?

Der Stochastic Gradient Descent ist ein Algorithmus zum Training von Machine Learning Modellen und insbesondere von tiefen Neuronalen Netzwerken. Der Unterschied des Stochastic Gradient Descent im Vergleich zum regulären Gradientenverfahren ist, dass der Gradient nicht vom gesamten Batch berechnet wird, sondern lediglich von einem Subset. Dadurch kann vor allem im hochdimensionalen Raum die benötigte Rechenleistung deutlich reduziert werden.

Wofür nutzt man das Gradientenabstiegsverfahren?

Das Ziel von Künstlicher Intelligenz ist es ganz allgemein einen Algorithmus zu erschaffen, der mit hilfe von Eingabewerten möglichst genau eine Vorhersage treffen kann, also dem tatsächlichen Ergebnis sehr nahe kommt. Die Differenz zwischen der Vorhersage und der Realität wird von der sogenannten Verlustfunktion in einen mathematischen Wert gewandelt. Das Gradientenverfahren wird genutzt, um das Minimum der Verlustfunktion zu finden, denn dann ist der optimale Trainingszustand des Modells gefunden.

Das Training des KI Algorithmus dient dann dazu, die Verlustfunktion so weit wie möglich zu minimieren, um eine gute Vorhersagequalität zu haben. Das Künstliche Neuronale Netzwerk beispielsweise ändert in jedem Trainingsschritt die Gewichtung der einzelnen Neuronen, um sich so dem tatsächlichen Wert anzunähern. Um das Minimierungsproblem der Verlustfunktion gezielt angehen zu können und nicht zufällig die Werte der einzelnen Gewichte zu ändern, werden spezielle Optimierungsverfahren genutzt. Im Bereich von Künstlicher Intelligenz kommt am Häufigsten das sogenannte Gradientenabstiegsverfahren zum Einsatz. 

Warum nähern wir uns dem Minimum und berechnen es nicht einfach? 

Aus dem mathematischen Teilbereich Analysis wissen wir, dass ein Minimum oder Maximum bestimmt werden kann, indem wir die erste Ableitung gleich null setzen und dann prüfen, ob an dieser Stelle die zweite Ableitung ungleich 0 ist. Theoretisch könnten wir dieses Verfahren auch für die Verlustfunktion des Künstlichen Neuronalen Netzwerkes anwenden und das Minimum damit genau berechnen.

In höheren mathematischen Dimensionen mit vielen Variablen ist die genaue Berechnung jedoch sehr aufwendig und würde viel Rechenzeit und vor allem Ressourcen in Anspruch nehmen. In einem Neuronalen Netzwerk können wir schnell mehrere Millionen Neuronen haben und somit auch entsprechend mehrere Millionen Variablen in der Funktion. 

Deshalb verwenden wir Näherungsverfahren, um uns dem Minimum schnell annähern zu können und uns nach einigen Wiederholungen sicher sein können, einen Punkt nahe dem Minimum gefunden zu haben.

Was ist die Grundidee von Gradient Descent?

Hinter dem Gradientenverfahren steht ein mathematisches Prinzip, das besagt, dass der Gradient einer Funktion (die Ableitung einer Funktion mit mehr als einer unabhängigen Variablen) in die Richtung zeigt, in die die Funktion am stärksten steigt. Entsprechend gilt auch das Gegenteil, also, dass die Funktion in die entgegengesetzte Richtung des Gradienten am stärksten abfällt. 

Beim Gradient Descent Verfahren versuchen wir, möglichst schnell das Minimum der Funktion finden zu können. Im Fall von Künstlicher Intelligenz suchen wir das Minimum der Verlustfunktion und wollen diesem sehr schnell nahe kommen. Wenn wir also in die negative Richtung des Gradienten gehen, wissen wir, dass die Funktion am stärksten abfällt und wir somit auch dem Minimum am schnellsten näher kommen.

Das Diagramm zeigt das Gradientenverfahren am Beispiel. Es ist der Funktionsgraph von f(x) = x² zu sehen und die Tangenten an verschiedenen Stellen.
Beispiel Gradientenverfahren | Quelle: Autor

Für die Funktion f(x) = x² haben wir an einigen Stellen die Tangenten mit der Steigung f’(x) gezeichnet. In diesem Beispiel liegt das Minimum an der Stelle x = 0. An der Stelle x = -3 hat die Tangente eine Steigung von -6. Laut dem Gradientenverfahren sollten wir uns in die negative Richtung des Gradienten bewegen, um dem Minimum näher zu kommen, also – (- 6) = 6. Das bedeutet, der x-Wert des Minimum ist größer als -3. An der Stelle x = 1 hingegen hat die Ableitung f’(1) einen Wert von 2. Die entgegengesetzte Richtung des Gradienten wäre also -2, das heißt der x-Wert des Minimums ist kleiner als x = 1. Dadurch kommen wir schrittweise dem Minimum näher. 

In Kurzform besagt das Gradientenverfahren:

  • Ist die Ableitung der Funktion an der Stelle x negativ, gehen wir vorwärts in x-Richtung, um das Minimum zu finden. 
  • Ist die Ableitung der Funktion an der Stelle x positiv, gehen wir rückwärts in x-Richtung, um das Minimum zu finden. 

Bei einer Funktion mit mehr als einer Variablen, betrachten wir dann nicht nur die Ableitung, sondern den Gradienten. Dieser ist im mehrdimensionalen Raum das Äquivalent zur Ableitung im zweidimensionalen Raum. 

Welche Probleme können bein Gradient Descent Verfahren auftreten?

Es gibt zwei große Problemfelder mit denen wir bei der Nutzung des Gradientenverfahrens möglicherweise umgehen müssen:

  • Wir landen bei einem lokalen Minimum der Funktion statt bei einem globalen: Funktionen mit vielen Variablen haben sehr wahrscheinlich nicht nur ein Minimum. Wenn eine Funktion mehrere Extremwerte, wie beispielsweise Minima hat, sprechen wir bei dem Mininum mit dem niedrigsten Funktionswert vom globalen Minimum. Die anderen Minima sind sogenannte lokale Minima. Das Gradientenverfahren bewahrt uns nicht automatisch davor ein lokales Minimum zu finden statt des globalen. Um diesem Problem zu entgehen können wir jedoch viele verschiedene Startpunkte testen, um zu sehen, ob alle in Richtung desselben Minimums konvergieren. 
  • Ein weiteres Problem kann auftreten, wenn wir das Gradient Descent Verfahren im Zusammenhang mit Neuronalen Netzwerken und deren Verlustfunktion nutzen. In speziellen Fällen, bspw. bei der Nutzung von Feedforward Netzwerken, kann es dazu kommen, dass der Gradient instabil ist, also entweder sehr groß oder sehr klein wird und gegen 0 tendiert. Mit Hilfe anderer Aktivierungsfunktionen der Neuronen oder bestimmten initialen Werten der Gewichte kann man diesen Effekten vorbeugen. Dies sprengt jedoch den Rahmen dieses Beitrags. 
  • Im klassischen Verfahren kann die Berechnung des Gradienten sehr rechenintensiv sein und dadurch zu höheren Kosten bei der Rechenleistung bzw. mehr Zeit beim Training bedeuten.

Was ist der Stochastic Gradient Descent?

Beim “klassischen” Gradientenverfahren wir der Gradient erst nach jedem Batch berechnet, weshalb man auch vom Batch Gradient Descent spricht. Ein Batch ist ein Teil der Trainingsdaten, der in vielen Fällen 32 oder 64 Trainingsinstanzen besitzt. Dabei werden erst die Vorhersagen für alle Instanzen im Batch berechnet und dann die Gewichtungen per Backpropagation geändert. Dadurch kann vor allem bei aufwändigen Modellen, beispielsweise in der Bild- oder Sprachverarbeitung, die Rechenleistung sehr stark ansteigen. In diesen Anwendungen sind die Informationen zusätzlich relativ sparse, das bedeutet, dass die Daten zwar viele Attribute haben, diese jedoch auch oftmals den Wert 0 haben.

Der Stochastic Gradient Descent liefert deshalb den Ansatz, dass der Gradient nicht von einem Batch berechnet wird, sondern für jeden Datenpunkt. Das heißt in jeder Iteration wird lediglich ein einzelner Datenpunkt genutzt. Dadurch verringert sich die genutzte Rechenleistung enorm, da der restliche Batch nicht im Arbeitsspeicher vorgehalten werden muss. Man spricht vom Stochastic Gradient Descent, da in jedem Trainingsschritt der Gradient lediglich eine Näherung an den tatsächlichen Gradienten darstellt.

Was sind die Vor- und Nachteile des Stochastic Gradient Descents?

Die Nutzung des Stochastic Gradient Descent bietet die folgenden Vorteile:

  • Effizienz: Durch die Nutzung eines kleineren Samples wird die benötigte Rechenleistung deutlich verringert und es können Kosten im Training eingespart werden.
  • Trainingszeit: Bei größeren Datensätzen kann der Stochastic Gradient Descent zu einer schnelleren Konvergenz führen, da die Parameter deutlich häufiger angepasst werden, als bei der Verarbeitung im Batch. Wie wir gleich sehen werden, kann dieser Punkt jedoch in beide Richtung tendieren.
  • Einfache Nutzung: Das Konzept des Stochastic Gradient Descent ist vergleichsweise einfach und kann deshalb auch sehr schnell programmiert und abgeändert werden.

Jedoch sollte der Stochastic Gradient Descent nur dann genutzt werden, wenn die Verarbeitung im Batch nicht möglich wäre, denn es ergeben sich unter anderem die folgenden Nachteile:

  • Noise im Training: Durch den ungenauen Gradienten, ist der Weg zum Minimum der Verlustfunktion deutlich steiniger und geprägt von Noise.
  • Trainingszeit: Durch größere Noise kann auch die Trainingszeit im Vergleich zur herkömmlichen Vorgehensweise steigen. Dieser Punkt ist somit immer von der konkreten Anwendung abhängig.
  • Hyperparameter: Beim Stochastic Gradient Descent liegen deutlich mehr Hyperparameter vor, die man zum Erreichen eines guten Ergebnisses zusätzlich anpassen muss.

Wie lässt sich der Stochastic Gradient Descent in Python umsetzen?

Scikit-Learn bietet bereits eine einfache Funktion mit deren Hilfe sich der Stochastic Gradient Descent ohne große, eigene Programmierung umsetzen lässt. Abhängig von der Anwendung kann man zwischen einem Classifier und einer Regression wählen:

from sklearn.linear_model import SGDClassifier

clf = SGDClassifier(loss="hinge", penalty="l2", max_iter=5)

Zum Training müssen auch erstmal keine zusätzlichen Parameter angegeben werden, die man nicht sowieso benötigen würden, wie beispielsweise die Angabe der Verlustfunktion.

Das solltest Du mitnehmen

  • Der Stochastic Gradient Descent ist eine Abwandlung des “klassischen” Batch Gradient Descent und unterscheidet sich darin, dass nicht eine Teilmenge des Datensatzes zur Berechnung des Gradienten genutzt wird, sondern lediglich ein einzelner Datensatz.
  • Es wird vor allem beim Training von Text- oder Bildklassifikationen genutzt, bei denen die Datenmengen oft sehr groß sind und viel Speicherplatz benötigt wird. Durch den Stochastic Gradient Descent lässt sich erheblich Rechenleistung sparen, da nicht der komplette Batch in den Arbeitsspeicher geladen werden muss. Dadurch wird das Training günstiger oder mit den gegebenen Ressourcen überhaupt erst möglich.
  • Zu den Nachteilen des Stochastic Gradient Descent zählt, dass im Training deutlich mehr Noise auftreten kann, was zu einer langsameren Trainingszeit führt, da der Weg der Verlustfunktion zum Minimum deutlich steiniger ist.
Adagrad

Was ist Adagrad?

Entdecken Sie Adagrad: Der Adaptive Gradientenabstieg für die effiziente Optimierung von maschinellem Lernen.

Line Search

Was ist die Line Search?

Line Search entdecken: Optimieren Sie Algorithmen im Machine Learning indem Sie die perfekte Step Size einfacher finden.

Sarsa

Was ist SARSA?

Entdecken Sie SARSA: ein leistungsstarker RL-Algorithmus für fundierte Entscheidungen. Erfahren Sie, wie er die KI-Fähigkeiten verbessert.

Monte Carlo Methods / Monte Carlo Simulation

Was sind Monte Carlo Simulationen?

Entdecken Sie die Leistungsfähigkeit und Vorteile von Monte Carlo Simulationen bei der Problemlösung.

Verlustfunktion / Loss Function

Was ist eine Verlustfunktion?

Erforschung von Verlustfunktionen beim maschinellen Lernen: Ihre Rolle bei der Modelloptimierung und Auswirkungen auf die Robustheit.

Binary Cross-Entropy

Was ist der Binary Cross-Entropy Loss?

Eintauchen in die Binary Cross-Entropy: Eine Verlustfunktion beim maschinellen Lernen. Entdecken Sie Anwendungen und Nutzen.

Andere Beiträge zum Thema Stochastic Gradient Descent

Die Dokumentation in Scikit-Learn für den Stochastic Gradient Descent findest Du hier.

Das Logo zeigt einen weißen Hintergrund den Namen "Data Basecamp" mit blauer Schrift. Im rechten unteren Eck wird eine Bergsilhouette in Blau gezeigt.

Verpass keine neuen Beiträge!

Wir versenden keinen Spam! Lies die Details gerne in unserer Datenschutzrichtlinie nach.

Cookie Consent mit Real Cookie Banner