Reinforcement Learning, kurz RL, hat sich in den letzten Jahren als ein zentraler Bereich der Künstlichen Intelligenz etabliert. Es handelt sich dabei um eine Methode, bei der ein Agent in einer Umgebung lernt, Handlungen so auszuwählen, dass seine langfristigen Belohnungen maximiert werden. Diese Lernform unterscheidet sich grundlegend von anderen Arten des maschinellen Lernens, da sie nicht auf mitgelabelten Daten basiert, sondern durch Interaktion mit der Umwelt und das Sammeln von Feedback in Form von Belohnungen lernt. Das Ziel ist es, eine Politik oder Strategie zu entwickeln, die in jedem Zustand die bestmögliche Aktion vorschlägt. Doch was genau steckt hinter den gängigen Reinforcement Learning Algorithmen und wie arbeiten sie? In diesem Artikel werden die wichtigsten Konzepte und Algorithmen des Reinforcement Learnings sowie ihre Stärken und Schwächen erläutert.
Dabei geben wir einen Einblick in praktische Anwendungen und die Herausforderungen, denen sich Entwickler und Forscher stellen müssen. Das Grundprinzip von Reinforcement Learning besteht darin, dass der Agent in einem gegebenen Zustand aus einer Reihe möglicher Aktionen wählt, die jeweils mit einer gewissen Wahrscheinlichkeit belegt sind. Ziel ist es, diese Wahrscheinlichkeiten so anzupassen, dass im Durchschnitt die Belohnungen, die in der Zukunft erzielt werden, maximiert werden. Dabei spielt die Balance zwischen Erkundung neuer Aktionen und Ausnutzung bekannter, guter Aktionen eine entscheidende Rolle. Um herauszufinden, wie „gut“ eine Aktion wirklich ist, können zwei unterschiedliche Herangehensweisen gewählt werden: Die Monte-Carlo-Methode und das Bootstrapping.
Die Monte-Carlo-Methode sammelt die vollständigen Belohnungen einer gesamten Trajektorie oder Episode, das heißt, erst wenn eine Abfolge von Aktionen komplett durchlaufen ist, wird die Summe aller erhaltenen Belohnungen ausgewertet. Diese Methode ist direkt an der Realität orientiert, besitzt dadurch einen geringen Bias, allerdings eine hohe Varianz, da die Belohnungen von einzelnen Trajektorien stark variieren können und oft sehr unterschiedlich ausfallen. Allerdings stößt diese Methode an Grenzen, wenn Episoden sehr lang sind oder gar kein natürliches Ende haben. In solchen Fällen ist es nur eingeschränkt möglich, auf vollständige Trajektorien zu warten. Das Bootstrapping-Verfahren versucht dieses Problem zu umgehen, indem ein zusätzlicher Wertschätzer, oft ein neuronales Netzwerk, trainiert wird, der die zukünftigen erwarteten Belohnungen schätzt.
Dies bedeutet zwar, dass eine gewisse systematische Verzerrung (Bias) durch die Schätzung entsteht, doch reduziert sich die Varianz, weil nicht mehr alleine auf reale Ergebnisse gewartet wird, sondern auch vorhergesagte Werte herangezogen werden. Ein Zwischenweg zwischen diesen beiden Methoden bietet der sogenannte Generalized Advantage Estimator (GAE), der mit einem Parameter lambda frei gewichtet, wie viel Gewicht auf den Monte-Carlo-Ansatz und wie viel auf den Schätzer gelegt wird. Damit schafft er eine flexible Balance zwischen Bias und Varianz. Ein klassischer und zugleich einfacher Reinforcement Learning Algorithmus ist REINFORCE. Er basiert darauf, eine Politikfunktion zu lernen, die für jeden Zustand Wahrscheinlichkeiten über die möglichen Aktionen definiert.
Diese Wahrscheinlichkeiten werden häufig durch ein neuronales Netzwerk erzeugt, dessen letzte Schicht über eine Softmax-Funktion in Wahrscheinlichkeiten übersetzt. Im laufenden Betrieb wird aus dieser Verteilung eine Aktion stochastisch ausgewählt, also zufällig entsprechend der Wahrscheinlichkeitsverteilung. Anschließend verfolgt man eine komplette Episode oder Trajektorie und berechnet für jeden Zeitpunkt die Summe der zukünftigen Belohnungen ab dort. Das Ziel ist es, über Gradientenabstieg die Probability der gewählten Aktionen zu erhöhen, sofern die insgesamt erreichte Belohnung hoch ist, und zu verringern, falls die Belohnung niedrig ist. Die zugrunde liegende Verlustfunktion enthält den negativen Logarithmus der Wahrscheinlichkeit multipliziert mit der Summe der zukünftigen Belohnungen.
Aus mathematischer Sicht bedeutet das: Je höher die Belohnung einer Aktion, desto mehr wird deren Wahrscheinlichkeit gesteigert. REINFORCE gilt allerdings als wenig effizient, da es eine hohe Varianz hat und die Schätzung der zukünftigen Belohnungen oft sehr ungenau ist. Das macht den Lernprozess datenintensiv und langsam. Zudem kann es vorkommen, dass schlechte Aktionen verstärkt werden, wenn sie zufällig zu einer hohen Belohnung führen – da der Algorithmus jede Aktion in einer erfolgreichen Trajektorie positiv bewertet. Um diesen Nachteil zu umgehen, wurde das Actor-Critic-Verfahren entwickelt.
Die zentrale Idee dabei ist: Statt die Aktionen nur nach der Gesamtsumme der Belohnungen zu bewerten, vergleicht man jede Aktion mit dem Durchschnitt oder dem erwarteten Wert aller Aktionen in diesem Zustand. Dieser Unterschied wird als „Advantage“ bezeichnet. Dazu führt man ein zweites Modell ein, den sogenannten Kritiker, der den Wert eines Zustandes, also die erwartete zukünftige Belohnung, schätzt. Der Akteur (Actor) lernt die Politik, der Kritiker (Critic) bewertet den Zustand und seine Qualität. Der Vorteil für das Lernen liegt darin, dass man nicht mehr absolute Summen von Belohnungen nutzt, sondern die Abweichung vom Vorteil – diese ist statistisch stabiler und führt zu einer besseren Steuerung der Anpassungen.
Technisch wird die Verlustfunktion modifiziert, sodass mit dem Advantage multipliziert wird anstelle der vollen Belohnungssumme. Der Kritiker wird selbstständig trainiert, indem er den Fehler zwischen seinen Schätzungen und den höheren, tatsächlichen Belohnungen minimiert, meist über den mittleren quadratischen Fehler. Beide Netzwerke können dabei entweder getrennt oder innerhalb eines gemeinsamen neuronalen Netzwerks parallel agieren, was den Trainingsprozess vereinfacht. Eine moderne Erweiterung der Actor-Critic-Algorithmen ist Proximal Policy Optimization (PPO). Anstatt wie beim klassischen Actor-Critic-Ansatz nur eine kleine Aktualisierung der Politik vorzunehmen, optimiert PPO das Verhalten durch viele kleine Schritte und verhindert dabei zu drastische Änderungen.
Große Schritte könnten dazu führen, dass unser Modell zu stark auf fehlerhafte oder zufällige Advantage-Schätzungen reagiert, was zu schlechteren politischen Policies führen kann, die sich schwer wieder korrigieren lassen. PPO arbeitet mit zwei Politiknetzwerken: dem aktuellen und dem alten. Für jede Aktion wird das Verhältnis der Wahrscheinlichkeiten beider Modelle berechnet. Um zu verhindern, dass sich das neue Modell zu weit vom alten entfernt, wird dieses Verhältnis in einem festgelegten Bereich – meist nah bei eins – abgeschnitten. So sorgt PPO dafür, dass keine Aktion zu stark bevorzugt oder bestraft wird.
Dabei wird die Optimierung mehrfach über dieselben Daten durchgeführt, aber stets kontrolliert, dass die Politik „proximale“ oder nahe bei der alten Politik bleibt. PPO hat sich aufgrund seiner Robustheit und Effizienz schnell als Standardmethode in vielen Reinforcement Learning-Anwendungen etabliert, auch weil es im Gegensatz zu klassischen Methoden weniger hyperparameterempfindlich ist. Reinforcement Learning Anwendungen finden sich in vielen Bereichen, angefangen bei der Robotik, wo Industrieroboter eigenständig komplizierte Aufgaben erlernen, bis hin zur Spieleentwicklung, in der KI-Agenten komplexe Spielstrategien entwickeln. Besonders bekannt sind Erfolge bei Spielen wie Go oder komplexen Computerspielen, wo Algorithmen wie AlphaGo oder OpenAI Five mit Hilfe von fortgeschrittenem Reinforcement Learning menschliche Profis besiegen konnten. Dennoch gibt es auch Herausforderungen bei der Anwendung von Reinforcement Learning Algorithmen.
Dazu zählen die hohe Datenabhängigkeit, die Komplexität und oft der Rechenaufwand großer neuronaler Modelle. Außerdem kann die Varianz bei der Schätzung von Belohnungen zu einer unsteten Lernentwicklung führen. Die Balance zwischen Exploration und Ausnutzung zu finden, bleibt eine wichtige Fragestellung, ebenso wie die Stabilität und Robustheit trainierter Policies unter nicht vollständig bekannten Umgebungsbedingungen. Die Kombination aus klassischen Ansätzen wie REINFORCE, die Intuition liefern, und modernen, stabileren Methoden wie Actor-Critic und PPO zeigt, wie das Feld sich kontinuierlich weiterentwickelt. Zukünftige Forschungen beschäftigen sich aktuell damit, diese Methoden noch effizienter und anwendungsfreundlicher zu machen, etwa durch den Einsatz von hierarchischen Modellen, Multi-Agentenumgebungen oder besserem Verständnis der zugrundeliegenden mathematischen Strukturen.
Letztlich ist Reinforcement Learning eine faszinierende und mächtige Methode im Bereich der künstlichen Intelligenz, die das Potenzial hat, Lernprozesse näher an die Flexibilität und Kreativität biologischer Systeme zu bringen. Mit einem tiefen Verständnis der verschiedenen Algorithmen und deren Einsatzgebiete eröffnen sich ganz neue Möglichkeiten, intelligente Systeme zu bauen, die in einer komplexen und dynamischen Welt optimale Entscheidungen treffen können.