In den letzten Jahren hat die Transformer-Architektur in vielen Bereichen der künstlichen Intelligenz, insbesondere in der Bild- und Sprachverarbeitung, enorm an Bedeutung gewonnen. Auch im Bereich der Schach-KI eröffnet diese Architektur neue Möglichkeiten, die klassische convolution-basierte Modelle, wie sie beispielsweise im DeepMind AlphaZero Projekt eingesetzt wurden, vor erhebliche Herausforderungen stellen. Das Team von Leela Chess Zero (Lc0) widmet sich intensiv der Frage, wie transformerbasierte Modelle speziell an die Anforderungen des Schachspiels angepasst und optimiert werden können. Die bisherigen Fortschritte haben nicht nur die Stärke von Leela erheblich gesteigert, sondern erlauben auch ein besseres Verständnis komplexer Spielpositionen und strategischer Konzepte. Traditionell setzen Schachprogramme auf convolutional neural networks (CNN), welche die Information einer Position über benachbarte Felder iterativ übertragen.
Obwohl dieses Konzept in vielerlei Hinsicht effektiv ist, zeigt es Schwächen beim Erfassen langfristiger Abhängigkeiten und taktischer Zusammenhänge, die über das eng benachbarte Spielfeld hinausgehen. Beispiele hierfür sind die Kontrolle von entlegenen Feldern oder komplexe Mehrfachbelastungen von Figuren, deren Verständnis für eine präzise Bewertung unerlässlich ist. Das liegt vor allem daran, dass bei CNNs Informationen von einem entfernten Feld wie a1 bis hin zu h8 zunächst durch mehrere Zwischenschritte weitergeleitet werden müssen, was die Modellierung weiter entfernter Beziehungen erschwert. Die Einführung von Transformer-Modellen als Kernarchitektur bei Leela Chess Zero hat hier einen Paradigmenwechsel eingeläutet. Transformer arbeiten mit Selbstaufmerksamkeit (self-attention), die es ermöglicht, dass jedes Feld direkt mit jedem anderen Feld auf dem Brett Informationen austauschen kann.
Damit überwinden sie die Limitierung der kleinen Rezeptivfelder von CNNs und erkennen komplexe Verbindungen auf dem Schachbrett unmittelbar. Das bisher stärkste Leela-Modell auf Transformer-Basis, genannt BT4, übertrifft seinen besten CNN-Vorgänger T78 um fast 300 Elo-Punkte in Bezug auf die Policy-Leistung und benötigt gleichzeitig weniger Rechenressourcen und Parameter. Dies zeigt eindrücklich das Potenzial transformerbasierter Architekturen im Schach. Ein zentraler Bestandteil dieser Entwicklungsarbeiten ist die Art und Weise, wie das Modell die Position der Figuren auf dem Brett kodiert. Die Idee ist, jedem der 64 Felder ein Token zuzuordnen, das dessen Zustand beschreibt.
Im Vergleich zu FEN-Darstellungen, die sequenziell sind, hat diese Herangehensweise den Vorteil, dass die Positionen auf dem Brett eine feste und eindeutige Beziehung zueinander besitzen. Trotzdem ist das Erfassen von Positionsinformationen für den Transformer mit klassischen Methoden wie der einfachen Positional Embeddings nicht ausreichend, da diese häufig auf geometrische oder sequenzbasierte Proximitätskonzepte setzen. Im Schach ist jedoch die räumliche Distanz auf dem Brett oft weniger relevant als die charakteristische Bewegungsweise der Figuren. So verbindet beispielsweise ein Springerzug zwei Felder, die formal weit auseinanderliegen können. Aus diesem Grund hat das Lc0-Team eine völlig neue Herangehensweise für das Einbringen von Positionswissen entwickelt.
Sie beziehen in das Modell sogenannte schachspezifische Distanzmaße ein, die sich an den Bewegungsmöglichkeiten von Springern, Läufern und Türmen orientieren. Dies geschieht, indem sie einem Transformerkopf einen trainierbaren Bias hinzufügen, der vor der Softmax-Berechnung auf die Attention-Logits aufgeschlagen wird. Dieses Vorgehen erhöht effektiv die relative Wichtigkeit bestimmter Feldpaare, unabhängig von ihrer klassischen Entfernung auf dem Brett. Das Ergebnis ist eine bedeutende Spielstärkensteigerung, ohne die Rechenzeiten nennenswert zu beeinträchtigen. Ein weiterer innovativer Schritt wurde mit der sogenannten „Smolgen“ Komponente realisiert.
Hierbei handelt es sich um ein dynamisches Modul, das nicht statisch die Verbindung zwischen Feldern bewertet, sondern den Grad der Aufmerksamkeit situativ anpasst. Die Grundidee ist, die momentane Komplexität einer Position auf eine kleine, numerische Repräsentation zu verdichten und auf dieser Grundlage jeweils für jeden Aufmerksamkeitskopf modulierende Zusatzinformationen zu generieren. In offenen Stellungen, in denen weite Verbindungen relevant sind, kann die Aufmerksamkeit zwischen räumlich entfernten Feldern dadurch erhöht werden. In geschlossenen Stellungen hingegen wird die Signalstärke entsprechend gedämpft. Dieses adaptive Verfahren steigert die Modellgröße effektiv um etwa 50 Prozent bei nur geringfügiger Verlangsamung der Berechnung.
Neben diesen Kerninnovationen hat das Team auch andere Aspekte der Architektur eingehend untersucht. So stellte sich heraus, dass die üblicherweise in NLP- und Vision-Transformern üblichen großen Feed-Forward-Netzwerke (FFN) keine proportionalen Verbesserungen im Schachkontext bieten. Stattdessen erzielen Modelle mit eher kleinen FFN-Größen und moderater Dimensionalität der Attention Heads die besten Ergebnisse. Ebenfalls bemerkenswert ist eine Modifikation der Eingabe-Embedding-Schicht des Modells. Hier wurden ergänzend zu den traditionellen Token-Embeddings flache Projektionen aller Felder zusammengeführt, womit das Modell von Anfang an einen umfassenderen Überblick über die gesamte Brettstellung erhält.
Trotz eines erhöhten Parameterverbrauchs führt dieser Schritt zu einer spürbaren Steigerung der Spielstärke. Die neuen Modelle zeigen nicht nur bessere Werte in Benchmark-Tests, sondern liefern auch anschauliche Erkenntnisse durch die Analyse der Attention Maps. Hierbei wird sichtbar, dass viele Attention-Heads auf bestimmte Bewegungsmuster spezialisiert sind, etwa die typischen Züge von Türmen oder Läufern, und dass die Gewichtung mit wachsender Distanz häufig abnimmt. Besonders faszinierend ist ein Head, der automatisch lernt, welche gegnerischen Figuren auf ein bestimmtes Feld ziehen können, also eine Art Bedrohungserkennung realisiert, ohne dass diese Logik explizit vorgegeben wurde. Solche emergenten Verhaltensweisen verdeutlichen die Potenz der transformerbasierten Architektur im Schach.
Die Entwicklung der Lc0-Transformermodelle wurde kontinuierlich vorangetrieben. Beginnend mit BT1, das ungefähr die Leistung des besten convolutionalen Modells erreichte, über BT2 und BT3, bei denen entscheidende Neuerungen wie das Smolgen-Modul und die neue Embedding-Struktur implementiert wurden, bis hin zu BT4, dessen deutlich vergrößerte Modellkapazität und optimierte Architektur die stärkste bisherige Spielstärke erzielten. Im Vergleich zu anderen Projekten, beispielsweise dem kürzlich von DeepMind veröffentlichten 270-Millionen-Parameter-Transformer ohne schachspezifische Anpassungen, verweist die Lc0-Variante mit ihren Domänen-optimierten Erweiterungen beeindruckende Fortschritte auf. Der Wettkampf gegen die etablierte Schach-Engine Stockfish zeigt ebenfalls den Aufstieg der Transformer-basierten Modelle. So verringerte Leela das Defizit erheblich.
Bei den TCEC Superfinals brach die Erfolgsbilanz deutlich zugunsten der neueren Transformer-Modelle um, wobei die Anzahl der gewonnenen Partien zunehmend stieg und Niederlagen seltener wurden. Diese Ergebnisse demonstrieren, dass transformerbasierte Modelle auf dem besten Weg sind, die Spitzenpositionen im Computerschach zu erobern. Trotz aller Fortschritte ist die Entwicklung noch nicht abgeschlossen. Es gibt vielversprechende Ansätze wie den Einsatz relativer Positionskodierungen, die möglicherweise die Verarbeitung von Feldbeziehungen noch feiner justieren können. Auch technologische Weiterentwicklungen wie INT8-Quantisierung könnten die Rechenperformance bei gleichbleibender Qualität nochmals signifikant erhöhen.
Andererseits wurden manche Techniken, die sich in anderen Bereichen bewährt haben, im Schach als wenig effektiv erkannt. So brachten Methoden wie Mixture of Experts (MoE) oder Gate Linear Units (GLU) keinen spürbaren Nutzen, was vermutlich an der geringeren Tokenanzahl und speziellen Eigenschaften des Schachproblems liegt. Zusammengefasst lässt sich sagen, dass die transformerbasierten Modelle von Leela Chess Zero eine neue Ära im Computerschach einläuten. Sie eröffnen nicht nur neue Türen in Richtung höherer Spielstärke und effizienterer Architektur, sondern ermöglichen auch das Verstehen von Schachphänomenen auf bisher ungeahnte Weise. Die enge Verzahnung von domänenspezifischem Wissen und moderner KI-Technik prägt die Zukunft des Schachcomputers maßgeblich.
Die Community rund um Lc0, die aus engagierten Freiwilligen besteht, treibt diese Entwicklung mit Begeisterung und Fachwissen voran. Für alle Interessierten bietet das Projekt nicht nur spannende Erkenntnisse, sondern auch zahlreiche Möglichkeiten, selbst mitzuwirken und von den Fortschritten zu profitieren.