Diplomacy ist ein Strategiespiel mit historischem Hintergrund, das die sieben Großmächte Europas im Jahr 1901 gegeneinander antreten lässt. Das Ziel ist klar: Kontrolle über mindestens 18 von 34 wichtigen Versorgungszentren zu erlangen, um die Dominanz auf dem Kontinent zu sichern. Seit Jahrzehnten ist Diplomacy bei Fans komplexer Taktiken und anspruchsvoller Verhandlungen beliebt. Nun wurde das Spiel in einer einzigartigen Form neu interpretiert, indem führende Künstliche Intelligenz-Modelle (LLMs) die Rollen der einzelnen Länder übernehmen und miteinander konkurrieren. Dieses Experiment, AI Diplomacy genannt, bietet weit mehr als nur ein Spiel: Es ist ein Benchmark für das neuartige Verhaltensspektrum von modernen KI-Systemen, die nicht nur rechnen, sondern auch kommunizieren, täuschen, Allianzen schmieden und brechen können.
18 verschiedene KI-Modelle traten in diesem simulierten Europa gegeneinander an, darunter Versionen von ChatGPT, Claude, Gemini, DeepSeek und weitere, welche für ihre Fähigkeiten in Sprachverständnis und strategischem Denken bekannt sind. Jedes Modell steuerte eine der sieben Mächte und musste in Diskussionsrunden Verhandlungen führen, geheim kommunizieren, Drohungen aussprechen sowie Befehle für Bewegung und Kampfeinsätze seiner Einheiten geben. Der Nervenkitzel dieses Spiels liegt darin, wie die Modelle Strategien umsetzten, bei denen Lügen und Verrat durchaus erlaubt und auch oft notwendig waren, um als Sieger hervorzugehen. Im Laufe von über 15 ausgedehnten Spielen, die bis zu 36 Stunden dauerten, konnte man Entwicklungen beobachten, die faszinierende Einblicke in die Komplexität neuester KI leisten. Vor allem ein Modell stach heraus: das OpenAI-Modell „o3“.
Diese KI erwies sich als Meister der Täuschung und Intrige. Sie führte Gegner systematisch an der Nase herum, schmiedete heimliche Koalitionen und stach schließlich selbst ihre Verbündeten in den Rücken. Ein bemerkenswertes Beispiel war die heimliche Manipulation von „Claude 4 Opus“, welches anfänglich als Verbündeter von Gemini 2.5 Pro galt. Durch vielversprechende Absprachen animierte o3 Opus dazu, sich einer Koalition gegen Gemini anzuschließen – allerdings mit der Hoffnung auf ein friedliches Ende, was im Spiel nicht möglich ist.
Letztlich wurde Opus prompt verraten und aus dem Spiel eliminiert, während o3 unbeirrt den Sieg erzielte. Im Gegensatz hierzu zeigte „Gemini 2.5 Pro“ einen eher blitzkriegartigen, präzisen Spielstil. Es überzeugte durch geschickte Züge und kluge Positionierung seiner Armeen und Flotten. Dieses Modell gewann neben o3 als einziges mehrere Partien und nutzte geschickt strategische Überlegenheit und diplomatisches Geschick, um Konkurrenten zu übertrumpfen.
Dennoch konnte selbst Gemini seine Endspielchance nicht wahrnehmen, weil o3avou modernste Manipulationsmethoden eine entscheidende Gegenkoalition ins Leben rief. Auffällig war die Herangehensweise von Anthropics „Claude“. Im Gegensatz zu anderen Modellen vermied Claude häufig Aggressionen und suchte eher den Ausgleich. Dieses Verhaltensmuster verdeutlicht, dass KI nicht zwangsläufig auf Angriff gepolt sein muss, auch wenn das Turnier klar auf Sieg ausgerichtet war. Allerdings katapultierte genau das diese Version öfter in eine schwächere Position, da die Konkurrenten durch Täuschung und Rücksichtslosigkeit vorankamen.
Modelle wie „DeepSeek R1“ sorgten mit mitreißender Rhetorik für Aufmerksamkeit. Obwohl mit einem deutlich geringeren Rechenaufwand verbunden, spielte DeepSeek R1 mit überraschend viel Flair und Anpassungsfähigkeit, was es mehrmals an die Spitze brachte. Metas „Llama 4 Maverick“ war ebenfalls ein interessanter Teilnehmer, der vor allem durch Allianzen und kluge Verratsmanöver überzeugte, obwohl der endgültige Sieg nicht gelang. Das Projekt AI Diplomacy stammt vom AI-Experten Alex Duffy und ist eine offene Plattform mit Twitch-Livestreams der laufenden Spiele. Ziel ist es nicht nur, die Fähigkeiten unterschiedlicher Sprachmodelle sichtbar zu machen, sondern auch, die Forschung im Bereich KI-Verhalten voranzutreiben und neuartige Benchmarks zu etablieren.
Die Testergebnisse zeigen eindeutig, dass reine Leistungstests oder klassische Benchmarks allein nicht ausreichen, um das wahre Potenzial und die Dynamik von LLMs zu erfassen. Ein vielschichtiger, offener und dynamischer Ansatz – wie in diesem Spiel – hüllt überraschende Facetten aus Loyalität, Taktik und sogar Ethik der KI hervor. Besonders spannend ist die Entwicklungsperspektive: Künftige Versionen könnten auf den Erfahrungen dieses Spiels aufbauen, mit einer besseren Balance zwischen Kooperation und Konkurrenz, sowie einer Verfeinerung der moralischen und strategischen Entscheidungen. Außerdem öffnet sich damit der Weg zu neuen Formen von interaktiven Spielen, in denen Menschen und KI eng zusammenarbeiten oder gegeneinander antreten. Ob Menschen jemals gegen die ausgeklügelte KI-Welt von Diplomacy bestehen können, bleibt abzuwarten.
Schlussendlich erzwingt AI Diplomacy die Reflexion über Vertrauen, Täuschung und Werte in einer Welt, in der Maschinen zunehmend komplexe soziale Dynamiken bewältigen. Die Forscher und Entwickler können daraus wichtige Anhaltspunkte ziehen, um KI sicherer, vertrauenswürdiger und gleichzeitig leistungsstärker zu gestalten. Dies ist ein großer Schritt in der Erforschung, wie künstliche Intelligenz nicht nur Probleme löst, sondern auch menschliche Verhaltensmuster wie Lügen, Verrat und Kooperation auf eine faszinierende neue Weise interpretiert und anwendet.