Steuern und Kryptowährungen

Ist Gemini jetzt besser als Claude bei Pokémon? Ein tiefer Einblick in die KI-Spielwelt

Steuern und Kryptowährungen
Is Gemini now better than Claude at Pokémon?

Ein umfassender Vergleich der KI-Modelle Gemini und Claude im Kontext ihres Fortschritts bei Pokémon, inklusive der Herausforderungen bei der Bewertung, der unterschiedlichen Agent-Harnesses und der Entwicklungsperspektiven für KI im Gaming-Bereich.

Künstliche Intelligenz hat in den letzten Jahren beeindruckende Fortschritte gemacht, vor allem im Bereich der Sprachmodelle, die nun zunehmend komplexe Aufgaben in virtuellen Umgebungen bewältigen können. Ein besonderes Beispiel dafür ist die Fähigkeit dieser Modelle, klassische Videospiele wie Pokémon zu spielen. Dabei stehen aktuell zwei große Modelle im Fokus: Claude von Anthropic und Gemini von Google. Die spannende Frage, die sich viele KI-Interessierte stellen, lautet: Ist Gemini mittlerweile besser als Claude bei Pokémon? Um diese Frage zu beantworten, lohnt es sich, tiefer in den Hintergrund und die Besonderheiten beider Projekte einzutauchen und die relevanten Faktoren zu verstehen, die einen direkten Vergleich erschweren. Anthropic brachte mit Claude 3.

7 Sonnet einen Benchmark auf den Markt, der speziell auf die Herausforderung abzielte, Pokémon zu schlagen. Daraufhin reagierte Google mit dem Modell Gemini 2.5 Pro, das laut eigenen Angaben den bisherigen Fortschritt von Claude signifikant übertroffen haben soll. Auf den ersten Blick wirkt das wie ein klarer Vorsprung für Gemini. Die Zahlen scheinen eindeutiger Natur zu sein: Gemini hat das Spiel im Vergleich zu Claude nahezu doppelt so weit vorangetrieben, und das mit nur etwa einem Drittel der Aktionen.

Während Claude ungefähr 215.000 Aktionen für seinen Fortschritt benötigte, kam Gemini mit rund 68.000 Aktionen aus. Doch diese Sichtweise greift zu kurz, weil Gemini und Claude nicht einfach unter identischen Bedingungen antreten. Die sogenannten "Agent Harnesses", also die Umgebungen und Werkzeuge, mit denen die Modelle Pokémon spielen, weisen entscheidende Unterschiede auf.

So bekommen beide KI-Agenten zwar beratende System-Prompts, Zugriff auf Screenshots mit zusätzlicher Information, Einblick in den Arbeitsspeicher des Spiels, die Möglichkeit, Text für Planungszwecke zu speichern, Werkzeuge zur Übersetzung von Text in Tastatureingaben sowie Wegefindungshilfen. Auch kritische Instanzen, die Fehler erkennen und korrigieren, kommen zum Einsatz. Der entscheidende Unterschied zeigt sich aber in der Implementierung dieser Komponenten. Claude empfängt andere visuellen Informationen als Gemini. Letzterer hat den Vorteil, eine textuelle Repräsentation einer Minikarte zu erhalten, was bei der Navigation durchaus hilfreich ist, da beide Modelle Schwierigkeiten haben, die Pixelbilder ihrer Screenshots exakt zu interpretieren.

Diese textbasierte Mini-Karte ist ein signifikanter Vorteil für Gemini und erleichtert ihm das Verständnis der Spielumgebung enorm, während Claude mit einer robusteren Wegfindungs-Tooling aufwarten kann, das ihn bei der Navigation unterstützt, sofern bestimmte Koordinaten korrekt vom Modell angefragt werden. Darüber hinaus ist zu beachten, dass Claude Pokémon Red spielt, während Gemini Pokémon Blue spielt. Zwar sind beide Spiele sehr ähnlich, aber Kleinigkeiten können dennoch Einfluss auf das Spielerlebnis und die Herausforderungen haben. Die Teammitglieder, abschnittsweise Events oder exklusive Pokémon könnten den Fortschritt um Nuancen beeinflussen, was einen weiteren Faktor für die Vergleichbarkeit darstellt. Ein weiterer zentraler Punkt ist die Entwicklung und Betreuung der einzelnen Projekte.

ClaudePlaysPokemon wird von David Hershey betreut, der das Benchmark-Konzept damals mitentwickelt hat. GeminiPlaysPokemon hingegen wird von Joel Z., einem unabhängigen Softwareingenieur, der inspiriert von Claude das eigene Projekt Anfang 2025 gestartet hat. Joel gibt offen zu, dass er aktiv in die Entwicklung des Agent-Harnesses eingreift und das System während des Spiels laufend optimiert. Diese Anpassungen verbessern die Entscheidungsfindung und die strategische Ausrichtung von Gemini direkt während des Spiels.

Allerdings gibt er auch klar an, dass solche Eingriffe keine direkten Hinweise oder Lösungen für konkrete Spielabschnitte darstellen. Dabei räumt er ein, dass hinter den Kulissen eine gewisse Art von Assistenz stattfindet. Im Gegensatz dazu durchlief Claude bereits vor dem Streaming diverse Verbesserungen, sodass sein Agent im Großen und Ganzen mit stabileren Systemen an den Start ging. Bei Gemini dagegen sieht man die Entwicklung quasi live, was die Vergleichbarkeit wieder erschwert. Denn während Joel den Agent-Harness permanent verbessert und Fehler ausbügelt, entspricht die Claude-Version einer ausgereifteren aber auch statischeren Variante.

Diese Umstände führen zu einer grundsätzlichen Skepsis bei der Frage, ob Gemini tatsächlich besser ist als Claude bei Pokémon. Gleichsam ist Joel Z. selbst sehr vorsichtig in seiner Interpretation der Ergebnisse und betont, dass kein direkter Vergleich stattfinden kann, da die Rahmenbedingungen verschieden sind. Er empfiehlt den Zuschauern, sich selbst einen Eindruck von den unterschiedlichen Stärken und Schwächen der KI-Agenten zu verschaffen, statt sich auf vermeintliche Rankings zu verlassen. Trotzdem gibt es interessante Beobachtungen.

So wirkt Gemini besonders gut darin, Objekte besser zu erkennen und eigene Karten für die Welt zu erstellen. Claude hingegen scheint eher dazu geneigt zu sein, aufzugeben, wenn er an scheinbar aussichtslos erscheinenden Herausforderungen arbeitet. Beide Modelle zeigen jedoch, dass sie oft von begrenztem Kurzzeitgedächtnis und Einschränkungen im Verständnis komplexer Spielmechaniken behindert werden. Häufig verfängt sich die KI in endlosen Schleifen oder verliert den Überblick über strategische Ziele, was sich in einem großen Anteil von nutzlosen oder verwirrten Schritten widerspiegelt. Ein weiterer Aspekt, der den Spielprozess beeinflusst, sind die sogenannten "Vision-Probleme".

Die KI kann zwar Screenshots empfangen, interpretiert diese jedoch häufig fehlerhaft oder unvollständig, was zu Fehlern und unnötigen Aktionen führt. Dieses Problem ist bei beiden Systemen ähnlich ausgeprägt, wobei Gemini dank der zusätzlichen Textinformationen bei der visuellen Orientierung Vorteile hat. Hinsichtlich der Wegfindung hat Claude durch sein präzises Navigator-Tool Vorteile, das es ermöglicht, relativ effizient zu einem validen Koordinatenpunkt auf dem Bildschirm bewegt zu werden. Gemini hingegen kann mit einer eigenen Instanz einen komplexen Suchalgorithmus simulieren, der sogar komplizierte Labyrinthe besser bewältigt, wodurch sich teilweise bessere Ergebnisse zeigen lassen. Trotzdem ist die Navigation für beide Modelle eine der schwierigsten Aufgaben in der Pokémon-Welt.

Eine weitere Hürde bei der Bewertung ist, dass es sich bei Pokémon nicht um einen standardisierten Test handelt, der in kurzer Zeit wiederholt werden kann. Die Spiele dauern über hunderte Stunden und der Fortschritt hängt nicht nur von den Fähigkeiten der KI ab, sondern auch von „modellbedingtem Zufall“ und der Art, wie Aufgaben und Herausforderungen im Spiel auftreten. Beispielsweise können bestimmte Items oder Ereignisse zufällig erst im Laufe der Zeit auftauchen, was den Zeitbedarf in die Länge ziehen kann. Um einen rigorosen Benchmark zu erstellen, müssten viele vollständige Durchläufe über lange Zeiträume durchgeführt werden, was logistisch und finanziell kaum zu bewältigen ist. Auch bei Menschen sind Pokémon-Spiele kein komplett reinrassiger Skill-Test, da Glück, Erinnerungsvermögen und Interpretationsfähigkeit eine Rolle spielen.

Bei den KI-Modellen kommen noch technische Limitierungen hinzu. Zum Beispiel laufen sie in Emulationsumgebungen mit Schnittstellen, die Eingaben in Button-Presses übersetzen, oft basierend auf Text oder abstrahierten Informationen, die je nach Agent-Harness unterschiedlich sind. Solche Unterschiede machen es unmöglich, verlässliche direkte Vergleiche anzustellen. Dennoch steht fest, dass beide Modelle spannende Einblicke in die Fähigkeiten moderner KI geben. Obwohl sie nicht „intelligent“ im menschlichen Sinne sind, demonstrieren sie erstaunliche Fortschritte in der Bewältigung komplexer Aufgabenstellungen in einer simulierten Welt.

Sie sind in der Lage, ihren Plan anzupassen, lernen aus Fehlern und können sogar strategische Elemente wie Kämpfe und Item-Management bewältigen. In der Community gibt es verschiedene Sichtweisen: Einige sehen die besseren Fortschritte von Gemini als einen Beleg für die Überlegenheit großer multimodaler Modelle und deren Agent-Harnesses. Andere interpretieren die Ergebnisse deutlich vorsichtiger und weisen darauf hin, dass die Qualität des Agent-Harnesses, also der externen Hilfen und Tools, oft den größten Einfluss hat – mehr als das reine Modell selbst. Im Bezug auf die KI-Entwicklung und das Ziel, eine allgemeine künstliche Intelligenz zu erreichen, wird dieser Benchmark als Test für die „Agentenfähigkeit“ gesehen: Wie gut kann ein KI-Modell sich in einer komplexen Umgebung orientieren und zielgerichtet handeln? Die Fortschritte bei Pokémon, obwohl mit vielen Vorbehalten versehen, sind Teil eines größeren Trends, der zeigt, dass KI-Modelle langsam in der Lage sind, in deutlich strukturierteren und längeren Aufgaben menschliche Fähigkeiten zu imitieren. Ein dauerhaftes Fazit ist nun aber deutlich: Es gibt bisher keinen klaren „Champion“ zwischen Claude und Gemini bei Pokémon.

Beide zeigen Stärken und Schwächen, beide haben unterschiedliche Werkzeuge und Rahmenbedingungen, und beide haben noch viel Luft nach oben. Wer wirklich beurteilen will, welches Modell besser agiert, muss tiefer verstehen, welche Agent-Harnesses eingesetzt werden, wie die Modellinstanzen interagieren, und wie viel menschliche Hilfe in Form von Prompting und Anpassung tatsächlich stattfindet. Für Fans und Beobachter bedeutet das, dass der Wettbewerb zwischen Claude und Gemini mehr ein Experiment ist, bei dem man Innovationen und Iterationen beobachten kann, als ein klassischer Wettstreit. Eines ist klar: Die Entwicklung von Agent-Harnesses, also der Umgebung und der Tools für KI-Agenten, hat einen mindestens ebenso großen Einfluss auf den Erfolg wie die zugrunde liegende Modellgröße oder Architektur. Im Endeffekt zeigt das Thema auch, wie schwierig es heute noch ist, die wahre Leistungsfähigkeit großer Sprachmodelle an einer komplexen Aufgabe zu messen.

Pokémon als Benchmark ist spannend, interessant und bietet Einblicke, aber es verdeutlicht auch den Bedarf an standardisierten, wiederholbaren und fairen Tests, die Modelle in möglichst gleichen Umgebungen vergleichen. Wer sich für die Zukunft interessiert, wird gespannt verfolgen, wie sich beide Projekte weiterentwickeln, wie die Agent-Harnesses verbessert werden und ob neue, noch leistungsfähigere Modelle entstehen, die bald beide Systeme übertreffen. Bis dahin ist der Wettstreit zwischen Claude und Gemini bei Pokémon ein faszinierendes Beispiel für den Stand der KI-Forschung: beeindruckend, vielfältig und voller Herausforderungen zugleich.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Markets shed $1 trillion as 'Magnificent Seven' and crypto markets take big hits
Freitag, 16. Mai 2025. Finanzmärkte im Sturzflug: 'Magnificent Seven' und Kryptowährungen verlieren zusammen eine Billion Dollar

Der globale Aktienmarkt erlebt massive Verluste, wobei die sogenannten 'Magnificent Seven' und die Kryptowährungsmärkte zusammen rund eine Billion Dollar an Wert einbüßen. Ursachen, Auswirkungen und mögliche Zukunftsaussichten werden ausführlich beleuchtet.

Markets shed $1 trillion as 'Magnificent Seven' and crypto markets take big hits
Freitag, 16. Mai 2025. Marktcrash 2025: Wie die 'Magnificent Seven' und der Kryptomarkt Billionenverluste hinnehmen mussten

Die globalen Finanzmärkte erleben 2025 eine massive Turbulenz, in der sowohl die führenden US-Tech-Aktien, bekannt als die 'Magnificent Seven', als auch die Kryptowährungen einen beispiellosen Wertverlust erleiden. Ein tiefer Einblick in die Ursachen, Auswirkungen und die Zukunftsaussichten für Investoren im Lichte dieser markanten Korrekturperiode.

The Blockchain Effect: How Cryptocurrency is Transforming Finance Forever
Freitag, 16. Mai 2025. Der Blockchain-Effekt: Wie Kryptowährungen die Finanzwelt für immer verändern

Blockchain-Technologie und Kryptowährungen revolutionieren das Finanzwesen grundlegend: Sie sorgen für mehr Transparenz, Sicherheit und Inklusion und stellen traditionelle Bankensysteme auf den Kopf. Die Entwicklungen rund um DeFi, Tokenisierung und digitale Zentralbankwährungen weisen den Weg in eine neue Ära der Finanzinnovation.

Walmart plans EV Charging network which will blanket the US within a few years
Freitag, 16. Mai 2025. Walmart startet umfassendes EV-Ladenetzwerk: Revolution für die Elektromobilität in den USA

Walmart plant die flächendeckende Errichtung eines ultra-schnellen DC-Ladenetzwerks in den USA. Mit tausenden Standorten soll es die Elektromobilität fördern und das Laden von Elektrofahrzeugen für Millionen Kunden erleichtern.

Internet in a Box
Freitag, 16. Mai 2025. Internet in a Box: Digitale Bildung für entlegene Gemeinden in Deutschland und weltweit

Internet in a Box eröffnet Bildungschancen in Regionen ohne Internetzugang, indem es kostenloses digitales Wissen lokal bereitstellt. Diese innovative Lösung unterstützt Schulen, Kliniken und Gemeinschaften, unabhängig von der Internetverbindung Zugang zu Bildungsinhalten und digitalen Ressourcen zu erhalten.

Best AI Hacker in the World [video]
Freitag, 16. Mai 2025. Der Beste KI-Hacker der Welt: Die Revolution der Cybersicherheit durch Künstliche Intelligenz

Ein tiefgehender Einblick in die Fähigkeiten und den Einfluss des besten KI-Hackers der Welt. Wie künstliche Intelligenz die Cyberwelt verändert und neue Maßstäbe im Bereich der digitalen Sicherheit setzt.

Chinese Yuan devaluation could drive Chinese capital flight into Bitcoin– says Arthur Hayes
Freitag, 16. Mai 2025. Chinas Yuan-Abwertung könnte Kapitalflucht in Bitcoin beschleunigen – Aussagen von Arthur Hayes

Die mögliche Abwertung des chinesischen Yuan könnte zu einer verstärkten Kapitalflucht in Bitcoin führen. Der BitMEX-Mitgründer Arthur Hayes erläutert, wie historische Entwicklungen in den Jahren 2013 und 2015 eine wiederholbare Dynamik schaffen könnten.