Im Mai 2025 wurde GPT-4 offiziell eingeführt und markierte einen entscheidenden Wendepunkt in der Entwicklung künstlicher Intelligenz. Dieser Meilenstein ist nicht nur ein technisches Meisterwerk, sondern auch Resultat intensiver Zusammenarbeit, Innovationsgeist und einer klaren Vision, wie KI die Informationslandschaft und die Interaktion mit Maschinen verändern kann. Hinter dem Launch steht ein Team von engagierten Fachleuten bei OpenAI, dessen Vielseitigkeit und Leidenschaft maßgeblich zum Erfolg beitrugen. Einer von ihnen war Andrew Mayne, der sowohl als Ingenieur als auch als Wissenschaftskommunikator bei OpenAI tätig war und den Start von GPT-4 hautnah miterlebte. Seine Erfahrungen und Beobachtungen bieten einen faszinierenden Einblick in die Herausforderungen und Erfolge dieses komplexen Projekts.
Das Aufkommen von ChatGPT war eine Art Vorbote für den späteren Durchbruch von GPT-4. Obwohl ChatGPT zunächst auf GPT-3.5 basierte, war es die einfache Nutzung und Zugänglichkeit, die für eine ungeahnte Popularität sorgten. Es zeigte sich, dass die Anwenderfreundlichkeit oft wichtiger ist als reine technische Überlegenheit, denn diese Anwendung wurde schnell zum globalen Phänomen. Dennoch verdeutlichte der plötzliche Erfolg von ChatGPT auch die Notwendigkeit, GPT-4 zügig auf den Markt zu bringen.
Die Entwickler bei OpenAI standen vor der Herausforderung, den Erwartungen gerecht zu werden, und arbeiteten gleichzeitig in einer relativ kleinen Firma mit vielen Verantwortungsbereichen, die sie gleichzeitig tragen mussten. Ein besonders kreatives Element des GPT-4-Launches war die Gestaltung des Logos und der begleitenden Videos. Die Zusammenarbeit mit der Kreativagentur Kornhaber/Brown führte zu einem ikonischen grünen und schwarzen Streifen-Design, das den technischen Fortschritt und die Innovationskraft von GPT-4 symbolisierte. Die Videoaufnahmen zeichneten sich durch einen bewussten Verzicht auf offizielle Titel der OpenAI-Mitarbeiter aus, um die flache und kollaborative Unternehmenskultur zu betonen, im Gegensatz zu traditionelleren, hierarchischen Unternehmensstrukturen. Diese Entscheidung veranschaulicht das besondere Arbeitsklima bei OpenAI und unterstreicht den gemeinschaftlichen Geist hinter großen technischen Leistungen.
Ein herausragendes Merkmal von GPT-4 ist seine Fähigkeit, nicht nur textbasierte Anfragen zu beantworten, sondern auch visuelle Informationen zu verarbeiten und zu interpretieren. Die sogenannte „Vision“-Funktion wurde durch vielfältige Beispiele erprobt, die zeigten, wie das Modell Bilder analysieren und komplexe Zusammenhänge verstehen kann. Eine amüsante Anektode aus der Entwicklungsphase beschreibt, wie eine einfache Aufnahme eines spärlich gefüllten Kühlschranks zu einem Rezeptvorschlag für Quesadillas führte – ein Beispiel dafür, wie KI im Alltag praktisch angewandt werden kann. Dabei wurde auch klar, dass das visuelle Verständnis von KI grundlegend anders funktioniert als das menschliche Sehen. Statt Details durch visuelle Aufmerksamkeit zu erfassen, zerlegt das Modell Bilder in verschiedene Segmente, um Muster und kausale Zusammenhänge zu erkennen.
Diese Technologie hebt GPT-4 deutlich von früheren Modellen ab und eröffnet neue Anwendungsgebiete, etwa in der Fehlerdiagnose oder der Interpretation komplexer Bildinhalte. Die Kontextlänge ist ein weiterer wesentlicher Fortschritt, den GPT-4 mit sich brachte. Während Vorgängermodelle wie GPT-3.5 mit einer maximalen Token-Anzahl von rund 4.000 begrenzt waren, kann GPT-4 bis zu 32.
768 Tokens verarbeiten, was etwa 25.000 Wörtern entspricht. Diese Erweiterung erlaubt umfassendere und detailliertere Interaktionen, die insbesondere bei der Analyse großer Textmengen oder langer Dokumente von Vorteil sind. Beispielsweise ermöglicht dieses Feature eine präzise Zusammenfassung langwieriger Inhalte, wie der Wikipedia-Seite zur Super Bowl-Performance von Rihanna, auch wenn die KI das eigentliche Ereignis aufgrund ihres Trainingszeitpunktes nicht kennen konnte. Gleichzeitig gab es Bedenken hinsichtlich der Genauigkeit bei der Verarbeitung sehr langer Kontexte, weshalb diese Funktion zunächst zurückhaltend kommuniziert wurde.
Letztlich wurde sie jedoch aufgrund ihres enormen Nutzens beibehalten und in den Funktionsumfang integriert. Die Namensfindung für GPT-4 war überraschend pragmatisch, bedenkt man die Größe des Projekts. OpenAI entschied sich trotz diverser Vorschläge von externen Agenturen dafür, den etablierten Namen „GPT-4“ beizubehalten. Dies beruhte auf der enormen Bekanntheit und dem Vertrauensvorsprung des Namens in der AI-Community und bei der breiten Öffentlichkeit. Ein griffiger und vertrauter Name war essentiell, um die enorme Erwartungshaltung zu erfüllen und die potenziellen Nutzer nicht durch neue Bezeichnungen zu verwirren.
Gleichzeitig arbeitet OpenAI weiter an Modellen mit völlig neuen Bezeichnungen, um andere Technologieparadigmen zu erforschen. Ein besonders bemerkenswerter Aspekt war der bewusste Einbezug von Sprachen, die vom Aussterben bedroht sind. Als ein Symbol für die globale Ausrichtung und kulturelle Vielfalt wurde die isländische Sprache mit besonderer Priorität ins Training aufgenommen. Die Kooperation mit einer isländischen Delegation zeigte den Willen OpenAIs, eine KI zu schaffen, die wirklich international und vielfältig nutzbar ist, nicht nur auf den dominanten Sprachraum der Großmächte beschränkt. Dieses Engagement weckte in Island nationalen Stolz und symbolisiert zugleich den Bestrebungen der KI, kulturelles Erbe für kommende Generationen zu bewahren.
GPT-4 ist jedoch nicht nur in technologischer Hinsicht beeindruckend, sondern auch aufgrund der komplexen Balance zwischen Leistungsfähigkeit und Sicherheit. Die stetige Verbesserung der Systeme bedeutete oft, dass manche Fähigkeiten erweitert wurden, während andere verloren gingen. In der Praxis führte dies dazu, dass GPT-3.5 in einigen Aufgaben, etwa beim Schachspiel, einzelne Versionen von GPT-4 zeitweise übertraf. Dieses Paradox entmystifiziert die Idee eines linearen Fortschritts und verdeutlicht, wie tiefgreifend und nuanciert die Arbeit an großen Sprachmodellen ist.
Darüber hinaus ließ die Arbeit mit videobasierten Inhalten spannende Möglichkeiten erkennen. Durch die Extrahierung einzelner Frames aus Videos konnte GPT-4 diese Bilder interpretieren und z. B. Tanzbewegungen oder Golf-Schwünge analysieren. Obwohl die vollständige Videokompetenz damals noch nicht demonstriert wurde, zeigten diese Experimente das Potential für zukünftige Anwendungen in der Videoanalyse und dem Verständnis zeitlicher Abläufe.
Interessanterweise nutzte auch die Konkurrenz ähnliche Methoden, was zeigt, dass der technische Vorsprung weniger in der Idee, als in der präzisen Umsetzung und dem verantwortlichen Umgang mit den Möglichkeiten liegt. Andrew Mayne reflektiert aus persönlicher Sicht über seine Rolle im Entstehungsprozess von GPT-4. Sein Berufsweg, der von der Unterhaltung bis zur künstlichen Intelligenz reicht, zeigt, wie vielfältig die Menschen hinter den Technologien sind. Für ihn war die Arbeit mit GPT-4 eine lebensverändernde Erfahrung, die ihn tief mit der Vision und der Wirkung von KI verband. Die Gelegenheit, an einem so bahnbrechenden Projekt mitzuwirken, war für ihn ein Highlight seiner Karriere, das ihn zugleich demütig und inspiriert zurückließ.
Der Start von GPT-4 ist somit nicht nur eine technologische Errungenschaft, sondern auch ein soziales und kulturelles Ereignis. Er greift zentrale Fragestellungen auf: Wie sieht der künftige Umgang mit Wissen aus? Welche Rolle spielen KI und Menschen in der Informationsverarbeitung? Und wie kann Technologie integrativ und verantwortungsvoll eingesetzt werden? Das Modell ist Ergebnis einer akribischen Forschung, multiperspektivischer Einbindung und der ständigen Reflexion über ethische und praktische Herausforderungen. Für die Zukunft zeigt GPT-4 sowohl die Möglichkeiten als auch die Grenzen moderner künstlicher Intelligenz auf und eröffnet spannende Optionen für verschiedenste Anwendungen, vom Alltag bis zur Wissenschaft. Die Veröffentlichung dieses Modells stellt damit einen bedeutenden Schritt auf dem Weg zu einer umfassenderen, zugänglicheren und intelligenteren digitalen Zukunft dar.