Die Bildbearbeitung gehört seit jeher zu den zentralen Werkzeugen in der Gestaltung visueller Inhalte. Von der professionellen Werbung über Social Media bis hin zur privaten Verbesserung von Fotos ist das Bearbeiten von Bildern allgegenwärtig geworden. Mit dem Aufstieg der generativen Künstlichen Intelligenz (GenAI) haben sich neue Möglichkeiten eröffnet, um diese Aufgaben automatisiert und effizient zu bewältigen. Besonders die jüngsten Entwicklungen der KI-Modelle GPT-4o, Gemini 2.0 und SeedEdit schaffen Erwartungen und Diskussionen darüber, ob Maschinen die kreative und präzise Arbeit menschlicher Bildbearbeiter ersetzen können.
Eine umfassende Studie, die sich auf tatsächliche Bildbearbeitungsanfragen aus der Reddit-Community /r/PhotoshopRequest stützt, bietet hierzu tiefgehende Erkenntnisse und lässt wichtige Fragen beantworten: Was erwarten Nutzer wirklich von Bildbearbeitungswerkzeugen? Wo liegen die Grenzen aktueller KI? Und wie unterscheiden sich die Bewertungen zwischen Menschen und KI-Modellen? Die Analyse von 83.000 realen Bildbearbeitungsanfragen mit mehr als 300.000 menschlichen Bildbearbeitungen und diversen KI-generierten Alternativen zeigt auf, dass trotz großer Fortschritte derzeit nur rund ein Drittel der Aufgaben mit KI zufriedenstellend gelöst werden kann. Die verbleibenden zwei Drittel werden weiterhin von erfahrenen menschlichen Bildbearbeitern besser ausgeführt. Dies unterstreicht, dass trotz technischer Innovation im Bereich der Bildbearbeitung noch ein relevanter Bedarf an menschlicher Expertise besteht – gerade wenn es um präzises Arbeiten und Erhalt wichtiger Bildmerkmale geht.
Ein auffälliges Ergebnis der Studie ist die Beobachtung, dass KI-systeme tendenziell eher bei kreativen und offenen Aufgaben gut abschneiden, bei denen Originalität zählt und Interpretationsspielraum besteht. Beispielsweise können KI-Modelle bei Aufgaben wie Stiländerungen oder künstlerischen Transformationen oftmals eindrucksvolle Resultate liefern. Hingegen fällt es ihnen umso schwerer, wenn es um gering kreative, stark strukturierte Bearbeitungen geht, beispielsweise präzises Entfernen von Personen oder Objekten aus einem Bild. Besonders problematisch ist das Erhalten der Identität von abgebildeten Personen und Tieren. Hier kommt es häufig zu unerwünschten Veränderungen und Verzerrungen, die das Resultat unrealistisch und für den Nutzer unbefriedigend machen.
Gerade GPT-4o zeigt in diesem Bereich Schwächen, besonders wenn aufeinanderfolgende Bearbeitungsschritte durchgeführt werden und das Gesicht oder andere wichtige Merkmale der Person über mehrere Iterationen hinweg verfälscht werden. Eine weitere wichtige Erkenntnis betrifft die Ästhetik der erstellten Bilder. Moderne KI-Modelle wie SeedEdit und GPT-4o neigen häufig dazu, das Bild über das gezielte Bearbeiten hinaus zu verbessern. So werden unaufgefordert Haut geglättet, Gesichtszüge optimiert oder kleinere Schäden repariert, auch wenn dies nicht explizit im Auftrag gefordert wurde. Dies führt oftmals zu einer Erhöhung der allgemeinen ästhetischen Bewertung des Bildes, was laut messbaren Scores wie dem LAION Aesthetic Score unterstützt wird.
Überraschenderweise zeigt sich jedoch, dass trotz dieser ästhetischen Aufwertung menschliche Bewerter häufig die menschlich erstellten Bearbeitungen bevorzugen. Das weist darauf hin, dass reine Verbesserung der Optik nicht zwangsläufig mit einer Erfüllung der Nutzerwünsche gleichzusetzen ist. Viele Nutzer legen auf Präzision, Authentizität und die verlässliche Umsetzung ihrer konkreten Anweisungen Wert – Punkte, in denen KI noch Nachholbedarf besitzt. Die Taxonomie der Bildbearbeitungsanfragen, die in der Studie entwickelt wurde, hilft dabei zu verstehen, welche Motivkomponenten (Personen, Tiere, Objekte, komplette Bilder) und Bearbeitungsaktionen (hinzufügen, löschen, anpassen, transformieren etc.) am häufigsten gewünscht werden.
Die häufigste Aktion ist mit knapp einem Drittel das Löschen, etwa von Personen oder störenden Objekten, um die Bildästhetik zu verbessern. Über die Zeit zeigten sich auch vielfältige kreative Anforderungen an Bildumwandlungen, die stark von den subjektiven Vorstellungen der Nutzer geprägt sind. Die Unterteilung aller Bearbeitungen in Niedrig-, Mittel- und Hoch-Kreativitätslevel macht deutlich, dass KI bei Hochkreativität überraschend besser abschneidet, vermutlich weil hier Originalität eine höhere Gewichtung erhält und nicht so sehr die exakte Wiedergabe von Details gefordert wird. Zusätzlich zur menschlichen Bewertung wurde auch die Einschätzung durch Vision-Language-Modelle (VLM) wie GPT-4o, o1 und Gemini-2.0-Flash-Thinking in die Studie einbezogen.
Diese Systeme sollten als automatisierte Richter fungieren, um objektivere und skalierbare Bewertungen liefern zu können. Allerdings zeigte sich eine Diskrepanz: VLMs bewerten KI-Bilder oft positiver und bevorzugen sie in etwa 50 Prozent aller Fälle, während menschliche Bewerter deutlich die menschlichen Bearbeitungen vorziehen. Insbesondere der VLM o1 vergab erstaunliche 83,9 Prozent seiner Stimmen an GPT-4o-KI-Bearbeitungen – ein klares Indiz für systemische Verzerrungen und Blinde Flecken in der automatischen Bildbewertung. Die Agreement-Werte (Cohen’s Kappa) zwischen menschlicher und automatisierter Bewertung bleiben niedrig und zeigen, dass VLMs aktuell wenig geeignet sind, menschliche Präferenzen zuverlässig zu ersetzen. Der Vergleich der KI-Modelle SeedEdit, Gemini 2.
0 und GPT-4o offenbart Unterschiede bei der Bearbeitungsqualität. SeedEdit erzielte die höchsten Zustimmungsraten bei menschlichen Bewertern, während GPT-4o insbesondere bei der Beibehaltung von Personenidentitäten und der Vermeidung unerwünschter Bildveränderungen hinterherhinkte. Gemini 2.0 zeigte zwar in einigen Szenarien überzeugende Resultate, war aber oft weniger präzise als SeedEdit. Die Vielfalt der eingesetzten 49 KI-Modelle belegt einen aktiven Markt mit stark divergierenden Leistungsprofilen und einem hohen Innovationsdruck.
Die Ergebnisse führen zu einem nüchternen Fazit: Trotz technologischem Fortschritt können KI-Bildbearbeitungswerkzeuge derzeit nur ein Drittel der realen Nutzeranfragen so zufriedenstellend erfüllen wie erfahrene menschliche Bildbearbeiter. Das gilt besonders für präzise, technisch anspruchsvolle Aufgaben, bei denen Fehlinterpretationen oder unbeabsichtigte Bildänderungen gravierende Auswirkungen haben. Die hohe Präferenz für manuelle Bearbeitungen bei Low- und Medium-Kreativitätsanfragen zeigt, dass Verlässlichkeit und Detailtreue für Nutzer eine große Rolle spielen. Bei hohen Kreativitätsanforderungen schrumpft der Abstand zwischen KI und Mensch, doch selbst hier bleiben menschliche Bildbearbeiter meist favorisiert. Diese Erkenntnisse sind wertvoll für Entwickler zukünftiger Bildbearbeitungs-KI, aber auch für Plattformbetreiber und Anwender.
Es zeigt sich, dass die Automatisierung komplexer kreativer Prozesse noch immer große Herausforderungen birgt, insbesondere hinsichtlich Kontextverständnis, Identitätstreue und Nutzerkommunikation. Künftige Modelle müssen differenzierter auf Befehl und Kontext eingehen können, ohne das Bild über die Intention hinaus zu verändern. Gleichzeitig könnte eine Kombination aus KI-Assistenz und menschlichem Feinschliff der optimale Ansatz für Hochwertigkeit, Effizienz und Kreativität sein. Insgesamt zeigt die Analyse, dass Bildbearbeitung ein komplexes Feld ist, bei dem nicht nur die Technologie, sondern auch die Nähe zum Nutzerwunsch, künstlerisches Gespür und Erfahrung die Spitzenposition sichern. Fortschritte in KI werden diesen Bereich weiter revolutionieren, doch für den Moment bleibt der Mensch weiterhin der unangefochtene Experte, wenn es um präzise und kreative Bildbearbeitung geht.
Die Ergebnisse regen daher auch zur kritischen Reflexion und differenzierten Einschätzung von KI-Bildbearbeitungswerkzeugen an, sowohl aus Anwender- als auch aus Entwicklerperspektive. Die angebotene Datenbasis mit realen Nutzeranfragen und umfangreichen Editierensets öffnet zudem spannende Möglichkeiten für weitere Forschung, etwa in Spezialgebieten der Bildmanipulation, der verbesserten Bewertung von Bildqualität durch maschinelles Lernen sowie interaktiven Editor-Interfaces. Sie unterstreicht die Notwendigkeit, Bildbearbeitung als menschzentriertes Feld zu betrachten, das Technologie sinnvoll unterstützend einsetzt – und nicht als alleinige Domäne automatischer Systeme. Zusammenfassend zeigt der bildbearbeitungstechnologische Wettstreit zwischen Menschen und den avanciertesten KI-Modellen wie GPT-4o, Gemini 2.0 und SeedEdit, dass wir uns in einer spannenden Übergangsphase befinden.
KI ist leistungsfähig und vielversprechend, bleibt aber vorerst Kooperationspartner statt Ersatz. Die Herausforderung liegt darin, die Stärken menschlicher Kreativität und Technik zu bündeln, um Bildgestaltung künftig noch zugänglicher, schneller und qualitativer zu machen – und dabei den individuellen Nutzerwunsch niemals aus den Augen zu verlieren.