In der heutigen digitalen Ära nimmt der Einfluss künstlicher Intelligenz (KI) in den Bereichen Design, Werbung und Bildverarbeitung kontinuierlich zu. Besonders spannend ist die Entwicklung sogenannter agentischer Bildgeneratoren, deren bemerkenswertes Merkmal darin besteht, sich eigenständig zu verbessern. Diese Systeme nutzen tiefgreifende Evaluationsmechanismen, um Bildqualität iterativ zu optimieren und dabei komplexe visuelle Anforderungen zielgenau umzusetzen. Die Forschung und Praxis dahinter stellt einen bedeutenden Schritt in Richtung vollautomatisierter, personalisierter und qualitativ hochwertiger Bildgenerierung dar, welche insbesondere für Marketingkampagnen von großem Wert ist. In diesem Beitrag wird der neuartige Ansatz zur Entwicklung eines agentischen Bildgenerators vorgestellt, der mittels großer Sprachmodelle und spezialisierter Bildbearbeitungs-APIs eigenständig Fehler erkennt, korrigiert und immer bessere Ergebnisse liefert.
Als Beispiel dient ein Projekt von Bezel Research, das durch die Kombination verschiedener KI-Modelle trotz Herausforderungen eindrucksvolle Resultate erzielt hat. Beginnend mit der Einordnung von Personas als Grundlage zielgerichteter Werbebilder, zeigt sich die Bedeutung differenzierter Nutzerprofile bei der automatisierten Bilderstellung. Personas wie etwa „Dan, 31 Jahre, Softwareentwickler mit einer Leidenschaft für Basketball und Familie“ ermöglichen es, Werbebotschaften passgenau zu designen, indem Bildkomposition, Produktplatzierung und Textgestaltung auf die jeweilige Zielgruppe abgestimmt werden. Die Bilderstellung erfolgt hierbei über die OpenAI Image API, die entweder ganze Bilder generiert oder bestehende mittels Editierbefehlen verändert. Gerade letzterer Ansatz eröffnet eine iterative Schleife, in der das Bild nicht nur initial erstellt, sondern auch fortlaufend hinsichtlich spezifischer Fehler analysiert und bearbeitet wird.
Im Kern des Systems stehen leistungsstarke große Sprachmodelle (LLMs), die als Evaluatoren fungieren. Diese Judging-Modelle analysieren generierte Bilder auf Schwachstellen wie unscharfen Text, verzerrte Bildelemente oder unharmonische Bildkomposition. Besonders das Modell „o3“ zeigte sich hierbei als zuverlässiger Erkenner von Textunschärfe und visueller Attraktivität. Ein entscheidender Innovationsschritt ist die Implementierung eines geschlossenen Feedback-Loops, in dem die Evaluatoren nicht nur Fehlerberichten liefern, sondern diese Berichte strukturiert an den Bildbearbeitungs-Endpunkt zurückgeben. Durch iterative Anfragen und Bildmodifikationen werden Fehlstellen konsequent adressiert.
Insbesondere bei komplexen Bildprompts wie einer Redbull-Sommerkampagne auf einem Dach in San Francisco mit mehreren Geschmacksrichtungen, zahlreichen Menschen und sichtbarem Rabattcode stießen einfache Bildgeneratoren an ihre Grenzen. Die Herausforderung ergibt sich darin, einerseits technisch anspruchsvolle Bildelemente im Detail scharf und lesbar darzustellen und andererseits künstlerisch ansprechende und zielgruppengerechte Kompositionen zu gestalten. Die ersten Versuche mit einem einzelnen Modell führten oft zu leicht verschwommenen oder unscharfen Texten, verzerrten Logos und inkonsistenter Bildkomposition. Daher wurde anstelle einer monolithischen Herangehensweise eine Aufgabenteilung etabliert. Die Lösung bestand darin, zunächst eine Bildgeneration mit Schwerpunkt auf Texterkennbarkeit zu erzeugen und diese Ergebnisse dann hochzuskalieren.
Im Anschluss folgte ein separater Evaluationsdurchlauf, der sich auf kompositorische Aspekte und die Anziehungskraft des Bildes auf spezifische Personas konzentrierte. Diese methodische Trennung bewährte sich, da sequentielle Modellpipeline die Stärken der einzelnen KI-Komponenten besser nutzte und die Gesamtqualität deutlich steigerte. Paradox dabei ist, dass die KI-Modelle zwar ausgezeichnete Fähigkeiten in natürlicher Sprachverarbeitung und abstrakter Bildbeurteilung besitzen, ihnen allerdings die präzise räumliche Verankerung fehlt. Insbesondere bei der automatischen Generierung von Bounding Boxes für fehlerhaften Text zeigten sich Limitationen: Trotz korrekter Identifikation von Problemstellen war es den Modellen nicht möglich, diese sauber als exakte Koordinaten umzusetzen. Dies stellt ein großes Hindernis für gezielte pixelgenaue Bildkorrekturen dar.
Der Versuch, anhand von Bounding Boxes Masken für die Bildeditierung zu verwenden, führte zu suboptimalen Ergebnissen, die das Potenzial der Iteration einschränkten. Dies verdeutlicht die noch bestehende Kluft zwischen semantischem Verständnis und räumlicher Präzision bei multimodalen KI-Systemen. Das Projekt demonstriert exemplarisch die Rolle von LLMs als „Judge“ in multimodalen Workflows, bei denen sie Inhalte nicht direkt erzeugen, sondern objektiv bewerten und Verbesserungsvorschläge generieren. Die Wirksamkeit dieser Herangehensweise zeigt sich besonders dann, wenn die Evaluation auf klar definierte Teilaufgaben fokussiert wird – etwa initial ausschließlich auf technische Schärfe des Textes, später auf Gestaltungsästhetik und Zielgruppenansprache. Während die Vision einer komplett autonomen Bildgenerierung mit mehreren aufeinander abgestimmten KI-Agenten greifbar ist, sind technische Grenzen, etwa bei der Überbrückung zwischen dezidierter Bildraumverankerung und symbolischer Repräsentation, weiterhin zentral.
Der pragmatische Umgang mit diesen Grenzen – etwa durch Aufgabentrennung und Iteration – stellt in aktueller Forschung und Praxis den erfolgversprechendsten Pfad dar. Die Relevanz solcher agentischer Bildgeneratoren für die Marketingbranche kann kaum überschätzt werden. Werbetreibende profitieren von automatisiert erzeugten, auf Zielgruppen zugeschnittenen Bildwelten, die dynamisch an Kundenfeedback angepasst werden können. Dies ermöglicht schnellere Kampagnenplanung, bessere Conversion-Raten und letztlich Wettbewerbsvorteile im digitalen Zeitalter. Außerdem eröffnen sich durch die Kombination von Sprachmodellen mit Bildgenerierung neuartige Möglichkeiten für kreative Inhalte, die durch menschliches Zutun allein schwer realisierbar wären.