Humor ist eine der faszinierendsten Ausdrucksformen menschlicher Kommunikation. Er verbindet, schafft Verständnis und bietet eine willkommene Abwechslung im Alltag. Doch trotz jahrzehntelanger Fortschritte in der Künstlichen Intelligenz fällt es Sprachmodellen oft schwer, wirklich originelle und zum Lachen bringende Witze zu generieren. Klassische Witze wie „Warum vertrauen Wissenschaftler Atomen nicht? Weil sie alles ausmachen!“ sind zwar verständlich und nachvollziehbar, bringen jedoch selten ein echtes Schmunzeln hervor. Die Herausforderung liegt darin, dass Humor vielschichtig ist: Er basiert auf Überraschung, Wortspielen, kulturellem Kontext und einem feinen Gespür für Timing und Originalität.
Herkömmliche Sprachmodelle greifen oft auf bekannte Muster zurück und wiederholen ähnliche Witze, was zu einer gewissen Langeweile führt. An dieser Stelle setzt Reinforcement Learning (RL) an, um den Prozess der Witzgenerierung zu revolutionieren. Reinforcement Learning ist ein Teilbereich des Maschinellen Lernens, bei dem ein Agent durch Versuch und Irrtum lernt, optimale Entscheidungen zu treffen. Im Kontext der Witzgenerierung bedeutet das, dass eine KI ihre Witzeingaben iterativ verbessert, basierend auf Feedback, das sie als Belohnung erhält. Dieses Feedback stammt häufig von einem anderen Modell oder Menschen, die die Qualität und den Humor bewerten.
Ein besonders spannendes Setup besteht darin, ein Sprachmodell Witze generieren zu lassen, während ein mächtigeres Modell die Witze bewertet und entsprechend Belohnungen vergibt. So lernt das generierende Modell nach und nach, sowohl lustig als auch originell zu sein. Ein konkretes Beispiel für diesen Prozess wurde mit dem Modell Qwen3-8B und dem Bewertungsmodell GPT-4.1 umgesetzt. Qwen3-8B schlägt Witze vor, GPT-4.
1 bewertet sie auf einer Skala, und ein RL-Algorithmus namens GRPO optimiert die Ausgabe von Qwen kontinuierlich. Wichtig dabei ist die Gestaltung der Bewertungsrubrik. Anfangs wurden nur Humorbewertungen von eins bis fünf vergeben, was dazu führte, dass das Modell alte Witze immer wiederholte. Die Reaktion darauf war eine verfeinerte Bewertung: Der Humor wurde nicht nur in der Qualität bewertet, sondern auch in der Originalität und dem Grad, in dem der Witz die Grenzen des Konventionellen überschritt. Dieses dreidimensionale Belohnungssystem förderte eine kreativere, teils absurde Art von Humor.
Beispielsweise tauchten Witze auf wie „Warum brachte die Katze eine Leiter zum Laser? Weil sie dachte, der Laser sei an der Decke – aber der Laser war nur ein Punkt an der Wand, und sie fiel von der Leiter.“ Mit einem überraschenden Zusatz, dass der Laser eigentlich ein kleines außerirdisches Raumschiff war, bewertete GPT-4.1 diesen Scherz sehr positiv, da die absurde Wendung die Originalität stark erhöhte. Dies zeigt, wie RL-Systeme lernen, nicht nur banale Pointen zu reproduzieren, sondern auch unerwartete, verspielte Wendungen einzubauen. Ein weiterer interessanter Trend war die Tendenz von Qwen, sogenannte Bonus-Witze oder Zusatzsätze zu generieren, die das Humorpotenzial steigerten.
Obwohl dies auf den ersten Blick trivial wirkt, macht gerade die Fähigkeit, spielerische Ergänzungen hinzuzufügen, den Unterschied zwischen einem flachen und einem ansprechenden Humor aus. Dieser Erkenntnis folgend passten die Entwickler die Bewertungsstrategie an, um die Priorität auf witzige Inhalte zu legen und gleichzeitig Originalität und Frische nicht zu vergessen. Das führt zur Frage, wie man Humor überhaupt messen kann. Humor ist subjektiv, kulturell geprägt und von individuellen Vorlieben abhängig. Dennoch zeigte sich, dass ein gut ausbalanciertes Bewertungsmodell, das Humor, Originalität und Unkonventionalität kombiniert, sehr gut mit menschlichen Einschätzungen korreliert.
GPT-4.1 etwa verwendete eine detaillierte Skala, die sowohl Lachenserzeugung als auch Neuheitswert bewertete. Durch diese differenzierte Bewertung war es möglich, Witze mit einem hohen Gesamtwert zu identifizieren, die sowohl lustig als auch kreativ waren – eine Kombination, die bisherige Modelle selten selbständig erreicht hatten. Ein besonders amüsantes Ergebnis der Experimente war ein Witz, der als „der lustigste Witz aller Zeiten“ bezeichnet wurde. Er zeigte, wie das Modell mit Absurdität und einer leicht surrealen Note punktete: „Ich sagte meiner Katze, ich würde aufhören, sie zu füttern, wenn sie nicht mehr dem Laserpointer nachjagt.
Sie antwortete: ‚Sie sind entlassen.‘ Ich wollte sie feuern, aber sie saß nur da und starrte auf den Laser, als sei es eine Beförderung. Es stellte sich heraus, dass sie eine Zauberin war – der Laser war ein Portal zum Reich der Snacks … und sie organisiert gerade die Mäusegewerkschaft." Dieser Witz kombiniert eine alltägliche Situation mit unerwarteten fantastischen Elementen und endet mit einem humorvollen Twist, der imaginiert, wie die Katze plötzlichen Einfluss gewinnt. Durch die Verschmelzung von Realität, Fantasie und Ironie schafft er eine besonders ansprechende Pointe.
Neben der Optimierung von Humor bietet Reinforcement Learning auch eine Plattform, mit der Entwickler experimentieren können. Durch Einstellen der Belohnungsmechanismen lässt sich steuern, welche Art von Humor bevorzugt wird – sei es eher sicher, familienfreundlich, sarkastisch oder manchmal sogar provokativ. Das eröffnet neue Möglichkeiten für personalisierte Unterhaltung, maßgeschneiderte Chatbots und natürlich für kreative Schreibwerkzeuge, die Autoren bei ihrer Arbeit unterstützen. Nicht zuletzt zeigt der Einsatz von RL im Bereich der Humor-Generierung exemplarisch, wie Künstliche Intelligenz der Kreativität näherkommen kann. Indem Systeme Feedback als Ansporn interpretieren und sich iterativ verbessern, lernen sie über bloße Rekombination von Texten hinauszugehen.
Sie entwickeln ein Gefühl für Nuancen, Überraschung und Improvisation – alles zentrale Elemente von gutem Humor. Für Anwender und Entwickler von KI-basierten Sprachwerkzeugen bedeutet das, dass die Kombination aus leistungsstarken generativen Modellen und intelligenten Bewertungsalgorithmen eine neue Ära kreativer Inhalte einläuten kann. Es ist denkbar, dass zukünftige Chatbots und virtuelle Assistenten nicht nur hilfreiche Informationen liefern, sondern auch spontan für einen Lacher sorgen – dabei stets individuell angepasst an die Stimmung und Präferenzen des Nutzers. Die Technologie ist allerdings nicht ohne Herausforderungen. Die subjektive Natur von Humor bleibt ein großes Hindernis.
Was für den einen lustig ist, kann für einen anderen flach oder gar unangenehm sein. Zudem besteht die Gefahr, dass KI Witze produziert, die unpassend oder kulturell unsensibel sind. Daher ist es wichtig, dass menschliche Kontrolle und ethische Leitlinien den Entwicklungsprozess begleiten, um sicherzustellen, dass der erzeugte Humor den gesellschaftlichen Normen entspricht. Abschließend betrachtet eröffnet die Kombination aus Reinforcement Learning und Sprachmodellen spannende Perspektiven, um die Kreativität von KI in bisher ungeahnte Höhen zu treiben. Der Fortschritt in der Witzgenerierung ist exemplarisch für das Potenzial, das darin liegt, Maschinen nicht nur zu lehren zu sprechen, sondern zu verstehen, wie Sprache Gefühle und Reaktionen auslösen kann.
Für die Zukunft verspricht das nicht nur witzige Chatbots, sondern auch ein tieferes Verständnis der Dynamik von Humor und menschlichem Ausdruck.