Wer kennt das nicht: Man sitzt im Restaurant, blickt auf die Speisekarte und wird von exotischen Bezeichnungen wie Pâté, Tagine oder Cavatappi schlichtweg überfordert. Die Neugier und der Wunsch nach neuen kulinarischen Erlebnissen treffen oft auf eine Barriere des Unverständnisses. Genau hier setzt MenuGen an – eine innovative Applikation, die Fotos von Menüs in verständliche Bilddarstellungen verwandelt und so die Speisen auf intuitive Weise visualisiert. Das Projekt MenuGen entstand aus einer privaten Motivation heraus und entwickelte sich schnell zu einem spannenden Beispiel dafür, wie Vibe Coding dank moderner KI-Technologien die Webentwicklung für Nicht-Experten transformiert. Vibe Coding beschreibt die Praxis, Webanwendungen mithilfe von KI-basierten Tools wie Cursor oder Claude ohne tiefgehende Programmierkenntnisse zu erstellen.
MenuGen ist das erste End-to-End-Projekt, das der Entwickler mithilfe dieser Methode realisierte. Ausgangspunkt war die Idee, ein Tool zu schaffen, das die Inhalte von Menüs nicht nur textlich, sondern durch Bilder verständlicher macht. So werden unbekannte Gerichte leichter greifbar, und Restaurantbesuche werden entspannter. Das Grundprinzip von MenuGen ist verblüffend simpel: Nutzer fotografieren eine Menükarte, und die App extrahiert mithilfe von OCR-Technologie (Optical Character Recognition) die einzelnen Gerichte. Anschließend werden passende Bilder generiert, die eine erste visuelle Vorstellung der Speisen bieten – natürlich ohne Anspruch auf hundertprozentige Übereinstimmung mit der tatsächlichen Zubereitung.
Damit erhalten Einsteiger und Feinschmecker einen unmittelbaren Eindruck vom jeweiligen Gericht, von frischem Fisch über würzige Tagines bis hin zu raffinierten Desserts. Die Entwicklung von MenuGen stieß dabei auf typische Herausforderungen einer modernen App-Entwicklung. Während die erste lokale Version nach wenigen Stunden stand und die visuelle Komponente dank zeitgemäßer React-Frontend-Elemente beeindruckte, zeigte sich, dass tiefere Backend-Logiken weit komplexer umzusetzen sind als zunächst gedacht. Beispielsweise erforderte die Integration von OpenAI-APIs für das OCR-Feature eine sorgfältige Navigation durch komplexe Zugangsbeschränkungen und API-Strukturen, die sich zudem ständig ändern. Die Dokumentationen der KI-Dienste waren teilweise veraltet, was die Fehlerbehebung erschwerte und die Entwicklung verlangsamte.
Ebenso kompliziert gestaltete sich die Einbindung von Replicate, einem Dienst zur Bildgenerierung, der ebenfalls unter Rate Limits litt und dessen API-Responses seit kurzem im Streaming-Format vorliegen, was kaum dokumentiert ist und von solchen KI-Assistenten nicht unmittelbar korrekt interpretiert wird. Diese Probleme verdeutlichen, wie stark heutige Infrastruktur noch auf professionelle Entwicklerteams ausgelegt ist und das Solo-Vibe-Coding eine Gratwanderung zwischen Kreativität und technischer Komplexität darstellt. Während sich lokale Tests vergleichsweise schnell realisieren ließen, brachte die Deployment-Phase der App bei Vercel eine weitere Stolperfalle zutage: Umgebungsvariablen, etwa API-Schlüssel, müssen in der Cloud-Umgebung manuell eingepflegt werden, da diese aus Sicherheitsgründen nicht im Git-Repository landen dürfen. Ebenso überraschte der automatische öffentliche Zugriff auf die ansonsten private Entwicklungsumgebung, was ein hohes Maß an Sensibilität und Aufmerksamkeit für Datenschutz und Zugriffsrechte erforderte. Ein weiterer wichtiger Meilenstein war die Implementierung einer Nutzer-Authentifizierung.
Die Wahl fiel auf Clerk, ein auf moderne Webanwendungen spezialisierter Authentifizierungsdienst, der jedoch seine eigenen Tücken mit sich brachte. Umfangreiche Konfigurationen wie die Einrichtung von OAuth-Providern (beispielsweise über Google Cloud) und der Erwerb sowie Verwaltung eigener Domains waren zwingende Voraussetzungen, um von einer Entwicklungs- in eine Produktionsumgebung wechseln zu können. Dieses Szenario illustriert die wachsende Komplexität, die mit modernen Cloud-Diensten einhergeht – ein nicht selten frustrierender, aber notwendiger Schritt für Anwendungen mit echten Nutzerinteraktionen. Die Integration von Zahlungsoptionen durch Stripe stellte das Projekt schließlich vor eine weitere Herausforderung. Der Wechsel zwischen Next.
js-JavaScript-Beispielen und dem TypeScript-Umfeld erforderte wiederholte Korrekturschleifen, bei denen die KI-Coachings nicht immer optimale Muster generierten. Nicht zuletzt musste der Entwickler darauf achten, dass Nutzer-Konten korrekt mit Zahlungen verknüpft wurden, was nicht über bloße E-Mail-Adressen erfolgen sollte, sondern über eindeutige Nutzer-IDs. Diese Details zeigen, dass auch hier eine technische Raffinesse nötig ist, die man von einer KI-unterstützten Entwicklungsumgebung nicht vollständig automatisch erwarten kann. Neben diesen typischen Herausforderungen offenbart die Erfahrung mit MenuGen auch die Grenzen der sogenannten „Ephemeral Applications“. Im aktuellen Stand werden keine dauerhaften Datenbanken verwendet, und alle Verarbeitungsschritte laufen live ab.
Dies führt dazu, dass bei längeren Verarbeitungszeiten Anfragen abbrechen können und bei Neuladen der Seite sämtliche generierte Inhalte verloren gehen. Für den nächsten Entwicklungsschritt ist daher klar, dass Datenbanken wie Supabase oder andere Postgres-basierte Lösungen und Task-Queues integriert werden müssen, um eine robuste User Experience zu gewährleisten. Allerdings bedeutet dies wieder mehr Komplexität, weitere Accounts und Services sowie eine zusätzliche Verwaltungslast. Dieses Spannungsfeld reflektiert das Dilemma von Solo-Entwicklern in modernen Cloud-Ökosystemen. Trotz aller Herausforderungen zeigt das MenuGen-Projekt eindrücklich, welche Chancen das Thema Vibe Coding heute birgt.
Dank KI-basierter Code-Generatoren lässt sich die Frontend-Entwicklung erheblich beschleunigen, und auch komplexe Funktionen können zumindest ansatzweise per Sprachbefehl oder textuellem Input umgesetzt werden. Dies ermöglicht es Menschen ohne traditionellen Entwicklerskillset, eigene Applikationen auf die Beine zu stellen, die echten Nutzen stiften und sogar kommerziellen Mehrwert generieren können. Das Projekt offenbart zudem den Bedarf an vereinfachten, integrierten Plattformen, die bereits alle wesentlichen Funktionen wie Hosting, Authentifizierung, Zahlungsabwicklung, Datenbank und Serverlogik „out of the box“ anbieten. Solche Lösungen könnten den Zugang zu Webentwicklung deutlich democratizieren und Entwickler sowie kreative Quereinsteiger entlasten. Zudem wäre ein stärker LLM-freundliches Interface wünschenswert, bei dem Dokumentation, Konfiguration und API-Interaktionen in klaren, maschinenlesbaren Formaten vorliegen, sodass KI-Systeme selbst komplexe Setup-Prozesse verlässlich automatisieren können.
Der Entwickler von MenuGen zieht zudem die Überlegung in Betracht, bei zukünftigen Projekten auf schlankere Technologien zu setzen, etwa reine HTML/CSS/JavaScript-Frontends mit einem einfachen Python-Backend unter Verwendung von Frameworks wie FastAPI. Dieses Vorgehen könnte ebenfalls vielen unerfahrenen Programmierern einen leichteren Einstieg ermöglichen und den Overhead moderner, serverloser Multi-Service-Architekturen vermeiden. Die Konzeption von MenuGen als „App“ geht sogar noch weiter: Im Kern handelt es sich eigentlich um eine einzige Anweisung an ein Sprachmodell, das eine Menükarte digitalisiert und die grafische Darstellung in einem einzigen Schritt erzeugt. Dies erinnert an die ursprüngliche Idee von Custom GPTs und könnte perspektivisch neue Formen von Software ermöglichen, bei denen klassische Frontend-/Backend-Trennung zugunsten von promptbasierten, dynamisch generierten Webseiten aufgegeben wird. Ein solcher Ansatz könnte klassische App-Stores und Vermarktungsmechanismen revolutionieren und kreative Entwickler belohnen.