Die Nutzung von Künstlicher Intelligenz (KI) im Gesundheitswesen erlebt seit einigen Jahren eine regelrechte Revolution. Besonders faszinierend ist dabei die Frage, ob KI in der Lage ist, den Ausgang klinischer Studien präzise vorherzusagen. Klinische Studien spielen eine zentrale Rolle bei der Entwicklung neuer Medikamente und Therapien. Ihre Ergebnisse haben nicht nur medizinische Bedeutung, sondern beeinflussen auch massiv die Investitionsentscheidungen in der Biotechnologiebranche. Die Vorstellung, dass große Sprachmodelle (LLMs) oder andere KI-Technologien vorab prognostizieren könnten, ob eine Studie erfolgreich sein wird, hat daher großes Interesse geweckt.
Doch wie viel Wahrheit steckt dahinter? Kann KI tatsächlich klinische Studienergebnisse vorhersagen? Und wie sieht die Praxis aus? Ein kürzlich veröffentlichter Test von Bay Bridge Bio im Juni 2025 hat sich dieser spannenden Fragestellung gewidmet. Dabei wurden fünf führende große Sprachmodelle aufgefordert, die Resultate einer hochkarätigen klinischen Studie, der sogenannten HARMONi-Studie von Summit Therapeutics, vorherzusagen. Diese Studie hatte großes Aufsehen erregt, da das experimentelle Medikament Ivonescimab, ein bispezifischer Antikörper gegen PD-L1 und VEGF, zunächst vielversprechende Daten zeigte, die mit Blockbustern wie Keytruda vergleichbar schienen. Die Hoffnung war groß, dass dieses Mittel bei nicht-kleinzelligem Lungenkarzinom (NSCLC) einen neuen Standards setzen könnte. Die Realität gestaltete sich jedoch anders.
Die finale Auswertung der HARMONi-Studie zeigte keine statistisch signifikante Verbesserung der Gesamtüberlebensrate (OS), einem zentralen Kriterium für eine FDA-Zulassung. Diese Entwicklung war eine Enttäuschung für viele Investoren und die Branche insgesamt, da die entscheidende Frage lautete, ob das Ergebnis bei einer späteren, reiferen Datenanalyse doch noch eine signifikante OS-Verlängerung zeigen könnte. Hier setzte das Experiment mit den KI-Modellen an. Die KI-Tools wurden gebeten, genau diese Frage zu beantworten: Wie hoch ist die Wahrscheinlichkeit eines letztlich erfolgreichen Studienausgangs? Die Antworten der Modelle waren jedoch weit von perfekten Prognosen entfernt. Einige Versionen von ChatGPT, wie zum Beispiel die OpenAI-3 (o3), waren in der statistischen Analyse sogar fehlerhaft.
Die geschätzte Bandbreite der Erfolgschancen lag zwischen 35 und 75 Prozent, was für Entscheider wenig handfeste Orientierung bot. Trotzdem enthielt die Analyse der großen Sprachmodelle hilfreiche Aspekte. Die Einschätzungen lieferten zwar keine präzisen Erfolgsvorhersagen, jedoch umfangreiches Hintergrundwissen zu Methodik, relevanter Literatur und veröffentlichten Studienergebnissen. Für Experten mit anspruchsvollen Simulationstools erweisen sich die KIs damit eher als ergänzende „Plausi-Checks“ oder Zeitersparnis bei der ersten Datenbewertung. Für jene, die keine tiefgehenden Ressourcen oder Erfahrung im Bereich der Immunonkologie besitzen, hingegen stellen die KI-Antworten einen wertvollen Einstiegspunkt dar.
So versetzt KI weniger versierte Nutzer in die Lage, schneller fundierte Analysen zu beginnen, als sich zunächst durch gängige Erfolgsraten und Literatur zu wühlen. Ein entscheidender Punkt ist, dass der Test von Bay Bridge Bio keine speziell angepassten KI-Modelle oder optimierte Prompts einsetzte. Es wurde keine kontextspezifische Vorinformation ergänzt, es erfolgten keine Rückfragen an die Modelle, und vor allem kam kein unterstützender Workflow oder Statistikprogramm zum Einsatz, das die Analyse hätte vertiefen können. Dies bedeutet, dass das Ergebnis eine Art „Bodensatz“ an Fähigkeiten der großen Sprachmodelle darstellt – eine Baseline, von der aus verbesserte KI-Anwendungen noch deutlich bessere Resultate erzielen könnten. Mit zusätzlicher menschlicher Expertise und maßgeschneiderten Werkzeugen lässt sich die Vorhersagequalität wohl signifikant steigern.
So könnten Experten beispielsweise eigene statistische Programme entwickeln, die LLMs über APIs oder Tool-Integrationen mit entsprechenden Daten und Algorithmen füttern. Auch ein iterativer Dialog mit dem KI-System, in dem Fehler analysiert, Hypothesen durchdacht und Überlegungen vertieft werden, erzeugt oftmals einen deutlichen Qualitätszuwachs. Dieser Mensch-plus-KI-Ansatz, bei dem sich künstliche Intelligenz in Zusammenarbeit mit menschlichem Fachwissen weiterentwickelt, gilt als besonders vielversprechend, da er die jeweiligen Stärken optimal kombiniert. Dennoch ist wichtig zu verstehen, dass das reine Vorhersagen klinischer Studienergebnisse selbst für fortgeschrittene KI-Modelle eine komplexe und anspruchsvolle Aufgabe bleibt. Klinische Studien integrieren zahlreiche Variablen wie Unterschiede in Patientengruppen, Endpunktdefinitionen, Studiendesigns, genetische und Umweltfaktoren, die sich nur schwer exakt modellieren lassen.
Ferner sind die verfügbaren Datensätze mit klinischen und präklinischen Informationen häufig nicht homogen oder als Input für KI-Modelle standardisiert aufbereitet. Diese Limitationen machen valide und präzise Vorhersagen herausfordernd. Trotz dieser Herausforderungen eröffnet die Kombination von KI und Big Data immense Chancen für die klinische Forschung. Während bei der einzelnen Studie die Prognosegenauigkeit aktuell noch limitiert ist, zeigt sich die wahre Stärke von KI darin, sehr große Datenmengen systematisch zu analysieren und Trends zu identifizieren. So können KI-gestützte Workflows beispielsweise viele hundert Studien gleichzeitig auswerten, wichtige Signale erkennen und Veränderungen in Studienlandschaften vorhersagen.
Diese Skalierbarkeit ermöglicht ein völlig neues Level an Effizienz und Präzision im Monitoring wissenschaftlicher Entwicklungen. Viele Anwendungen von KI im pharmazeutischen Bereich gehen daher mittlerweile weit über reine Ergebnisprognosen hinaus. KI kann helfen, Pressemitteilungen, Kongressabstracts oder Unternehmensberichte automatisch zu analysieren und relevante Informationen in Echtzeit zu extrahieren. Dadurch kann die Arbeit von Analysten, Forschern und Investoren bedeutend erleichtert werden. Die Herausforderung bleibt aber, diese automatisierten Systeme vollständig in bestehende Arbeitsabläufe zu integrieren und mit menschlicher Expertise zu kombinieren – denn die finale Bewertung braucht immer noch kritisches Fachwissen.
Für Nutzer, die bislang noch keine KI-gestützten Tools einsetzen, ist der Einstieg durch einfache, repetitive Aufgaben lohnenswert. Ob durch No-Code-Plattformen oder mithilfe standardisierter Jupyter-Notebooks: Schon kleinere Automatisierungen können enorme Zeitersparnisse bringen und den Anfang einer effizienten KI-Nutzung markieren. Wichtig ist das Bewusstsein, dass KI keine magische Lösung ist, sondern ein mächtiges Hilfsmittel, das bei richtiger Anwendung außergewöhnliche Mehrwerte generieren kann. Ein Blick in die Zukunft zeigt, dass KI das Potenzial hat, das Feld der klinischen Studienfundamente grundlegend zu verändern. Mit verbesserten Modellen, besseren Datenqualitäten und intelligenten Kooperationsstrategien zwischen Mensch und Maschine könnten Vorhersagen immer präziser werden.
Darüber hinaus eröffnen sich spannende Perspektiven wie die adaptive Studienplanung, die Identifikation neuer Biomarker-Subgruppen oder die Simulation verschiedener Therapieszenarien. Die Kombination aus datengetriebenen Prognosen und klinischer Expertise wird somit künftig die Qualität und Geschwindigkeit der Arzneimittelentwicklung erhöhen. Insgesamt ist festzuhalten, dass die Frage „Kann KI klinische Studienergebnisse vorhersagen?“ heute nicht mit einem einfachen Ja oder Nein beantwortet werden kann. Die Technologie liefert wertvolle Einblicke und unterstützt bei der Datenanalyse, aber sie ersetzt nicht die Komplexität und Unsicherheiten, die klinische Forschung prägen. Vielmehr ist KI eines von mehreren Werkzeugen, das bei richtiger Integration einen entscheidenden Beitrag leisten kann.
Die Zukunft gehört hybriden Ansätzen, welche die Stärken von Künstlicher Intelligenz und menschlichem Fachwissen optimal vereinen – und so den medizinischen Fortschritt beschleunigen. Für Personen, die die Zukunft der Medizin mitgestalten wollen, gilt es daher, jetzt eigene KI-Workflows auszuprobieren, zu verstehen, wo die Technologie sinnvoll eingesetzt werden kann und wie man sie bestmöglich mit Expertenwissen kombiniert. So lässt sich das volle Potenzial von Künstlicher Intelligenz im Bereich klinischer Studien nutzen und die Effizienz, Übersicht und Präzision der Forschung erheblich verbessern.