Nachrichten zu Krypto-Börsen Institutionelle Akzeptanz

Studie zeigt: Vision-Language-Modelle scheitern an Verneinungen – Herausforderungen für KI in kritischen Anwendungen

Nachrichten zu Krypto-Börsen Institutionelle Akzeptanz
Study shows vision-language models can't handle queries with negation words

Eine aktuelle Untersuchung des Massachusetts Institute of Technology beleuchtet die Schwächen von Vision-Language-Modellen bei der Verarbeitung von Verneinungen in Texten. Besonders in sensiblen Bereichen wie der medizinischen Diagnostik kann dies zu schwerwiegenden Fehlern führen.

Die rasante Entwicklung von Künstlicher Intelligenz prägt zahlreiche Bereiche unseres Lebens, insbesondere im Zusammenspiel von Bildern und Sprache. Vision-Language-Modelle (VLMs) gehören zu den Innovationen, die es möglich machen, dass Maschinen Bilder verstehen und mit Texten in Beziehung setzen können. Diese Technologie findet bereits Anwendung in vielfältigen Szenarien, vom automatisierten Sortieren von Fotos bis hin zur Unterstützung medizinischer Diagnosen mit bildbasierten Daten. Doch trotz ihrer vermeintlichen Leistungsfähigkeit offenbart eine jüngst veröffentlichte Studie des Massachusetts Institute of Technology (MIT) erhebliche Schwächen: Vision-Language-Modelle sind kaum in der Lage, Verneinungen wie „nicht“ oder „kein“ korrekt zu verarbeiten. Diese Entdeckung stellt die Zuverlässigkeit solcher Systeme insbesondere in kritischen und bereichsspezifischen Anwendungen infrage.

Das grundsätzliche Prinzip von Vision-Language-Modellen beruht darauf, dass sie Bildinhalte mit passenden Textbeschreibungen verknüpfen. Hierfür werden große Datensätze aus Bildern und dazugehörigen Bildtexten verwendet, sodass die Modelle lernen, visuelle Objekte und Aktionen mit entsprechenden sprachlichen Ausdrücken zu assoziieren. Typischerweise arbeiten VLMs mit zwei separaten Encodern – einem für Bilder und einem für Text. Diese erzeugen jeweils numerische Repräsentationen, sogenannte Vektoren, die anschließen mittels Ähnlichkeitsmaßen miteinander verglichen werden. Auf diese Weise soll sichergestellt werden, dass zum Beispiel ein Foto einer Katze und der Text „eine sitzende Katze“ ähnliche Repräsentationen erzeugen, was die semantische Übereinstimmung bestätigt.

Eine entscheidende Schwäche der Modelle ergab sich hinsichtlich der Behandlung von Negationen. Tatsächlich basieren die Trainingsdaten meist auf positiven Beschreibungen, welche lediglich enthalten, was auf einem Bild zu sehen ist. Es gibt nur sehr wenige bis gar keine Beispiele, die explizit erwähnen, was nicht auf dem Bild dargestellt ist. Ein Bild mit einem Hund, das im Text nicht ausdrücklich vermerkt, dass es keinen Helikopter gibt, verweist darauf, dass Verneinungen schlichtweg fehlen. Diese Lücke führt dazu, dass VLMs Verneinungen entweder ignorieren oder falsch interpretieren.

Infolgedessen tendieren sie dazu, die bloßen Existenz von Objekten anzuerkennen, ohne die Negation mit einzubeziehen – ein Phänomen, das die Forscher als „Affirmation Bias“ bezeichnen. Die Auswirkung dieser Unzulänglichkeit ist besonders gravierend, wenn Vision-Language-Modelle in sensiblen Bereichen wie der medizinischen Diagnose zum Einsatz kommen. Stellen wir uns vor, ein Radiologe untersucht ein Röntgenbild eines Patienten. Auf dem Bild ist beispielsweise eine Schwellung im Gewebe erkennbar, jedoch kein vergrößertes Herz. Wenn ein VLM den Bericht mit anderen Fällen abgleicht, aber Verneinungen wie „kein vergrößertes Herz“ nicht erkennt, könnte das Modell fälschlicherweise Berichte herausfiltern, die beide Bedingungen - sowohl die Schwellung als auch ein vergrößertes Herz - umfassen.

Dies kann die diagnostische Einschätzung massiv verfälschen und letztlich falsche Behandlungsentscheidungen nach sich ziehen. Zur Überprüfung der Fähigkeiten von VLMs beim Umgang mit Verneinungen haben die MIT-Forscher zwei spezifische Testverfahren entwickelt. Zunächst verwendeten sie ein großes Sprachmodell, um vorhandene Bildbeschreibungen zu überarbeiten und gezielt Verneinungen in die Captions aufzunehmen. Anschließend testeten sie, wie gut VLMs in der Lage waren, Bilder mit bestimmten Objekten zu finden, die aber explizit andere Objekte nicht enthalten sollten. Die Ergebnisse zeigten, dass die Leistung um fast 25 Prozent einbrach, sobald Verneinungen ins Spiel kamen – die Modelle entfernten sich teilweise von einem zufälligen Rateverhalten.

Ein weiterer Test fokussierte Multiple-Choice-Fragen, bei denen VLMs die bestpassende Bildbeschreibung aus mehreren ähnlichen Alternativen wählen mussten. Auch hier wurde Verneinungstext hinzugefügt, der das Vorhandensein oder Fehlen von Objekten differenzierte. Auch in diesem Szenario erreichten die besten Modelle nur rund 39 Prozent Genauigkeit, wobei einige Modelle Werte zeigten, die schlechter als ein reiner Zufallstreffer waren. Diese Beispiele verdeutlichen eindrucksvoll, wie massiv die aktuelle Schwäche von Vision-Language-Modellen im Bereich Negation ist. Angesichts dieser Probleme entwickelten die Wissenschaftler einen Ansatz, der auf der Erweiterung der Trainingsdaten um synthetisch generierte Bildunterschriften mit Verneinungen basiert.

Mithilfe eines großen Sprachmodells erstellten sie aus einem Datensatz mit rund 10 Millionen Bild-Text-Paaren neue Caption-Varianten. Diese Captions wurden so formuliert, dass sie natürliche Sprache simulieren und gleichzeitig explizit negierte Inhalte ausdrücken, etwa indem sie formulieren, welche Objekte auf dem Bild fehlen. Mit diesem erweiterten Datensatz wurde das Training von Vision-Language-Modellen verfeinert. Die daraus resultierenden Modelle zeigten erhebliche Verbesserungen: Die Fähigkeit, Bilder mit Berücksichtigung von Verneinungen abzurufen, stieg um etwa 10 Prozent. Bei der Multiple-Choice-Aufgabe legte die Genauigkeit sogar um rund 30 Prozent zu.

Diese Erkenntnisse signalisieren, dass das Problem grundsätzlich lösbar ist, wenn Trainingsdaten gezielter und vielfältiger gestaltet werden. Dennoch warnen die Forscher davor, dies bereits als endgültige Lösung zu betrachten. Die bisherige Arbeit fokussiert sich vor allem auf Datenaugmentation und berührt nicht die grundlegende Funktionsweise der Modelle. Es sind tiefere Eingriffe erforderlich, beispielsweise die getrennte Verarbeitung von Bild- und Textinformationen oder die Entwicklung spezieller architektonischer Konzepte, um die Bedeutung von Verneinungen besser zu erfassen. Die Bedeutung dieser Forschung ist nicht auf den medizinischen Bereich beschränkt.

Anwendungen von Vision-Language-Modellen in der Qualitätskontrolle in der Industrie etwa könnten ebenfalls gravierende Fehler produzieren, wenn Produkte mit bestimmten Mängeln erkannt werden sollen, von denen ausgeschlossen wird, dass sie andere bestehende Defekte haben. Überhaupt gilt für alle Domänen, in denen das Fehlen eines Merkmals genauso wichtig ist wie seine Anwesenheit, dass die korrekte Erkennung von Verneinungen zentral ist. Die Studie unterstreicht die Notwendigkeit einer kritischen Evaluation der momentanen Einsatzbereiche von Vision-Language-Modellen. Große KI-Modelle werden inzwischen oft blind vertraut und in hochsensiblen Umgebungen eingesetzt, obwohl ihnen elementare sprachliche Strukturen wie Negationen nicht zuverlässig zugänglich sind. Die Forscher betonen, dass die Industrie und Wissenschaft hier geboten sind, die derzeitige Behandlung der Daten, die Modellarchitekturen und die Testverfahren grundlegend zu überprüfen und anzupassen.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Patch Tuesday, May 2025 Edition
Sonntag, 22. Juni 2025. Patch Tuesday Mai 2025: Wichtige Sicherheitsupdates und neue Herausforderungen für Windows und Apple Nutzer

Im Mai 2025 hat Microsoft bedeutende Sicherheitsupdates veröffentlicht, die kritische Schwachstellen in Windows-Systemen beheben. Zeitgleich veröffentlichte Apple Updates für iOS und weitere Betriebssysteme.

The AI Monetary Hegemony: Why Dollars, Crypto, and Autonomous AIs Will Soon Clash
Sonntag, 22. Juni 2025. Die KI-Monetäre Hegemonie: Warum Dollar, Krypto und autonome AIs bald aufeinandertreffen

Eine tiefgründige Analyse der kommenden monetären Auseinandersetzungen zwischen traditionellen Währungen, Kryptowährungen und der Rolle autonomer Künstlicher Intelligenzen in der globalen Finanzwelt.

Analyst Report: Mondelez International Inc
Sonntag, 22. Juni 2025. Mondelez International Inc.: Globaler Snack-Riese mit starken Marken und nachhaltigem Wachstumspotenzial

Mondelez International Inc. ist ein führender Akteur in der globalen Lebensmittelindustrie, bekannt für seine etablierten Marken wie Oreo und eine starke Präsenz in über 150 Ländern.

Rigetti Computing, Inc. (RGTI): Among the Best Quantum Computing Stocks to Invest in Now
Sonntag, 22. Juni 2025. Rigetti Computing, Inc. (RGTI): Eine Top-Investitionsmöglichkeit im Bereich Quantencomputing

Rigetti Computing, Inc. (RGTI) gilt als einer der vielversprechendsten Akteure im Bereich Quantencomputing und bietet Anlegern eine einzigartige Chance, an der Zukunftstechnologie teilzuhaben.

5 Things to Know Before the Stock Market Opens
Sonntag, 22. Juni 2025. Wichtige Erkenntnisse zum Börsenstart: Das sollten Anleger am 14. Mai 2025 wissen

Ein umfassender Überblick über die marktrelevanten Entwicklungen am Morgen des 14. Mai 2025 mit Fokus auf wichtige Aktien, Handelsbewegungen und wirtschaftliche Einflüsse, die den Handelstag prägen werden.

FormFactor, Inc. (FORM): Among the Best Quantum Computing Stocks to Invest in Now
Sonntag, 22. Juni 2025. FormFactor, Inc. (FORM): Ein vielversprechender Akteur im Bereich Quantum Computing Aktien

FormFactor, Inc. zählt zu den führenden Unternehmen im Bereich der Quantencomputing-Technologie und bietet Investoren eine spannende Gelegenheit, von den Fortschritten in dieser revolutionären Technologie zu profitieren.

Dow Jones Futures Rise As Nvidia, Tesla Rally; Super Micro Soars On $20 Billion AI Deal
Sonntag, 22. Juni 2025. Aktienmarkt sieht Aufschwung: Dow Jones Futures steigen dank Nvidia, Tesla und Super Micros $20 Milliarden KI-Deal

Der Aktienmarkt erlebt einen Aufschwung, angeführt von den steigenden Kursen der Technologieriesen Nvidia und Tesla sowie dem erheblichen KI-Auftrag von Super Micro. Dieses dynamische Marktgeschehen spiegelt die Optimismuswelle im Bereich künstlicher Intelligenz und innovative Technologieentwicklung wider.