Stanford: Multimodale KI konstruiert falsche Bilder und gefährliche Diagnosen

31.03.2026 | Allgemein, KI

Stanford Multimodale KI konstruiert falsche Bilder und gefährliche Diagnosen

Stanford-Forscher zeigen: Multimodale KIs behaupten, Bilder gesehen zu haben und liefern darauf basierend falsche Diagnosen.

In Kürze

Mirage‑Effekt: komplette visuelle Szenarien werden erfunden
Besonders riskant in der Medizin mit vielen pathologischen Fehldiagnosen
Studie empfiehlt Modality‑Ablation‑Tests und robustere Benchmarks

Stanford-Forscher: Multimodale KI „erfindet“ Bilder und stellt falsche Diagnosen

Forscher der Stanford University haben ein unerwartetes Verhalten moderner multimodaler KI‑Modelle dokumentiert: Die Systeme, die Text und Bilder verarbeiten können, geben häufig vor, ein Bild gesehen zu haben — und liefern darauf aufbauend detaillierte Beschreibungen oder medizinische Diagnosen, obwohl gar kein Bild vorlag. Die Forschenden nennen dieses Phänomen „Mirage‑Effekt“.

Was genau passiert?

Multimodale Modelle konstruieren in vielen Fällen ein komplettes visuelles Szenario aus dem Nichts: Sie behaupten, ein Bild zu sehen, beschreiben angebliche Details und begründen Entscheidungen mit diesen fiktiven Befunden. Das unterscheidet den Mirage‑Effekt von klassischen Halluzinationen: Bei Halluzinationen entstehen zwar falsche Details, aber innerhalb eines ansonsten realen Rahmens. Beim Mirage‑Effekt ist der ganze Rahmen — das angebliche Bild — erfunden.

Wie stark ist das Problem?

Die Studie testete mehrere leistungsfähige Frontier‑Modelle (etwa GPT‑5‑Reihen, Gemini 3 Pro, Claude Opus/Sonnet 4.5). Auf etablierten Bild‑Benchmarks erreichten die Modelle im Durchschnitt noch 70–80 % ihrer üblichen Genauigkeit, obwohl kein Bild gezeigt wurde. Bei medizinischen Benchmarks zeigte sich das Problem besonders deutlich: Bis zu 99 % der Leistung konnten textbasiert erklärt werden — das Bild trug kaum etwas bei.

In einem eigens konstruierten Datensatz namens „Phantom‑0“ (200 Fragen aus 20 Kategorien) beschrieben Modelle in über 60 % der Fälle selbstbewusst visuelle Details ohne Bild; mit typischen Prompt‑Anweisungen stieg dieser Anteil auf 90–100 %. Das heißt: Aufforderungen, Details zu liefern, führten oft dazu, dass die Systeme „visuelle Narrative“ generierten.

Gefährlich vor allem in der Medizin

Bei kontrollierten Tests ließen die Forschenden etwa Gemini 3 Pro Diagnosen zu nicht existierenden Bildern stellen. Dazu gehörten unter anderem:

Röntgen
MRT
EKG
Pathologie
Dermatologie

Die Antworten zeigten eine deutliche Verzerrung hin zu pathologischen Befunden — häufig nannten die Modelle schwerwiegende Krankheiten wie ST‑Hebungsinfarkte (STEMI), Melanome oder Karzinome. Zwar kamen auch „normale“ Befunde vor, doch insgesamt überwogen die krankhaften Diagnosen.

Praktische Gefahr: Wenn ein Bildupload fehlschlägt oder eine API das Bild nicht korrekt übermittelt, könnten solche Systeme trotzdem dringende Handlungsempfehlungen oder Therapiehinweise ausgeben — basierend auf einem komplett erfundenen Bild.

Ein reines Textmodell schlägt multimodale Modelle (und Radiologen)

Interessanterweise erreichte ein ausschließlich textbasiertes Modell (Qwen 2.5, 3 Milliarden Parameter), das nur auf Frage‑Antwort‑Daten trainiert wurde, auf dem Testset bessere Ergebnisse als die getesteten multimodalen Frontier‑Modelle und lag über 10 % vor menschlichen Radiologen. Auch dieses Textmodell lieferte gelegentlich plausible visuelle Begründungen — trotz komplett fehlender Bilddaten.

Warum entstehen Mirage‑Antworten?

Die Forschenden führen das Verhalten auf die Trainingsdaten und -methoden zurück: Multimodale Modelle basieren auf sehr leistungsfähigen Sprachmodellen, die aus riesigen Textmengen statistische Muster und typische Zusammenhänge lernen. Viele Benchmarks enthalten genügend sprachliche Hinweise, sodass das Modell die korrekte Antwort allein aus Textmustern ableiten kann, ohne das Bild zu nutzen. Je besser die Sprachfähigkeit, desto größer die Neigung zum Mirage‑Effekt; neuere Modellversionen zeigten tendenziell höhere Raten.

Weitere Experimente: Mirage‑ vs. Rate‑Modus

Wenn man den Modellen ausdrücklich sagt „kein Bild vorhanden, rate bitte“, fällt die Leistung deutlich ab. Das legt nahe, dass Mirage kein simples Raten ist, sondern ein anderes Verarbeitungsregime: Im Mirage‑Modus konstruiert das Modell ein visuelles Narrativ und ruft damit verknüpfte Assoziationen ab. Standardkontrollen, die explizites Raten prüfen, unterschätzen dieses Verhalten, weil sie nur messen, wie konservativ ein Modell reagiert, wenn es weiß, dass kein Bild existiert.

Wie Benchmarks robuster werden könnten

Die Studie schlägt ein Framework namens „B‑Clean“ vor: Modelle werden ohne Bilder getestet und alle Fragen entfernt, die mindestens eines der Modelle ohne Bild korrekt beantworten kann. Auf drei Benchmarks filterte dieses Vorgehen 74–77 % der Fragen heraus. Auf den bereinigten Tests sanken manche Genauigkeiten deutlich und die Rangfolge der Modelle änderte sich.

Drei konkrete Empfehlungen aus der Studie:

Modality‑Ablation‑Tests (gezieltes Weglassen von Modalitäten wie Bildern) sollten beim Evaluieren multimodaler Systeme Standard werden.
Benchmarks sollten privat oder dynamisch aktualisiert werden, damit sie nicht in Pretraining‑Daten einfließen.
Evaluierungsmetriken sollten neben der absoluten Genauigkeit auch die Differenz zwischen bildgestützter und bildloser Leistung messen.

Was heißt das praktisch?

Eine hohe Punktzahl auf aktuellen Bild‑Benchmarks beweist nicht automatisch, dass ein Modell tatsächlich „sehen“ kann oder Bilder wirklich verarbeitet. Vieles beruht auf sprachlichen Abkürzungen und statistischen Mustern. Besonders in sicherheitsrelevanten oder medizinischen Anwendungsszenarien kann das dazu führen, dass überzeugend begründete, aber falsche visuelle Aussagen gemacht werden — ohne dass ein Bild überhaupt vorlag.

Quellen

Quelle: Stanford University
Der ursprüngliche Artikel wurde hier veröffentlicht
Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Google, Gemini, Sony: Die Tech‑News, die du heute kennen solltest

Google, Gemini, Sony: Die Tech‑News, die du heute kennen solltest

März 31, 2026 | Allgemein, KI

Kurz: Google erleichtert Sideloading‑Wechsel, Gemini importiert Chats, Sony drosselt Speicherkarten.In KürzeGoogle: SideloadingGemini: ImportSony: Speicher Kurz & bündig: Tech‑Updates, Sicherheitsfragen und Lieferprobleme — hier sind die wichtigsten Entwicklungen, die...

Minab-Angriff: Palantirs Maven wegen Datenfehler unter Beschuss

Minab-Angriff: Palantirs Maven wegen Datenfehler unter Beschuss

März 31, 2026 | Allgemein, KI

Untersuchungen deuten auf US-Angriff; Palantirs Maven verarbeitete veraltete Daten.In KürzeDatenfehler führten zur FalschklassifizierungAutomatisierte Priorisierung beschleunigte EntscheidungenErmittlungen fokussieren Datenqualität und Kontrollen Bei dem Luftangriff...

Microsofts Copilot Wave 3: Cowork, Critique und Model Council für Teams

Microsofts Copilot Wave 3: Cowork, Critique und Model Council für Teams

März 31, 2026 | Allgemein, KI

Wave 3 von Microsoft 365 Copilot bringt neue Tools für Teamarbeit, Forschung und Modellvergleich.In KürzeCopilot Cowork: flexible Team‑Workflows und KalenderintegrationResearcher mit Critique‑Workflow (Anthropic & OpenAI)Model Council zeigt Antworten mehrerer...

« Ältere Einträge