KI erzeugt so realistische Röntgenfakes, dass weder Ärzt:innen noch manche Detektoren zuverlässig unterscheiden können.
In Kürze
- Studie am Mount Sinai: 17 Radiolog:innen testeten gegen KI-generierte Bilder
- Erkennungsrate lag bei gezielter Suche nur bei ~75 %, einige Modelle nur bei ~56–59 %
- Empfehlung: Schulung, digitale Signaturen und unabhängige Detektoren
Gefälschte Röntgenbilder: Wenn weder Ärzt:innen noch KI zuverlässig durchblicken
KI-Modelle erzeugen inzwischen so realistische Röntgenbilder, dass selbst erfahrene Radiolog:innen und aktuelle Erkennungs-Tools oft danebenliegen. Eine Untersuchung am Mount Sinai Hospital zeigt, wie groß die Lücke zwischen Erzeugung und verlässlicher Erkennung von Deepfakes in der Radiologie ist — und welche Risiken daraus folgen.
Wie die Studie aufgebaut war
Die Forscher:innen rekrutierten 17 Radiolog:innen aus sechs Ländern und testeten sie mit zwei Datensätzen:
- 154 Röntgenaufnahmen verschiedener Körperregionen, davon etwa die Hälfte KI-generiert mit GPT-4o.
- Ein zweiter Datensatz mit Brustkorb-Aufnahmen, erstellt von einem spezialisierten Bild-KI-Modell.
Der Versuch lief in drei Phasen ab:
- Blindphase: Die Ärzt:innen sollten die Bildqualität bewerten und Diagnosen stellen – ohne zu wissen, dass KI-Bilder darunter waren.
- Identifikationsphase: Jetzt war bekannt, dass Deepfakes vorhanden sind; die Teilnehmenden sollten echte von gefälschten Bildern unterscheiden.
- KI-Vergleich: Vier große Modelle (GPT-4o, GPT-5, Googles Gemini 2.5 Pro, Metas Llama 4 Maverick) wurden parallel getestet.
Was die Ärzt:innen und die Modelle leisteten
- In der Blindphase äußerten nur 7 von 17 Radiolog:innen (41 %) spontan den Verdacht auf KI-generierte Bilder.
- In der Phase mit gezielter Suche nach Fakes lag die durchschnittliche Genauigkeit bei etwa 75 % — anders gesagt: Bei rund jedem vierten Bild wurde falsch entschieden.
- Berufserfahrung half kaum: Radiolog:innen mit bis zu 40 Jahren Praxis erkannten nicht signifikant besser.
- Bei den automatisierten Erkennungsversuchen zeigten sich Unterschiede zwischen den Modellen:
- Einige OpenAI-Modelle erzielten Trefferquoten um 83–85 %.
- Googles Gemini 2.5 Pro und Metas Llama 4 Maverick lagen nur bei rund 56–59 % — nahe am Zufallsniveau.
- GPT-4o, das zur Erzeugung vieler Testbilder genutzt wurde, war selbst nicht zuverlässig darin, diese Fakes zu erkennen.
Typische Hinweise auf KI-Fälschungen
- Knochen erscheinen oft zu glatt, fehlen die feinen, unregelmäßigen Strukturen echten Gewebes.
- Bildrauschen wirkt bei KI-Aufnahmen zu gleichmäßig verteilt statt unregelmäßig wie bei echten Aufnahmen.
- Feine anatomische Details fehlen oder sind fehlerhaft dargestellt — Beispiele: Schatten von Nagelbetten oder feinere Gefäßverläufe in der Lunge.
Warum das ein Problem ist
Schon heute reicht häufig ein einfacher Textprompt, um täuschend echte Röntgenbilder zu erzeugen. Das eröffnet neben legitimen Anwendungen wie Simulationen auch Missbrauchszenarien.
- Versicherungsbetrug
- gefälschte Beweismittel
- manipulierte Studiendaten
Vorgeschlagene Gegenmaßnahmen
- Schulungen für Radiolog:innen, um die Aufmerksamkeit für typische KI-Artefakte zu schärfen.
- Technische Schutzmechanismen wie digitale Signaturen als Authentizitätsnachweis, unsichtbare Wasserzeichen in Bildern und blockchain-basierte Herkunftsnachweise.
- Entwicklung unabhängiger, automatisierter Detektoren, die Bilder per Pixelanalyse prüfen und Deepfakes im Klinikalltag markieren.
Die Untersuchung dokumentiert also eine reale Sicherheitslücke: KI kann täuschend echte Röntgenbilder erzeugen, und weder Menschen noch alle aktuellen Systeme erkennen diese zuverlässig. Die Autor:innen sehen deshalb Fortbildung und technische Lösungen als zentrale Schritte, um die Integrität radiologischer Bilder zu schützen.
Quellen
- Quelle: Mount Sinai Hospital
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




