ChatGPT Health: Studie weist auf riskante Fehleinschätzungen in Notfällen hin

Wie die Studie arbeitete

Ärzt:innen entwickelten 60 realistische klinische Fallvignetten aus 21 Fachgebieten. Die Fälle wurden variiert — etwa Geschlecht, Hautfarbe, Transportprobleme oder psychologische Begleitumstände — und insgesamt 960 Anfragen an ChatGPT Health gestellt. Die Empfehlungen der KI wurden mit unabhängigen Expertengutachten verglichen, die sich an klinischen Leitlinien orientierten.

Die wichtigsten Ergebnisse auf einen Blick

Hohe Übereinstimmung bei Routinefällen mittlerer Schwere: In 93 % der Fälle stimmte die KI mit der ärztlichen Empfehlung überein.

Probleme an den Extremen

Unter-Triage: In echten Notfällen bewertete die KI in 51,6 % der Fälle die Situation zu wenig dringlich. Beispiele: schwere diabetische Entgleisung oder ein akuter Asthmaanfall wurden wiederholt mit „in 24–48 Stunden Arzt“ statt „sofort Notaufnahme“ beantwortet. Die KI erkannte Symptome oft teilweise, wog sie aber falsch.

Über-Triage: Bei fast 65 % der Fälle, die Leitlinien zufolge zu Hause beobachtet werden könnten, empfahl die KI einen Arztbesuch. Das könnte zu unnötigem Patientenaufkommen führen.

Ankereffekt und demografische Faktoren

Die KI zeigte eine deutliche Anfälligkeit für den sogenannten Ankereffekt: Wenn im Falltext beiläufig erwähnt wurde, dass Freunde die Symptome für unbedenklich hielten, neigte das System deutlich zu einer weniger dringlichen Einschätzung (Odds Ratio 11,7). Demografische Variablen wie Hautfarbe oder Geschlecht hatten in den getesteten Szenarien hingegen keinen statistisch signifikanten Einfluss auf die Empfehlungen.

Schwierigkeiten bei psychischen Notlagen

Bei Suizidgedanken zeigte ChatGPT Health nur eingeschränkten Schutz: Vage Formulierungen zogen meist ein Warnhinweis-Banner mit Verweisen auf Krisentelefone nach sich. Wenn jedoch konkrete Suizidpläne beschrieben wurden — etwa die Absicht, eine bestimmte Medikamentendosis zu nehmen — fehlte dieses Warnbanner häufig. In solchen Fällen fokussierte die KI stärker auf körperliche Parameter und übersah akute psychische Gefährdung.

Was die Autor:innen daraus ableiten

Nach Ansicht der Studienautor:innen reichen rechtliche Hinweise, dass die KI keinen Arzt ersetzt, nicht aus. Wenn die KI beruhigt, könnte das Menschen dazu bringen, eine notwendige Versorgung zu verschieben. Deshalb plädieren die Forschungsteams dafür, dass Systeme, die als erste Anlaufstelle für Gesundheitsfragen dienen, vor großer Verbreitung strengere externe Sicherheitsprüfungen und Zulassungen durchlaufen sollten — vergleichbar mit der Regulierung klassischer Medizinprodukte —, um Patient:innen verlässlich zu schützen.

Quellen

Quelle: ChatGPT Health / OpenAI

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Microsofts Copilot Tasks erledigt Routineaufgaben in der Cloud

Feb. 27, 2026 | Allgemein, KI

Microsoft zeigt Copilot Tasks: Eine agentische KI, die Routineaufgaben cloudbasiert für dich übernimmt.In KürzeEinmalige, zeitgesteuerte oder wiederkehrende AufgabenCloud‑Ausführung mit Ablauf‑Bericht zu Schritten und EntscheidungenHolt vor kritischen Aktionen deine...

Telekom bringt Magenta AI direkt ins Mobilfunknetz – Plus KI‑Brille

Feb. 27, 2026 | Allgemein, KI

Auf dem MWC zeigt die Telekom einen netzintegrierten Call‑Assistenten und eine KI‑Brille als Prototyp.In KürzeCall‑Assistent im Telekom‑Netz, nutzbar auch ohne SmartphoneFunktionen: 'Hey Magenta', Live‑Übersetzungen, Gesprächsprotokolle, KalendereinträgeKI‑Brille als...

Burger King hört mit: KI‑Assistent „Patty“ bewertet Service per Headset

Feb. 27, 2026 | Allgemein, KI

In rund 500 US‑Filialen testet Burger King 'Patty' — eine KI, die per Headset Freundlichkeit misst und Küchen sowie Bestellungen vernetzt.In KürzePatty erkennt Schlüsselwörter und berechnet einen Freundlichkeits‑WertTeil der Plattform „BK Assistant“: vernetzt Kasse,...

ChatGPT Health: Studie weist auf riskante Fehleinschätzungen in Notfällen hin

In Kürze

Wie die Studie arbeitete

Die wichtigsten Ergebnisse auf einen Blick

Probleme an den Extremen

Warum das problematisch ist

Ankereffekt und demografische Faktoren

Schwierigkeiten bei psychischen Notlagen

Was die Autor:innen daraus ableiten

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Microsofts Copilot Tasks erledigt Routineaufgaben in der Cloud

Telekom bringt Magenta AI direkt ins Mobilfunknetz – Plus KI‑Brille

Burger King hört mit: KI‑Assistent „Patty“ bewertet Service per Headset

Über uns

Dein Thema?

Pickert GmbH