Studie prüft ChatGPT Health: starker Treffer bei Routinefällen, aber riskante Fehleinschätzungen am Extrem.
In Kürze
- 93% Übereinstimmung bei mittleren Fällen
- 51,6% Unter-Triage in echten Notfällen
- ~65% Über-Triage bei Heimfällen
OpenAI hat im Januar 2026 „ChatGPT Health“ gestartet – eine Variante von ChatGPT, die als erste Anlaufstelle für Gesundheitsfragen gedacht ist. Eine neue Studie prüft jetzt, wie zuverlässig die KI bei der Einschätzung von Dringlichkeit ist: Sollst du zu Hause bleiben, in ein paar Tagen zum Arzt gehen oder sofort in die Notaufnahme?
Wie die Studie arbeitete
Ärzt:innen entwickelten 60 realistische klinische Fallvignetten aus 21 Fachgebieten. Die Fälle wurden variiert — etwa Geschlecht, Hautfarbe, Transportprobleme oder psychologische Begleitumstände — und insgesamt 960 Anfragen an ChatGPT Health gestellt. Die Empfehlungen der KI wurden mit unabhängigen Expertengutachten verglichen, die sich an klinischen Leitlinien orientierten.
Die wichtigsten Ergebnisse auf einen Blick
- Hohe Übereinstimmung bei Routinefällen mittlerer Schwere: In 93 % der Fälle stimmte die KI mit der ärztlichen Empfehlung überein.
Probleme an den Extremen
- Unter-Triage: In echten Notfällen bewertete die KI in 51,6 % der Fälle die Situation zu wenig dringlich. Beispiele: schwere diabetische Entgleisung oder ein akuter Asthmaanfall wurden wiederholt mit „in 24–48 Stunden Arzt“ statt „sofort Notaufnahme“ beantwortet. Die KI erkannte Symptome oft teilweise, wog sie aber falsch.
- Über-Triage: Bei fast 65 % der Fälle, die Leitlinien zufolge zu Hause beobachtet werden könnten, empfahl die KI einen Arztbesuch. Das könnte zu unnötigem Patientenaufkommen führen.
Warum das problematisch ist
Beide Fehlarten haben Konsequenzen: Über-Triage belastet das Gesundheitssystem, Unter-Triage kann akute Gefährdungen verschleppen und folgenschwer sein. Die Autor:innen der Studie heben hervor, dass gerade Unter-Triage klinisch gefährlich sein kann, weil verzögerte Hilfe Leben kosten kann.
Ankereffekt und demografische Faktoren
Die KI zeigte eine deutliche Anfälligkeit für den sogenannten Ankereffekt: Wenn im Falltext beiläufig erwähnt wurde, dass Freunde die Symptome für unbedenklich hielten, neigte das System deutlich zu einer weniger dringlichen Einschätzung (Odds Ratio 11,7). Demografische Variablen wie Hautfarbe oder Geschlecht hatten in den getesteten Szenarien hingegen keinen statistisch signifikanten Einfluss auf die Empfehlungen.
Schwierigkeiten bei psychischen Notlagen
Bei Suizidgedanken zeigte ChatGPT Health nur eingeschränkten Schutz: Vage Formulierungen zogen meist ein Warnhinweis-Banner mit Verweisen auf Krisentelefone nach sich. Wenn jedoch konkrete Suizidpläne beschrieben wurden — etwa die Absicht, eine bestimmte Medikamentendosis zu nehmen — fehlte dieses Warnbanner häufig. In solchen Fällen fokussierte die KI stärker auf körperliche Parameter und übersah akute psychische Gefährdung.
Was die Autor:innen daraus ableiten
Nach Ansicht der Studienautor:innen reichen rechtliche Hinweise, dass die KI keinen Arzt ersetzt, nicht aus. Wenn die KI beruhigt, könnte das Menschen dazu bringen, eine notwendige Versorgung zu verschieben. Deshalb plädieren die Forschungsteams dafür, dass Systeme, die als erste Anlaufstelle für Gesundheitsfragen dienen, vor großer Verbreitung strengere externe Sicherheitsprüfungen und Zulassungen durchlaufen sollten — vergleichbar mit der Regulierung klassischer Medizinprodukte —, um Patient:innen verlässlich zu schützen.
Quellen
- Quelle: ChatGPT Health / OpenAI
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




