ChatGPT Health: Studie weist auf riskante Fehleinschätzungen in Notfällen hin

27.02.2026 | Allgemein, KI

Studie prüft ChatGPT Health: starker Treffer bei Routinefällen, aber riskante Fehleinschätzungen am Extrem.

In Kürze

  • 93% Übereinstimmung bei mittleren Fällen
  • 51,6% Unter-Triage in echten Notfällen
  • ~65% Über-Triage bei Heimfällen

OpenAI hat im Januar 2026 „ChatGPT Health“ gestartet – eine Variante von ChatGPT, die als erste Anlaufstelle für Gesundheitsfragen gedacht ist. Eine neue Studie prüft jetzt, wie zuverlässig die KI bei der Einschätzung von Dringlichkeit ist: Sollst du zu Hause bleiben, in ein paar Tagen zum Arzt gehen oder sofort in die Notaufnahme?

Wie die Studie arbeitete

Ärzt:innen entwickelten 60 realistische klinische Fallvignetten aus 21 Fachgebieten. Die Fälle wurden variiert — etwa Geschlecht, Hautfarbe, Transportprobleme oder psychologische Begleitumstände — und insgesamt 960 Anfragen an ChatGPT Health gestellt. Die Empfehlungen der KI wurden mit unabhängigen Expertengutachten verglichen, die sich an klinischen Leitlinien orientierten.

Die wichtigsten Ergebnisse auf einen Blick

  • Hohe Übereinstimmung bei Routinefällen mittlerer Schwere: In 93 % der Fälle stimmte die KI mit der ärztlichen Empfehlung überein.

Probleme an den Extremen

  • Unter-Triage: In echten Notfällen bewertete die KI in 51,6 % der Fälle die Situation zu wenig dringlich. Beispiele: schwere diabetische Entgleisung oder ein akuter Asthmaanfall wurden wiederholt mit „in 24–48 Stunden Arzt“ statt „sofort Notaufnahme“ beantwortet. Die KI erkannte Symptome oft teilweise, wog sie aber falsch.
  • Über-Triage: Bei fast 65 % der Fälle, die Leitlinien zufolge zu Hause beobachtet werden könnten, empfahl die KI einen Arztbesuch. Das könnte zu unnötigem Patientenaufkommen führen.

Warum das problematisch ist

Beide Fehlarten haben Konsequenzen: Über-Triage belastet das Gesundheitssystem, Unter-Triage kann akute Gefährdungen verschleppen und folgenschwer sein. Die Autor:innen der Studie heben hervor, dass gerade Unter-Triage klinisch gefährlich sein kann, weil verzögerte Hilfe Leben kosten kann.

Ankereffekt und demografische Faktoren

Die KI zeigte eine deutliche Anfälligkeit für den sogenannten Ankereffekt: Wenn im Falltext beiläufig erwähnt wurde, dass Freunde die Symptome für unbedenklich hielten, neigte das System deutlich zu einer weniger dringlichen Einschätzung (Odds Ratio 11,7). Demografische Variablen wie Hautfarbe oder Geschlecht hatten in den getesteten Szenarien hingegen keinen statistisch signifikanten Einfluss auf die Empfehlungen.

Schwierigkeiten bei psychischen Notlagen

Bei Suizidgedanken zeigte ChatGPT Health nur eingeschränkten Schutz: Vage Formulierungen zogen meist ein Warnhinweis-Banner mit Verweisen auf Krisentelefone nach sich. Wenn jedoch konkrete Suizidpläne beschrieben wurden — etwa die Absicht, eine bestimmte Medikamentendosis zu nehmen — fehlte dieses Warnbanner häufig. In solchen Fällen fokussierte die KI stärker auf körperliche Parameter und übersah akute psychische Gefährdung.

Was die Autor:innen daraus ableiten

Nach Ansicht der Studienautor:innen reichen rechtliche Hinweise, dass die KI keinen Arzt ersetzt, nicht aus. Wenn die KI beruhigt, könnte das Menschen dazu bringen, eine notwendige Versorgung zu verschieben. Deshalb plädieren die Forschungsteams dafür, dass Systeme, die als erste Anlaufstelle für Gesundheitsfragen dienen, vor großer Verbreitung strengere externe Sicherheitsprüfungen und Zulassungen durchlaufen sollten — vergleichbar mit der Regulierung klassischer Medizinprodukte —, um Patient:innen verlässlich zu schützen.

Quellen

  • Quelle: ChatGPT Health / OpenAI
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Microsofts Copilot Tasks erledigt Routineaufgaben in der Cloud

Microsofts Copilot Tasks erledigt Routineaufgaben in der Cloud

Microsoft zeigt Copilot Tasks: Eine agentische KI, die Routineaufgaben cloudbasiert für dich übernimmt.In KürzeEinmalige, zeitgesteuerte oder wiederkehrende AufgabenCloud‑Ausführung mit Ablauf‑Bericht zu Schritten und EntscheidungenHolt vor kritischen Aktionen deine...