OpenAI hat HealthBench ins Leben gerufen, um die Leistung von KI-Modellen im Gesundheitswesen zu überprüfen.
In Kürze
- 5.000 simulierte Arzt-Patienten-Gespräche werden analysiert
- 60 % der Befragten nutzen ChatGPT für medizinische Fragen
- KI kann Symptome einordnen, ersetzt aber keine Ärzte
OpenAI’s New System: HealthBench
OpenAI hat ein neues System namens HealthBench ins Leben gerufen, das darauf abzielt, die Leistungsfähigkeit von KI-Modellen, insbesondere ChatGPT, bei der Beantwortung medizinischer Anfragen zu überprüfen. In einem umfassenden Ansatz werden dazu 5.000 simulierte Arzt-Patienten-Gespräche analysiert, die von Ärzten aus aller Welt erstellt wurden. Ziel dieser Analyse ist es, Schwächen in der Kommunikation und der Diagnosefähigkeit der KI zu identifizieren.
Studie zur Nutzung von ChatGPT bei medizinischen Fragen
Eine aktuelle Studie zeigt, dass in Sydney 60 % der Befragten bei medizinischen Fragen auf ChatGPT zurückgreifen, anstatt direkt einen Arzt aufzusuchen. Das klingt zwar nach einer praktischen Lösung, birgt jedoch auch Risiken. HealthBench soll dazu beitragen, diese Risiken zu minimieren und den Einsatz von KI im Gesundheitswesen sicherer zu gestalten.
Testergebnisse und Diskussion
In den Tests hat das beste KI-Modell eine Genauigkeit von 60 % erreicht. Im Vergleich dazu schneiden ältere, kostenlose Versionen wie GPT-3.5 deutlich schlechter ab. OpenAI möchte mit diesem Ansatz die Diskussion über den sinnvollen Einsatz von KI in der Medizin anstoßen. ChatGPT kann nützlich sein, um Symptome einzuordnen und Informationen bereitzustellen, jedoch ist es wichtig zu betonen, dass die KI nicht die Rolle von Ärzten übernehmen kann. Die Verantwortung für die endgültige Diagnose liegt nach wie vor in menschlichen Händen.
Quellen
- Quelle: OpenAI
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.