OpenAI hat mit HealthBench einen innovativen Teststandard für KI im Gesundheitsbereich eingeführt, der medizinische Gespräche bewertet.
In Kürze
- HealthBench bewertet KI-Interaktionen in der Medizin.
- GPT-4.1 zeigt bessere Ergebnisse als menschliche Ärzte.
- 5.000 Szenarien von 262 Medizinern weltweit erstellt.
„`html
OpenAI führt „HealthBench“ als neuen Teststandard ein
OpenAI hat mit „HealthBench“ einen neuen Teststandard für KI-Systeme im Gesundheitsbereich ins Leben gerufen. Dieser innovative Test bewertet, wie gut KI medizinische Gespräche führen kann. Dabei zeigt sich, dass die neuesten Modelle von OpenAI in einigen Aspekten besser abschneiden als menschliche Ärztinnen und Ärzte, wenn es darum geht, medizinische Fragen zu beantworten.
Entwicklung von HealthBench
Der Grund für die Entwicklung von HealthBench liegt in den Schwächen bisheriger Testsysteme für medizinische KI. Diese konnten oft nicht realistische Gespräche abbilden. Um dies zu ändern, wurden 5.000 Gesprächsszenarien von 262 Medizinern aus 60 Ländern erstellt. Diese Fachleute decken 26 medizinische Disziplinen ab und sprechen insgesamt 49 Sprachen. Der Test bewertet die Antworten der KI in Bereichen wie Notfallmedizin und globaler Gesundheit und legt dabei Wert auf Kriterien wie Kommunikationsqualität und Genauigkeit.
Leistung des neuesten Modells GPT-4.1
Das neueste Modell, GPT-4.1, hat im Vergleich zu seinen Vorgängern eine deutlich bessere Leistung gezeigt und arbeitet zudem effizienter. Besonders spannend ist die Erkenntnis, dass die neuesten KI-Modelle in vielen Fällen ähnliche oder sogar bessere Bewertungen als ärztliche Antworten erzielen konnten. OpenAI betont jedoch, dass diese Tests nicht die tatsächliche Qualität der ärztlichen Versorgung widerspiegeln. Es besteht weiterhin Bedarf an Verbesserungen, insbesondere in Bezug auf die Verlässlichkeit der schwächsten Antworten der KI.
Aufruf zur Weiterentwicklung
OpenAI ruft die Forschungsgemeinschaft dazu auf, die veröffentlichten Testdaten von HealthBench weiterzuentwickeln und so die Möglichkeiten der KI im Gesundheitswesen weiter zu erforschen.
„`
Quellen
- Quelle: OpenAI
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.