OpenAI präsentiert HealthBench: Neuer Teststandard für KI im Gesundheitswesen

14.05.2025 | Allgemein, KI

OpenAI hat mit HealthBench einen innovativen Teststandard für KI im Gesundheitsbereich eingeführt, der medizinische Gespräche bewertet.

In Kürze

  • HealthBench bewertet KI-Interaktionen in der Medizin.
  • GPT-4.1 zeigt bessere Ergebnisse als menschliche Ärzte.
  • 5.000 Szenarien von 262 Medizinern weltweit erstellt.

„`html

OpenAI führt „HealthBench“ als neuen Teststandard ein

OpenAI hat mit „HealthBench“ einen neuen Teststandard für KI-Systeme im Gesundheitsbereich ins Leben gerufen. Dieser innovative Test bewertet, wie gut KI medizinische Gespräche führen kann. Dabei zeigt sich, dass die neuesten Modelle von OpenAI in einigen Aspekten besser abschneiden als menschliche Ärztinnen und Ärzte, wenn es darum geht, medizinische Fragen zu beantworten.

Entwicklung von HealthBench

Der Grund für die Entwicklung von HealthBench liegt in den Schwächen bisheriger Testsysteme für medizinische KI. Diese konnten oft nicht realistische Gespräche abbilden. Um dies zu ändern, wurden 5.000 Gesprächsszenarien von 262 Medizinern aus 60 Ländern erstellt. Diese Fachleute decken 26 medizinische Disziplinen ab und sprechen insgesamt 49 Sprachen. Der Test bewertet die Antworten der KI in Bereichen wie Notfallmedizin und globaler Gesundheit und legt dabei Wert auf Kriterien wie Kommunikationsqualität und Genauigkeit.

Leistung des neuesten Modells GPT-4.1

Das neueste Modell, GPT-4.1, hat im Vergleich zu seinen Vorgängern eine deutlich bessere Leistung gezeigt und arbeitet zudem effizienter. Besonders spannend ist die Erkenntnis, dass die neuesten KI-Modelle in vielen Fällen ähnliche oder sogar bessere Bewertungen als ärztliche Antworten erzielen konnten. OpenAI betont jedoch, dass diese Tests nicht die tatsächliche Qualität der ärztlichen Versorgung widerspiegeln. Es besteht weiterhin Bedarf an Verbesserungen, insbesondere in Bezug auf die Verlässlichkeit der schwächsten Antworten der KI.

Aufruf zur Weiterentwicklung

OpenAI ruft die Forschungsgemeinschaft dazu auf, die veröffentlichten Testdaten von HealthBench weiterzuentwickeln und so die Möglichkeiten der KI im Gesundheitswesen weiter zu erforschen.

„`

Quellen

  • Quelle: OpenAI
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

Eine neue Plattform beleuchtet die KI-Entwicklung bei OpenAI und fordert mehr Transparenz.In KürzeÖffentliche Sammlung von Berichten ehemaliger MitarbeitenderFokus auf CEO Sam Altman und seine RolleDebatte über ethische Implikationen und Renditen für Investoren The...

MITs SEAL: KI lernt selbstständig und effizient

MITs SEAL: KI lernt selbstständig und effizient

Ein innovatives System am MIT verändert die Lernweise von KI-Modellen grundlegend.In KürzeSEAL generiert und bewertet eigenes TrainingsmaterialPräzisere Informationen und bessere ProblemlösungsfähigkeitenHerausforderungen wie „Catastrophic Forgetting“ bleiben bestehen...

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google hat seine Live-Suche mit einem neuen KI-Chatbot aufgewertet, der gesprochene Antworten liefert.In KürzeSprachgesteuerter Chatbot liefert Antworten in gesprochener FormTestphase in den USA, Teilnahme über Google LabsGeplante Erweiterung um Bildinformationen für...