OpenAI präsentiert HealthBench: Neuer Teststandard für KI im Gesundheitswesen

OpenAI führt „HealthBench“ als neuen Teststandard ein

OpenAI hat mit „HealthBench“ einen neuen Teststandard für KI-Systeme im Gesundheitsbereich ins Leben gerufen. Dieser innovative Test bewertet, wie gut KI medizinische Gespräche führen kann. Dabei zeigt sich, dass die neuesten Modelle von OpenAI in einigen Aspekten besser abschneiden als menschliche Ärztinnen und Ärzte, wenn es darum geht, medizinische Fragen zu beantworten.

Entwicklung von HealthBench

Der Grund für die Entwicklung von HealthBench liegt in den Schwächen bisheriger Testsysteme für medizinische KI. Diese konnten oft nicht realistische Gespräche abbilden. Um dies zu ändern, wurden 5.000 Gesprächsszenarien von 262 Medizinern aus 60 Ländern erstellt. Diese Fachleute decken 26 medizinische Disziplinen ab und sprechen insgesamt 49 Sprachen. Der Test bewertet die Antworten der KI in Bereichen wie Notfallmedizin und globaler Gesundheit und legt dabei Wert auf Kriterien wie Kommunikationsqualität und Genauigkeit.

Leistung des neuesten Modells GPT-4.1

Das neueste Modell, GPT-4.1, hat im Vergleich zu seinen Vorgängern eine deutlich bessere Leistung gezeigt und arbeitet zudem effizienter. Besonders spannend ist die Erkenntnis, dass die neuesten KI-Modelle in vielen Fällen ähnliche oder sogar bessere Bewertungen als ärztliche Antworten erzielen konnten. OpenAI betont jedoch, dass diese Tests nicht die tatsächliche Qualität der ärztlichen Versorgung widerspiegeln. Es besteht weiterhin Bedarf an Verbesserungen, insbesondere in Bezug auf die Verlässlichkeit der schwächsten Antworten der KI.

Aufruf zur Weiterentwicklung

OpenAI ruft die Forschungsgemeinschaft dazu auf, die veröffentlichten Testdaten von HealthBench weiterzuentwickeln und so die Möglichkeiten der KI im Gesundheitswesen weiter zu erforschen.

„`

Quellen

Quelle: OpenAI

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

KI verändert Informatik‑Lehre: Mehr Problemlösung, mehr beaufsichtigte Prüfungen

Juli 27, 2026 | Allgemein, KI

Generative KI verändert Informatik‑Lehre und Prüfungen.In Kürze64% passten Lehre an68% änderten PrüfungenRegeln fehlen, viele wollen Schulungen Die meisten Informatik-Lehrenden haben ihre Kurse und Prüfungen wegen generativer KI bereits umgebaut. Das zeigt eine...

Debian vor Entscheidung: Wie mit LLM‑und KI‑erstellten Beiträgen umgehen?

Juli 27, 2026 | Allgemein, KI

Debian diskutiert Regeln für KI/LLM‑Beiträge.In KürzeVier Optionen: Verbot bis zulässige NutzungRechts-, Qualitäts- und Community‑Risiken prägen die DebatteAbstimmung aller Debian‑Entwickler nach zweiwöchiger Diskussion Debian diskutiert: Wie geht das Projekt mit...

China mobilisiert KI‑Chipoffensive – Aufholjagd bleibt hinter Nvidia zurück

Juli 27, 2026 | Allgemein, KI

China mobilisiert Industrie für eigene KI‑Chips. Nvidia bleibt vorn.In KürzeHeimische Chips

OpenAI präsentiert HealthBench: Neuer Teststandard für KI im Gesundheitswesen

In Kürze

OpenAI führt „HealthBench“ als neuen Teststandard ein

Entwicklung von HealthBench

Leistung des neuesten Modells GPT-4.1

Aufruf zur Weiterentwicklung

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

KI verändert Informatik‑Lehre: Mehr Problemlösung, mehr beaufsichtigte Prüfungen

Debian vor Entscheidung: Wie mit LLM‑und KI‑erstellten Beiträgen umgehen?

China mobilisiert KI‑Chipoffensive – Aufholjagd bleibt hinter Nvidia zurück

Über uns

Dein Thema?

Pickert GmbH