OpenAI hat GDPval ins Leben gerufen, um KI-Modelle in realen Arbeitskontexten zu testen.
In Kürze
- 1.320 Aufgaben aus 44 Berufen werden bewertet
- GPT-5 und Claude Opus 4.1 zeigen beeindruckende Ergebnisse
- Menschliche Kontrolle bleibt trotz KI-Leistung unerlässlich
Einführung des neuen Benchmarks GDPval
OpenAI hat einen neuen Benchmark namens GDPval ins Leben gerufen, der darauf abzielt, KI-Modelle in realen Arbeitskontexten zu testen. Dabei werden 1.320 Aufgaben aus 44 Berufen berücksichtigt, die jeweils mehr als fünf Prozent zum Bruttoinlandsprodukt der USA beitragen. Diese Aufgaben decken ein breites Spektrum ab, darunter Technik, Pflege, Recht und Journalismus.
Höhere Anforderungen an die Aufgaben
Im Gegensatz zu einfachen Textfragen stellen die Aufgaben höhere Anforderungen. Hier geht es nicht nur um das Verfassen von Texten, sondern auch um komplexe Tätigkeiten wie die Erstellung von 3D-Modellen oder Präsentationen. Bei den Tests haben die modernen KI-Modelle GPT-5 und Claude Opus 4.1 besonders gut abgeschnitten. Experten bewerteten die Ergebnisse dieser Modelle bei etwa der Hälfte der Aufgaben als gleichwertig oder sogar besser im Vergleich zu menschlichen Lösungen.
Leistungsstärke der Modelle
- GPT-5: Punktet vor allem durch Genauigkeit und Fachwissen.
- Claude Opus 4.1: Beeindruckt mit ästhetisch ansprechenden und gut formatierten Ergebnissen.
Ein weiterer Vorteil der KI-Modelle ist ihre Effizienz: Sie bearbeiten Aufgaben rund 100 Mal schneller und kostengünstiger als Menschen.
Notwendigkeit menschlicher Kontrolle
Trotz dieser beeindruckenden Leistungsfähigkeit bleibt menschliche Kontrolle unerlässlich. Die Modelle sind derzeit darauf ausgelegt, einzelne Aufgaben zu bearbeiten, ohne kontextabhängige Iterationen oder Rückmeldungen zu berücksichtigen. Langfristig soll GDPval dazu beitragen, die wirtschaftlichen Auswirkungen von KI besser zu verstehen. Zukünftige Versionen der Modelle sind geplant, um realistischer und interaktiver zu werden und komplexere Berufssituationen abzubilden.
Quellen
- Quelle: OpenAI
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.