Eine neue Studie zeigt, dass OpenAIs älteres Modell o3 in Büro-Szenarien überraschend stark abschneidet.
In Kürze
- o3 übertrifft GPT-5 bei komplexen Aufgaben
- Stärken in der Planung und Kontextarbeit
- Schwächen bei der Koordination mehrerer Anwendungen
Benchmark-Studie OdysseyBench
In einer aktuellen Benchmark-Studie namens OdysseyBench wurden KI-Modelle in realistischen Büro-Szenarien getestet – und das über mehrere Tage hinweg. Das Ergebnis? OpenAIs älteres Modell o3 hat sich als überraschend leistungsstark erwiesen und schlägt sogar das neuere GPT-5.
Leistungsfähigkeit von o3
Besonders bei komplexen Aufgaben, die ein harmonisches Zusammenspiel von Anwendungen wie Word, Excel und E-Mail erfordern, zeigt o3 seine Stärken. Hier müssen die Modelle über längere Zeiträume hinweg planen und kontextbezogen arbeiten, was o3 offenbar besser gelingt.
Aufgedeckte Schwächen der KI-Modelle
Die Studie hat jedoch auch einige Schwächen der KI-Modelle aufgedeckt. Insbesondere bei der Planung, der Nutzung von Tools und der Verknüpfung von Informationen aus verschiedenen Kontexten hapert es noch. Diese Mängel treten besonders bei Aufgaben auf, die mehrere Schritte und Anwendungen erfordern. Die Koordination zwischen diesen Elementen bleibt eine Herausforderung, die es zu meistern gilt.
Ausblick auf die Technologieentwicklung
Die Ergebnisse der Untersuchung verdeutlichen, dass selbst fortschrittliche KI-Modelle noch nicht optimal für komplexe Büroarbeiten gerüstet sind. Es bleibt spannend zu beobachten, wie sich die Technologie weiterentwickelt und ob zukünftige Modelle diese Herausforderungen besser bewältigen können.
Quellen
- Quelle: OpenAI
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




