KI‑Agenten testen vor allem Programmierer – Benchmarks spiegeln Jobmarkt nicht wider

09.03.2026 | Allgemein, KI

KI‑Agenten testen vor allem Programmierer Benchmarks spiegeln Jobmarkt nicht wider

KI‑Agenten werden meist mit Programmieraufgaben geprüft, nicht mit realen Berufsanforderungen.

In Kürze

Programmierung dominiert Benchmarks (7,6% der Jobs)
Management, Recht und Architektur sind stark unterrepräsentiert
Forderung: breitere Domänen, realistischere und feinere Tests

Viele KI‑Agenten werden an Programmieraufgaben getestet — und das spiegelt nicht den US‑Arbeitsmarkt wider. Forscher:innen von Carnegie Mellon und Stanford haben 43 Agenten‑Benchmarks mit 72.342 einzelnen Aufgaben systematisch an die O*NET‑Datenbank der US‑Regierung angeglichen, die Berufe und Tätigkeiten katalogisiert. Das Ergebnis: Die Benchmarks konzentrieren sich stark auf Computer‑ und Mathematik‑Aufgaben, vor allem Programmierung, obwohl diese Domäne nur etwa 7,6 % der Beschäftigung in den USA ausmacht.

Wenig repräsentierte, aber digital gut aufgestellte Bereiche

Die Analyse zeigt deutliche Lücken: Bereiche mit hohem Digitalisierungsgrad tauchen in Benchmarks kaum auf. Beispiele:

Management: 88 % digitalisiert, aber nur 1,4 % der Benchmark‑Aufgaben betreffen Managementtätigkeiten.
Juristische Tätigkeiten: 70 % digitalisiert, nur 0,3 % der Aufgaben.
Architektur und Ingenieurwesen: 71 % digitalisiert, 0,7 % der Aufgaben.

Gleichzeitig sind stark arbeitsintensive, oft schlecht bezahlte Felder wie Pflege weitestgehend nicht abgebildet.

Welche Fähigkeiten werden geprüft — und welche fehlen?

Die Forscher:innen unterteilen berufliche Fähigkeiten in vier Gruppen:

Informationsaufnahme
mentale Prozesse
Interaktion mit anderen
Arbeitsergebnisse

Bestehende Benchmarks legen fast ausschließlich Gewicht auf „Informationen beschaffen“ und „mit Computern arbeiten“. Zusammen decken diese Kategorien weniger als 5 % der US‑Beschäftigung ab. Fähigkeiten, die intensive zwischenmenschliche Interaktion erfordern, sind weitgehend nicht vertreten.

Warum dieser Fokus entsteht

Ein zentraler Treiber ist methodische Bequemlichkeit: Aufgaben, die sich leicht formal beschreiben und automatisch auswerten lassen, werden bevorzugt. Das erklärt schnelle Fortschritte in engen Bereichen — lenkt Forschung und Evaluation aber weg von Domänen, in denen der wirtschaftliche oder gesellschaftliche Nutzen größer sein könnte.

Autonomie: wie selbstständig sind Agenten bei komplizierten Aufgaben?

Die Studie definiert Autonomie über die maximale Aufgabenkomplexität, die ein Agent bei einer vorgegebenen Erfolgsrate bewältigt. Komplexität messen die Autor:innen anhand der Anzahl nötiger Arbeitsschritte in einem hierarchischen Workflow.

Ergebnis: Mit wachsender Komplexität sinkt die Autonomie deutlich. Selbst bei Softwareentwicklung fallen Erfolgsraten schnell ab. Agenten schneiden vergleichsweise gut bei internen Denkaufgaben und beim Produzieren von Ergebnissen ab, haben aber größere Probleme beim Auffinden/Abrufen von Informationen und bei der Koordination mit anderen — oft schon bei relativ einfachen Aufgaben.

Vergleiche, Benchmarks und Werkzeuge

Auf einzelnen Benchmarks zeigen sich Unterschiede zwischen Frameworks und Modellen: So schneidet OpenHands besser ab als SWE‑agent auf bestimmten Tests, und Claude performt besser als GPT bei mittlerer Komplexität — die Autoren betonen jedoch, dass solche Trends nicht universell gelten. Sie fordern außerdem eine stärkere Freigabe von Agenten‑Trajektorien (also detaillierten Ablaufdaten), um systematische Vergleiche zu ermöglichen. Positiv hervorgehoben wird OpenAIs Benchmark GDPval (eingeführt 2025): Trotz geringerer Größe deckt er eine relativ breite Bandbreite an Domänen und Fähigkeiten ab.

Empfehlungen für bessere Benchmarks

Zielgerichtete Abdeckung: Benchmarks sollten unterrepräsentierte, aber stark digitalisierte und ökonomisch relevante Domänen wie Management oder Recht einbeziehen bzw. generell breit über Domänen und Fähigkeiten streuen.
Mehr Realismus und Komplexität: Automatisch erzeugte Aufgaben neigen zu stark vereinfachten Ausschnitten realer Arbeit. Menschlich erstellte Aufgaben (beispielsweise in GDPval oder TheAgentCompany) sind vielfältiger; falls synthetisch generiert wird, muss die Erzeugung realistische Kombinationen von Domänen und Fähigkeiten abbilden.
Feiner granulare Evaluation: Statt nur Endresultate (erledigt/nicht erledigt) zu messen, sollten Benchmarks Zwischenstationen aus menschlichen Demonstrationen ableiten, um genau zu identifizieren, wo Agenten scheitern.

Kontext und ergänzende Befunde

Die Studie liefert ein Framework sowie Ressourcen, die Benchmark‑Designer:innen beim Aufspüren von Lücken helfen, Entwickler:innen Verbesserungsbereiche aufzeigen und Nutzer:innen die Wahl des passenden Autonomiegrads erleichtern sollen. Ergänzende Analysen von Anthropic zeigen, dass rund 50 % aller agentischen Tool‑Aufrufe über die öffentliche API auf Software‑Entwicklung entfallen. Eine UC‑Berkeley‑Studie (Ende 2025) bestätigt: Firmen setzen Agenten meist als einfache, stark kontrollierte Werkzeuge mit wenigen autonomen Schritten ein; Zuverlässigkeit bleibt die größte Hürde.

Was das konkret heißt

Aktuelle Agenten sind am stärksten bei klar definierten, prüfbaren Computeraufgaben. Für viele reale Jobs — insbesondere solche mit hohem Management‑, Rechts‑ oder Interaktionsanteil — spiegeln Benchmarks die tatsächlichen Anforderungen noch nicht angemessen wider. Will man Agenten, die in echten Arbeitsabläufen zuverlässig helfen, brauchen Entwickler:innen und Evaluator:innen realistischere Tests, eine breitere Domänenabdeckung und feinere Messgrößen, um präzise zu erkennen, wo Agenten versagen.

Quellen

Quelle: Carnegie Mellon University / Stanford University
Der ursprüngliche Artikel wurde hier veröffentlicht
Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

CiteAudit: Offenes Tool erkennt gefälschte Zitate mit 97,2% Genauigkeit

CiteAudit: Offenes Tool erkennt gefälschte Zitate mit 97,2% Genauigkeit

März 9, 2026 | Allgemein, KI

CiteAudit prüft Zitate und findet häufig falsche Referenzen.In Kürze97,2% Treffer5 Prüfagenten + lokales ModellWeb‑App: 500 Checks/Tag gratis Gefälschte Zitate in wissenschaftlichen Papieren sind kein Randproblem mehr. Immer wieder tauchen in akzeptierten Beiträgen...

Studie: Sprachmodelle neigen in Wargames zur nuklearen Eskalation

Studie: Sprachmodelle neigen in Wargames zur nuklearen Eskalation

März 9, 2026 | Allgemein, KI

Wargames: LLMs tendieren zur Eskalation.In KürzeKein Modell wählte RückzugTäuschung bei friedlichen SignalenUnterschiedliche Eskalationsraten Stell dir vor, zwei KI‑Programme spielen einen nuklearen Krisenfall — und beide wählen fast immer die Eskalationsvariante. So...

Adult Mode von ChatGPT erneut verschoben – neuer Starttermin fehlt

Adult Mode von ChatGPT erneut verschoben – neuer Starttermin fehlt

März 8, 2026 | Allgemein, KI

OpenAI verschiebt den „Adult Mode“ von ChatGPT erneut; ein neues Datum wurde nicht genannt.In KürzeLaunch erneut verschoben, kein neues StartdatumPriorität für Intelligenz, Persönlichkeit und NutzererlebnisAlterssicherung/Verifizierung noch nicht konkretisiert OpenAI...

« Ältere Einträge