KI-Agenten nähern sich Profiqualität bei Freelance‑Jobs – Grenzen bleiben

03.07.2026 | Allgemein, KI

KI-Agenten liefern zunehmend akzeptable Freelancer‑Arbeiten, doch echte Profi‑Qualität fehlt oft.

In Kürze

  • RLI misst Automatisierungsrate an 240 Projekten
  • Fable 5 Spitzenwert: 16,1% Automatisierungsrate
  • Automatische Prüfer bewerten zu positiv

KI-Agenten erreichen bei Freelance-Aufträgen zunehmend Profiqualität — aber mit klaren Grenzen. Das zeigt der neue Remote Labor Index (RLI), ein Benchmark der Center for AI Safety (CAIS) und Scale Labs, der KI-Arbeiten mit menschlichen Standards misst.

Was misst der RLI?

Der RLI prüft, wie oft KI-Agenten bezahlte Freelance-Aufträge in einer Qualität abliefern, die ein zahlender Kunde akzeptieren würde. Getestet werden Bereiche wie:

  • 3D/CAD
  • Architektur
  • Grafikdesign
  • Video/Animation
  • Audio
  • Datenanalyse
  • Web‑Apps

Grundlage sind 240 Projekte im Gesamtwert von rund 144.000 US‑Dollar, eingereicht von 358 verifizierten Freelancern. Jede Abgabe wird von menschlichen Gutachtern mit einem von Profis erstellten „Gold‑Standard“ verglichen.

Die wichtigste Kennzahl: Automatisierungsrate

Als Automatisierungsrate gilt der Anteil der Projekte, bei denen die KI‑Arbeit mindestens so gut bewertet wurde wie die menschliche Arbeit. Das ist der zentrale Leistungsindikator des RLI.

Wie sich die Werte entwickelt haben

Die Spitzenrate stieg deutlich: Anfangs lag sie bei 2,5 Prozent, in weniger als acht Monaten kletterte die Bestmarke auf 16,1 Prozent (Modell: Fable 5). Das ist mehr als viermal so hoch wie der Ausgangswert. Zum Vergleich erreichen folgende Modelle:

  • Fable 5: 16,1 Prozent
  • Opus 4.8: 8,3 Prozent
  • GPT‑5.5: 6,3 Prozent
  • Opus 4.6: 4,17 Prozent
  • Gemini 3 Pro: 1,25 Prozent

Bei Fable 5 konnten nur 218 der 240 Projekte bewertet werden, weil der Zugang später eingeschränkt wurde; selbst im ungünstigsten Szenario läge die Automatisierungsrate noch bei 14,6 Prozent.

Konkrete Schwächen in den Ergebnissen

  • Bei einem Ringdesign wirkte eine Fable‑5‑Einreichung auf den ersten Blick besser, war bei genauer Prüfung aber unprofessionell.
  • GPT‑5.5 lieferte ein ansehnliches Rendering — das sichtbare Bild war gut, das zugrundeliegende 3D‑Modell aber fehlerhaft.
  • Mehrere gezeigte Fable‑5‑Ergebnisse wären laut Gutachtern nicht als fertige Arbeiten durchgegangen.

Insgesamt erreichen die besten Modelle Profiqualität in den meisten Aufgaben weiterhin nicht.

Warum menschliche Gutachter bleiben müssen

CAIS testete auch automatische KI‑Prüfer — die fielen deutlich zu positiv aus. Bei GPT‑5.5 lagen die Bewertungen fast dreimal zu hoch, bei Opus 4.8 etwa 2,5‑mal. Während die automatische Bewertung meist die Rangfolge der Modelle richtig einschätzte, waren die absoluten Werte unzuverlässig.

Der Grund: Ein fairer Test erfordert, Dateien in den passenden Profi‑Programmen zu öffnen und die Arbeit praktisch zu prüfen — eine Aufgabe, bei der aktuelle KI‑Prüfer oft scheitern.

Wie die Tests ablaufen

Die Modelle wurden in realistischen Entwicklerwerkzeugen wie Claude Code oder Codex CLI ausgeführt und um die Fähigkeit erweitert, grafische Programme direkt zu bedienen. Getestet wurde auf einem virtuellen Linux‑Rechner mit mehr als 30 Profi‑Anwendungen. Beispiele:

  • Blender
  • GIMP
  • Audacity

Jedes Projekt durfte bis zu 24 Stunden Rechenzeit nutzen. Zusätzlich gab es eine Prüfer‑Schleife: Ein zweiter KI‑Agent bewertet kritisch wie ein anspruchsvoller Kunde, woraufhin der erste Agent nachbessert.

Kernaussage der Messung

Die Automatisierungsrate ist innerhalb eines Jahres deutlich gestiegen — gleichzeitig zeigen die Beispiele, dass praktische Fertigkeiten und echte Profi‑Qualität in vielen Fällen noch fehlen. Menschliche Gutachter bleiben deshalb Teil des Prüfprozesses.

Quellen

  • Quelle: Remote Labor Index / Center for AI Safety / Scale Labs
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Kostenexplosion stoppt interne KI-Tools großer US-Firmen

Kostenexplosion stoppt interne KI-Tools großer US-Firmen

US-Konzerne drosseln interne KI-Tools, weil die Ausgaben rasant steigen.In KürzeToken-Abrechnung treibt Kosten deutlich nach obenAtlassian, Adobe, Amazon und Citi führen Limits einMitarbeitende bekommen strengere Nutzungsregeln Große US-Konzerne ziehen die Bremse bei...