KI-Agenten nähern sich Profiqualität bei Freelance‑Jobs – Grenzen bleiben

03.07.2026 | Allgemein, KI

KI-Agenten nähern sich Profiqualität bei Freelance‑Jobs Grenzen bleiben

KI-Agenten liefern zunehmend akzeptable Freelancer‑Arbeiten, doch echte Profi‑Qualität fehlt oft.

In Kürze

RLI misst Automatisierungsrate an 240 Projekten
Fable 5 Spitzenwert: 16,1% Automatisierungsrate
Automatische Prüfer bewerten zu positiv

KI-Agenten erreichen bei Freelance-Aufträgen zunehmend Profiqualität — aber mit klaren Grenzen. Das zeigt der neue Remote Labor Index (RLI), ein Benchmark der Center for AI Safety (CAIS) und Scale Labs, der KI-Arbeiten mit menschlichen Standards misst.

Was misst der RLI?

Der RLI prüft, wie oft KI-Agenten bezahlte Freelance-Aufträge in einer Qualität abliefern, die ein zahlender Kunde akzeptieren würde. Getestet werden Bereiche wie:

3D/CAD
Architektur
Grafikdesign
Video/Animation
Audio
Datenanalyse
Web‑Apps

Grundlage sind 240 Projekte im Gesamtwert von rund 144.000 US‑Dollar, eingereicht von 358 verifizierten Freelancern. Jede Abgabe wird von menschlichen Gutachtern mit einem von Profis erstellten „Gold‑Standard“ verglichen.

Die wichtigste Kennzahl: Automatisierungsrate

Als Automatisierungsrate gilt der Anteil der Projekte, bei denen die KI‑Arbeit mindestens so gut bewertet wurde wie die menschliche Arbeit. Das ist der zentrale Leistungsindikator des RLI.

Wie sich die Werte entwickelt haben

Die Spitzenrate stieg deutlich: Anfangs lag sie bei 2,5 Prozent, in weniger als acht Monaten kletterte die Bestmarke auf 16,1 Prozent (Modell: Fable 5). Das ist mehr als viermal so hoch wie der Ausgangswert. Zum Vergleich erreichen folgende Modelle:

Fable 5: 16,1 Prozent
Opus 4.8: 8,3 Prozent
GPT‑5.5: 6,3 Prozent
Opus 4.6: 4,17 Prozent
Gemini 3 Pro: 1,25 Prozent

Bei Fable 5 konnten nur 218 der 240 Projekte bewertet werden, weil der Zugang später eingeschränkt wurde; selbst im ungünstigsten Szenario läge die Automatisierungsrate noch bei 14,6 Prozent.

Konkrete Schwächen in den Ergebnissen

Bei einem Ringdesign wirkte eine Fable‑5‑Einreichung auf den ersten Blick besser, war bei genauer Prüfung aber unprofessionell.
GPT‑5.5 lieferte ein ansehnliches Rendering — das sichtbare Bild war gut, das zugrundeliegende 3D‑Modell aber fehlerhaft.
Mehrere gezeigte Fable‑5‑Ergebnisse wären laut Gutachtern nicht als fertige Arbeiten durchgegangen.

Insgesamt erreichen die besten Modelle Profiqualität in den meisten Aufgaben weiterhin nicht.

Warum menschliche Gutachter bleiben müssen

CAIS testete auch automatische KI‑Prüfer — die fielen deutlich zu positiv aus. Bei GPT‑5.5 lagen die Bewertungen fast dreimal zu hoch, bei Opus 4.8 etwa 2,5‑mal. Während die automatische Bewertung meist die Rangfolge der Modelle richtig einschätzte, waren die absoluten Werte unzuverlässig.

Der Grund: Ein fairer Test erfordert, Dateien in den passenden Profi‑Programmen zu öffnen und die Arbeit praktisch zu prüfen — eine Aufgabe, bei der aktuelle KI‑Prüfer oft scheitern.

Wie die Tests ablaufen

Die Modelle wurden in realistischen Entwicklerwerkzeugen wie Claude Code oder Codex CLI ausgeführt und um die Fähigkeit erweitert, grafische Programme direkt zu bedienen. Getestet wurde auf einem virtuellen Linux‑Rechner mit mehr als 30 Profi‑Anwendungen. Beispiele:

Blender
GIMP
Audacity

Jedes Projekt durfte bis zu 24 Stunden Rechenzeit nutzen. Zusätzlich gab es eine Prüfer‑Schleife: Ein zweiter KI‑Agent bewertet kritisch wie ein anspruchsvoller Kunde, woraufhin der erste Agent nachbessert.

Kernaussage der Messung

Die Automatisierungsrate ist innerhalb eines Jahres deutlich gestiegen — gleichzeitig zeigen die Beispiele, dass praktische Fertigkeiten und echte Profi‑Qualität in vielen Fällen noch fehlen. Menschliche Gutachter bleiben deshalb Teil des Prüfprozesses.

Quellen

Quelle: Remote Labor Index / Center for AI Safety / Scale Labs
Der ursprüngliche Artikel wurde hier veröffentlicht
Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Cloudflare gibt Website‑Betreiber:innen feinere Kontrolle über KI‑Crawler

Cloudflare gibt Website‑Betreiber:innen feinere Kontrolle über KI‑Crawler

Juli 3, 2026 | Allgemein, KI

Cloudflare ersetzt die pauschale KI‑Crawler‑Sperre durch dreistufige Zugriffsregeln.In KürzeSearch/Agent/Training statt One‑SizeNeue Voreinstellung ab 15.9.2026, Opt‑outBotBase & geänderte Verifizierungsregeln Cloudflare gibt dir mehr Kontrolle darüber, welche...

Kostenexplosion stoppt interne KI-Tools großer US-Firmen

Kostenexplosion stoppt interne KI-Tools großer US-Firmen

Juli 3, 2026 | Allgemein, KI

US-Konzerne drosseln interne KI-Tools, weil die Ausgaben rasant steigen.In KürzeToken-Abrechnung treibt Kosten deutlich nach obenAtlassian, Adobe, Amazon und Citi führen Limits einMitarbeitende bekommen strengere Nutzungsregeln Große US-Konzerne ziehen die Bremse bei...

Bioshocking: Manipulierte Webseiten bringen KI‑Agenten zur Datenpreisgabe

Bioshocking: Manipulierte Webseiten bringen KI‑Agenten zur Datenpreisgabe

Juli 3, 2026 | Allgemein, KI

Bioshocking: Forscher zeigen, wie manipulierte Seiten KI‑Agenten vertrauliche Daten entlocken.In KürzeRätselseiten täuschen falsche Erfolgskriterien vorAgenten kopieren Links mit ZugangsdatenBetroffene: ChatGPT Atlas, Perplexity, Claude u.a. Sicherheitsforscher von...

« Ältere Einträge