Skills für Agenten: Studie zeigt begrenzten Nutzen unter realen Bedingungen

13.04.2026 | Allgemein, KI

Skills für Agenten Studie zeigt begrenzten Nutzen unter realen Bedingungen

Studie testet 34.198 Open‑Source‑Skills: Vorteile schrumpfen in realistischen Tests; Agenten wählen oder laden oft falsche Skills.

In Kürze

Vorteile gegenüber No‑Skill gehen in realistischen Szenarios zurück
Hauptprobleme: Auswahl/Laden, Retrieval, Anpassung
Aufgabenspezifische Verfeinerung hilft, ersetzt aber keine starken Ausgangs‑Skills

Skills — strukturierte Textdateien, die Agenten fachspezifisches Wissen liefern sollen — sind ein heißes Thema in der KI‑Entwicklung. Eine neue Studie von Forschenden der UC Santa Barbara, des MIT CSAIL und des MIT‑IBM Watson AI Lab prüft jetzt, wie gut dieses Konzept unter realistischen Bedingungen tatsächlich funktioniert — und liefert detaillierte Zahlen dazu.

Was sind Skills?

Skills sind keine eigenständigen Programme, sondern modulare Textdateien: Workflows, API‑How‑tos, Best‑Practices und ähnliches Domänenwissen.
Vorgestellt wurde das Konzept unter anderem von Anthropic (Claude Code, Oktober 2025) und rasch von zahlreichen Projekten übernommen.

Aufbau der Studie

Datengrundlage: 34.198 echte, Open‑Source‑Skills (MIT/Apache‑Lizenzen) aus Bereichen wie Webentwicklung, Data Engineering und wissenschaftlichem Rechnen.
Testdesign: Sechs Szenarien mit zunehmender Realitätsnähe — von kuratierten Skill‑Pools bis zur freien Suche in der kompletten Sammlung (mit und ohne kuratierte Skills im Pool).
Evaluation: Drei aktuelle Agentenmodelle wurden komplett autonom getestet (Retrieval + Lösung).

Kernaussagen der Ergebnisse

Die Vorteile von Skills schwinden mit realistischeren Bedingungen; in vielen Varianten liegen die Ergebnisse nahe der No‑Skill‑Baseline.
Beispiel Claude Opus 4.6 (vereinfacht):
- Mit erzwungenem Laden kuratierter Skills: 55,4 % bestandene Aufgaben
- Agent wählt selbst: 51,2 %
- Mit Ablenkern (Distraktoren): 43,5 %
- Eigenständige Suche in der Sammlung: 40,1 %
- Ohne kuratierte Skills im Pool: 38,4 %
- Baseline ohne Skills: 35,4 %
Schwächere Modelle litten stärker: Kimi K2.5 und Qwen3.5 schnitten im realistischsten Setting teils schlechter ab als ohne Skills (z. B. Kimi 19,8 % vs. 21,8 % ohne Skills). Irrelevante Skills können also fehlleiten.

Drei Hauptengpässe

Auswahl und Laden

Agenten erkennen und laden häufig nicht die passenden Skills. Claude lud in nur 49 % aller Durchläufe alle kuratierten Skills; bei Distraktoren fiel die Rate auf 31 %. Kimi lud zwar öfter (86 % im kuratierten Setting), das führte aber nicht automatisch zu besseren Ergebnissen.

Suche / Retrieval

Selbst die beste getestete Suche erreichte nur etwa 65,5 % Recall@5 — viele relevante Skills bleiben also außerhalb der Top‑Treffer.

Die beste Methode war eine sogenannte „Agentic Hybrid Search“: Der Agent stellt iterativ Suchanfragen und prüft Kandidaten; damit stieg Recall@3 deutlich gegenüber einfacher semantischer Suche.

Anpassung / Verfeinerung

Gefundene, allgemeinere Skills lassen sich oft nicht gut auf die konkrete Aufgabe übertragen. Ohne geeignete Anpassung bleiben Potenziale ungenutzt.

Verfeinerungsstrategien: Wirkung mit Vorbehalt

Aufgabenspezifische Verfeinerung, also wenn ein Agent eine Lösung testet, Skills bewertet und daraus neue, angepasste Skill‑Versionen bildet, brachte spürbare Verbesserungen:
- Claude auf SKILLSBENCH: von 40,1 % auf 48,2 %.
- Auf dem allgemeinen Benchmark TERMINAL‑BENCH 2.0: von 61,4 % auf 65,5 %.
Offline oder aufgabenunabhängige Verfeinerung lieferte nur inkonsistente Verbesserungen.
Fazit der Autor:innen: Verfeinerung wirkt vor allem als Verstärker für bereits relevante Ausgangs‑Skills — sie hebt vorhandene Qualität, ersetzt sie aber nicht.

Bestätigung früherer Befunde

Frühere Experimente hatten bereits gezeigt, dass Agenten verfügbare Skills oft nicht aufrufen (in rund 56 % der Fälle). Ein Beispiel aus früheren Tests: Eine einfache Markdown‑Datei (AGENTS.md) führte zu 100 % Erfolg, während das Skill‑System bei maximal 79 % stagnierte. Die neue Studie bestätigt dieses Erkennungsproblem nun systematisch über mehrere Modelle und in großem Maßstab.

Empfehlungen der Forschenden

Bessere Retrieval‑Methoden entwickeln, die bei großer Dokumentensammlung zuverlässiger relevante Skills finden.
Effektivere Offline‑Verfeinerungsstrategien erforschen.
Skill‑Ökosysteme so gestalten, dass sie verschiedene Modellfähigkeiten berücksichtigen (also nicht ein Einheitsmodell für alle Einsatzszenarien).

Technisches Material

Der Code der Studie ist öffentlich auf GitHub verfügbar, sodass Teams Ergebnisse nachprüfen und eigene Experimente ansetzen können.

Quellen

Quelle: UC Santa Barbara / MIT CSAIL / MIT-IBM Watson AI Lab
Der ursprüngliche Artikel wurde hier veröffentlicht
Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Tesla rollt fahrerlose Robotaxis nach Dallas und Houston

Tesla rollt fahrerlose Robotaxis nach Dallas und Houston

Apr. 19, 2026 | Allgemein, KI

Tesla startet Robotaxis in Dallas und Houston.In KürzeStart in Dallas & HoustonAustin: 46 aktive Autos14 Unfälle in Austin Tesla hat seinen fahrerlosen Robotaxi-Dienst jetzt auch in Dallas und Houston gestartet. In einem kurzen Social‑Media‑Video sind Tesla‑Fahrzeuge...

Schon 10–15 Minuten KI‑Hilfe schwächen deine spätere Leistung

Schon 10–15 Minuten KI‑Hilfe schwächen deine spätere Leistung

Apr. 19, 2026 | Allgemein, KI

Kontrollierte Experimente aus UK und den USA zeigen: Kurzzeit‑Assistenz durch KI kann nach Entfernen der Hilfe die eigene Leistung mindern.In Kürze10–15 Minuten KI‑Unterstützung senken die Leistung im nachfolgenden TestAm stärksten betroffen: Nutzer, die direkt...

Salesforce: ‚Die API ist die Benutzeroberfläche‘ – Headless 360 startet

Salesforce: ‚Die API ist die Benutzeroberfläche‘ – Headless 360 startet

Apr. 19, 2026 | Allgemein, KI

Marc Benioff: APIs ersetzen Browser und Apps. Salesforce öffnet mit Headless 360 Kernfunktionen per Schnittstelle.In KürzeHeadless 360 macht Funktionen per API verfügbar (Agentforce, MCP, CLI)KI‑Agenten, Slack und CLI greifen direkt auf Daten zuMCP liefert Kontext für...

« Ältere Einträge