Studie testet 34.198 Open‑Source‑Skills: Vorteile schrumpfen in realistischen Tests; Agenten wählen oder laden oft falsche Skills.
In Kürze
- Vorteile gegenüber No‑Skill gehen in realistischen Szenarios zurück
- Hauptprobleme: Auswahl/Laden, Retrieval, Anpassung
- Aufgabenspezifische Verfeinerung hilft, ersetzt aber keine starken Ausgangs‑Skills
Skills — strukturierte Textdateien, die Agenten fachspezifisches Wissen liefern sollen — sind ein heißes Thema in der KI‑Entwicklung. Eine neue Studie von Forschenden der UC Santa Barbara, des MIT CSAIL und des MIT‑IBM Watson AI Lab prüft jetzt, wie gut dieses Konzept unter realistischen Bedingungen tatsächlich funktioniert — und liefert detaillierte Zahlen dazu.
Was sind Skills?
- Skills sind keine eigenständigen Programme, sondern modulare Textdateien: Workflows, API‑How‑tos, Best‑Practices und ähnliches Domänenwissen.
- Vorgestellt wurde das Konzept unter anderem von Anthropic (Claude Code, Oktober 2025) und rasch von zahlreichen Projekten übernommen.
Aufbau der Studie
- Datengrundlage: 34.198 echte, Open‑Source‑Skills (MIT/Apache‑Lizenzen) aus Bereichen wie Webentwicklung, Data Engineering und wissenschaftlichem Rechnen.
- Testdesign: Sechs Szenarien mit zunehmender Realitätsnähe — von kuratierten Skill‑Pools bis zur freien Suche in der kompletten Sammlung (mit und ohne kuratierte Skills im Pool).
- Evaluation: Drei aktuelle Agentenmodelle wurden komplett autonom getestet (Retrieval + Lösung).
Kernaussagen der Ergebnisse
- Die Vorteile von Skills schwinden mit realistischeren Bedingungen; in vielen Varianten liegen die Ergebnisse nahe der No‑Skill‑Baseline.
-
Beispiel Claude Opus 4.6 (vereinfacht):
- Mit erzwungenem Laden kuratierter Skills: 55,4 % bestandene Aufgaben
- Agent wählt selbst: 51,2 %
- Mit Ablenkern (Distraktoren): 43,5 %
- Eigenständige Suche in der Sammlung: 40,1 %
- Ohne kuratierte Skills im Pool: 38,4 %
- Baseline ohne Skills: 35,4 %
- Schwächere Modelle litten stärker: Kimi K2.5 und Qwen3.5 schnitten im realistischsten Setting teils schlechter ab als ohne Skills (z. B. Kimi 19,8 % vs. 21,8 % ohne Skills). Irrelevante Skills können also fehlleiten.
Drei Hauptengpässe
Auswahl und Laden
Agenten erkennen und laden häufig nicht die passenden Skills. Claude lud in nur 49 % aller Durchläufe alle kuratierten Skills; bei Distraktoren fiel die Rate auf 31 %. Kimi lud zwar öfter (86 % im kuratierten Setting), das führte aber nicht automatisch zu besseren Ergebnissen.
Suche / Retrieval
Selbst die beste getestete Suche erreichte nur etwa 65,5 % Recall@5 — viele relevante Skills bleiben also außerhalb der Top‑Treffer.
Die beste Methode war eine sogenannte „Agentic Hybrid Search“: Der Agent stellt iterativ Suchanfragen und prüft Kandidaten; damit stieg Recall@3 deutlich gegenüber einfacher semantischer Suche.
Anpassung / Verfeinerung
Gefundene, allgemeinere Skills lassen sich oft nicht gut auf die konkrete Aufgabe übertragen. Ohne geeignete Anpassung bleiben Potenziale ungenutzt.
Verfeinerungsstrategien: Wirkung mit Vorbehalt
- Aufgabenspezifische Verfeinerung, also wenn ein Agent eine Lösung testet, Skills bewertet und daraus neue, angepasste Skill‑Versionen bildet, brachte spürbare Verbesserungen:
- Claude auf SKILLSBENCH: von 40,1 % auf 48,2 %.
- Auf dem allgemeinen Benchmark TERMINAL‑BENCH 2.0: von 61,4 % auf 65,5 %.
- Offline oder aufgabenunabhängige Verfeinerung lieferte nur inkonsistente Verbesserungen.
- Fazit der Autor:innen: Verfeinerung wirkt vor allem als Verstärker für bereits relevante Ausgangs‑Skills — sie hebt vorhandene Qualität, ersetzt sie aber nicht.
Bestätigung früherer Befunde
Frühere Experimente hatten bereits gezeigt, dass Agenten verfügbare Skills oft nicht aufrufen (in rund 56 % der Fälle). Ein Beispiel aus früheren Tests: Eine einfache Markdown‑Datei (AGENTS.md) führte zu 100 % Erfolg, während das Skill‑System bei maximal 79 % stagnierte. Die neue Studie bestätigt dieses Erkennungsproblem nun systematisch über mehrere Modelle und in großem Maßstab.
Empfehlungen der Forschenden
- Bessere Retrieval‑Methoden entwickeln, die bei großer Dokumentensammlung zuverlässiger relevante Skills finden.
- Effektivere Offline‑Verfeinerungsstrategien erforschen.
- Skill‑Ökosysteme so gestalten, dass sie verschiedene Modellfähigkeiten berücksichtigen (also nicht ein Einheitsmodell für alle Einsatzszenarien).
Technisches Material
Der Code der Studie ist öffentlich auf GitHub verfügbar, sodass Teams Ergebnisse nachprüfen und eigene Experimente ansetzen können.
Quellen
- Quelle: UC Santa Barbara / MIT CSAIL / MIT-IBM Watson AI Lab
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




