Anthropic analysiert fast 10.000 Claude-Chats und zeigt, wie fertige KI-Ausgaben die Prüfung durch Nutzer schwächen.
In Kürze
- Fertige „Artefakte“ reduzieren Faktenchecks und Hinterfragen.
- Iteratives Arbeiten erhöht nachweislich KI-Kompetenz-Verhalten.
- Nur ~30% geben klare Kooperationsanweisungen; Anthropic gibt drei Praxisregeln.
Wenn Antworten von KI wie fertige Produkte wirken, prüfst du sie offenbar seltener — das ist das zentrale Ergebnis einer internen Auswertung von Anthropic. Das Unternehmen hat im Januar fast 10.000 anonymisierte Gespräche mit seinem Chatbot Claude analysiert und daraus einen „AI Fluency Index“ entwickelt, der messen soll, wie kompetent Menschen mit KI-Tools umgehen.
Was wurde gemessen?
Anthropic wertete fast 10.000 Chats aus und stützte sich dabei auf das 4D-AI-Fluency-Framework, das in Zusammenarbeit mit zwei Professoren entstand. Das Framework definiert 24 Verhaltensweisen, die KI-Kompetenz abbilden sollen; in Chat-Protokollen sind davon aber nur 11 direkt messbar. Aus den Daten bauten die Forschenden ihren Index, mit dem sie Verhaltensmuster wie Hinterfragen, Kontext-Checks oder Faktensicherung erfassen.
Polierte Ausgaben dämpfen Skepsis
Ein Schwerpunkt der Analyse waren sogenannte „Artefakte“ — das sind fertige Ausgaben wie Code-Snippets, Dokumente oder kleine Tools, die wie endgültige Produkte wirken. Solche Artefakt-Gespräche machten 12,3 % der untersuchten Chats aus. In diesen Fällen sank die kritische Prüfung deutlich:
- Fehlender Kontext wurde 5,2 Prozentpunkte seltener erkannt.
- Faktenprüfung ging um 3,7 Prozentpunkte zurück.
- Das Hinterfragen von Claudes Argumentation nahm um 3,1 Prozentpunkte ab.
Anthropic weist zudem darauf hin, dass Claude laut dem eigenen Economic Index bei besonders komplexen Aufgaben größere Schwierigkeiten zeigt — die polierte Optik kann also trügerisch sein.
Warum passiert das?
- Wenn etwas fertig aussieht, behandeln Menschen es eher als abgeschlossen.
- Bei Design- oder Formataufgaben fällt das Auge stärker auf Aussehen oder Funktion und weniger auf punktgenaue Fakten.
- Außerdem könnten Prüfungen schlicht außerhalb des Chats stattfinden (zum Beispiel indem Code separat getestet wird).
Iteration zahlt sich aus — mit Grenzen
Die meisten Gespräche waren iterativ: In 85,7 % der Chats verfeinerten Nutzer Antworten schrittweise statt die erste Ausgabe zu akzeptieren. Iterative Gespräche zeigten im Mittel 2,67 zusätzliche Kompetenz-Verhaltensweisen gegenüber 1,33 bei nicht-iterativen Chats. Nutzer, die iterierten, hinterfragten Claudes Argumentation 5,6-mal häufiger und erkannten fehlenden Kontext viermal so oft.
Gleichzeitig warnen die Forschenden vor einem praktischen Problem: Werden Chats zu lang und sammeln sich zu viele irrelevante Kontext-Informationen an, können die KI-Ausgaben schlechter werden. Als Gegenstrategie nennt Anthropic „Context Engineering“ — also gezielte Fragen, bewusstes Verfeinern und das Wissen, wann ein neuer Chat sinnvoll ist.
Prompting-Lücke
In nur etwa 30 % der Gespräche gaben Nutzer der KI explizite Anweisungen zur Zusammenarbeit (zum Beispiel: „Widersprich mir, wenn meine Annahmen falsch sind“). Solche Vorgaben könnten laut Anthropic die Qualität des Austauschs deutlich erhöhen.
Was Anthropic empfiehlt
- Betrachte die erste Antwort als Ausgangspunkt, nicht als Endergebnis.
- Hinterfrage besonders polierte Ergebnisse aktiv.
- Lege klar fest, wie die Zusammenarbeit laufen soll (etwa gewünschte Prüfregeln oder Erklärungen).
Begrenzungen der Studie
Die Analyse beruht auf dem 4D-AI-Fluency-Framework mit 24 definierten Verhaltensweisen, von denen nur 11 direkt in Chat-Protokollen messbar sind. Die übrigen 13 Verhaltensweisen — darunter etwa der ehrliche Umgang mit KI-generierten Inhalten gegenüber Dritten — finden meist außerhalb der Chat-Oberfläche statt und sollen künftig mit qualitativen Methoden untersucht werden.
Anthropic plant, diese Bereiche weiter zu erforschen, um ein vollständigeres Bild von „AI Fluency“ zu erhalten.
Quellen
- Quelle: Anthropic
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




