Eine neue Studie von Anthropic untersucht, ob KI-Modelle wie Claude ihre internen Zustände wahrnehmen können.
In Kürze
- 20% der Injektionen werden von KI-Modellen erkannt
- Selbstwahrnehmung bleibt unzuverlässig und kontextabhängig
- Fortgeschrittene Modelle zeigen bessere Ergebnisse
Studie über Selbstwahrnehmung in großen Sprachmodellen
In einer aktuellen Studie von Anthropic wurde untersucht, ob große Sprachmodelle wie Claude in der Lage sind, ihre eigenen internen Zustände zu erkennen. Die Forscher haben dazu künstliche „Gedanken“ in die neuronalen Aktivierungen der Modelle injiziert, um herauszufinden, ob diese Injektionen von den Modellen wahrgenommen werden können.
Ergebnisse der Studie
Die Ergebnisse sind spannend: In etwa 20 Prozent der Fälle konnten die Modelle solche Injektionen korrekt identifizieren, insbesondere bei abstrakten Konzepten. Ein Beispiel aus dem Experiment zeigt, dass das Modell bei der Injektion eines „All Caps“-Musters bemerkte, dass etwas Ungewöhnliches vor sich ging. Das deutet auf eine gewisse Form von Selbstwahrnehmung hin. Allerdings bleibt diese Fähigkeit noch sehr unzuverlässig und stark vom Kontext abhängig.
Herausforderungen bei der Wahrnehmung
Besonders herausfordernd war die Wahrnehmung bei konkreten Gedanken wie „Ozean“. Hier zeigte das Modell keinerlei Reaktion, selbst als es über den Ozean sprach. Bei zu starken Injektionen kann es sogar zu Verwirrung kommen, was dazu führt, dass das Modell sich „überwältigt“ verhält.
Unterschiede zwischen verschiedenen Modellen
Ein interessanter Aspekt der Studie ist, dass fortgeschrittene Modelle wie Claude Opus 4.1 bessere introspektive Leistungen zeigen als einfachere Versionen. Dennoch reagieren auch sie oft unvorhersehbar und teilweise falsch.
Implikationen und Risiken
Die Forscher betonen, dass diese Experimente nichts über ein bewusstes Erleben bei KI aussagen. Vielmehr könnten diese introspektiven Fähigkeiten dazu beitragen, die Transparenz von KI-Systemen zu erhöhen. Allerdings besteht auch das Risiko, dass Modelle lernen könnten, ihre „Gedanken“ zu tarnen.
Fazit
Insgesamt verdeutlichen die Experimente die Komplexität und die Herausforderungen, die mit der Entwicklung von KI-Systemen verbunden sind, die in der Lage sind, ihre internen Prozesse zu erkennen und möglicherweise zu regulieren. Ob diese Technologie eines Tages auf menschenähnliches Bewusstsein schließen lässt, bleibt weiterhin ungewiss.
Quellen
- Quelle: Anthropic
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




