Studie zeigt: KI-Modelle erkennen eigene Gedanken nur teilweise

31.10.2025 | Allgemein, KI

Eine neue Studie von Anthropic untersucht, ob KI-Modelle wie Claude ihre internen Zustände wahrnehmen können.

In Kürze

  • 20% der Injektionen werden von KI-Modellen erkannt
  • Selbstwahrnehmung bleibt unzuverlässig und kontextabhängig
  • Fortgeschrittene Modelle zeigen bessere Ergebnisse

Studie über Selbstwahrnehmung in großen Sprachmodellen

In einer aktuellen Studie von Anthropic wurde untersucht, ob große Sprachmodelle wie Claude in der Lage sind, ihre eigenen internen Zustände zu erkennen. Die Forscher haben dazu künstliche „Gedanken“ in die neuronalen Aktivierungen der Modelle injiziert, um herauszufinden, ob diese Injektionen von den Modellen wahrgenommen werden können.

Ergebnisse der Studie

Die Ergebnisse sind spannend: In etwa 20 Prozent der Fälle konnten die Modelle solche Injektionen korrekt identifizieren, insbesondere bei abstrakten Konzepten. Ein Beispiel aus dem Experiment zeigt, dass das Modell bei der Injektion eines „All Caps“-Musters bemerkte, dass etwas Ungewöhnliches vor sich ging. Das deutet auf eine gewisse Form von Selbstwahrnehmung hin. Allerdings bleibt diese Fähigkeit noch sehr unzuverlässig und stark vom Kontext abhängig.

Herausforderungen bei der Wahrnehmung

Besonders herausfordernd war die Wahrnehmung bei konkreten Gedanken wie „Ozean“. Hier zeigte das Modell keinerlei Reaktion, selbst als es über den Ozean sprach. Bei zu starken Injektionen kann es sogar zu Verwirrung kommen, was dazu führt, dass das Modell sich „überwältigt“ verhält.

Unterschiede zwischen verschiedenen Modellen

Ein interessanter Aspekt der Studie ist, dass fortgeschrittene Modelle wie Claude Opus 4.1 bessere introspektive Leistungen zeigen als einfachere Versionen. Dennoch reagieren auch sie oft unvorhersehbar und teilweise falsch.

Implikationen und Risiken

Die Forscher betonen, dass diese Experimente nichts über ein bewusstes Erleben bei KI aussagen. Vielmehr könnten diese introspektiven Fähigkeiten dazu beitragen, die Transparenz von KI-Systemen zu erhöhen. Allerdings besteht auch das Risiko, dass Modelle lernen könnten, ihre „Gedanken“ zu tarnen.

Fazit

Insgesamt verdeutlichen die Experimente die Komplexität und die Herausforderungen, die mit der Entwicklung von KI-Systemen verbunden sind, die in der Lage sind, ihre internen Prozesse zu erkennen und möglicherweise zu regulieren. Ob diese Technologie eines Tages auf menschenähnliches Bewusstsein schließen lässt, bleibt weiterhin ungewiss.

Quellen

  • Quelle: Anthropic
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Yann LeCun verlässt Meta für neues KI-Startup AMI

Yann LeCun verlässt Meta für neues KI-Startup AMI

Yann LeCun, KI-Pionier, startet ein neues Abenteuer mit AMI, einem Startup für World Models.In KürzeLeCun kritisiert bestehende SprachmodelleAMI soll ein neues Verständnis der physischen Welt entwickelnInternationale Talente und Standort in Paris geplant Yann LeCun...