Anthropic: Claude schreibt bereits den Großteil des Produktionscodes — Selbstverbesserung rückt näher

06.06.2026 | Allgemein, KI

Anthropic zeigt interne Zahlen: Claude übernimmt immer mehr Entwicklungsarbeit und mahnt zur Vorsicht bei schneller Selbstverbesserung.

In Kürze

  • Claude liefert über 80% des Produktionscodes
  • Qualität auf Augenhöhe, Bugs schneller entdeckt
  • Anthropic fordert verifizierbare Pausen und warnt vor rekursiver Selbstverbesserung

Anthropic hat erstmals interne Zahlen offengelegt, die zeigen, wie stark das hauseigene Modell Claude inzwischen an seiner eigenen Entwicklung beteiligt ist — und warnt, dass ein System, das sich vollständig autonom weiterentwickelt („rekursive Selbstverbesserung“), zwar noch nicht Realität ist, aber früher eintreten könnte als viele erwarten.

Mehr Code, weniger Tippen

Im zweiten Quartal 2026 schreiben Anthropic‑Ingenieure laut Firma im Schnitt achtmal so viel Code pro Tag wie 2024. Mehr als 80 Prozent des Codes, der in die Produktions‑Codebasis gelangt, stamme inzwischen von Claude; vor dem Start von „Claude Code“ im Februar 2025 lag der Anteil im niedrigen einstelligen Bereich. Würde man auch Skripte und experimentellen Code zählen, schätzt Anthropic den Anteil auf über 90 Prozent. Manche Mitarbeitende geben an, praktisch kaum noch selbst zu programmieren.

Anthropic mahnt allerdings zur Vorsicht: reine Codezeilen sind ein unvollkommenes Maß. Eine interne Umfrage ergab einen Median‑Produktivitätszuwachs von 4×, und externe METR‑Analysen zeigen, dass Entwickler:innen KI‑Gewinne tendenziell überschätzen.

Qualität, Fehlerentdeckung, Tempo

Ende 2025 war Claude‑geschriebener Code etwas schlechter als menschlicher, inzwischen sei die Qualität auf Augenhöhe, heißt es bei Anthropic — und binnen eines Jahres könnte er besser werden. Ein automatischer Claude‑Reviewer hätte rückblickend etwa ein Drittel der Bugs früher erkannt. Im April 2026 lieferte Claude mehr als 800 Fixes, die eine Klasse von API‑Fehlern um den Faktor 1000 reduzierten — nach Schätzung von Anthropic hätte ein Mensch dafür rund vier Jahre gebraucht.

Was Aufgabenlängen angeht, die KI zuverlässig allein bewältigt, verdoppelt sich die Größe dieser Aufgaben derzeit etwa alle vier Monate (früher alle sieben). Beispiele:

  • Anfang 2024: Minutenaufgaben (Opus 3).
  • 2025: Aufgaben im Stundenbereich hinzugekommen.
  • Neuere Versionen: bereits 12‑Stunden‑Aufgaben.
  • METR misst Mythos Preview bei mindestens 16 Stunden.

Hält der Trend an, könnten Tagesaufgaben noch dieses Jahr und Wochenaufgaben 2027 erreichbar sein.

Forschung: schneller, aber nicht allmächtig

Bei Tests zur Beschleunigung von Trainings‑Code erzielte Opus 4 (Mai 2025) rund Beschleunigung; Mythos Preview, etwa ein Jahr später, ~52×. In 129 dokumentierten Forschungssituationen schlug Mythos Preview in 64 Prozent der Fälle einen besseren nächsten Schritt vor — zum Vergleich: eine frühere Version lag bei 51 Prozent. Das deutet darauf hin, dass KI‑Systeme zunehmend brauchbare Forschungsurteile liefern können.

Die verbleibende Lücke: „Research taste”

Anthropic nennt als zentrale verbleibende Fähigkeit die sogenannte „research taste” — also die Kunst, die richtigen Probleme auszuwählen und Sackgassen zu erkennen. Diese Kompetenz sei weiterhin überwiegend menschlich; es sei unklar, ob aktuelle Trainingsmethoden und Architekturen sie ersetzen können. Gleichzeitig bestünden viele Fortschritte aus inkrementeller Arbeit — genau die Aufgaben, die Claude sehr gut automatisiert.

Drei mögliche Entwicklungspfade

  1. Stagnation: Der Trend flacht ab, zum Beispiel wegen Energie‑ oder Chipengpässen — das halten sie für unwahrscheinlich.
  2. Effizienz plus menschliche Steuerung: KI steigert die Produktivität stark, Menschen behalten die Richtungsentscheidung — Risiken bestehen laut Anthropic etwa in Überwachung, gezielter Manipulation; Prüf‑ und Review‑Prozesse könnten Engpässe werden.
  3. Volle rekursive Selbstverbesserung: KI entwirft eigenständig ihre Nachfolger, Fortschritt wird dann nur noch durch Rechenleistung begrenzt — ob Kontrolle oder Ausrichtung dann noch möglich ist, sei unklar; Fehlanpassungen könnten sich hochschaukeln.

Verifizierbare Pausen als Option

Anthropic spricht sich für die Möglichkeit aus, die Entwicklung von Frontier‑KI zu verlangsamen oder vorübergehend zu pausieren — aber nur, wenn eine solche Pause verifizierbar und gegenseitig wäre. Sie wollen Werkzeuge und Verfahren erforschen, mit denen Labs glaubhaft nachweisen könnten, dass sie wirklich pausieren.

Gleichzeitig nennt Anthropic die Hürden: Trainingsläufe ließen sich leicht verbergen, Inputs seien universell nützlich, und es gebe starke Anreize, heimlich weiterzumachen. Vergleiche zu Rüstungs‑Kontrollverträgen deuten darauf hin, dass Verifikation lange dauern kann — Zeit, die hier eventuell nicht zur Verfügung steht. Ein einseitiger Stopp eines einzelnen Labors sei schnell möglich, ändere aber wenig am globalen Wettbewerb.

Ausblick und Politikdialog

Anthropic fordert eine öffentliche Debatte über Governance‑Maßnahmen, inklusive technisch verifizierbarer Pausen, und kündigt an, aktiv an Lösungen mit Politik, Forschung, Zivilgesellschaft und anderen Firmen zu arbeiten.

Quellen

  • Quelle: Anthropic
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…