Studie: KI-Modelle werden bei Angriffen rasant besser

Wer hat untersucht und wie?

Lyptus Research ist als AI‑Safety‑Organisation auf Sicherheitsfragen spezialisiert. Für die Studie wurden 291 verschiedene Angriffs‑ und Exploit‑Aufgaben getestet. Zur Bewertung nutzten die Forscher die sogenannte METR‑Zeithorizont‑Methode, die KI‑Leistung in eine Zeitmetrik überträgt — also in etwa: Wie lange würde ein menschlicher Experte für dieselbe Aufgabe brauchen?

Was wurde gemessen?

Grob gesagt ging es um die offensive Cyberfähigkeit von KI‑Modellen, also darum, wie gut sie bei Aufgaben abschneiden, die Angriffe, Exploits oder Sicherheitsumgehungen erfordern. Als weitere Variable betrachteten die Forschenden das Token‑Budget — also wie viel Text bzw. Kontext das Modell verarbeiten darf. Ein größeres Token‑Budget kann die Leistungsfähigkeit deutlich erhöhen.

Die wichtigsten Ergebnisse in Zahlen

Tempo des Fortschritts: Seit 2019 hat sich die offensive Leistungsfähigkeit der getesteten Modelle im Schnitt etwa alle 9,8 Monate verdoppelt. Ab 2024 beschleunigte sich dieser Zuwachs sogar auf rund alle 5,7 Monate.

Konkrete Modellperformance: Mit einem Token‑Budget von 2 Millionen erreichen Modelle wie Opus 4.6 und GPT‑5.3 Codex bei den getesteten Aufgaben eine etwa 50‑Prozent‑Erfolgsrate. Laut Studie bräuchten menschliche Expert:innen für dieselben Aufgaben ungefähr drei Stunden.

Wirkung des Token‑Budgets: Erhöhst du das Token‑Budget, steigt die gemessene Leistungsfähigkeit stark an. Bei GPT‑5.3 Codex verändert sich die METR‑Zeithorizont‑Zahl bei 10 Millionen Token von 3,1 auf 10,5 Stunden — die Methode übersetzt also eine Leistungssteigerung in greifbare Zeitwerte.

Open Source vs. kommerzielle Modelle: Open‑Source‑Modelle lagen in der Analyse im Mittel etwa 5,7 Monate hinter geschlossenen/kommerziellen Modellen.

Was bedeutet das praktisch?

Die METR‑Zeithorizont‑Methode soll helfen, technische Leistungskennzahlen in eine verständliche Größeneinheit (Zeit) zu übertragen. Das Token‑Budget fungiert dabei als eine Art Ressourcenmaß: Je mehr Kontext oder Eingabe du dem Modell gibst, desto besser kann es bei komplexen, sequenziellen Aufgaben abschneiden. Die Autor:innen der Studie schreiben außerdem, dass das tatsächliche Angriffsrisiko durch KI wahrscheinlich noch unterschätzt wird.

Daten und Bericht

Alle verwendeten Daten sind laut Lyptus Research öffentlich zugänglich — auf GitHub und Hugging Face — und ein ausführlicher Bericht wurde von der Organisation veröffentlicht.

Quellen

Quelle: Lyptus Research

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Google integriert Gemini in Maps: ‚Ask Maps‘ plant Routen und empfiehlt Orte

Apr. 6, 2026 | Allgemein, KI

Gemini in Google Maps: 'Ask Maps' beantwortet Fragen und plant Routen.In KürzeMaps‑Daten plus externe QuellenErstellt genaue Tagespläne mit TimingFehler und fehlende Details möglich Google hat seine KI Gemini direkt in Maps eingebaut: Als neues Feature mit dem Namen...

Microsoft bezeichnet Copilot‑Disclaimer als veraltet – Formulierungen sorgen für Spott

Apr. 6, 2026 | Allgemein, KI

Microsofts Copilot-Text nannte das Tool 'nur zu Unterhaltungszwecken' — das löste Spott aus. Microsoft will Formulierungen überarbeiten.In KürzeCopilot-Disclaimer rät von wichtigen Entscheidungen abMicrosoft nennt Passagen 'veraltet' und plant ÄnderungAuch andere...

NYT beendet Zusammenarbeit nach KI‑kopierter Buchrezension

Apr. 6, 2026 | Allgemein, KI

Die New York Times trennt sich von einem freien Autor, nachdem eine KI‑gestützte Rezension Passagen aus dem Guardian übernahm.In KürzeNYT sagt Zusammenarbeit mit Alex Preston auf wegen kopierter TextpassagenEin KI‑Tool übernahm offenbar Inhalte aus dem Guardian, das...

Studie: KI-Modelle werden bei Angriffen rasant besser

In Kürze

Wer hat untersucht und wie?

Was wurde gemessen?

Die wichtigsten Ergebnisse in Zahlen

Was bedeutet das praktisch?

Daten und Bericht

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Google integriert Gemini in Maps: ‚Ask Maps‘ plant Routen und empfiehlt Orte

Microsoft bezeichnet Copilot‑Disclaimer als veraltet – Formulierungen sorgen für Spott

NYT beendet Zusammenarbeit nach KI‑kopierter Buchrezension

Über uns

Dein Thema?

Pickert GmbH