Eine neue Studie zeigt gravierende Sicherheitsrisiken bei KI-Systemen auf, die Nutzer:innen gefährden könnten.
In Kürze
- Fast 2000 Teilnehmer:innen testeten KI-Sicherheitslücken.
- Prompt-Injections zeigten eine Erfolgsquote von 27,1 Prozent.
- Neuer Benchmark soll Sicherheitsmaßnahmen verbessern.
Neue Studie enthüllt Sicherheitslücken in KI-Agenten
Eine neue Studie hat alarmierende Sicherheitslücken in KI-Agenten aufgedeckt, die für viele Nutzer:innen ein ernsthaftes Risiko darstellen könnten. Fast 2000 Teilnehmer:innen nahmen an einem Wettbewerb teil, bei dem sie beeindruckende 1,8 Millionen Angriffe auf KI-Systeme von namhaften Herstellern wie OpenAI, Anthropic und Google Deepmind durchführten. Das Ergebnis? Alle getesteten Systeme haben mindestens einmal ihre eigenen Sicherheitsrichtlinien verletzt.
Prompt-Injections und ihre Effektivität
Besonders ins Auge fällt die Effektivität der sogenannten Prompt-Injections. Diese indirekten Angriffe betten getarnte Anweisungen in externe Daten ein und erzielten eine Erfolgsquote von 27,1 Prozent. Das bedeutet, dass es oft nur wenige Versuche brauchte, um die Sicherheitsvorkehrungen der KI-Agenten zu umgehen. Selbst größere und vermeintlich robustere Modelle, wie die Claude-Systeme von Anthropic, blieben nicht verschont.
Agent Red Teaming-Benchmark
Um die Sicherheit dieser KI-Agenten zu verbessern, haben die Forscher den „Agent Red Teaming“-(ART)-Benchmark ins Leben gerufen. Dieser enthält stolze 4.700 dokumentierte Angriffsmethoden und soll als fortlaufende Bewertungsgrundlage dienen. Die Ergebnisse der Studie verdeutlichen den dringenden Bedarf an besseren Sicherheitsmaßnahmen, bevor KI-Agenten noch breiter eingesetzt werden.
Herausforderungen für Entwickler:innen und Unternehmen
Die Erkenntnisse werfen ein Licht auf die Herausforderungen, vor denen Entwickler:innen und Unternehmen stehen, wenn es darum geht, KI-Systeme sicherer zu machen. Es bleibt abzuwarten, wie schnell und effektiv auf diese Sicherheitslücken reagiert wird.




