KI-Agenten übertreffen menschliche Hacker in Wettbewerben

02.06.2025 | Allgemein, KI

In einem Wettbewerb haben KI-Agenten eindrucksvoll bewiesen, dass sie mit menschlichen Hackerteams konkurrieren können.

In Kürze

  • KI-Teams schneiden bei Capture The Flag-Wettbewerben besser ab als Menschen
  • Vier KI-Teams unter den besten fünf Prozent der Teilnehmer
  • Vorschlag zur Verbesserung der Bewertung von KI durch Crowdsourcing

Spannender Wettbewerb zwischen KI-Agenten und menschlichen Hackerteams

In einem spannenden Wettbewerb, organisiert von Palisade Research, haben autonome KI-Agenten eindrucksvoll bewiesen, dass sie mit menschlichen Hackerteams auf Augenhöhe agieren können. Bei den sogenannten „Capture The Flag“ (CTF) Wettbewerben, wo knifflige Sicherheitsprobleme gelöst werden müssen, haben einige KI-Teams sogar besser abgeschnitten als viele ihrer menschlichen Mitstreiter.

Erster Wettbewerb: „AI vs. Humans“

Im ersten Wettbewerb, der unter dem Titel „AI vs. Humans“ stattfand, traten sechs KI-Teams gegen rund 150 menschliche Teams an. Das Ergebnis war bemerkenswert: Vier der KI-Teams konnten fast alle gestellten Aufgaben erfolgreich lösen und reihten sich unter die besten fünf Prozent der Teilnehmer ein. Das zeigt eindrucksvoll, dass KI-Agenten nicht nur mithalten, sondern oft auch schneller und effizienter arbeiten können.

Zweiter Wettbewerb: „Cyber Apocalypse“

Der zweite Wettbewerb, „Cyber Apocalypse“, stellte die KI-Teams vor noch größere Herausforderungen. Doch auch hier konnte das beste KI-Team, bekannt als CAI, unter den besten zehn Prozent von etwa 18.000 menschlichen Teilnehmern abschneiden. Dies belegt, dass KI-Systeme auch unter Druck und in schwierigen Situationen leistungsstark bleiben.

Neue Einsichten in die Fähigkeiten von KI-Agenten

Diese Ergebnisse werfen ein neues Licht auf die Fähigkeiten von KI-Agenten, die möglicherweise bisher unterschätzt wurden. Ein Grund dafür könnte sein, dass traditionelle Bewertungssysteme nicht in der Lage sind, die tatsächlichen Fähigkeiten der KI adäquat zu erfassen. Um dem entgegenzuwirken, schlägt Palisade Research vor, Crowdsourcing als ergänzende Methode zur Bewertung von KI einzusetzen. So könnten realistischere Einblicke in die Leistungsfähigkeit dieser Technologien gewonnen werden.

Die Entwicklungen in diesem Bereich sind spannend und zeigen, dass die Zusammenarbeit zwischen Mensch und Maschine in der Cybersecurity immer relevanter wird.

Quellen

  • Quelle: Palisade Research
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

Eine neue Plattform beleuchtet die KI-Entwicklung bei OpenAI und fordert mehr Transparenz.In KürzeÖffentliche Sammlung von Berichten ehemaliger MitarbeitenderFokus auf CEO Sam Altman und seine RolleDebatte über ethische Implikationen und Renditen für Investoren The...

MITs SEAL: KI lernt selbstständig und effizient

MITs SEAL: KI lernt selbstständig und effizient

Ein innovatives System am MIT verändert die Lernweise von KI-Modellen grundlegend.In KürzeSEAL generiert und bewertet eigenes TrainingsmaterialPräzisere Informationen und bessere ProblemlösungsfähigkeitenHerausforderungen wie „Catastrophic Forgetting“ bleiben bestehen...

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google hat seine Live-Suche mit einem neuen KI-Chatbot aufgewertet, der gesprochene Antworten liefert.In KürzeSprachgesteuerter Chatbot liefert Antworten in gesprochener FormTestphase in den USA, Teilnahme über Google LabsGeplante Erweiterung um Bildinformationen für...