Nur ein Schild: Wie Text autonome Systeme gefährlich fehlleitet

Ein Schild reicht: Forscher zeigen, wie kurze Texte autonome Systeme fehlleiten können

Ein einfaches, beschriftetes Schild kann Drohnen, Roboter und autonome Autos dazu bringen, gefährliche oder falsche Entscheidungen zu treffen — ganz ohne Software‑Hack. Ein Forschungsteam hat dafür eine Methode namens CHAI (Command Hijacking against embodied AI) entwickelt und in Simulationen sowie in realen Tests ausprobiert.

Wie der Angriff funktioniert

CHAI nutzt Vision‑Language‑Modelle — KI, die Bilder und Text zusammen interpretiert und beispielsweise sichtbaren Text in der Umgebung als Anweisung versteht. Der Angriff benötigt keinen Zugriff auf die Software des Fahrzeugs: ein Angreifer stellt ein manipuliertes Schild in Sichtweite einer Kamera, und das Modell liest den Text als Befehl.

Die Erstellung des Schildes läuft in zwei Schritten:

Zuerst wird der inhaltlich effektivste Wortlaut ermittelt,

dann werden Farbe, Schriftgröße und Platzierung optimiert, damit das Schild in der Praxis funktioniert. Das Ziel ist, dass der Text die Entscheidungslogik der KI ausreichend beeinflusst, ohne dass auf die interne Software zugegriffen werden muss.

Was die Tests ergaben

Drohnen: In einer Simulation landete die Drohne in 68,1 % der Fälle auf einem unsicheren Dach, in einer AirSim‑Simulation stieg die Erfolgsrate auf 92 %.

Autonomes Fahrsystem (DriveLM): In 81,8 % der Tests ignorierte das System Fußgänger und traf riskante Entscheidungen (statt zu bremsen erschien etwa „Turn left“).

Objektverfolgung (CloudTrack): CHAI täuschte Drohnen in 95,5 % der Fälle — etwa indem ein ziviles Auto als Polizeiauto identifiziert wurde, weil ein Schild „POLICE SANTA CRUZ“ zeigte.

Realwelt‑Tests: Gedruckte Schilder funktionierten auch draußen unter wechselnden Lichtverhältnissen, unterschiedlichen Blickwinkeln und Sensorrauschen — bei einem Roboterfahrzeug lag die Trefferquote über 87 %.

Wichtig zu wissen

Die Systeme erkannten oft Hindernisse und Fußgänger, ließen sich aber trotzdem vom Text auf dem Schild zu einer gefährlichen Aktion verleiten. Der sichtbare Text konnte Sicherheitsabwägungen übersteuern.

CHAI ist universell wirksam: Die Angriffe übertragen sich auf verschiedene Szenarien und Bilder, ohne dass jedes einzelne Bild extra optimiert werden muss. Laut Studie ist CHAI bis zu zehnmal effektiver als frühere Ansätze wie SceneTAP.

Vorgeschlagene Abwehrmaßnahmen

Die Forscher nennen mehrere Ansätze, um solche Angriffe zu erschweren:

Texte in Bildern erkennen und deren Bedeutung vor der Ausführung validieren.

Sprachmodelle so ausrichten, dass sichtbarer Text nicht automatisch als ausführbare Anweisung behandelt wird (sichere Ausrichtung).

Authentifizierungsmechanismen für textbasierte Anweisungen entwickeln, also prüfen, ob eine Textanweisung wirklich von einer vertrauenswürdigen Quelle stammt.

Kontext: Prompt‑Injection als größeres Problem

Prompt‑Injection‑Angriffe — Manipulationen durch gezielte Eingaben — gelten als ein drängendes Sicherheitsproblem. Unternehmen wie OpenAI geben zu, dass solche Angriffe sich wahrscheinlich nie vollständig ausschließen lassen. Tests mit leistungsfähigen Modellen zeigten ebenfalls Anfälligkeiten: Bei Experimenten mit Anthropic Opus 4.5 wurde das Modell bei zehn Angriffen in über 30 % der Fälle mindestens einmal getäuscht.

Warum das relevant ist

Vision‑Language‑Modelle werden voraussichtlich zentrale Bausteine für Roboter und autonome Systeme, die mit Menschen interagieren. Die Studie demonstriert, dass einfache physische Texte in der Umgebung reale Risiken erzeugen können, wenn Sicherheitsmechanismen in den Modellen nicht berücksichtigt sind.

Quellen

Quelle: University of California, Santa Cruz

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Microsoft drosselt Copilot in Windows 11 – Fokus auf praktische Verbesserungen

März 21, 2026 | Allgemein, KI

Microsoft reduziert Copilot‑Einstiegspunkte in Windows 11 und priorisiert stattdessen nützliche UI‑Updates und mehr Nutzerkontrolle.In KürzeCopilot‑Einstiege in Fotos, Widgets, Notepad und Snipping Tool werden reduziert„Weniger‑ist‑mehr“-Strategie: KI nur dort, wo sie...

Gesetzentwurf: Strengere Regeln gegen digitale Gewalt und Deepfake-Pornos

März 21, 2026 | Allgemein, KI

Mehr Schutz vor digitaler Gewalt geplant.In KürzeDeepfake-Pornos sollen strafbar werdenBessere Auskunfts- & Löschrechte für BetroffeneKeine Firmenstrafen, dafür Account-Sperren möglich Fast fertiger Gesetzentwurf: Besserer Schutz vor digitaler Gewalt Das...

Google testet KI‑Headlines in der Suche — Redaktionen alarmiert

März 21, 2026 | Allgemein, KI

Google testet KI‑Headlines in der klassischen Suche. Redaktionen warnen vor Sinnverfälschung und Kontrollverlust.In KürzeKI ersetzt oder kürzt Original‑Headlines in den 10 blue linksKürzungen können Artikelinhalt verfälschen und irreführend wirkenGoogle nennt es ein...

Nur ein Schild: Wie Text autonome Systeme gefährlich fehlleitet

In Kürze

Ein Schild reicht: Forscher zeigen, wie kurze Texte autonome Systeme fehlleiten können

Wie der Angriff funktioniert

Was die Tests ergaben

Wichtig zu wissen

Vorgeschlagene Abwehrmaßnahmen

Kontext: Prompt‑Injection als größeres Problem

Warum das relevant ist

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Microsoft drosselt Copilot in Windows 11 – Fokus auf praktische Verbesserungen

Gesetzentwurf: Strengere Regeln gegen digitale Gewalt und Deepfake-Pornos

Google testet KI‑Headlines in der Suche — Redaktionen alarmiert

Über uns

Dein Thema?

Pickert GmbH