RSAC-Studie: Apple Intelligence lässt sich per Prompt-Injection aushebeln

16.04.2026 | Allgemein, KI

Forscher zeigen auf der RSAC, wie manipulierte Prompts Apples Schutzregeln umgehen.

In Kürze

  • 76% Erfolgsquote bei 100 Test-Prompts
  • Schwache lokale Modelle leiten Manipulationen an Cloud-Modelle weiter
  • Apple schloss laut Bericht OS- und Cloud-Lücken nach Meldung

Forscher haben auf der RSAC-Sicherheitskonferenz gezeigt, wie sich Apples KI-Features — unter dem Namen Apple Intelligence gebündelt — manipulieren lassen. Bei sogenannten Prompt-Injection-Angriffen werden Eingaben so gestaltet, dass die KI ihre Schutzregeln umgeht und eigentlich verbotene Ausgaben produziert, etwa beleidigende Sprache oder Anleitungen zu Straftaten. Apple wurde bereits im Oktober informiert und hat laut Berichten Lücken im Betriebssystem und in der privaten Cloud-Infrastruktur geschlossen.

Hohe Trefferquote bei Tests

In einem Test mit 100 zufällig ausgewählten Eingaben konnten die Sicherheitsforscher in 76 Prozent der Fälle die Schutzmaßnahmen umgehen. Die Studie stammt vom Research-Team der RSAC und wurde auf der Konferenz als Paper vorgestellt. Das Ergebnis zeigt, wie effektiv die vorgestellten Techniken in der Praxis sind.

Wie Apple Intelligence aufgebaut ist

Apple kombiniert lokale, auf dem Gerät laufende, vergleichsweise schwächere Modelle mit leistungsfähigeren Modellen in einer privaten Cloud (Private Cloud Compute (PCC)). Diese Kombination — erst lokale Modelle, dann Cloud-Modelle — wurde zum Angriffspunkt: Schwächere lokale Modelle verarbeiten die manipulierten Eingaben und leiten sie so weiter, dass die stärkeren Cloud-Modelle unerwünschte Antworten liefern.

Welche Funktionen betroffen sind

Apps können die Modelle nutzen; Beispiele aus dem System sind:

  • Writing Tools (Textoptimierung)
  • Image Playground
  • Genmoji (Bild- bzw. Emoji-Generatoren)

Apple bietet derzeit keinen Chatbot-Modus an, aber die systemweiten Modelle stehen verschiedenen Funktionen offen, was die Angriffsfläche vergrößert.

Techniken der Angreifer — kurz erklärt

  • Neural Execs: Prompts werden kodiert oder „übersetzt“, sodass sie für Menschen kaum Sinn ergeben, das Modell aber dazu bringt, eine eigentlich verbotene Anweisung auszuführen.
  • Unicode-Tricks: Sonderzeichen wie Rechts-nach-Links-Steuerzeichen werden eingesetzt, damit schädliche Anweisungen in der Ausgabe „durchsickern“ und menschliche Kontrollen umgehen.

Mit diesen Methoden ließen sich sowohl interne Schutzvorrichtungen der Modelle als auch nachgelagerte Filter von Apple austricksen.

Warum das möglich ist

Schwächere lokale Modelle sind anfälliger für sogenannte Halluzinationen — also falsche oder erfundene Antworten — und lassen sich leichter manipulieren. Deshalb raten Expert:innen, keine zu schwachen Modelle lokal einzusetzen; das reduziert das Risiko, dass Angriffe erfolgreich sind (eine solche Empfehlung stammt unter anderem vom Sicherheitsforscher-Netzwerk OpenClaw).

Was Apple getan hat

Nach der Meldung der Schwachstellen im Oktober hat Apple laut den Forscherberichten Änderungen am Betriebssystem und an der privaten Cloud-Infrastruktur vorgenommen. Details zu den Patches nannte die Firma öffentlich nicht vollständig; die Forscher präsentierten ihre Ergebnisse dennoch auf der RSAC-Konferenz.

Die Kernbotschaft

Der Fall macht deutlich: Systeme, die zwischen lokalen und Cloud-Modellen wechseln oder lokale, weniger leistungsfähige Modelle nutzen, brauchen besonders robuste Schutzmechanismen. Andernfalls lassen sich vorhandene Guardrails umgehen und unerwünschte Ausgaben erzwingen.

Quellen

  • Quelle: Apple
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…