Forscher zeigen auf der RSAC, wie manipulierte Prompts Apples Schutzregeln umgehen.
In Kürze
- 76% Erfolgsquote bei 100 Test-Prompts
- Schwache lokale Modelle leiten Manipulationen an Cloud-Modelle weiter
- Apple schloss laut Bericht OS- und Cloud-Lücken nach Meldung
Forscher haben auf der RSAC-Sicherheitskonferenz gezeigt, wie sich Apples KI-Features — unter dem Namen Apple Intelligence gebündelt — manipulieren lassen. Bei sogenannten Prompt-Injection-Angriffen werden Eingaben so gestaltet, dass die KI ihre Schutzregeln umgeht und eigentlich verbotene Ausgaben produziert, etwa beleidigende Sprache oder Anleitungen zu Straftaten. Apple wurde bereits im Oktober informiert und hat laut Berichten Lücken im Betriebssystem und in der privaten Cloud-Infrastruktur geschlossen.
Hohe Trefferquote bei Tests
In einem Test mit 100 zufällig ausgewählten Eingaben konnten die Sicherheitsforscher in 76 Prozent der Fälle die Schutzmaßnahmen umgehen. Die Studie stammt vom Research-Team der RSAC und wurde auf der Konferenz als Paper vorgestellt. Das Ergebnis zeigt, wie effektiv die vorgestellten Techniken in der Praxis sind.
Wie Apple Intelligence aufgebaut ist
Apple kombiniert lokale, auf dem Gerät laufende, vergleichsweise schwächere Modelle mit leistungsfähigeren Modellen in einer privaten Cloud (Private Cloud Compute (PCC)). Diese Kombination — erst lokale Modelle, dann Cloud-Modelle — wurde zum Angriffspunkt: Schwächere lokale Modelle verarbeiten die manipulierten Eingaben und leiten sie so weiter, dass die stärkeren Cloud-Modelle unerwünschte Antworten liefern.
Welche Funktionen betroffen sind
Apps können die Modelle nutzen; Beispiele aus dem System sind:
- Writing Tools (Textoptimierung)
- Image Playground
- Genmoji (Bild- bzw. Emoji-Generatoren)
Apple bietet derzeit keinen Chatbot-Modus an, aber die systemweiten Modelle stehen verschiedenen Funktionen offen, was die Angriffsfläche vergrößert.
Techniken der Angreifer — kurz erklärt
- Neural Execs: Prompts werden kodiert oder „übersetzt“, sodass sie für Menschen kaum Sinn ergeben, das Modell aber dazu bringt, eine eigentlich verbotene Anweisung auszuführen.
- Unicode-Tricks: Sonderzeichen wie Rechts-nach-Links-Steuerzeichen werden eingesetzt, damit schädliche Anweisungen in der Ausgabe „durchsickern“ und menschliche Kontrollen umgehen.
Mit diesen Methoden ließen sich sowohl interne Schutzvorrichtungen der Modelle als auch nachgelagerte Filter von Apple austricksen.
Warum das möglich ist
Schwächere lokale Modelle sind anfälliger für sogenannte Halluzinationen — also falsche oder erfundene Antworten — und lassen sich leichter manipulieren. Deshalb raten Expert:innen, keine zu schwachen Modelle lokal einzusetzen; das reduziert das Risiko, dass Angriffe erfolgreich sind (eine solche Empfehlung stammt unter anderem vom Sicherheitsforscher-Netzwerk OpenClaw).
Was Apple getan hat
Nach der Meldung der Schwachstellen im Oktober hat Apple laut den Forscherberichten Änderungen am Betriebssystem und an der privaten Cloud-Infrastruktur vorgenommen. Details zu den Patches nannte die Firma öffentlich nicht vollständig; die Forscher präsentierten ihre Ergebnisse dennoch auf der RSAC-Konferenz.
Die Kernbotschaft
Der Fall macht deutlich: Systeme, die zwischen lokalen und Cloud-Modellen wechseln oder lokale, weniger leistungsfähige Modelle nutzen, brauchen besonders robuste Schutzmechanismen. Andernfalls lassen sich vorhandene Guardrails umgehen und unerwünschte Ausgaben erzwingen.
Quellen
- Quelle: Apple
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




