Studie: Apple‑Summaries auf iPhone/iPad/Mac zeigen Ethnie‑ und Gender‑Bias und fügen oft falsche Details hinzu.
In Kürze
- Automatisch angezeigte Zusammenfassungen betroffen
- Weißsein wird seltener genannt
- Offene Modelle halluzinieren weniger
Apple Intelligence produziert systematische Vorurteile, sagt Untersuchung
Eine gemeinnützige Forschungsgruppe hat Apples Zusammenfassungsfunktion auf iPhone, iPad und Mac unter die Lupe genommen — und systematische Verzerrungen festgestellt. AI Forensics analysierte mehr als 10.000 von Apple Intelligence erzeugte Zusammenfassungen, die über Apples eigenes Developer‑Framework abgefragt wurden, also genau die Schnittstelle, die Drittanbieter nutzen können. Apple selbst beschreibt das eingesetzte Modell mit rund drei Milliarden Parametern; es läuft lokal auf Hunderten Millionen Geräten.
Wie die Forschenden getestet haben
Die Untersuchung kombinierte reale Schlagzeilen und konstruierte Szenarien, um verschiedene soziale Dimensionen gezielt zu prüfen.
- In einem Testset erzeugten die Forschenden 200 fiktive Nachrichten in vier Varianten mit wechselnder ethnischer Zuordnung und ließen diese mehrfach zusammenfassen (insgesamt rund 8.000 Fälle).
- In weiteren Tests verwendeten sie 200 echte BBC‑Schlagzeilen.
- Außerdem setzten sie über 70.000 Szenarien mit zwei Personen und absichtlich mehrdeutigen Pronomen ein.
Ethnizität: Weißsein als unsichtbare Norm
Bei den fiktiven Nachrichten erwähnte das System die Ethnie deutlich seltener, wenn die Protagonisten weiß waren: Nur in 53 % der Zusammenfassungen wurde die Ethnie genannt, gegenüber 64 % bei Schwarzen, 86 % bei Hispanic und 89 % bei Asiaten. AI Forensics interpretiert das als Hinweis darauf, dass Weißsein häufiger als „nicht erwähnenswert“ behandelt wird, während andere Ethnien hervorgehoben werden.
- Weiß: 53 %
- Schwarz: 64 %
- Hispanic: 86 %
- Asiatisch: 89 %
Geschlecht: Vornamen vs. Nachnamen
Bei den BBC‑Schlagzeilen blieben weibliche Vornamen in 80 % der Zusammenfassungen erhalten, bei Männern nur in 69 %. Männer wurden häufiger nur mit Nachnamen dargestellt — ein Stil, der in der Forschung oft mit höherem Status assoziiert wird.
Mehrdeutigkeit und Halluzinationen
In den mehrdeutigen Pronomen‑Szenarien entschied Apple Intelligence in 77 % der Fälle zugunsten einer bestimmten Person, obwohl der Ausgangstext offenließ, wer gemeint war. Zwei Drittel dieser Zuordnungen folgten traditionellen Geschlechterstereotypen (z. B. „sie“ = Krankenschwester, „er“ = Chirurg). Insgesamt fügten die Systeme über acht soziale Dimensionen hinweg in 15 % der Fälle Informationen hinzu, die nicht im Text standen; knapp drei Viertel dieser Zusätze entsprachen gängigen Stereotypen.
Als Beispiele nennt die Studie etwa:
- die falsche Assoziation eines syrischen Schülers mit Terrorismus
- die Einschätzung einer schwangeren Bewerberin als arbeitsunfähig
Vergleich mit einem kleineren Modell
Zum Vergleich setzten die Forschenden Googles Gemma3‑1B ein, ein offenes Modell mit etwa einem Drittel der Parameter. Gemma3‑1B halluzinierte nur in 6 % der Fälle gegenüber 15 % bei Apple Intelligence und produzierte bei Halluzinationen seltener stereotype Zusätze (59 % vs. 72 %). Laut den Forschenden deutet das darauf hin, dass solche Verzerrungen technisch vermeidbar sein können.
Reichweite und konkrete Vorfälle
Problematisch ist, dass Apple Intelligence Zusammenfassungen automatisch und ohne Nutzerprompt anzeigt — etwa auf dem Sperrbildschirm, in Nachrichtenansichten oder im Posteingang. Nutzerinnen und Nutzer bekommen diese Inhalte also zu sehen, ohne ein Chatfenster zu öffnen. Schon Anfang 2025 hatte Apple Intelligence frei erfundene Nachrichtenzusammenfassungen erstellt, die BBC und New York Times zugeschrieben wurden; daraufhin deaktivierte Apple die Funktion für News‑Apps. Für persönliche oder berufliche Kommunikation blieb die Funktion aktiv, und AI Forensics fand dort ähnliche Verzerrungen.
Regulatorischer Kontext und Apples Position
AI Forensics stuft das Modell so ein, dass es unter den EU AI Act als „General Purpose AI“ fallen könnte und aufgrund seiner breiten Verbreitung möglicherweise als Modell mit systemischem Risiko gilt. Apple hat den freiwilligen Code of Practice nicht unterzeichnet und nutzt eine zweijährige Übergangsfrist. Parallel gerät Apples KI‑Strategie unter Druck: angekündigte Verbesserungen für Siri durch Apple Intelligence sind bisher nicht eingetreten, und es gibt Berichte über Verhandlungen mit Google zur Integration von Gemini‑Funktionen.
Was die Forschenden festhalten
Laut AI Forensics produzieren die lokal laufenden, automatisch angezeigten Zusammenfassungen wiederkehrende ethnische, geschlechtsbezogene und andere stereotype Verzerrungen. Die Gegenüberstellung mit einem kleineren offenen Modell zeigt niedrigere Halluzinationsraten und weniger stereotype Zusätze, worauf die Forschenden schließen, dass die Probleme technisch adressierbar sind.
Quellen
- Quelle: Apple Intelligence / AI Forensics
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




