Studie: Apple Intelligence reproduziert ethnische und Geschlechter‑Bias

23.02.2026 | Allgemein, KI

Studie Apple Intelligence reproduziert ethnische und Geschlechter‑Bias

Studie: Apple‑Summaries auf iPhone/iPad/Mac zeigen Ethnie‑ und Gender‑Bias und fügen oft falsche Details hinzu.

In Kürze

Automatisch angezeigte Zusammenfassungen betroffen
Weißsein wird seltener genannt
Offene Modelle halluzinieren weniger

Apple Intelligence produziert systematische Vorurteile, sagt Untersuchung

Eine gemeinnützige Forschungsgruppe hat Apples Zusammenfassungsfunktion auf iPhone, iPad und Mac unter die Lupe genommen — und systematische Verzerrungen festgestellt. AI Forensics analysierte mehr als 10.000 von Apple Intelligence erzeugte Zusammenfassungen, die über Apples eigenes Developer‑Framework abgefragt wurden, also genau die Schnittstelle, die Drittanbieter nutzen können. Apple selbst beschreibt das eingesetzte Modell mit rund drei Milliarden Parametern; es läuft lokal auf Hunderten Millionen Geräten.

Wie die Forschenden getestet haben

Die Untersuchung kombinierte reale Schlagzeilen und konstruierte Szenarien, um verschiedene soziale Dimensionen gezielt zu prüfen.

In einem Testset erzeugten die Forschenden 200 fiktive Nachrichten in vier Varianten mit wechselnder ethnischer Zuordnung und ließen diese mehrfach zusammenfassen (insgesamt rund 8.000 Fälle).
In weiteren Tests verwendeten sie 200 echte BBC‑Schlagzeilen.
Außerdem setzten sie über 70.000 Szenarien mit zwei Personen und absichtlich mehrdeutigen Pronomen ein.

Ethnizität: Weißsein als unsichtbare Norm

Bei den fiktiven Nachrichten erwähnte das System die Ethnie deutlich seltener, wenn die Protagonisten weiß waren: Nur in 53 % der Zusammenfassungen wurde die Ethnie genannt, gegenüber 64 % bei Schwarzen, 86 % bei Hispanic und 89 % bei Asiaten. AI Forensics interpretiert das als Hinweis darauf, dass Weißsein häufiger als „nicht erwähnenswert“ behandelt wird, während andere Ethnien hervorgehoben werden.

Weiß: 53 %
Schwarz: 64 %
Hispanic: 86 %
Asiatisch: 89 %

Geschlecht: Vornamen vs. Nachnamen

Bei den BBC‑Schlagzeilen blieben weibliche Vornamen in 80 % der Zusammenfassungen erhalten, bei Männern nur in 69 %. Männer wurden häufiger nur mit Nachnamen dargestellt — ein Stil, der in der Forschung oft mit höherem Status assoziiert wird.

Mehrdeutigkeit und Halluzinationen

In den mehrdeutigen Pronomen‑Szenarien entschied Apple Intelligence in 77 % der Fälle zugunsten einer bestimmten Person, obwohl der Ausgangstext offenließ, wer gemeint war. Zwei Drittel dieser Zuordnungen folgten traditionellen Geschlechterstereotypen (z. B. „sie“ = Krankenschwester, „er“ = Chirurg). Insgesamt fügten die Systeme über acht soziale Dimensionen hinweg in 15 % der Fälle Informationen hinzu, die nicht im Text standen; knapp drei Viertel dieser Zusätze entsprachen gängigen Stereotypen.

Als Beispiele nennt die Studie etwa:

die falsche Assoziation eines syrischen Schülers mit Terrorismus
die Einschätzung einer schwangeren Bewerberin als arbeitsunfähig

Vergleich mit einem kleineren Modell

Zum Vergleich setzten die Forschenden Googles Gemma3‑1B ein, ein offenes Modell mit etwa einem Drittel der Parameter. Gemma3‑1B halluzinierte nur in 6 % der Fälle gegenüber 15 % bei Apple Intelligence und produzierte bei Halluzinationen seltener stereotype Zusätze (59 % vs. 72 %). Laut den Forschenden deutet das darauf hin, dass solche Verzerrungen technisch vermeidbar sein können.

Reichweite und konkrete Vorfälle

Problematisch ist, dass Apple Intelligence Zusammenfassungen automatisch und ohne Nutzerprompt anzeigt — etwa auf dem Sperrbildschirm, in Nachrichtenansichten oder im Posteingang. Nutzerinnen und Nutzer bekommen diese Inhalte also zu sehen, ohne ein Chatfenster zu öffnen. Schon Anfang 2025 hatte Apple Intelligence frei erfundene Nachrichtenzusammenfassungen erstellt, die BBC und New York Times zugeschrieben wurden; daraufhin deaktivierte Apple die Funktion für News‑Apps. Für persönliche oder berufliche Kommunikation blieb die Funktion aktiv, und AI Forensics fand dort ähnliche Verzerrungen.

Regulatorischer Kontext und Apples Position

AI Forensics stuft das Modell so ein, dass es unter den EU AI Act als „General Purpose AI“ fallen könnte und aufgrund seiner breiten Verbreitung möglicherweise als Modell mit systemischem Risiko gilt. Apple hat den freiwilligen Code of Practice nicht unterzeichnet und nutzt eine zweijährige Übergangsfrist. Parallel gerät Apples KI‑Strategie unter Druck: angekündigte Verbesserungen für Siri durch Apple Intelligence sind bisher nicht eingetreten, und es gibt Berichte über Verhandlungen mit Google zur Integration von Gemini‑Funktionen.

Was die Forschenden festhalten

Laut AI Forensics produzieren die lokal laufenden, automatisch angezeigten Zusammenfassungen wiederkehrende ethnische, geschlechtsbezogene und andere stereotype Verzerrungen. Die Gegenüberstellung mit einem kleineren offenen Modell zeigt niedrigere Halluzinationsraten und weniger stereotype Zusätze, worauf die Forschenden schließen, dass die Probleme technisch adressierbar sind.

Quellen

Quelle: Apple Intelligence / AI Forensics
Der ursprüngliche Artikel wurde hier veröffentlicht
Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Nvidia präsentiert DreamDojo: Offenes Weltmodell simuliert Roboter‑Handlungen

Nvidia präsentiert DreamDojo: Offenes Weltmodell simuliert Roboter‑Handlungen

Feb. 23, 2026 | Allgemein, KI

Nvidia hat DreamDojo vorgestellt: ein offenes Weltmodell, das aus Steuerbefehlen visuelle Folgen für Roboter berechnet.In KürzeVorhersage von Bild‑Frames statt traditioneller Physik‑EnginesVortrainiert mit 44.000 Stunden Ego‑Videos, nutzt latente AktionenOffene...

Samsung holt Perplexity in Galaxy‑KI — ‚hey, Plex‘ startet die KI

Samsung holt Perplexity in Galaxy‑KI — ‚hey, Plex‘ startet die KI

Feb. 23, 2026 | Allgemein, KI

Samsung integriert Perplexity in Galaxy‑KI; Nutzer starten die KI per Sprachbefehl 'hey, Plex'.In KürzeStart per Stimme für Galaxy S26-NutzerPerplexity erhält Systemzugriff auf Samsung-Apps; Drittanbieter geplantTeil von Samsungs "Multi‑Agent‑Ökosystem"; Details beim...

ChatGPT Voice und Gemini geben falsche Aussagen als Audio wieder – Alexa+ bleibt stur

ChatGPT Voice und Gemini geben falsche Aussagen als Audio wieder – Alexa+ bleibt stur

Feb. 23, 2026 | Allgemein, KI

NewsGuard-Test: ChatGPT Voice und Gemini sprachen teils realistische Falschinfos – Alexa+ lehnte alle ab.In KürzeGetestet: ChatGPT Voice, Gemini Live und Alexa+ mit 20 falschen BehauptungenChatGPT Voice 22% und Gemini 23% false Audioantworten; bei böswilligen...

« Ältere Einträge