Studie zeigt: LLMs geben weniger korrekte Antworten, verweigern öfter und können herablassend reagieren.
In Kürze
- Weniger korrekte Antworten bei niedriger Bildung und schwächeren Englischkenntnissen
- Claude 3 zeigte verstärkte länderspezifische Schwächen und häufige Verweigerungen
- Feinabstimmung/Alignment und gespeicherte Nutzerinfos könnten Bias verstärken
Eine Studie vom MIT legt nahe, dass große Sprachmodelle bei bestimmten Nutzergruppen systematisch schlechtere Antworten liefern — und in manchen Fällen Informationen komplett verweigern oder herablassend reagieren.
Wer hat geforscht und wie getestet wurde
Forscherinnen und Forscher des Center for Constructive Communication (CCC) am MIT Media Lab präsentierten die Untersuchung „LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users“ auf der AAAI. Getestet wurden OpenAI’s GPT‑4, Anthropic’s Claude 3 Opus und Meta’s Llama 3. Als Prüfsteine dienten die Datensets TruthfulQA (zur Messung wahrheitsgetreuer Antworten bei populären Irrtümern) und SciQ (wissenschaftliche Prüfungsfragen).
Vor jeder Frage setzten die Forschenden kurze Nutzerbiografien ein und variierten drei Merkmale:
- formales Bildungsniveau
- Englisch‑Fähigkeit
- Herkunftsland
Was die Tests zeigten
- Genauigkeit: Alle drei Modelle lieferten tendenziell weniger korrekte Antworten, wenn die simulierte Nutzerbiografie ein niedrigeres Bildungsniveau oder eingeschränkte Englischkenntnisse angab. Am stärksten fielen die Differenzen aus, wenn beide Merkmale zusammenkamen — also bei weniger gebildeten, nicht‑muttersprachlichen Nutzerinnen und Nutzern.
- Länderspezifische Unterschiede: Auffällig war bei Claude 3 Opus eine besonders schlechte Performance für Nutzer, die als aus Iran stammend markiert waren — und das in beiden Testsets.
- Verweigerungen: Die Modelle weigerten sich häufiger zu antworten, wenn die Biografie auf geringere Bildung oder schwächere Englischkenntnisse hinwies. Beispiel: Claude 3 Opus verweigerte knapp 11 % der Fragen für weniger gebildete, nicht‑muttersprachliche Nutzerinnen und Nutzer, gegenüber 3,6 % in der Kontrollbedingung.
- Ton und Sprache: Bei manueller Durchsicht zeigte Claude in 43,7 % der Fälle gegenüber weniger gebildeten Nutzerinnen und Nutzern eine herablassende, patzige oder spöttische Tonalität; bei hochgebildeten Nutzern trat dieses Verhalten in unter 1 % der Fälle auf. Teilweise imitierte das Modell „gebrochenes Englisch“ oder übertriebene Dialektformen.
- Selektives Zurückhalten: Claude verweigerte Informationen zu Themen wie Kernenergie, Anatomie oder historischen Ereignissen speziell für weniger gebildete Nutzer aus Ländern wie Iran oder Russland — während dieselben Fragen für andere Biografien korrekt beantwortet wurden.
Erklärungsansätze aus der Studie
Die Autorinnen und Autoren führen die beobachteten Muster vor allem auf Feinabstimmungs‑ und Sicherheitsprozesse zurück, also Maßnahmen, die Modelle dazu bringen sollen, Richtlinien zu befolgen und Schaden zu vermeiden. Diese „Alignment“-Schritte könnten dazu führen, dass Modellen zwar die korrekten Antworten bekannt sind, sie diese aber bestimmten Nutzergruppen vorenthalten.
Die Forschenden sehen Parallelen zu menschlichen Vorurteilen: Nicht‑muttersprachler werden fälschlich oft als weniger kompetent eingeschätzt — ein Bias, der offenbar in die Modelle hineingetragen wurde. Zusätzlich warnen sie, dass personalisierte Funktionen wie Chat‑Speicher, die Nutzerinfos speichern, solche ungleichen Behandlungen verstärken könnten.
Was die Autorinnen und Autoren schreiben
Laut den Studienautorinnen und -autoren werden LLMs häufig als Werkzeuge zur breiten Zugänglichkeit von Wissen dargestellt. Ohne gezielte Maßnahmen gegen diese systematischen Verzerrungen könnten die Modelle bestehende Ungleichheiten jedoch eher verstärken als verringern.
Quellen
- Quelle: MIT Center for Constructive Communication
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




