Große Studie zeigt: Assistenz-Optimierung reduziert KIs‘ Nähe zum menschlichen Verhalten.
In Kürze
- Unbearbeitete Basismodelle entsprechen Menschen stärker als Assistenzvarianten
- Instruction‑Tuning, RLHF und Vision‑Erweiterungen verringern Übereinstimmung, besonders beim Reasoning
- Gezieltes Feintuning auf Verhaltensdaten (z. B. Centaur) verbessert Simulation
Wenn du Sprachmodelle als digitale Versuchspersonen einsetzen willst, solltest du genau hinsehen: Eine große internationale Studie — mit Beteiligung von Helmholtz Munich — zeigt, dass die Trainingsschritte, die rohe Modelle in höfliche, hilfreiche Chat-Assistenten verwandeln, ihre Fähigkeit senken, menschliches Verhalten realistisch nachzubilden. Und neuere Modellgenerationen verstärken dieses Auseinanderdriften.
Worum es geht
Forscher:innen setzen Sprachmodelle zunehmend als Stellvertreter für Menschen ein: um politische Reaktionen zu simulieren, klinische Trainings zu testen oder Lernverläufe durchzuspielen. Die Studie fragt, ob dafür besser die unbearbeiteten Basismodelle oder die nachtrainierten Assistentenversionen geeignet sind — und kommt zu klaren Ergebnissen.
Die Datenbasis
Untersucht wurde Psych-201, ein sehr großer Datensatz mit Transkripten aus Verhaltensexperimenten:
- rund 208.000 Teilnehmer
- etwa 26 Millionen einzelne Reaktionen aus Hunderten Experimenten
- Neben Antworten enthält der Datensatz Angaben wie Alter, Nationalität und Fragebogenwerte
- Die Sammlung entstand in einer offenen Kollaboration mit mehr als 35 Institutionen
Was verglichen wurde
Getestet wurden Modelle aus den Familien Qwen3, Llama3 und OLMo 3 — jeweils als reines Basismodell und als verschiedene post-trainierte Varianten.
Basismodelle sind primär auf das Vorhersagen des nächsten Wortes trainiert. Post-Training umfasst zusätzliche Schritte wie:
- Instruction-Tuning
- Reinforcement Learning from Human Feedback (RLHF)
- Vision-Erweiterungen
Mit dem Ziel, die Modelle nützlicher, höflicher oder besser in der Befolgung von Anweisungen zu machen.
Die Kernergebnisse
- Basismodelle lagen konsistent näher an menschlichem Verhalten als die post-trainierten Assistenten-Modelle, über alle Modellfamilien und -größen hinweg.
- Besonders stark sank die Übereinstimmung bei Reasoning-Aufgaben (Schlussfolgern), gefolgt von Einbußen durch Instruction-Tuning und durch Vision-Erweiterungen.
- Eine mögliche Erklärung — dass Assistenten einfach deterministischer antworten und damit natürliche Streuung unterdrücken — reicht nicht aus: Auch bei Aufgaben mit diskreten Antwortoptionen waren die post-trainierten Modelle schlechter.
Generationseffekt
Interessant: Während die Basismodelle über Generationen hinweg (zum Beispiel Qwen2 → Qwen2.5 → Qwen3) besser darin wurden, menschliches Verhalten abzubilden, wuchs zugleich die Lücke zwischen diesen Basismodellen und ihren assistenten-optimierten Varianten. Verbesserungen im Post-Training führen also eher zu einer größeren Entfernung vom menschlichen Antwortmuster.
Warum das passiert
Basismodelle sind stark auf natürliche Sprache kalibriert und spiegeln damit auch menschliche Faustregeln und systematische Verzerrungen wider. Post-Training verschiebt das Optimierungsziel hin zu nützlicheren, normkonformen oder logischeren Antworten. Dadurch gehen genau die kleinen, häufig inkonsistenten Gewohnheiten verloren, die Menschen charakterisieren — und die relevant wären, wenn du Menschen simulieren willst.
Persona-Prompts zeigen kaum Wirkung
Der klassische Trick, dem Modell vorab eine Persona (Alter, Geschlecht, Bildung, Diagnosen etc.) zu geben, um spezifische Reaktionen zu erzeugen, brachte praktisch keinen Effekt für die Vorhersage individueller Antworten — selbst in altersrelevanten Experimenten nicht. Auf Populationsebene können solche Prompts plausibel wirken, aber sie liefern offenbar keine verlässlichen individuellen Vorhersagen.
Gegenbeispiel: Feintuning auf Verhaltensdaten
Ein gezielt auf Verhaltensdaten feinabgestimmtes Modell namens Centaur zeigte deutlich bessere Übereinstimmung mit menschlichem Verhalten — auch bei neuen Aufgaben, die nicht im Training enthalten waren. Das deutet darauf hin, dass zusätzliche Anpassung sinnvoll ist, wenn sie explizit auf Verhaltenssimulation statt auf normative Korrektheit zielt.
Praktische Konsequenzen
Wenn du Sprachmodelle als digitale Versuchspersonen einsetzen willst, sind frei verfügbare Assistenten-Modelle nicht automatisch die beste Wahl. Geeigneter sind entweder die rohen Basismodelle oder Modelle, die gezielt für Verhaltensmodellierung feingetunt wurden. Die Studie stellt Code und Daten offen zur Verfügung — auf Hugging Face und GitHub — sodass Forschende und Praktiker:innen weiter testen und eigene Anpassungen vornehmen können.
Quellen
- Quelle: Helmholtz Munich / Psych-201
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




