Post-Training macht Sprachmodelle weniger menschlich – Studie mit Helmholtz

31.05.2026 | Allgemein, KI

Post-Training macht Sprachmodelle weniger menschlich Studie mit Helmholtz

Große Studie zeigt: Assistenz-Optimierung reduziert KIs‘ Nähe zum menschlichen Verhalten.

In Kürze

Unbearbeitete Basismodelle entsprechen Menschen stärker als Assistenzvarianten
Instruction‑Tuning, RLHF und Vision‑Erweiterungen verringern Übereinstimmung, besonders beim Reasoning
Gezieltes Feintuning auf Verhaltensdaten (z. B. Centaur) verbessert Simulation

Wenn du Sprachmodelle als digitale Versuchspersonen einsetzen willst, solltest du genau hinsehen: Eine große internationale Studie — mit Beteiligung von Helmholtz Munich — zeigt, dass die Trainingsschritte, die rohe Modelle in höfliche, hilfreiche Chat-Assistenten verwandeln, ihre Fähigkeit senken, menschliches Verhalten realistisch nachzubilden. Und neuere Modellgenerationen verstärken dieses Auseinanderdriften.

Worum es geht

Forscher:innen setzen Sprachmodelle zunehmend als Stellvertreter für Menschen ein: um politische Reaktionen zu simulieren, klinische Trainings zu testen oder Lernverläufe durchzuspielen. Die Studie fragt, ob dafür besser die unbearbeiteten Basismodelle oder die nachtrainierten Assistentenversionen geeignet sind — und kommt zu klaren Ergebnissen.

Die Datenbasis

Untersucht wurde Psych-201, ein sehr großer Datensatz mit Transkripten aus Verhaltensexperimenten:

rund 208.000 Teilnehmer
etwa 26 Millionen einzelne Reaktionen aus Hunderten Experimenten
Neben Antworten enthält der Datensatz Angaben wie Alter, Nationalität und Fragebogenwerte
Die Sammlung entstand in einer offenen Kollaboration mit mehr als 35 Institutionen

Was verglichen wurde

Getestet wurden Modelle aus den Familien Qwen3, Llama3 und OLMo 3 — jeweils als reines Basismodell und als verschiedene post-trainierte Varianten.

Basismodelle sind primär auf das Vorhersagen des nächsten Wortes trainiert. Post-Training umfasst zusätzliche Schritte wie:

Instruction-Tuning
Reinforcement Learning from Human Feedback (RLHF)
Vision-Erweiterungen

Mit dem Ziel, die Modelle nützlicher, höflicher oder besser in der Befolgung von Anweisungen zu machen.

Die Kernergebnisse

Basismodelle lagen konsistent näher an menschlichem Verhalten als die post-trainierten Assistenten-Modelle, über alle Modellfamilien und -größen hinweg.
Besonders stark sank die Übereinstimmung bei Reasoning-Aufgaben (Schlussfolgern), gefolgt von Einbußen durch Instruction-Tuning und durch Vision-Erweiterungen.
Eine mögliche Erklärung — dass Assistenten einfach deterministischer antworten und damit natürliche Streuung unterdrücken — reicht nicht aus: Auch bei Aufgaben mit diskreten Antwortoptionen waren die post-trainierten Modelle schlechter.

Generationseffekt

Interessant: Während die Basismodelle über Generationen hinweg (zum Beispiel Qwen2 → Qwen2.5 → Qwen3) besser darin wurden, menschliches Verhalten abzubilden, wuchs zugleich die Lücke zwischen diesen Basismodellen und ihren assistenten-optimierten Varianten. Verbesserungen im Post-Training führen also eher zu einer größeren Entfernung vom menschlichen Antwortmuster.

Warum das passiert

Basismodelle sind stark auf natürliche Sprache kalibriert und spiegeln damit auch menschliche Faustregeln und systematische Verzerrungen wider. Post-Training verschiebt das Optimierungsziel hin zu nützlicheren, normkonformen oder logischeren Antworten. Dadurch gehen genau die kleinen, häufig inkonsistenten Gewohnheiten verloren, die Menschen charakterisieren — und die relevant wären, wenn du Menschen simulieren willst.

Persona-Prompts zeigen kaum Wirkung

Der klassische Trick, dem Modell vorab eine Persona (Alter, Geschlecht, Bildung, Diagnosen etc.) zu geben, um spezifische Reaktionen zu erzeugen, brachte praktisch keinen Effekt für die Vorhersage individueller Antworten — selbst in altersrelevanten Experimenten nicht. Auf Populationsebene können solche Prompts plausibel wirken, aber sie liefern offenbar keine verlässlichen individuellen Vorhersagen.

Gegenbeispiel: Feintuning auf Verhaltensdaten

Ein gezielt auf Verhaltensdaten feinabgestimmtes Modell namens Centaur zeigte deutlich bessere Übereinstimmung mit menschlichem Verhalten — auch bei neuen Aufgaben, die nicht im Training enthalten waren. Das deutet darauf hin, dass zusätzliche Anpassung sinnvoll ist, wenn sie explizit auf Verhaltenssimulation statt auf normative Korrektheit zielt.

Praktische Konsequenzen

Wenn du Sprachmodelle als digitale Versuchspersonen einsetzen willst, sind frei verfügbare Assistenten-Modelle nicht automatisch die beste Wahl. Geeigneter sind entweder die rohen Basismodelle oder Modelle, die gezielt für Verhaltensmodellierung feingetunt wurden. Die Studie stellt Code und Daten offen zur Verfügung — auf Hugging Face und GitHub — sodass Forschende und Praktiker:innen weiter testen und eigene Anpassungen vornehmen können.

Quellen

Quelle: Helmholtz Munich / Psych-201
Der ursprüngliche Artikel wurde hier veröffentlicht
Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

SoftBank plant bis zu 75 Mrd. Euro für Rechenzentren in Frankreich

SoftBank plant bis zu 75 Mrd. Euro für Rechenzentren in Frankreich

Mai 31, 2026 | Allgemein, KI

SoftBank will in Frankreich Rechenzentren mit bis zu 5 GW Kapazität bauen und bis zu 75 Mrd. Euro investieren.In KürzeBis zu 5 GW neue Kapazität; erste Phase: 3,1 GW in Nordfrankreich bis 2031Projekt gilt als SoftBanks größte KI‑Infrastruktur‑Investition in...

LLMShare: Kriminelle verbreiten Malware über öffentliche Chat‑Links

LLMShare: Kriminelle verbreiten Malware über öffentliche Chat‑Links

Mai 31, 2026 | Allgemein, KI

Öffentliche Share‑Chats von ChatGPT und Claude werden als Trägermedium für Schadsoftware genutzt.In KürzeAttacken nutzen offizielle Domains und bezahlte Suche, um Vertrauen zu gewinnenGefälschte Support‑Seiten und Code‑Rendering locken zu infizierten Downloads oder...

Nvidia als Hauptprozessor: Neue Windows‑Notebooks und lokale KI von Microsoft

Nvidia als Hauptprozessor: Neue Windows‑Notebooks und lokale KI von Microsoft

Mai 31, 2026 | Allgemein, KI

Nvidia bringt eigene Prozessoren in Windows‑Notebooks; Microsoft setzt auf lokale KI‑Agenten.In KürzeNvidia‑Chips sollen die Haupt-CPU in neuen Notebooks seinMicrosoft plant lokale KI‑Agenten auf Windows via OpenClawDetails werden auf Computex und Microsoft Build...

« Ältere Einträge