Post-Training macht Sprachmodelle weniger menschlich – Studie mit Helmholtz

31.05.2026 | Allgemein, KI

Große Studie zeigt: Assistenz-Optimierung reduziert KIs‘ Nähe zum menschlichen Verhalten.

In Kürze

  • Unbearbeitete Basismodelle entsprechen Menschen stärker als Assistenzvarianten
  • Instruction‑Tuning, RLHF und Vision‑Erweiterungen verringern Übereinstimmung, besonders beim Reasoning
  • Gezieltes Feintuning auf Verhaltensdaten (z. B. Centaur) verbessert Simulation

Wenn du Sprachmodelle als digitale Versuchspersonen einsetzen willst, solltest du genau hinsehen: Eine große internationale Studie — mit Beteiligung von Helmholtz Munich — zeigt, dass die Trainingsschritte, die rohe Modelle in höfliche, hilfreiche Chat-Assistenten verwandeln, ihre Fähigkeit senken, menschliches Verhalten realistisch nachzubilden. Und neuere Modellgenerationen verstärken dieses Auseinanderdriften.

Worum es geht

Forscher:innen setzen Sprachmodelle zunehmend als Stellvertreter für Menschen ein: um politische Reaktionen zu simulieren, klinische Trainings zu testen oder Lernverläufe durchzuspielen. Die Studie fragt, ob dafür besser die unbearbeiteten Basismodelle oder die nachtrainierten Assistentenversionen geeignet sind — und kommt zu klaren Ergebnissen.

Die Datenbasis

Untersucht wurde Psych-201, ein sehr großer Datensatz mit Transkripten aus Verhaltensexperimenten:

  • rund 208.000 Teilnehmer
  • etwa 26 Millionen einzelne Reaktionen aus Hunderten Experimenten
  • Neben Antworten enthält der Datensatz Angaben wie Alter, Nationalität und Fragebogenwerte
  • Die Sammlung entstand in einer offenen Kollaboration mit mehr als 35 Institutionen

Was verglichen wurde

Getestet wurden Modelle aus den Familien Qwen3, Llama3 und OLMo 3 — jeweils als reines Basismodell und als verschiedene post-trainierte Varianten.

Basismodelle sind primär auf das Vorhersagen des nächsten Wortes trainiert. Post-Training umfasst zusätzliche Schritte wie:

  • Instruction-Tuning
  • Reinforcement Learning from Human Feedback (RLHF)
  • Vision-Erweiterungen

Mit dem Ziel, die Modelle nützlicher, höflicher oder besser in der Befolgung von Anweisungen zu machen.

Die Kernergebnisse

  • Basismodelle lagen konsistent näher an menschlichem Verhalten als die post-trainierten Assistenten-Modelle, über alle Modellfamilien und -größen hinweg.
  • Besonders stark sank die Übereinstimmung bei Reasoning-Aufgaben (Schlussfolgern), gefolgt von Einbußen durch Instruction-Tuning und durch Vision-Erweiterungen.
  • Eine mögliche Erklärung — dass Assistenten einfach deterministischer antworten und damit natürliche Streuung unterdrücken — reicht nicht aus: Auch bei Aufgaben mit diskreten Antwortoptionen waren die post-trainierten Modelle schlechter.

Generationseffekt

Interessant: Während die Basismodelle über Generationen hinweg (zum Beispiel Qwen2 → Qwen2.5 → Qwen3) besser darin wurden, menschliches Verhalten abzubilden, wuchs zugleich die Lücke zwischen diesen Basismodellen und ihren assistenten-optimierten Varianten. Verbesserungen im Post-Training führen also eher zu einer größeren Entfernung vom menschlichen Antwortmuster.

Warum das passiert

Basismodelle sind stark auf natürliche Sprache kalibriert und spiegeln damit auch menschliche Faustregeln und systematische Verzerrungen wider. Post-Training verschiebt das Optimierungsziel hin zu nützlicheren, normkonformen oder logischeren Antworten. Dadurch gehen genau die kleinen, häufig inkonsistenten Gewohnheiten verloren, die Menschen charakterisieren — und die relevant wären, wenn du Menschen simulieren willst.

Persona-Prompts zeigen kaum Wirkung

Der klassische Trick, dem Modell vorab eine Persona (Alter, Geschlecht, Bildung, Diagnosen etc.) zu geben, um spezifische Reaktionen zu erzeugen, brachte praktisch keinen Effekt für die Vorhersage individueller Antworten — selbst in altersrelevanten Experimenten nicht. Auf Populationsebene können solche Prompts plausibel wirken, aber sie liefern offenbar keine verlässlichen individuellen Vorhersagen.

Gegenbeispiel: Feintuning auf Verhaltensdaten

Ein gezielt auf Verhaltensdaten feinabgestimmtes Modell namens Centaur zeigte deutlich bessere Übereinstimmung mit menschlichem Verhalten — auch bei neuen Aufgaben, die nicht im Training enthalten waren. Das deutet darauf hin, dass zusätzliche Anpassung sinnvoll ist, wenn sie explizit auf Verhaltenssimulation statt auf normative Korrektheit zielt.

Praktische Konsequenzen

Wenn du Sprachmodelle als digitale Versuchspersonen einsetzen willst, sind frei verfügbare Assistenten-Modelle nicht automatisch die beste Wahl. Geeigneter sind entweder die rohen Basismodelle oder Modelle, die gezielt für Verhaltensmodellierung feingetunt wurden. Die Studie stellt Code und Daten offen zur Verfügung — auf Hugging Face und GitHub — sodass Forschende und Praktiker:innen weiter testen und eigene Anpassungen vornehmen können.

Quellen

  • Quelle: Helmholtz Munich / Psych-201
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…