Fluch des Wissens: KI löst Prüfungen, kann Schwierigkeit für Menschen nicht einschätzen

05.01.2026 | Allgemein, KI

Große Sprachmodelle beantworten Prüfungsfragen oft korrekt, scheitern aber darin, abzuschätzen, wie schwer Aufgaben für Studierende sind. Das gefährdet adaptive Lernsysteme.

In Kürze

  • Durchschnittliche Übereinstimmung mit menschlichen Bewertungen liegt unter 0,50 (Spearman‑ρ).
  • Modelle unterschätzen systematisch Schwierigkeit; hohe interne Übereinstimmung, aber Abweichung zu Menschen.
  • Verbesserung möglich durch Training mit echten Schüler‑/Studentenfehlern oder neue methodische Ansätze.

KI-Modelle können Prüfungsfragen oft lösen — aber nicht einschätzen, wie schwer sie für Menschen sind. Das ist das Ergebnis einer großen Studie von US‑Forschern, die einen überraschend klaren Widerspruch zwischen Maschinenleistung und Einschätzungsfähigkeit dokumentiert hat: Weil die Modelle so gut „wissen“, was die richtige Antwort ist, fehlt ihnen der Blick dafür, welche Aufgaben Lernende wirklich fordern. Die Forschenden nennen das den „Fluch des Wissens“.

Was genau wurde getestet?

Die Studie verglich mehr als 20 große Sprachmodelle, darunter GPT‑5, Varianten von GPT‑4 (u. a. GPT‑4o und GPT‑4.1), Llama‑ und Qwen‑Versionen sowie spezialisierte Reasoning‑Modelle wie Deepseek‑R1. Aufgabe der Systeme war nicht, die Fragen zu lösen, sondern einzuschätzen, wie schwer Prüfungsfragen für echte Studierende sind.

Als Referenz dienten Feldtests mit Studierenden in vier Bereichen: USMLE (medizinische Examen), Cambridge English sowie SAT Reading/Writing und SAT Math. Zur Messung der Übereinstimmung zwischen Modellvorhersagen und menschlicher Schwierigkeit nutzten die Forschenden die Spearman‑Korrelation — ein Maß dafür, wie ähnlich zwei Rangordnungen sind (1 = perfekte Übereinstimmung, 0 = kein Zusammenhang).

Kernergebnisse in Zahlen

  • Die Übereinstimmung zwischen Modell‑ und menschlicher Einschätzung fiel insgesamt schwach aus: im Durchschnitt unter 0,50.
  • Beispiele einzelner Modelle: GPT‑5 erreichte ρ = 0,34, GPT‑4.1 lag bei ρ = 0,44.
  • Eine Kombination der 14 besten Modelle brachte es auf etwa ρ ≈ 0,66 — also nur eine mäßige Annäherung an menschliche Bewertungen.
  • Modelle unterschätzen systematisch die Schwierigkeit: Ihre Schätzungen liegen eng beieinander in einem niedrigen Bereich, während die menschlichen Schwierigkeitswerte deutlich stärker streuen. Für die KI wirkt ein Großteil der Fragen relativ leicht — das spiegeln ihre eigenen hohen Lösungsraten wider.
  • Die Modelle stimmen untereinander deutlich stärker überein als mit den menschlichen Daten; es entsteht ein klarer „Machine Consensus“, der systematisch von den realen Schwierigkeiten abweicht.

Was sonst noch auffiel

  • Versuche, Modelle per Instruktion als „schwache“, „durchschnittliche“ oder „starke“ Lernende auftreten zu lassen, hatten praktisch keinen Effekt auf die Trefferquote (typisch <1% Unterschied). Modelle lassen sich offenbar kaum glaubwürdig in ihrer Leistung herunterfahren oder in typischen menschlichen Fehlern trainieren.
  • Die Einschätzung einer Frage als schwierig sagt kaum darüber aus, ob das Modell die Frage selbst falsch beantwortet. Es fehlt an Selbstbezug beziehungsweise Selbstreflexion: Modelle sind gut im Problemlösen, aber schlecht darin, die eigene Fehlerwahrscheinlichkeit im Verhältnis zu menschlichen Lernenden abzuschätzen.

Folgen für Bildungstechnologie

Die Fähigkeit, realistische Schwierigkeitswerte vorherzusagen, ist zentral für Lehrplanentwicklung, Testkonstruktion und adaptive Lernsysteme. Bislang erfolgen solche Einschätzungen meist über aufwändige Feldtests mit echten Lernenden. Die Studie zeigt, dass allein leistungsfähige LLMs diese Arbeit nicht zuverlässig ersetzen — ihre Problemlösefähigkeiten korrespondieren nicht automatisch mit einem Verständnis für menschliche Lernschwierigkeiten.

Als mögliche Wege nennen die Autor:innen, Modelle gezielt mit Daten über echte Schüler‑ und Studentenfehler zu trainieren oder neue methodische Ansätze zu entwickeln, die über reines Prompting hinausgehen.

Einordnung ins laufende Diskussionsfeld

Die Debatte über KI im Unterricht läuft weiter. Ex‑OpenAI‑Forscher Andrej Karpathy etwa hat vorgeschlagen, KI‑gestütztes Lernen zuhause mit Prüfungen in der Schule zu kombinieren (ein „Flipped Classroom“‑Ansatz), weil KI‑Detektoren nicht zuverlässig sind; die Idee: Schüler sollen mit KI arbeiten können, müssen aber auch ohne zurechtkommen. Nutzungszahlen von OpenAI zeigen zudem, dass „Schreiben und Lektorat“ die beliebteste Anwendung ist, gefolgt von „Nachhilfe und Unterricht“.

Quelle

Quellen

  • Quelle: Forschungsteam verschiedener US-Universitäten / Große Sprachmodelle (GPT-5, GPT-4.1, Llama, Qwen, Deepseek-R1)
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…