Fluch des Wissens: KI löst Prüfungen, kann Schwierigkeit für Menschen nicht einschätzen

Was genau wurde getestet?

Die Studie verglich mehr als 20 große Sprachmodelle, darunter GPT‑5, Varianten von GPT‑4 (u. a. GPT‑4o und GPT‑4.1), Llama‑ und Qwen‑Versionen sowie spezialisierte Reasoning‑Modelle wie Deepseek‑R1. Aufgabe der Systeme war nicht, die Fragen zu lösen, sondern einzuschätzen, wie schwer Prüfungsfragen für echte Studierende sind.

Als Referenz dienten Feldtests mit Studierenden in vier Bereichen: USMLE (medizinische Examen), Cambridge English sowie SAT Reading/Writing und SAT Math. Zur Messung der Übereinstimmung zwischen Modellvorhersagen und menschlicher Schwierigkeit nutzten die Forschenden die Spearman‑Korrelation — ein Maß dafür, wie ähnlich zwei Rangordnungen sind (1 = perfekte Übereinstimmung, 0 = kein Zusammenhang).

Kernergebnisse in Zahlen

Die Übereinstimmung zwischen Modell‑ und menschlicher Einschätzung fiel insgesamt schwach aus: im Durchschnitt unter 0,50.

Beispiele einzelner Modelle: GPT‑5 erreichte ρ = 0,34, GPT‑4.1 lag bei ρ = 0,44.

Eine Kombination der 14 besten Modelle brachte es auf etwa ρ ≈ 0,66 — also nur eine mäßige Annäherung an menschliche Bewertungen.

Modelle unterschätzen systematisch die Schwierigkeit: Ihre Schätzungen liegen eng beieinander in einem niedrigen Bereich, während die menschlichen Schwierigkeitswerte deutlich stärker streuen. Für die KI wirkt ein Großteil der Fragen relativ leicht — das spiegeln ihre eigenen hohen Lösungsraten wider.

Die Modelle stimmen untereinander deutlich stärker überein als mit den menschlichen Daten; es entsteht ein klarer „Machine Consensus“, der systematisch von den realen Schwierigkeiten abweicht.

Was sonst noch auffiel

Versuche, Modelle per Instruktion als „schwache“, „durchschnittliche“ oder „starke“ Lernende auftreten zu lassen, hatten praktisch keinen Effekt auf die Trefferquote (typisch <1% Unterschied). Modelle lassen sich offenbar kaum glaubwürdig in ihrer Leistung herunterfahren oder in typischen menschlichen Fehlern trainieren.

Die Einschätzung einer Frage als schwierig sagt kaum darüber aus, ob das Modell die Frage selbst falsch beantwortet. Es fehlt an Selbstbezug beziehungsweise Selbstreflexion: Modelle sind gut im Problemlösen, aber schlecht darin, die eigene Fehlerwahrscheinlichkeit im Verhältnis zu menschlichen Lernenden abzuschätzen.

Folgen für Bildungstechnologie

Die Fähigkeit, realistische Schwierigkeitswerte vorherzusagen, ist zentral für Lehrplanentwicklung, Testkonstruktion und adaptive Lernsysteme. Bislang erfolgen solche Einschätzungen meist über aufwändige Feldtests mit echten Lernenden. Die Studie zeigt, dass allein leistungsfähige LLMs diese Arbeit nicht zuverlässig ersetzen — ihre Problemlösefähigkeiten korrespondieren nicht automatisch mit einem Verständnis für menschliche Lernschwierigkeiten.

Als mögliche Wege nennen die Autor:innen, Modelle gezielt mit Daten über echte Schüler‑ und Studentenfehler zu trainieren oder neue methodische Ansätze zu entwickeln, die über reines Prompting hinausgehen.

Einordnung ins laufende Diskussionsfeld

Die Debatte über KI im Unterricht läuft weiter. Ex‑OpenAI‑Forscher Andrej Karpathy etwa hat vorgeschlagen, KI‑gestütztes Lernen zuhause mit Prüfungen in der Schule zu kombinieren (ein „Flipped Classroom“‑Ansatz), weil KI‑Detektoren nicht zuverlässig sind; die Idee: Schüler sollen mit KI arbeiten können, müssen aber auch ohne zurechtkommen. Nutzungszahlen von OpenAI zeigen zudem, dass „Schreiben und Lektorat“ die beliebteste Anwendung ist, gefolgt von „Nachhilfe und Unterricht“.

Quelle

Quellen

Quelle: Forschungsteam verschiedener US-Universitäten / Große Sprachmodelle (GPT-5, GPT-4.1, Llama, Qwen, Deepseek-R1)

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Mann gesteht: KI und Bots brachten über 8 Mio. US$ an Tantiemen

März 25, 2026 | Allgemein, KI

Michael Smith nutzte KI und Bots, um Millionen an Streaming-Tantiemen zu erschleichen.In KürzeHunderttausende KI-generierte SongsFake-Konten und Bots erzeugten Milliarden StreamsMehr als 8 Mio. US$ an Tantiemen; Verurteilung durch SDNY Michael Smith aus North Carolina...

OpenAI verlangt: ChatGPT soll in Android‑Choice‑Screens neben Google auftauchen

März 25, 2026 | Allgemein, KI

OpenAI fordert, ChatGPT in Android- und Chrome-Choice-Screens als Suchoption neben Google anzuzeigen.In KürzeChoice Screens sind Auswahl-Pop-ups für Suchdienste und Browser.OpenAI: ChatGPT mit Websuche wird wie eine Suchmaschine genutzt (ca. 900 Mio. wöchentliche...

ChatGPT wird zum Shopfenster: Produkte, Preise und Vergleiche im Chat

März 25, 2026 | Allgemein, KI

ChatGPT zeigt ab dieser Woche Produkte direkt im Chat — mit Bildern, Preisen und Vergleichstabellen.In KürzeProdukte, Bilder, Preise, Bewertungen und Vergleichstabellen im ChatHändler liefern Kataloge per ACP; Shopify-Anbindung schon integriertBezahlung läuft über...

Fluch des Wissens: KI löst Prüfungen, kann Schwierigkeit für Menschen nicht einschätzen

In Kürze

Was genau wurde getestet?

Kernergebnisse in Zahlen

Was sonst noch auffiel

Folgen für Bildungstechnologie

Einordnung ins laufende Diskussionsfeld

Quelle

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Mann gesteht: KI und Bots brachten über 8 Mio. US$ an Tantiemen

OpenAI verlangt: ChatGPT soll in Android‑Choice‑Screens neben Google auftauchen

ChatGPT wird zum Shopfenster: Produkte, Preise und Vergleiche im Chat

Über uns

Dein Thema?

Pickert GmbH