CiteVQA entlarvt: Große Sprachmodelle nennen oft falsche PDF-Belege

Wie der Test funktioniert

CiteVQA verlangt mehr als eine korrekte Antwort: Das Modell muss genau das Dokumentelement (konkreter Absatz, Tabelle oder Abbildung) markieren, das die Antwort stützt. Eine bloße Seitenangabe reicht nicht.

Der Datensatz umfasst 1.897 Fragen zu 711 PDFs (451 englisch, 260 chinesisch). Die Dokumente sind mit durchschnittlich 40,6 Seiten relativ lang, was die Suche nach dem richtigen Beleg anspruchsvoll macht.

Statt manueller Kennzeichnung nutzte das Team eine automatisierte Pipeline: PDFs werden in einzelne Elemente zerlegt, Modelle (unter anderem Gemini‑3.0‑Flash) schlagen Belege vor, und jedes vorgeschlagene Belegstück wird testweise entfernt. Fällt die Antwort weg, gilt das Belegstück als notwendig — so entsteht eine überprüfbare Zuordnung von Frage, Antwort und Beleg.

Was die Ergebnisse zeigen

Selbst Spitzenmodelle liefern nicht durchgehend korrekte Belege. Gemini‑3.1‑Pro‑Preview erreicht 76 von 100 Punkten nach der strengen Metrik.

GPT‑5.4 erzielt für reine Antwortqualität 87,1 Punkte, bei korrekter Belegnachweisung fällt die Punktzahl jedoch auf 59.

Open‑Source‑Modelle schneiden deutlich schlechter ab: Qwen3‑VL‑235B‑A22B erreicht 22,5 Punkte, kleinere offene Modelle liegen meist unter 10.

Die Forschenden warnen ausdrücklich, dass solche Modelle in regulierten Bereichen „extrem riskant“ sein können.

Viele Modelle finden nicht einmal die richtige Seite: Die Gemini‑3‑Reihe trifft die richtige Seite in über 87 % der Fälle, Qwen3‑VL‑235B‑A22B in knapp 58 %.

Komplexität wirkt sich negativ aus: Bei Multi‑Dokumenten‑Fragen sinkt die Trefferquote (Recall) etwa bei Gemini‑3.1‑Pro‑Preview von rund 69 % auf 55 %.

Inhaltliche Muster

Rechenaufgaben gelingen vergleichsweise gut — sie liefern meist klare, eindeutige Belege.

Schwieriger wird es, wenn Modelle visuelle Merkmale (Farbe, Position, Überschrift) erkennen müssen.

Standardisierte akademische Texte schneiden am besten; Zeitungen und Magazine mit komplexen Layouts reduzieren die Leistung selbst der besten Modelle auf etwa 63 Punkte.

Ein Blick in die Ursachen

In einer Ablationsstudie gaben die Forschenden den Modellen vorab nur die relevanten Seiten oder gar das richtige Dokument. Die Leistung stieg deutlich; ein Beispiel: Qwen3‑VL‑8B verbesserte sich um mehr als 13 Punkte.

Daraus folgern die Forschenden, dass Modelle besser und nachvollziehbarer antworten, wenn sie wissen, wo sie suchen müssen — ein Hinweis auf die Bedeutung von Context Engineering, also dem gezielten Beschränken der Informationen, die man dem Modell gibt.

Kontext und Verfügbarkeit

Code ist auf GitHub verfügbar, der Datensatz wurde auf Hugging Face veröffentlicht.

Frühere Benchmarks desselben Teams (NeedleBench, 2024) und Arbeiten wie DeepMind’s FACTS Grounding weisen auf ähnliche Schwächen hin: Auch dort erreichen starke Modelle keine verlässliche Belegtreue.

OpenAI sieht einen Teil des Problems in Trainings- und Bewertungsanreizen: Wenn Zuversicht belohnt und Zurückhaltung bestraft wird, neigen Modelle eher zum Raten als zur ehrlichen Unsicherheit — ein Mechanismus, der Attribution Hallucination begünstigt.

Quellen

Quelle: Peking University / Shanghai Artificial Intelligence Laboratory

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Juni 20, 2026 | Allgemein, KI

Münchner Gericht stuft KI‑generierte Kurzantworten in der Google‑Suche als eigenständige Inhalte ein und macht Google dafür direkt haftbar.In KürzeGericht: KI‑Übersichten sind redaktionelle InhalteAuslöser: Zwei Verlage fälschlich mit Betrug in Verbindung...

Norwegen schränkt generative KI in Schulen massiv ein

Juni 20, 2026 | Allgemein, KI

Norwegen schränkt generative KI im Unterricht stark ein.In Kürze1–7: generative KI verbotenSek I: nur mit LehraufsichtGesetz & mehr Bücher geplant Norwegen macht in den Klassenräumen einen klaren Schnitt: Generative KI‑Tools sind in der Grundschule künftig weitgehend...

Google Cloud bringt „souveräne“ Cloud nach Deutschland – Thales betreibt, Start bis 2026

Juni 20, 2026 | Allgemein, KI

Google Cloud plant eine „souveräne“ Cloud in Deutschland: Betrieb durch Thales, Preview läuft, Verfügbarkeit Ende 2026.In KürzeThales verwahrt kryptografische Schlüssel und betreibt die Plattform.Drei Stufen: Data Boundary, Dedicated (Deutschland),...

CiteVQA entlarvt: Große Sprachmodelle nennen oft falsche PDF-Belege

In Kürze

Wie der Test funktioniert

Messmethode und Testumfang

Was die Ergebnisse zeigen

Inhaltliche Muster

Ein Blick in die Ursachen

Kontext und Verfügbarkeit

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Norwegen schränkt generative KI in Schulen massiv ein

Google Cloud bringt „souveräne“ Cloud nach Deutschland – Thales betreibt, Start bis 2026

Über uns

Dein Thema?

Pickert GmbH