Benchmark CiteVQA zeigt, dass LLMs Antworten liefern, aber häufig falsche oder fehlende Belege angeben.
In Kürze
- 1.897 Fragen in 711 langen PDFs; genaue Absatz- oder Abbildungsnennung gefordert
- Top‑Modelle liefern Antworten, beweisen Belege aber selten korrekt
- Context‑Engineering verbessert Treffer; Code und Datensatz sind öffentlich
Wenn du ein großes Sprachmodell nach einer Quelle in einem PDF fragst, bekommst du häufig eine richtige Antwort — aber nicht unbedingt den passenden Beleg. Forschende der Peking University und des Shanghai Artificial Intelligence Laboratory haben dafür einen neuen Benchmark namens CiteVQA entwickelt und einen Blindspot vieler Modelle sichtbar gemacht: sie liefern Antworten, nennen aber oft falsche oder gar keine passenden Dokumentstellen. Die Forschenden nennen dieses Phänomen „Attribution Hallucination“.
Wie der Test funktioniert
-
CiteVQA verlangt mehr als eine korrekte Antwort: Das Modell muss genau das Dokumentelement (konkreter Absatz, Tabelle oder Abbildung) markieren, das die Antwort stützt. Eine bloße Seitenangabe reicht nicht.
-
Der Datensatz umfasst 1.897 Fragen zu 711 PDFs (451 englisch, 260 chinesisch). Die Dokumente sind mit durchschnittlich 40,6 Seiten relativ lang, was die Suche nach dem richtigen Beleg anspruchsvoll macht.
-
Statt manueller Kennzeichnung nutzte das Team eine automatisierte Pipeline: PDFs werden in einzelne Elemente zerlegt, Modelle (unter anderem Gemini‑3.0‑Flash) schlagen Belege vor, und jedes vorgeschlagene Belegstück wird testweise entfernt. Fällt die Antwort weg, gilt das Belegstück als notwendig — so entsteht eine überprüfbare Zuordnung von Frage, Antwort und Beleg.
Messmethode und Testumfang
-
Als zentrale Metrik dient die „Strict Attributed Accuracy“: Punkte gibt es nur, wenn die Antwort stimmt und das Modell genau das richtige Dokumentelement angibt.
-
20 aktuelle Modelle wurden mit dieser Metrik geprüft.
Was die Ergebnisse zeigen
-
Selbst Spitzenmodelle liefern nicht durchgehend korrekte Belege. Gemini‑3.1‑Pro‑Preview erreicht 76 von 100 Punkten nach der strengen Metrik.
-
GPT‑5.4 erzielt für reine Antwortqualität 87,1 Punkte, bei korrekter Belegnachweisung fällt die Punktzahl jedoch auf 59.
-
Open‑Source‑Modelle schneiden deutlich schlechter ab: Qwen3‑VL‑235B‑A22B erreicht 22,5 Punkte, kleinere offene Modelle liegen meist unter 10.
-
Die Forschenden warnen ausdrücklich, dass solche Modelle in regulierten Bereichen „extrem riskant“ sein können.
-
Viele Modelle finden nicht einmal die richtige Seite: Die Gemini‑3‑Reihe trifft die richtige Seite in über 87 % der Fälle, Qwen3‑VL‑235B‑A22B in knapp 58 %.
-
Komplexität wirkt sich negativ aus: Bei Multi‑Dokumenten‑Fragen sinkt die Trefferquote (Recall) etwa bei Gemini‑3.1‑Pro‑Preview von rund 69 % auf 55 %.
Inhaltliche Muster
-
Rechenaufgaben gelingen vergleichsweise gut — sie liefern meist klare, eindeutige Belege.
-
Schwieriger wird es, wenn Modelle visuelle Merkmale (Farbe, Position, Überschrift) erkennen müssen.
-
Standardisierte akademische Texte schneiden am besten; Zeitungen und Magazine mit komplexen Layouts reduzieren die Leistung selbst der besten Modelle auf etwa 63 Punkte.
Ein Blick in die Ursachen
-
In einer Ablationsstudie gaben die Forschenden den Modellen vorab nur die relevanten Seiten oder gar das richtige Dokument. Die Leistung stieg deutlich; ein Beispiel: Qwen3‑VL‑8B verbesserte sich um mehr als 13 Punkte.
-
Daraus folgern die Forschenden, dass Modelle besser und nachvollziehbarer antworten, wenn sie wissen, wo sie suchen müssen — ein Hinweis auf die Bedeutung von Context Engineering, also dem gezielten Beschränken der Informationen, die man dem Modell gibt.
Kontext und Verfügbarkeit
-
Code ist auf GitHub verfügbar, der Datensatz wurde auf Hugging Face veröffentlicht.
-
Frühere Benchmarks desselben Teams (NeedleBench, 2024) und Arbeiten wie DeepMind’s FACTS Grounding weisen auf ähnliche Schwächen hin: Auch dort erreichen starke Modelle keine verlässliche Belegtreue.
-
OpenAI sieht einen Teil des Problems in Trainings- und Bewertungsanreizen: Wenn Zuversicht belohnt und Zurückhaltung bestraft wird, neigen Modelle eher zum Raten als zur ehrlichen Unsicherheit — ein Mechanismus, der Attribution Hallucination begünstigt.
Quellen
- Quelle: Peking University / Shanghai Artificial Intelligence Laboratory
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




