CiteVQA prüft, ob KI-Antworten exakt aus PDFs stammen — viele Modelle nennen falsche Quellen.
In Kürze
- Belege müssen exakt Absatz, Tabelle oder Abbildung benennen
- Spitzenmodelle antworten oft richtig, belegen aber seltener korrekt
- Vorgegebene Seiten erhöhen die Belegtreue deutlich
Viele große Sprachmodelle antworten zwar richtig auf Fragen zu PDFs — aber sie nennen oft die falsche Stelle als Beleg. Das zeigt der neue Benchmark CiteVQA, der ein besonderes Augenmerk auf präzise Quellenangaben legt und ein Problem benennt, das die Forschenden „Attribution Hallucination“ nennen: falsche oder erfundene Quellenangaben.
Was CiteVQA misst
Bisherige Tests für Dokumentenanalyse bewerten meist nur die finale Antwort. Sie sagen nicht, ob die Antwort wirklich aus dem vorgelegten Dokument stammt oder aus dem Modellwissen. CiteVQA verlangt deshalb elementgenaue Belege: Modelle müssen genau den Absatz, die Tabelle oder die Abbildung nennen — eine bloße Seitenzahl reicht nicht. Bewertet wird mit der Metrik „Strict Attributed Accuracy“: Punkte gibt es nur, wenn die Antwort korrekt ist und das Modell die richtige Stelle im Dokument markiert.
Daten und Methodik
Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachbereichen (451 auf Englisch, 260 auf Chinesisch). Die Dokumente sind im Schnitt 40,6 Seiten lang — deutlich umfangreicher als bei vielen anderen Benchmarks. Die Evaluations-Pipeline ist automatisiert:
- Dokumente werden in einzelne Elemente zerlegt.
- Modelle (zum Beispiel Gemini-3.0-Flash) schlagen Belege vor.
- Anschließend wird testweise jedes vorgeschlagene Beleg-Element entfernt; fällt damit die Beantwortung weg, gilt dieses Element als notwendig.
Welche Modelle wie abschneiden
20 Modelle wurden verglichen.
- Das stärkste getestete System, Gemini-3.1-Pro-Preview, erreicht 76 von 100 Punkten nach Strict Attributed Accuracy.
- GPT-5.4 liefert oft die richtige Antwort (87,1/100), verbleibt aber bei korrekt belegten Antworten nur bei 59/100.
- Open-Source-Modelle liegen deutlich darunter: Qwen3-VL-235B-A22B erzielt 22,5 Punkte; kleinere freie Modelle erreichen meist unter 10 Punkte — für regulierte Bereiche nennen die Autor:innen diese Modelle „extrem riskant“.
Typische Schwachstellen
Viele Modelle schaffen nicht einmal die richtige Seite zu finden: Die Gemini-3-Reihe trifft die richtige Seite in mehr als 87 % der Fälle, Qwen3-VL-235B-A22B nur in knapp 58 %.
- Komplexität verschlechtert die Belegtreue: Bei Aufgaben, die mehrere Dokumente kombinieren, sinkt etwa der Recall von Gemini-3.1-Pro-Preview von rund 69 % auf 55 %.
- Rechenaufgaben schneiden vergleichsweise gut ab — hier sind klare, prüfbare Belege gefragt.
- Probleme tauchen vor allem auf, wenn ein Element visuell erkannt werden muss (etwa Farbe, Position oder Überschrift) und anschließend inhaltlich ausgewertet wird.
- Standardisierte akademische Texte erzielen die besten Werte; Zeitungen und Magazine mit komplexem Layout begrenzen auch die stärksten Modelle auf etwa 63 Punkten.
Was passiert, wenn du das richtige Material vorgibst
Eine Ablationsstudie zeigt: Wenn Modelle die relevanten Seiten oder das korrekte Dokument vorgesetzt bekommen, verbessert sich die Leistung deutlich. Ein Beispiel: Qwen3-VL-8B gewinnt mehr als 13 Punkte. Die Forschenden folgern daraus, dass die Fähigkeit, gezielt in einem Dokument zu suchen, nicht nur Transparenz erzeugt, sondern auch die Antwortqualität erhöht — ein Befund, der die Praxis des so genannten Context Engineering stützt, also das gezielte Bereitstellen relevanter Informationen für das Modell.
Kontext, Verfügbarkeit und mögliche Ursachen
Code und Details sind auf GitHub, der Datensatz steht auf Hugging Face zum Download bereit. Ähnliche Ergebnisse gab es 2024 bereits vom selben Institut mit NeedleBench für lange Texte; auch Google DeepMind misst mit FACTS Grounding vergleichbar und findet, dass selbst starke Modelle keine verlässlichen Werte liefern. Als Treiber des Problems sehen die Autor:innen ein systemisches Anreizproblem: Trainings- und Evaluationsmethoden belohnen selbstbewusste Antworten und bestrafen Zurückhaltung — eine Dynamik, die Halluzinationen bei Antworten und bei Quellenangaben fördert.
Quellen
- Quelle: CiteVQA / Peking University / Shanghai Artificial Intelligence Laboratory
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




