CiteVQA zeigt: Viele LLMs nennen falsche PDF-Belege

Was CiteVQA misst

Bisherige Tests für Dokumentenanalyse bewerten meist nur die finale Antwort. Sie sagen nicht, ob die Antwort wirklich aus dem vorgelegten Dokument stammt oder aus dem Modellwissen. CiteVQA verlangt deshalb elementgenaue Belege: Modelle müssen genau den Absatz, die Tabelle oder die Abbildung nennen — eine bloße Seitenzahl reicht nicht. Bewertet wird mit der Metrik „Strict Attributed Accuracy“: Punkte gibt es nur, wenn die Antwort korrekt ist und das Modell die richtige Stelle im Dokument markiert.

Daten und Methodik

Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachbereichen (451 auf Englisch, 260 auf Chinesisch). Die Dokumente sind im Schnitt 40,6 Seiten lang — deutlich umfangreicher als bei vielen anderen Benchmarks. Die Evaluations-Pipeline ist automatisiert:

Dokumente werden in einzelne Elemente zerlegt.

Modelle (zum Beispiel Gemini-3.0-Flash) schlagen Belege vor.

Anschließend wird testweise jedes vorgeschlagene Beleg-Element entfernt; fällt damit die Beantwortung weg, gilt dieses Element als notwendig.

Welche Modelle wie abschneiden

20 Modelle wurden verglichen.

Das stärkste getestete System, Gemini-3.1-Pro-Preview, erreicht 76 von 100 Punkten nach Strict Attributed Accuracy.

GPT-5.4 liefert oft die richtige Antwort (87,1/100), verbleibt aber bei korrekt belegten Antworten nur bei 59/100.

Open-Source-Modelle liegen deutlich darunter: Qwen3-VL-235B-A22B erzielt 22,5 Punkte; kleinere freie Modelle erreichen meist unter 10 Punkte — für regulierte Bereiche nennen die Autor:innen diese Modelle „extrem riskant“.

Typische Schwachstellen

Viele Modelle schaffen nicht einmal die richtige Seite zu finden: Die Gemini-3-Reihe trifft die richtige Seite in mehr als 87 % der Fälle, Qwen3-VL-235B-A22B nur in knapp 58 %.

Komplexität verschlechtert die Belegtreue: Bei Aufgaben, die mehrere Dokumente kombinieren, sinkt etwa der Recall von Gemini-3.1-Pro-Preview von rund 69 % auf 55 %.

Rechenaufgaben schneiden vergleichsweise gut ab — hier sind klare, prüfbare Belege gefragt.

Probleme tauchen vor allem auf, wenn ein Element visuell erkannt werden muss (etwa Farbe, Position oder Überschrift) und anschließend inhaltlich ausgewertet wird.

Standardisierte akademische Texte erzielen die besten Werte; Zeitungen und Magazine mit komplexem Layout begrenzen auch die stärksten Modelle auf etwa 63 Punkten.

Was passiert, wenn du das richtige Material vorgibst

Eine Ablationsstudie zeigt: Wenn Modelle die relevanten Seiten oder das korrekte Dokument vorgesetzt bekommen, verbessert sich die Leistung deutlich. Ein Beispiel: Qwen3-VL-8B gewinnt mehr als 13 Punkte. Die Forschenden folgern daraus, dass die Fähigkeit, gezielt in einem Dokument zu suchen, nicht nur Transparenz erzeugt, sondern auch die Antwortqualität erhöht — ein Befund, der die Praxis des so genannten Context Engineering stützt, also das gezielte Bereitstellen relevanter Informationen für das Modell.

Kontext, Verfügbarkeit und mögliche Ursachen

Code und Details sind auf GitHub, der Datensatz steht auf Hugging Face zum Download bereit. Ähnliche Ergebnisse gab es 2024 bereits vom selben Institut mit NeedleBench für lange Texte; auch Google DeepMind misst mit FACTS Grounding vergleichbar und findet, dass selbst starke Modelle keine verlässlichen Werte liefern. Als Treiber des Problems sehen die Autor:innen ein systemisches Anreizproblem: Trainings- und Evaluationsmethoden belohnen selbstbewusste Antworten und bestrafen Zurückhaltung — eine Dynamik, die Halluzinationen bei Antworten und bei Quellenangaben fördert.

Quellen

Quelle: CiteVQA / Peking University / Shanghai Artificial Intelligence Laboratory

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Juni 20, 2026 | Allgemein, KI

Münchner Gericht stuft KI‑generierte Kurzantworten in der Google‑Suche als eigenständige Inhalte ein und macht Google dafür direkt haftbar.In KürzeGericht: KI‑Übersichten sind redaktionelle InhalteAuslöser: Zwei Verlage fälschlich mit Betrug in Verbindung...

Norwegen schränkt generative KI in Schulen massiv ein

Juni 20, 2026 | Allgemein, KI

Norwegen schränkt generative KI im Unterricht stark ein.In Kürze1–7: generative KI verbotenSek I: nur mit LehraufsichtGesetz & mehr Bücher geplant Norwegen macht in den Klassenräumen einen klaren Schnitt: Generative KI‑Tools sind in der Grundschule künftig weitgehend...

Google Cloud bringt „souveräne“ Cloud nach Deutschland – Thales betreibt, Start bis 2026

Juni 20, 2026 | Allgemein, KI

Google Cloud plant eine „souveräne“ Cloud in Deutschland: Betrieb durch Thales, Preview läuft, Verfügbarkeit Ende 2026.In KürzeThales verwahrt kryptografische Schlüssel und betreibt die Plattform.Drei Stufen: Data Boundary, Dedicated (Deutschland),...

CiteVQA zeigt: Viele LLMs nennen falsche PDF-Belege

In Kürze

Was CiteVQA misst

Daten und Methodik

Welche Modelle wie abschneiden

Typische Schwachstellen

Was passiert, wenn du das richtige Material vorgibst

Kontext, Verfügbarkeit und mögliche Ursachen

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Norwegen schränkt generative KI in Schulen massiv ein

Google Cloud bringt „souveräne“ Cloud nach Deutschland – Thales betreibt, Start bis 2026

Über uns

Dein Thema?

Pickert GmbH