CiteVQA-Benchmark: LLMs antworten richtig, belegen aber oft nicht

Was ist CiteVQA?

CiteVQA ist ein neuer Benchmark, der über die reine Antwortqualität hinausgeht: Modelle müssen für jede Aussage eine konkrete Stelle im Dokument angeben — Absatz, Tabelle oder Abbildung. Eine bloße Seitenzahl reicht nicht. Das Dataset umfasst 1.897 Fragen aus 711 PDFs (451 englisch, 260 chinesisch) aus sieben Fachbereichen. Die Dokumente sind mit durchschnittlich 40,6 Seiten deutlich umfangreicher als viele bisherige Tests und damit realistischer für Fachanwendungen.

Wie wurde geprüft?

Eine automatisierte Pipeline zerteilt die Dokumente in Einzelelemente (Absatz, Tabelle, Bild). Modelle wie Gemini-3.0-Flash schlagen zu einer Antwort passende Belege vor. Anschließend kontrolliert die Pipeline, ob ein vorgeschlagener Beleg wirklich nötig ist: Entfernt man das Element und die Antwort bricht weg, gilt der Beleg als unverzichtbar. Bewertet wird mit der Kennzahl „Strict Attributed Accuracy“ — Punkte gibt es nur, wenn die Antwort korrekt ist und das Modell die richtige Stelle markiert.

Wichtigste Ergebnisse

Getestet wurden 20 Modelle. Das beste System, Gemini-3.1-Pro-Preview, erreicht 76 von 100 Punkten nach dem strengen Maßstab.

GPT-5.4 erzielt 87,1 Punkte für reine Antwortqualität, fällt aber auf 59 Punkte, wenn auch die Quellenangabe stimmen muss. Viele richtige Antworten lassen sich also nicht auf das angegebene Dokumentelement zurückführen.

Open-Source-Modelle schneiden deutlich schlechter ab: Das stärkste offene Modell, Qwen3-VL-235B-A22B, kommt auf 22,5 Punkte; kleinere offene Modelle liegen meist unter 10 Punkten. Die Forschenden bewerten solche Modelle in regulierten Bereichen als „extrem riskant“.

Selbst die korrekte Lokalisierung einer Seite gelingt nicht immer: Die Gemini-3-Reihe trifft die richtige Seite in mehr als 87 % der Fälle, Qwen3-VL-235B-A22B in knapp 58 %.

Komplexere Fragestellungen, die Informationen aus mehreren Dokumenten kombinieren, verringern die Trefferquote (bei Gemini-3.1-Pro-Preview von etwa 69 % auf 55 %).

Muster: Rechen- und Logikaufgaben funktionieren vergleichsweise gut — hier zwingt die Aufgabe oft zu belegten Schritten. Probleme treten bei Elementen auf, die visuelle Erkennung benötigen (Farbe, Position, Beschriftungen). Standardisierte akademische Texte schneiden am besten; Magazine und Zeitungen mit komplexem Layout erreichen selbst bei den stärksten Modellen nur rund 63 Punkte.

Lokalisierung als Engpass

Die Studie zeigt: Der zentrale Schwachpunkt ist die präzise Ortsbestimmung im Dokument. Wenn Modelle die relevanten Seiten oder das korrekte Dokument bekommen, steigt die Leistung deutlich — etwa verbesserte sich Qwen3-VL-8B um mehr als 13 Punkte. Die Forschenden folgern daraus, dass genaue Quellenangaben nicht nur Transparenz schaffen, sondern auch die Antwortqualität erhöhen. In diesem Zusammenhang sprechen sie von „Context Engineering“ — also dem gezielten Zuliefern der wirklich relevanten Informationen an das Modell.

Einordnung

Frühere Benchmarks desselben Teams, etwa NeedleBench 2024, hatten bereits gezeigt, dass große Dokumente eine besondere Herausforderung darstellen. Google DeepMind verfolgt mit FACTS Grounding einen ähnlichen Ansatz und kommt zu vergleichbaren Beobachtungen: Auch dort sind selbst starke Modelle nicht durchgehend verlässlich beim Quellenbezug. OpenAI erklärt Halluzinationen teilweise als ein systemisches Anreizproblem: Training und Evaluation belohnen selbstbewusste Antworten, während Zurückhaltung Nachteile bringt — das fördert offenbar auch falsche Quellenangaben.

Verfügbarkeit

Code und Pipeline sind auf GitHub veröffentlicht, der Datensatz steht auf Hugging Face zum Download bereit.

Quellen

Quelle: Peking University / Shanghai Artificial Intelligence Laboratory

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

CiteVQA: Neue Benchmark zeigt, wie KI falsche Quellen in PDFs nennt

Mai 26, 2026 | Allgemein, KI

CiteVQA prüft, ob KI-Antworten aus langen PDFs wirklich mit konkreten Dokumentstellen belegt sind – viele Quellenangaben sind falsch.In KürzeAntwort PLUS exakte Belegstelle (Absatz/Tabelle/Abbildung) nötigSelbst Top‑Modelle verlieren stark bei...

„Magnifica Humanitas“: Papst Leo XIV. fordert strenge Regeln für KI

Mai 26, 2026 | Allgemein, KI

Papst Leo XIV.: Enzyklika „Magnifica Humanitas“ zu KI, Krieg und Arbeit.In KürzeRufe nach internationalen KI-Regeln und EthikWarnung vor autonomen Waffen und FakesKritik an Machtkonzentration; Schutz von Arbeit und Daten Papst Leo XIV. hat seine erste Enzyklika...

Meta startet Forum: Facebook‑Gruppen als Reddit‑ähnliche App mit KI und Pseudonymen

Mai 26, 2026 | Allgemein, KI

Meta startet Forum: Eine iOS‑App, die Facebook‑Gruppen in Reddit‑ähnliche Diskussionsräume mit KI‑Tools und Pseudonym‑Posts bringt.In KürzeNur Gruppen‑Inhalte; iOS 18 und Facebook‑Konto erforderlichPseudonyme posten möglich, Admins sehen weiterhin echte...

CiteVQA-Benchmark: LLMs antworten richtig, belegen aber oft nicht

In Kürze

Was ist CiteVQA?

Wie wurde geprüft?

Wichtigste Ergebnisse

Lokalisierung als Engpass

Einordnung

Verfügbarkeit

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

CiteVQA: Neue Benchmark zeigt, wie KI falsche Quellen in PDFs nennt

„Magnifica Humanitas“: Papst Leo XIV. fordert strenge Regeln für KI

Meta startet Forum: Facebook‑Gruppen als Reddit‑ähnliche App mit KI und Pseudonymen

Über uns

Dein Thema?

Pickert GmbH