CiteVQA-Benchmark: LLMs antworten richtig, belegen aber oft nicht

26.05.2026 | Allgemein, KI

CiteVQA testet, ob Sprachmodelle Antworten in langen PDFs mit konkreten Textstellen belegen.

In Kürze

  • Modelle müssen ein genaues Element nennen: Absatz, Tabelle oder Abbildung
  • Top-Systeme verlieren Leistung, wenn Attribution verlangt wird
  • Open-Source-Modelle schneiden überwiegend schwach ab

Viele große Sprachmodelle liefern zwar oft die richtige Antwort zu Fragen aus langen Dokumenten — können aber nicht belegen, an welcher Stelle im Text die Antwort steht. Forschende sprechen bei diesem Problem von „Attribution Hallucination“.

Was ist CiteVQA?

CiteVQA ist ein neuer Benchmark, der über die reine Antwortqualität hinausgeht: Modelle müssen für jede Aussage eine konkrete Stelle im Dokument angeben — Absatz, Tabelle oder Abbildung. Eine bloße Seitenzahl reicht nicht. Das Dataset umfasst 1.897 Fragen aus 711 PDFs (451 englisch, 260 chinesisch) aus sieben Fachbereichen. Die Dokumente sind mit durchschnittlich 40,6 Seiten deutlich umfangreicher als viele bisherige Tests und damit realistischer für Fachanwendungen.

Wie wurde geprüft?

Eine automatisierte Pipeline zerteilt die Dokumente in Einzelelemente (Absatz, Tabelle, Bild). Modelle wie Gemini-3.0-Flash schlagen zu einer Antwort passende Belege vor. Anschließend kontrolliert die Pipeline, ob ein vorgeschlagener Beleg wirklich nötig ist: Entfernt man das Element und die Antwort bricht weg, gilt der Beleg als unverzichtbar. Bewertet wird mit der Kennzahl „Strict Attributed Accuracy“ — Punkte gibt es nur, wenn die Antwort korrekt ist und das Modell die richtige Stelle markiert.

Wichtigste Ergebnisse

  • Getestet wurden 20 Modelle. Das beste System, Gemini-3.1-Pro-Preview, erreicht 76 von 100 Punkten nach dem strengen Maßstab.
  • GPT-5.4 erzielt 87,1 Punkte für reine Antwortqualität, fällt aber auf 59 Punkte, wenn auch die Quellenangabe stimmen muss. Viele richtige Antworten lassen sich also nicht auf das angegebene Dokumentelement zurückführen.
  • Open-Source-Modelle schneiden deutlich schlechter ab: Das stärkste offene Modell, Qwen3-VL-235B-A22B, kommt auf 22,5 Punkte; kleinere offene Modelle liegen meist unter 10 Punkten. Die Forschenden bewerten solche Modelle in regulierten Bereichen als „extrem riskant“.
  • Selbst die korrekte Lokalisierung einer Seite gelingt nicht immer: Die Gemini-3-Reihe trifft die richtige Seite in mehr als 87 % der Fälle, Qwen3-VL-235B-A22B in knapp 58 %.
  • Komplexere Fragestellungen, die Informationen aus mehreren Dokumenten kombinieren, verringern die Trefferquote (bei Gemini-3.1-Pro-Preview von etwa 69 % auf 55 %).
  • Muster: Rechen- und Logikaufgaben funktionieren vergleichsweise gut — hier zwingt die Aufgabe oft zu belegten Schritten. Probleme treten bei Elementen auf, die visuelle Erkennung benötigen (Farbe, Position, Beschriftungen). Standardisierte akademische Texte schneiden am besten; Magazine und Zeitungen mit komplexem Layout erreichen selbst bei den stärksten Modellen nur rund 63 Punkte.

Lokalisierung als Engpass

Die Studie zeigt: Der zentrale Schwachpunkt ist die präzise Ortsbestimmung im Dokument. Wenn Modelle die relevanten Seiten oder das korrekte Dokument bekommen, steigt die Leistung deutlich — etwa verbesserte sich Qwen3-VL-8B um mehr als 13 Punkte. Die Forschenden folgern daraus, dass genaue Quellenangaben nicht nur Transparenz schaffen, sondern auch die Antwortqualität erhöhen. In diesem Zusammenhang sprechen sie von „Context Engineering“ — also dem gezielten Zuliefern der wirklich relevanten Informationen an das Modell.

Einordnung

Frühere Benchmarks desselben Teams, etwa NeedleBench 2024, hatten bereits gezeigt, dass große Dokumente eine besondere Herausforderung darstellen. Google DeepMind verfolgt mit FACTS Grounding einen ähnlichen Ansatz und kommt zu vergleichbaren Beobachtungen: Auch dort sind selbst starke Modelle nicht durchgehend verlässlich beim Quellenbezug. OpenAI erklärt Halluzinationen teilweise als ein systemisches Anreizproblem: Training und Evaluation belohnen selbstbewusste Antworten, während Zurückhaltung Nachteile bringt — das fördert offenbar auch falsche Quellenangaben.

Verfügbarkeit

Code und Pipeline sind auf GitHub veröffentlicht, der Datensatz steht auf Hugging Face zum Download bereit.

Quellen

  • Quelle: Peking University / Shanghai Artificial Intelligence Laboratory
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…