CiteVQA: Neue Benchmark zeigt, wie KI falsche Quellen in PDFs nennt

26.05.2026 | Allgemein, KI

CiteVQA prüft, ob KI-Antworten aus langen PDFs wirklich mit konkreten Dokumentstellen belegt sind – viele Quellenangaben sind falsch.

In Kürze

  • Antwort PLUS exakte Belegstelle (Absatz/Tabelle/Abbildung) nötig
  • Selbst Top‑Modelle verlieren stark bei Attribution
  • Open‑Source‑Modelle sind besonders fehleranfällig und riskant

Wenn du ein PDF von einem großen Sprachmodell auswerten lässt, liefert es oft eine plausible Antwort — und behauptet zugleich, eine konkrete Stelle im Dokument belege diese Antwort. Forschende der Peking University und des Shanghai Artificial Intelligence Laboratory zeigen nun mit dem neuen Benchmark CiteVQA, dass solche Quellenangaben häufig falsch sind. Sie nennen das Phänomen „Attribution Hallucination”: die Antwort mag stimmen, die zitierte Belegstelle jedoch nicht.

Was CiteVQA anders macht

CiteVQA prüft nicht nur, ob die Endantwort korrekt ist, sondern verlangt, dass jede Aussage mit einem konkreten Dokumentelement belegt wird — also einem Absatz, einer Tabelle oder einer Abbildung. Eine bloße Seitenzahl reicht nicht. Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachgebieten (451 englisch, 260 chinesisch); die Dokumente sind mit durchschnittlich 40,6 Seiten vergleichsweise lang. Als Bewertungskriterium dient die Kennzahl Strict Attributed Accuracy: Punkte gibt es nur, wenn Antwort und markierte Belegstelle beide exakt stimmen.

Wie die Belege geprüft wurden

Die Forschenden nutzen eine automatisierte Pipeline: Dokumente werden in Elemente zerlegt, Modelle (unter anderem Gemini-3.0-Flash) schlagen Beweisketten vor, und anschließend testen die Forschenden, welche dieser Belege wirklich nötig sind. Entfernt man ein vorgeschlagenes Belegstück und die Antwort geht verloren, gilt dieser Beleg als unverzichtbar.

Kernaussagen der Studie

  • Bei der Attribution-Genauigkeit verlieren alle 20 getesteten Modelle deutlich. Selbst das stärkste System, Gemini‑3.1‑Pro‑Preview, erreicht nur 76 von 100 Punkten.
  • GPT‑5.4 liefert oft die richtige Antwort (87,1/100), kommt aber nur auf 59 Punkte, wenn korrekte Quellenangaben verlangt werden.
  • Open‑Source-Modelle schneiden deutlich schlechter ab: Das beste frei verfügbare Modell (Qwen3‑VL‑235B‑A22B) erreicht 22,5 Punkte; kleinere offene Modelle liegen meist unter 10 Punkten. Die Forschenden bezeichnen solche Modelle deshalb als „extrem riskant” für regulierte Bereiche wie Recht oder Medizin.

Worauf die Modelle konkret scheitern

Viele Systeme finden nicht einmal die richtige Seite im Dokument: Die Gemini‑3‑Reihe trifft die relevante Seite in über 87 % der Fälle, Qwen3‑VL‑235B‑A22B nur in knapp 58 %.

Komplexe Aufgaben verschlechtern die Belegtreue: Bei Aufgaben, die Informationen aus mehreren Dokumentelementen kombinieren müssen, fällt etwa der Recall bei Gemini‑3.1‑Pro‑Preview von rund 69 auf 55 Prozent.

Muster sind erkennbar: Rechenaufgaben funktionieren meist gut (klare, überprüfbare Belege). Schwieriger sind Aufgaben, bei denen ein Element zuerst visuell erkannt werden muss (etwa an Farbe, Position oder Überschrift) und erst danach sein Inhalt ausgewertet wird. Standardisierte akademische Texte liefern die besten Ergebnisse; Magazine oder Zeitungen mit komplexem Layout bremsen selbst die stärksten Modelle (Maximalwerte um circa 63 Punkte).

Hinweis zur Lokalisierung und Kontext

In einer Ablationsstudie fütterten die Forschenden Modelle wahlweise nur mit den relevanten Seiten oder gleich mit dem korrekten Dokument. Die Leistung stieg deutlich (bei Qwen3‑VL‑8B um mehr als 13 Punkte). Die Autor*innen schließen daraus, dass präzise Vorgaben zum Kontext die Antwortqualität verbessern — ein Punkt, den sie unter dem Begriff Context Engineering diskutieren: dem Modell nur die wirklich nötigen Informationen zu geben.

Einordnung in bestehende Arbeiten

Code und weitere Details liegen auf GitHub, der Datensatz ist auf Hugging Face verfügbar. Die Ergebnisse fügen sich in ein wachsendes Bild: Schon 2024 zeigte das Shanghai AI Laboratory mit dem zweisprachigen NeedleBench, dass Sprachmodelle große Dokumente generell schlecht durchsuchen. Auch Google DeepMind berichtet in FACTS Grounding von ernüchternden Werten, selbst für starke Modelle. Als eine mögliche Ursache nennen Forschende und auch OpenAI ein systemisches Anreizproblem: Trainings- und Evaluationsmethoden belohnen selbstbewusste Antworten, während Zurückhaltung tendenziell sanktioniert wird — ein Mechanismus, der offenbar sowohl inhaltliche Halluzinationen als auch falsche Quellenangaben begünstigt.

Quellen

  • Quelle: CiteVQA / Peking University / Shanghai Artificial Intelligence Laboratory
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…