CiteVQA: Neue Benchmark zeigt, wie KI falsche Quellen in PDFs nennt

Was CiteVQA anders macht

CiteVQA prüft nicht nur, ob die Endantwort korrekt ist, sondern verlangt, dass jede Aussage mit einem konkreten Dokumentelement belegt wird — also einem Absatz, einer Tabelle oder einer Abbildung. Eine bloße Seitenzahl reicht nicht. Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachgebieten (451 englisch, 260 chinesisch); die Dokumente sind mit durchschnittlich 40,6 Seiten vergleichsweise lang. Als Bewertungskriterium dient die Kennzahl Strict Attributed Accuracy: Punkte gibt es nur, wenn Antwort und markierte Belegstelle beide exakt stimmen.

Wie die Belege geprüft wurden

Die Forschenden nutzen eine automatisierte Pipeline: Dokumente werden in Elemente zerlegt, Modelle (unter anderem Gemini-3.0-Flash) schlagen Beweisketten vor, und anschließend testen die Forschenden, welche dieser Belege wirklich nötig sind. Entfernt man ein vorgeschlagenes Belegstück und die Antwort geht verloren, gilt dieser Beleg als unverzichtbar.

Kernaussagen der Studie

Bei der Attribution-Genauigkeit verlieren alle 20 getesteten Modelle deutlich. Selbst das stärkste System, Gemini‑3.1‑Pro‑Preview, erreicht nur 76 von 100 Punkten.

GPT‑5.4 liefert oft die richtige Antwort (87,1/100), kommt aber nur auf 59 Punkte, wenn korrekte Quellenangaben verlangt werden.

Open‑Source-Modelle schneiden deutlich schlechter ab: Das beste frei verfügbare Modell (Qwen3‑VL‑235B‑A22B) erreicht 22,5 Punkte; kleinere offene Modelle liegen meist unter 10 Punkten. Die Forschenden bezeichnen solche Modelle deshalb als „extrem riskant” für regulierte Bereiche wie Recht oder Medizin.

Worauf die Modelle konkret scheitern

Viele Systeme finden nicht einmal die richtige Seite im Dokument: Die Gemini‑3‑Reihe trifft die relevante Seite in über 87 % der Fälle, Qwen3‑VL‑235B‑A22B nur in knapp 58 %.

Komplexe Aufgaben verschlechtern die Belegtreue: Bei Aufgaben, die Informationen aus mehreren Dokumentelementen kombinieren müssen, fällt etwa der Recall bei Gemini‑3.1‑Pro‑Preview von rund 69 auf 55 Prozent.

Muster sind erkennbar: Rechenaufgaben funktionieren meist gut (klare, überprüfbare Belege). Schwieriger sind Aufgaben, bei denen ein Element zuerst visuell erkannt werden muss (etwa an Farbe, Position oder Überschrift) und erst danach sein Inhalt ausgewertet wird. Standardisierte akademische Texte liefern die besten Ergebnisse; Magazine oder Zeitungen mit komplexem Layout bremsen selbst die stärksten Modelle (Maximalwerte um circa 63 Punkte).

Hinweis zur Lokalisierung und Kontext

In einer Ablationsstudie fütterten die Forschenden Modelle wahlweise nur mit den relevanten Seiten oder gleich mit dem korrekten Dokument. Die Leistung stieg deutlich (bei Qwen3‑VL‑8B um mehr als 13 Punkte). Die Autor*innen schließen daraus, dass präzise Vorgaben zum Kontext die Antwortqualität verbessern — ein Punkt, den sie unter dem Begriff Context Engineering diskutieren: dem Modell nur die wirklich nötigen Informationen zu geben.

Einordnung in bestehende Arbeiten

Code und weitere Details liegen auf GitHub, der Datensatz ist auf Hugging Face verfügbar. Die Ergebnisse fügen sich in ein wachsendes Bild: Schon 2024 zeigte das Shanghai AI Laboratory mit dem zweisprachigen NeedleBench, dass Sprachmodelle große Dokumente generell schlecht durchsuchen. Auch Google DeepMind berichtet in FACTS Grounding von ernüchternden Werten, selbst für starke Modelle. Als eine mögliche Ursache nennen Forschende und auch OpenAI ein systemisches Anreizproblem: Trainings- und Evaluationsmethoden belohnen selbstbewusste Antworten, während Zurückhaltung tendenziell sanktioniert wird — ein Mechanismus, der offenbar sowohl inhaltliche Halluzinationen als auch falsche Quellenangaben begünstigt.

Quellen

Quelle: CiteVQA / Peking University / Shanghai Artificial Intelligence Laboratory

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

„Magnifica Humanitas“: Papst Leo XIV. fordert strenge Regeln für KI

Mai 26, 2026 | Allgemein, KI

Papst Leo XIV.: Enzyklika „Magnifica Humanitas“ zu KI, Krieg und Arbeit.In KürzeRufe nach internationalen KI-Regeln und EthikWarnung vor autonomen Waffen und FakesKritik an Machtkonzentration; Schutz von Arbeit und Daten Papst Leo XIV. hat seine erste Enzyklika...

Meta startet Forum: Facebook‑Gruppen als Reddit‑ähnliche App mit KI und Pseudonymen

Mai 26, 2026 | Allgemein, KI

Meta startet Forum: Eine iOS‑App, die Facebook‑Gruppen in Reddit‑ähnliche Diskussionsräume mit KI‑Tools und Pseudonym‑Posts bringt.In KürzeNur Gruppen‑Inhalte; iOS 18 und Facebook‑Konto erforderlichPseudonyme posten möglich, Admins sehen weiterhin echte...

CiteVQA: LLMs liefern oft richtige Antworten – versagen bei genauen Quellen

Mai 26, 2026 | Allgemein, KI

Neue Benchmark prüft, ob Sprachmodelle nicht nur korrekte Antworten geben, sondern exakt die Textstelle nennen.In KürzeCiteVQA testet 1.897 Fragen in 711 PDFs und verlangt exakte Belegstellen.Spitzenmodelle schneiden bei Quellenangaben deutlich schlechter ab als bei...

CiteVQA: Neue Benchmark zeigt, wie KI falsche Quellen in PDFs nennt

In Kürze

Was CiteVQA anders macht

Wie die Belege geprüft wurden

Kernaussagen der Studie

Worauf die Modelle konkret scheitern

Hinweis zur Lokalisierung und Kontext

Einordnung in bestehende Arbeiten

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

„Magnifica Humanitas“: Papst Leo XIV. fordert strenge Regeln für KI

Meta startet Forum: Facebook‑Gruppen als Reddit‑ähnliche App mit KI und Pseudonymen

CiteVQA: LLMs liefern oft richtige Antworten – versagen bei genauen Quellen

Über uns

Dein Thema?

Pickert GmbH