CiteVQA-Benchmark zeigt: LLMs sichern Antworten, doch Quellen fehlen oft

Was die Studie macht

Forscher der Peking University und des Shanghai AI Laboratory haben dafür einen neuen Benchmark namens CiteVQA entwickelt. Anders als bei vielen früheren Tests reicht hier nicht die richtige Lösung allein: Modelle müssen zusätzlich ein konkretes Beleg‑Element im Dokument nennen — etwa einen bestimmten Absatz, eine Tabelle oder eine Abbildung. Eine bloße Seitenangabe genügt nicht.

Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachbereichen (451 englische, 260 chinesische). Die Dokumente sind mit durchschnittlich 40,6 Seiten deutlich länger als in vielen anderen Benchmarks. Die Prüfmethode ist automatisiert: PDF‑Dokumente werden in einzelne Elemente zerlegt, Modelle schlagen Belege vor, und diese vorgeschlagenen Belege werden einzeln entfernt. Fällt dann die Antwortfähigkeit zusammen, gilt das entfernte Element als wirklich notwendig.

Die wichtigsten Ergebnisse

Kein getestetes Modell erreicht perfekte Werte. Spitzenreiter ist Gemini‑3.1‑Pro‑Preview mit 76/100.

GPT‑5.4 erzielt für die reine Antwortqualität 87,1/100; kombiniert mit korrekter Quellenangabe bleiben davon aber nur 59 Punkte.

Open‑Source‑Modelle liegen deutlich zurück: Qwen3‑VL‑235B‑A22B erreicht 22,5 Punkte; viele kleinere offene Modelle erzielen meist unter 10 Punkte. Die Forschenden warnen deshalb, dass solche Modelle in regulierten Bereichen (Recht, Finanzen, Medizin) „extrem riskant“ sein können.

Ein häufiger Fehler ist, die richtige Seite nicht zu finden. Die Gemini‑3‑Reihe trifft die richtige Seite in über 87 % der Fälle, Qwen3‑VL‑235B‑A22B kommt nur auf knapp 58 %.

Komplexität wirkt sich negativ aus: Müssen Informationen aus mehreren Dokumenten kombiniert werden, fällt die Erfolgsrate. Bei Gemini‑3.1‑Pro‑Preview sinkt der Recall von etwa 69 % auf rund 55 % (Recall hier = Anteil der relevanten Stellen, die das Modell findet).

Muster in den Fehlern: Rechenaufgaben funktionieren vergleichsweise gut, weil die Belege klar sind. Schwieriger sind Aufgaben, die zuerst ein visuelles Element erkennen müssen (Farbe, Position, Überschrift) und dann dessen Text auswerten. Standardisierte akademische Texte liefern die besten Ergebnisse; Zeitungen und Magazine mit komplexem Layout drücken selbst die stärksten Modelle auf etwa 63 als Maximalwert.

Warum das passiert

Eine Ablationsstudie zeigte, dass die Leistung deutlich steigt, wenn Modelle die relevanten Seiten oder das passende Dokument vorgesetzt bekommen. Beispiel: Qwen3‑VL‑8B gewinnt dadurch mehr als 13 Punkte. Die Forschenden folgern, dass die Kenntnis des Suchraums – also zu wissen, wo gesucht werden muss – nicht nur die Nachvollziehbarkeit verbessert, sondern auch die reine Antwortqualität erhöht. In diesem Kontext sprechen sie von „Context Engineering“: Modelle nur mit den Informationen zu versorgen, die für die Aufgabe nötig sind.

Einordnung und weitere Hinweise

Code für CiteVQA ist auf GitHub, der Datensatz steht auf Hugging Face bereit. Die Ergebnisse ergänzen frühere Befunde: Schon der 2024 vorgestellte NeedleBench aus demselben Labor zeigte Schwächen bei langen Dokumenten. Google DeepMind verfolgt mit FACTS Grounding ein ähnliches Ziel und stellte fest, dass selbst starke Modelle (etwa Gemini 3 Pro, GPT‑5.1) nicht zuverlässig ausschließlich aus dem bereitgestellten Text antworten. OpenAI führt Attribution Hallucination teilweise auf ein systemisches Anreizproblem zurück: Training und Evaluation würden selbstbewusste Antworten belohnen, Zurückhaltung dagegen bestrafen — das fördere offenbar auch Probleme bei der Quellenangabe.

Was das praktisch bedeutet

Wenn Nachvollziehbarkeit wichtig ist — etwa in Recht, Medizin oder Finanzen — reichen aktuelle Modelle häufig nicht aus, weil sie Quellen falsch angeben oder die richtige Stelle im Dokument nicht finden. Verbesserungen bei der Lokalisierung relevanter Informationen und beim gezielten Zuliefern von Kontext sind laut Studie nötig, bevor man sich auf automatische, präzise Quellenangaben verlassen kann.

Quellen

Quelle: Peking University / Shanghai Artificial Intelligence Laboratory / CiteVQA

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Juni 20, 2026 | Allgemein, KI

Münchner Gericht stuft KI‑generierte Kurzantworten in der Google‑Suche als eigenständige Inhalte ein und macht Google dafür direkt haftbar.In KürzeGericht: KI‑Übersichten sind redaktionelle InhalteAuslöser: Zwei Verlage fälschlich mit Betrug in Verbindung...

Norwegen schränkt generative KI in Schulen massiv ein

Juni 20, 2026 | Allgemein, KI

Norwegen schränkt generative KI im Unterricht stark ein.In Kürze1–7: generative KI verbotenSek I: nur mit LehraufsichtGesetz & mehr Bücher geplant Norwegen macht in den Klassenräumen einen klaren Schnitt: Generative KI‑Tools sind in der Grundschule künftig weitgehend...

Google Cloud bringt „souveräne“ Cloud nach Deutschland – Thales betreibt, Start bis 2026

Juni 20, 2026 | Allgemein, KI

Google Cloud plant eine „souveräne“ Cloud in Deutschland: Betrieb durch Thales, Preview läuft, Verfügbarkeit Ende 2026.In KürzeThales verwahrt kryptografische Schlüssel und betreibt die Plattform.Drei Stufen: Data Boundary, Dedicated (Deutschland),...

CiteVQA-Benchmark zeigt: LLMs sichern Antworten, doch Quellen fehlen oft

In Kürze

Was die Studie macht

Wie gemessen wird

Die wichtigsten Ergebnisse

Warum das passiert

Einordnung und weitere Hinweise

Was das praktisch bedeutet

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Norwegen schränkt generative KI in Schulen massiv ein

Google Cloud bringt „souveräne“ Cloud nach Deutschland – Thales betreibt, Start bis 2026

Über uns

Dein Thema?

Pickert GmbH