CiteVQA: LLMs liefern oft richtige Antworten – versagen bei genauen Quellen

Was ist CiteVQA?

CiteVQA testet nicht nur, ob die Antwort stimmt, sondern ob das Modell genau die Textstelle (Absatz, Tabelle oder Abbildung) benennt, aus der die Antwort stammt. Eine bloße Seitenzahl reicht nicht. Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachbereichen (451 auf Englisch, 260 auf Chinesisch). Die Dokumente sind im Schnitt 40,6 Seiten lang – deutlich umfangreicher als viele frühere Benchmarks.

Wie wird geprüft?

Eine automatisierte Pipeline zerlegt die PDFs in einzelne Elemente. Modelle – unter anderem Gemini-3.0-Flash – identifizieren mögliche Belege. Anschließend entfernt das System jeden vorgeschlagenen Beleg testweise: Wenn das Modell danach die Frage nicht mehr beantworten kann, gilt der Beleg als notwendig. Die wichtigste Messgröße heißt „Strict Attributed Accuracy“: gezählt wird nur, wenn die Antwort korrekt ist und das Modell exakt die richtige Stelle markiert.

Was zeigen die Ergebnisse?

20 Modelle wurden untersucht. Selbst das stärkste System nach diesem strengen Maßstab, Gemini-3.1-Pro-Preview, erreicht nur 76 von 100 Punkten. GPT-5.4 erzielt bei reiner Antwortqualität 87,1/100, fällt aber auf 59/100, wenn korrekte Quellenangabe verlangt wird – ein deutliches Beispiel für die Lücke zwischen Wissen und belegter Herkunft.

Open‑Source‑Modelle schneiden deutlich schlechter ab. Das beste freie Modell, Qwen3‑VL‑235B‑A22B, liegt bei 22,5 Punkten; viele kleinere offene Modelle bleiben unter 10 Punkten. Die Forschenden warnen deshalb vor dem Einsatz solcher Modelle in regulierten Bereichen als „extrem riskant“.

Woran scheitern die Modelle konkret?

Seitenfindung vs. exaktes Element: Manche Modelle finden nicht einmal die richtige Seite. Die Gemini‑3‑Reihe trifft die richtige Seite in über 87 % der Fällen, Qwen3‑VL‑235B‑A22B nur in rund 58 %.

Komplexität senkt die Belegtreue: Bei Fragen, die Inhalte aus mehreren Dokumenten kombinieren, sinkt der Recall – etwa bei Gemini‑3.1‑Pro‑Preview von rund 69 % auf etwa 55 %.

Aufgabentypen: Rechenaufgaben funktionieren vergleichsweise gut, weil sie klare Belege erzwingen. Schwieriger sind Aufgaben, bei denen ein Modell erst ein visuelles Element erkennen (Farbe, Position, Überschrift) und dann dessen Text auswerten muss. Standardisierte akademische Texte schneiden am besten ab; komplexe Layouts wie Zeitungen oder Magazine begrenzen sogar starke Modelle auf etwa 63 Punkte.

Was passiert, wenn man den Suchraum einschränkt?

In Experimenten, in denen Modelle nur die relevanten Seiten oder das korrekte Dokument erhielten, stieg die Leistung deutlich – bei Qwen3‑VL‑8B um mehr als 13 Punkte. Das zeigt: Wenn ein Modell weiß, wo es suchen muss, werden Antworten und Quellenangaben zuverlässiger. Das unterstützt auch das Konzept, dem Modell nur den relevanten Kontext zu geben (Context Engineering).

Verwandte Arbeiten und Gründe für das Problem

Frühere Benchmarks wie NeedleBench (2024), aus demselben Labor, zeigten schon, dass große Dokumente oft schlecht verarbeitet werden. Google DeepMind verfolgt mit FACTS Grounding einen ähnlichen Ansatz und fand ebenfalls, dass selbst Spitzenmodelle nicht verlässlich nur aus dem bereitgestellten Dokument arbeiten. OpenAI weist darauf hin, dass Trainings- und Evaluationsanreize selbstbewusste Antworten belohnen, Zurückhaltung aber bestrafen – ein Faktor, der Attribution Hallucination fördern kann.

Warum das relevant ist

In Bereichen wie Recht, Finanzen oder Medizin entscheidet Nachvollziehbarkeit über die Verwendbarkeit einer KI‑Antwort. CiteVQA macht deutlich, dass viele Modelle zwar „richtige“ Antworten liefern, aber nicht zuverlässig belegen können, woher diese Informationen stammen – ein zentraler Punkt für Anwendungen, in denen Quellenangaben geprüft werden müssen.

Quellen

Quelle: Peking University / Shanghai Artificial Intelligence Laboratory

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

CiteVQA: Neue Benchmark zeigt, wie KI falsche Quellen in PDFs nennt

Mai 26, 2026 | Allgemein, KI

CiteVQA prüft, ob KI-Antworten aus langen PDFs wirklich mit konkreten Dokumentstellen belegt sind – viele Quellenangaben sind falsch.In KürzeAntwort PLUS exakte Belegstelle (Absatz/Tabelle/Abbildung) nötigSelbst Top‑Modelle verlieren stark bei...

„Magnifica Humanitas“: Papst Leo XIV. fordert strenge Regeln für KI

Mai 26, 2026 | Allgemein, KI

Papst Leo XIV.: Enzyklika „Magnifica Humanitas“ zu KI, Krieg und Arbeit.In KürzeRufe nach internationalen KI-Regeln und EthikWarnung vor autonomen Waffen und FakesKritik an Machtkonzentration; Schutz von Arbeit und Daten Papst Leo XIV. hat seine erste Enzyklika...

Meta startet Forum: Facebook‑Gruppen als Reddit‑ähnliche App mit KI und Pseudonymen

Mai 26, 2026 | Allgemein, KI

Meta startet Forum: Eine iOS‑App, die Facebook‑Gruppen in Reddit‑ähnliche Diskussionsräume mit KI‑Tools und Pseudonym‑Posts bringt.In KürzeNur Gruppen‑Inhalte; iOS 18 und Facebook‑Konto erforderlichPseudonyme posten möglich, Admins sehen weiterhin echte...

CiteVQA: LLMs liefern oft richtige Antworten – versagen bei genauen Quellen

In Kürze

Was ist CiteVQA?

Wie wird geprüft?

Was zeigen die Ergebnisse?

Woran scheitern die Modelle konkret?

Was passiert, wenn man den Suchraum einschränkt?

Verwandte Arbeiten und Gründe für das Problem

Transparenz und Verfügbarkeit

Warum das relevant ist

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

CiteVQA: Neue Benchmark zeigt, wie KI falsche Quellen in PDFs nennt

„Magnifica Humanitas“: Papst Leo XIV. fordert strenge Regeln für KI

Meta startet Forum: Facebook‑Gruppen als Reddit‑ähnliche App mit KI und Pseudonymen

Über uns

Dein Thema?

Pickert GmbH