CiteVQA-Benchmark zeigt: LLMs sichern Antworten, doch Quellen fehlen oft

26.05.2026 | Allgemein, KI

Neue Studie prüft, ob Sprachmodelle in PDFs nicht nur richtig antworten, sondern auch die exakte Belegstelle nennen.

In Kürze

  • CiteVQA verlangt konkrete Belege (Absatz, Tabelle, Abbildung), nicht nur Seitenangabe.
  • Top‑Modelle verlieren deutlich bei korrekter Quellenangabe (z. B. GPT‑5.4: 87,1→59).
  • Probleme bei Recht, Medizin, Finanzen; Context Engineering verbessert Leistung.

Viele große Sprachmodelle antworten zwar oft richtig auf Fragen zu PDFs – doch wenn es darum geht, die exakte Stelle im Dokument als Beleg zu nennen, liegen sie häufig daneben. Forschende sprechen in diesem Zusammenhang von „Attribution Hallucination“.

Was die Studie macht

Forscher der Peking University und des Shanghai AI Laboratory haben dafür einen neuen Benchmark namens CiteVQA entwickelt. Anders als bei vielen früheren Tests reicht hier nicht die richtige Lösung allein: Modelle müssen zusätzlich ein konkretes Beleg‑Element im Dokument nennen — etwa einen bestimmten Absatz, eine Tabelle oder eine Abbildung. Eine bloße Seitenangabe genügt nicht.

Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachbereichen (451 englische, 260 chinesische). Die Dokumente sind mit durchschnittlich 40,6 Seiten deutlich länger als in vielen anderen Benchmarks. Die Prüfmethode ist automatisiert: PDF‑Dokumente werden in einzelne Elemente zerlegt, Modelle schlagen Belege vor, und diese vorgeschlagenen Belege werden einzeln entfernt. Fällt dann die Antwortfähigkeit zusammen, gilt das entfernte Element als wirklich notwendig.

Wie gemessen wird

Bewertet wird mit der sogenannten „Strict Attributed Accuracy“: Punkte gibt es nur, wenn die Antwort korrekt ist und das Modell exakt die richtige Stelle im Dokument markiert.

Die wichtigsten Ergebnisse

  • Kein getestetes Modell erreicht perfekte Werte. Spitzenreiter ist Gemini‑3.1‑Pro‑Preview mit 76/100.
  • GPT‑5.4 erzielt für die reine Antwortqualität 87,1/100; kombiniert mit korrekter Quellenangabe bleiben davon aber nur 59 Punkte.
  • Open‑Source‑Modelle liegen deutlich zurück: Qwen3‑VL‑235B‑A22B erreicht 22,5 Punkte; viele kleinere offene Modelle erzielen meist unter 10 Punkte. Die Forschenden warnen deshalb, dass solche Modelle in regulierten Bereichen (Recht, Finanzen, Medizin) „extrem riskant“ sein können.
  • Ein häufiger Fehler ist, die richtige Seite nicht zu finden. Die Gemini‑3‑Reihe trifft die richtige Seite in über 87 % der Fälle, Qwen3‑VL‑235B‑A22B kommt nur auf knapp 58 %.
  • Komplexität wirkt sich negativ aus: Müssen Informationen aus mehreren Dokumenten kombiniert werden, fällt die Erfolgsrate. Bei Gemini‑3.1‑Pro‑Preview sinkt der Recall von etwa 69 % auf rund 55 % (Recall hier = Anteil der relevanten Stellen, die das Modell findet).
  • Muster in den Fehlern: Rechenaufgaben funktionieren vergleichsweise gut, weil die Belege klar sind. Schwieriger sind Aufgaben, die zuerst ein visuelles Element erkennen müssen (Farbe, Position, Überschrift) und dann dessen Text auswerten. Standardisierte akademische Texte liefern die besten Ergebnisse; Zeitungen und Magazine mit komplexem Layout drücken selbst die stärksten Modelle auf etwa 63 als Maximalwert.

Warum das passiert

Eine Ablationsstudie zeigte, dass die Leistung deutlich steigt, wenn Modelle die relevanten Seiten oder das passende Dokument vorgesetzt bekommen. Beispiel: Qwen3‑VL‑8B gewinnt dadurch mehr als 13 Punkte. Die Forschenden folgern, dass die Kenntnis des Suchraums – also zu wissen, wo gesucht werden muss – nicht nur die Nachvollziehbarkeit verbessert, sondern auch die reine Antwortqualität erhöht. In diesem Kontext sprechen sie von „Context Engineering“: Modelle nur mit den Informationen zu versorgen, die für die Aufgabe nötig sind.

Einordnung und weitere Hinweise

Code für CiteVQA ist auf GitHub, der Datensatz steht auf Hugging Face bereit. Die Ergebnisse ergänzen frühere Befunde: Schon der 2024 vorgestellte NeedleBench aus demselben Labor zeigte Schwächen bei langen Dokumenten. Google DeepMind verfolgt mit FACTS Grounding ein ähnliches Ziel und stellte fest, dass selbst starke Modelle (etwa Gemini 3 Pro, GPT‑5.1) nicht zuverlässig ausschließlich aus dem bereitgestellten Text antworten. OpenAI führt Attribution Hallucination teilweise auf ein systemisches Anreizproblem zurück: Training und Evaluation würden selbstbewusste Antworten belohnen, Zurückhaltung dagegen bestrafen — das fördere offenbar auch Probleme bei der Quellenangabe.

Was das praktisch bedeutet

Wenn Nachvollziehbarkeit wichtig ist — etwa in Recht, Medizin oder Finanzen — reichen aktuelle Modelle häufig nicht aus, weil sie Quellen falsch angeben oder die richtige Stelle im Dokument nicht finden. Verbesserungen bei der Lokalisierung relevanter Informationen und beim gezielten Zuliefern von Kontext sind laut Studie nötig, bevor man sich auf automatische, präzise Quellenangaben verlassen kann.

Quellen

  • Quelle: Peking University / Shanghai Artificial Intelligence Laboratory / CiteVQA
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Münchner Gericht stuft KI‑generierte Kurzantworten in der Google‑Suche als eigenständige Inhalte ein und macht Google dafür direkt haftbar.In KürzeGericht: KI‑Übersichten sind redaktionelle InhalteAuslöser: Zwei Verlage fälschlich mit Betrug in Verbindung...

Norwegen schränkt generative KI in Schulen massiv ein

Norwegen schränkt generative KI in Schulen massiv ein

Norwegen schränkt generative KI im Unterricht stark ein.In Kürze1–7: generative KI verbotenSek I: nur mit LehraufsichtGesetz & mehr Bücher geplant Norwegen macht in den Klassenräumen einen klaren Schnitt: Generative KI‑Tools sind in der Grundschule künftig weitgehend...