CiteVQA: LLMs liefern oft richtige Antworten – versagen bei genauen Quellen

26.05.2026 | Allgemein, KI

Neue Benchmark prüft, ob Sprachmodelle nicht nur korrekte Antworten geben, sondern exakt die Textstelle nennen.

In Kürze

  • CiteVQA testet 1.897 Fragen in 711 PDFs und verlangt exakte Belegstellen.
  • Spitzenmodelle schneiden bei Quellenangaben deutlich schlechter ab als bei reiner Antwortqualität.
  • Open‑Source‑Modelle fallen stark zurück; Kontextbegrenzung erhöht die Zuverlässigkeit.

Große Sprachmodelle können richtige Antworten liefern – aber oft die falsche Stelle als Quelle nennen. Forschende nennen das „Attribution Hallucination“ und haben ein neues Benchmark namens CiteVQA vorgestellt, das genau dieses Problem prüft.

Was ist CiteVQA?

CiteVQA testet nicht nur, ob die Antwort stimmt, sondern ob das Modell genau die Textstelle (Absatz, Tabelle oder Abbildung) benennt, aus der die Antwort stammt. Eine bloße Seitenzahl reicht nicht. Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachbereichen (451 auf Englisch, 260 auf Chinesisch). Die Dokumente sind im Schnitt 40,6 Seiten lang – deutlich umfangreicher als viele frühere Benchmarks.

Wie wird geprüft?

Eine automatisierte Pipeline zerlegt die PDFs in einzelne Elemente. Modelle – unter anderem Gemini-3.0-Flash – identifizieren mögliche Belege. Anschließend entfernt das System jeden vorgeschlagenen Beleg testweise: Wenn das Modell danach die Frage nicht mehr beantworten kann, gilt der Beleg als notwendig. Die wichtigste Messgröße heißt „Strict Attributed Accuracy“: gezählt wird nur, wenn die Antwort korrekt ist und das Modell exakt die richtige Stelle markiert.

Was zeigen die Ergebnisse?

20 Modelle wurden untersucht. Selbst das stärkste System nach diesem strengen Maßstab, Gemini-3.1-Pro-Preview, erreicht nur 76 von 100 Punkten. GPT-5.4 erzielt bei reiner Antwortqualität 87,1/100, fällt aber auf 59/100, wenn korrekte Quellenangabe verlangt wird – ein deutliches Beispiel für die Lücke zwischen Wissen und belegter Herkunft.

Open‑Source‑Modelle schneiden deutlich schlechter ab. Das beste freie Modell, Qwen3‑VL‑235B‑A22B, liegt bei 22,5 Punkten; viele kleinere offene Modelle bleiben unter 10 Punkten. Die Forschenden warnen deshalb vor dem Einsatz solcher Modelle in regulierten Bereichen als „extrem riskant“.

Woran scheitern die Modelle konkret?

  • Seitenfindung vs. exaktes Element: Manche Modelle finden nicht einmal die richtige Seite. Die Gemini‑3‑Reihe trifft die richtige Seite in über 87 % der Fällen, Qwen3‑VL‑235B‑A22B nur in rund 58 %.
  • Komplexität senkt die Belegtreue: Bei Fragen, die Inhalte aus mehreren Dokumenten kombinieren, sinkt der Recall – etwa bei Gemini‑3.1‑Pro‑Preview von rund 69 % auf etwa 55 %.
  • Aufgabentypen: Rechenaufgaben funktionieren vergleichsweise gut, weil sie klare Belege erzwingen. Schwieriger sind Aufgaben, bei denen ein Modell erst ein visuelles Element erkennen (Farbe, Position, Überschrift) und dann dessen Text auswerten muss. Standardisierte akademische Texte schneiden am besten ab; komplexe Layouts wie Zeitungen oder Magazine begrenzen sogar starke Modelle auf etwa 63 Punkte.

Was passiert, wenn man den Suchraum einschränkt?

In Experimenten, in denen Modelle nur die relevanten Seiten oder das korrekte Dokument erhielten, stieg die Leistung deutlich – bei Qwen3‑VL‑8B um mehr als 13 Punkte. Das zeigt: Wenn ein Modell weiß, wo es suchen muss, werden Antworten und Quellenangaben zuverlässiger. Das unterstützt auch das Konzept, dem Modell nur den relevanten Kontext zu geben (Context Engineering).

Verwandte Arbeiten und Gründe für das Problem

Frühere Benchmarks wie NeedleBench (2024), aus demselben Labor, zeigten schon, dass große Dokumente oft schlecht verarbeitet werden. Google DeepMind verfolgt mit FACTS Grounding einen ähnlichen Ansatz und fand ebenfalls, dass selbst Spitzenmodelle nicht verlässlich nur aus dem bereitgestellten Dokument arbeiten. OpenAI weist darauf hin, dass Trainings- und Evaluationsanreize selbstbewusste Antworten belohnen, Zurückhaltung aber bestrafen – ein Faktor, der Attribution Hallucination fördern kann.

Transparenz und Verfügbarkeit

Code und Details zu CiteVQA sind auf GitHub veröffentlicht, der Datensatz steht auf Hugging Face zum Download bereit.

Warum das relevant ist

In Bereichen wie Recht, Finanzen oder Medizin entscheidet Nachvollziehbarkeit über die Verwendbarkeit einer KI‑Antwort. CiteVQA macht deutlich, dass viele Modelle zwar „richtige“ Antworten liefern, aber nicht zuverlässig belegen können, woher diese Informationen stammen – ein zentraler Punkt für Anwendungen, in denen Quellenangaben geprüft werden müssen.

Quellen

  • Quelle: Peking University / Shanghai Artificial Intelligence Laboratory
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…