CiteAudit: Offenes Tool erkennt gefälschte Zitate mit 97,2% Genauigkeit

09.03.2026 | Allgemein, KI

CiteAudit prüft Zitate und findet häufig falsche Referenzen.

In Kürze

  • 97,2% Treffer
  • 5 Prüfagenten + lokales Modell
  • Web‑App: 500 Checks/Tag gratis

Gefälschte Zitate in wissenschaftlichen Papieren sind kein Randproblem mehr. Immer wieder tauchen in akzeptierten Beiträgen Hinweise auf Quellen auf, die es so nie gegeben hat – so genannte halluzinierte Referenzen. Das ist nicht nur peinlich für Autor:innen, sondern untergräbt die Beweisführung: Reviewer und Co‑Autor:innen können Behauptungen nicht nachprüfen, Reproduzierbarkeit leidet, und die Integrität der Forschung gerät unter Druck. Fälle wurden bereits in Konferenzbeiträgen wie NeurIPS, ACL und ICLR dokumentiert.

Warum passieren diese Fälschungen? Moderne Sprachmodelle erzeugen oft sehr plausibel klingende Titel, Autorennamen und Konferenzeinträge. Gleichzeitig sind Literaturverzeichnisse in Umfang und Vielfalt gewachsen – für Gutachter:innen ist eine lückenlose manuelle Prüfung vieler Referenzen kaum noch realistisch. Diese Kombination macht das Problem systemisch.

CiteAudit: ein offenes Prüfwerkzeug

CiteAudit ist ein neues Open‑Source‑Tool, das systematisch halluzinierte Zitate identifizieren soll. Das Projekt stellt ein offenes Benchmark- und Erkennungssystem bereit, basierend auf fast 10.000 Zitaten: 6.475 echte Referenzen und 2.967 gefälschte. Die Datensätze enthalten sowohl künstlich erzeugte Fälschungen (u. a. von GPT, Gemini, Claude, Qwen, Llama) als auch Halluzinationen, die in tatsächlichen Papern (Google Scholar, OpenReview, ArXiv, BioRxiv) gefunden wurden.

Fünf Agenten im Prüfprozess

Das System gliedert die Prüfung in fünf spezialisierte Agenten, die nacheinander arbeiten:

  1. Extractor liest das PDF aus und extrahiert Titel, Autoren und Konferenzangaben.
  2. Memory‑Agent prüft, ob das Zitat bereits bekannt ist.
  3. Web‑Search‑Agent durchsucht das Web und lädt die fünf relevantesten Treffer.
  4. Judge‑Agent vergleicht die Angaben im Paper mit den gefundenen Belegen.
  5. Falls Unklarheiten bleiben, konsultiert ein Scholar‑Agent autoritative Datenbanken wie Google Scholar.

Die eigentlichen Analyse‑Aufgaben erledigt ein lokal laufendes Modell namens Qwen3‑VL‑235B; vieles läuft also auf dem eigenen Rechner oder Server.

Wie gut das klappt

In Tests traf CiteAudit in 97,2 Prozent der Fälle die richtige Entscheidung. Für zehn Referenzen benötigt das System rund 2,3 Sekunden. Weil ein Großteil der Verarbeitung lokal stattfindet, fallen keine Token‑Kosten an.

In einem Laborvergleich schnitten kommerzielle Modelle unterschiedlich ab: GPT‑5.2 erkannte unter idealen Bedingungen viele Fälschungen (etwa 91 %) und machte nur wenige Fehlalarme. CiteAudit erkannte in einem Test alle 2.500 künstlich erzeugten Fälschungen, meldete aber 167 echte Referenzen fälschlich. Bei Prüfungen mit real in Papern gefundenen Halluzinationen zeigte sich ein größeres Problem kommerzieller Ansätze: GPT‑5.2 erkannte rund 78 % der 467 Fälschungen, stufte gleichzeitig jedoch 1.380 von 2.889 legitimen Referenzen als Fälschungen ein. GPTZero meldete 1.358 Fehlalarme. Gemini 3 Pro hatte weniger Fehlalarme, übersah dafür 116 Fälschungen. CiteAudit identifizierte alle 467 Fälschungen und verzeichnete nur 100 Fehlalarme unter 2.889 echten Referenzen.

Offenheit und Nutzungsoptionen

Viele bestehende Tools sind proprietär und reagieren empfindlich auf Variationen in Referenzformaten, was faire Vergleiche erschwert. Forscher:innen kritisieren außerdem, dass proprietäre Modelle ihre Recherchepfade oft nicht transparent machen, sodass die Herkunft vermeintlicher Belege unklar bleibt.

CiteAudit steht als Web‑App frei zur Verfügung: Nach Anmeldung mit einer E‑Mail kannst du bis zu 500 Zitate pro Tag kostenlos prüfen. Wer höhere Kapazitäten braucht, kann eigene API‑Keys (etwa für Gemini) einbinden. Die Veröffentlichung und die Benchmarks sind dokumentiert (Quelle: ArXiv | CiteAudit).

Quellen

  • Quelle: CiteAudit
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…