CiteAudit: Offenes Tool erkennt gefälschte Zitate mit 97,2% Genauigkeit

CiteAudit: ein offenes Prüfwerkzeug

CiteAudit ist ein neues Open‑Source‑Tool, das systematisch halluzinierte Zitate identifizieren soll. Das Projekt stellt ein offenes Benchmark- und Erkennungssystem bereit, basierend auf fast 10.000 Zitaten: 6.475 echte Referenzen und 2.967 gefälschte. Die Datensätze enthalten sowohl künstlich erzeugte Fälschungen (u. a. von GPT, Gemini, Claude, Qwen, Llama) als auch Halluzinationen, die in tatsächlichen Papern (Google Scholar, OpenReview, ArXiv, BioRxiv) gefunden wurden.

Fünf Agenten im Prüfprozess

Das System gliedert die Prüfung in fünf spezialisierte Agenten, die nacheinander arbeiten:

Extractor liest das PDF aus und extrahiert Titel, Autoren und Konferenzangaben.

Memory‑Agent prüft, ob das Zitat bereits bekannt ist.

Web‑Search‑Agent durchsucht das Web und lädt die fünf relevantesten Treffer.

Judge‑Agent vergleicht die Angaben im Paper mit den gefundenen Belegen.

Falls Unklarheiten bleiben, konsultiert ein Scholar‑Agent autoritative Datenbanken wie Google Scholar.

Die eigentlichen Analyse‑Aufgaben erledigt ein lokal laufendes Modell namens Qwen3‑VL‑235B; vieles läuft also auf dem eigenen Rechner oder Server.

Wie gut das klappt

In Tests traf CiteAudit in 97,2 Prozent der Fälle die richtige Entscheidung. Für zehn Referenzen benötigt das System rund 2,3 Sekunden. Weil ein Großteil der Verarbeitung lokal stattfindet, fallen keine Token‑Kosten an.

In einem Laborvergleich schnitten kommerzielle Modelle unterschiedlich ab: GPT‑5.2 erkannte unter idealen Bedingungen viele Fälschungen (etwa 91 %) und machte nur wenige Fehlalarme. CiteAudit erkannte in einem Test alle 2.500 künstlich erzeugten Fälschungen, meldete aber 167 echte Referenzen fälschlich. Bei Prüfungen mit real in Papern gefundenen Halluzinationen zeigte sich ein größeres Problem kommerzieller Ansätze: GPT‑5.2 erkannte rund 78 % der 467 Fälschungen, stufte gleichzeitig jedoch 1.380 von 2.889 legitimen Referenzen als Fälschungen ein. GPTZero meldete 1.358 Fehlalarme. Gemini 3 Pro hatte weniger Fehlalarme, übersah dafür 116 Fälschungen. CiteAudit identifizierte alle 467 Fälschungen und verzeichnete nur 100 Fehlalarme unter 2.889 echten Referenzen.

Offenheit und Nutzungsoptionen

Viele bestehende Tools sind proprietär und reagieren empfindlich auf Variationen in Referenzformaten, was faire Vergleiche erschwert. Forscher:innen kritisieren außerdem, dass proprietäre Modelle ihre Recherchepfade oft nicht transparent machen, sodass die Herkunft vermeintlicher Belege unklar bleibt.

CiteAudit steht als Web‑App frei zur Verfügung: Nach Anmeldung mit einer E‑Mail kannst du bis zu 500 Zitate pro Tag kostenlos prüfen. Wer höhere Kapazitäten braucht, kann eigene API‑Keys (etwa für Gemini) einbinden. Die Veröffentlichung und die Benchmarks sind dokumentiert (Quelle: ArXiv | CiteAudit).

Quellen

Quelle: CiteAudit

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

KI‑Agenten testen vor allem Programmierer – Benchmarks spiegeln Jobmarkt nicht wider

März 9, 2026 | Allgemein, KI

KI‑Agenten werden meist mit Programmieraufgaben geprüft, nicht mit realen Berufsanforderungen.In KürzeProgrammierung dominiert Benchmarks (7,6% der Jobs)Management, Recht und Architektur sind stark unterrepräsentiertForderung: breitere Domänen, realistischere und...

Studie: Sprachmodelle neigen in Wargames zur nuklearen Eskalation

März 9, 2026 | Allgemein, KI

Wargames: LLMs tendieren zur Eskalation.In KürzeKein Modell wählte RückzugTäuschung bei friedlichen SignalenUnterschiedliche Eskalationsraten Stell dir vor, zwei KI‑Programme spielen einen nuklearen Krisenfall — und beide wählen fast immer die Eskalationsvariante. So...

Adult Mode von ChatGPT erneut verschoben – neuer Starttermin fehlt

März 8, 2026 | Allgemein, KI

OpenAI verschiebt den „Adult Mode“ von ChatGPT erneut; ein neues Datum wurde nicht genannt.In KürzeLaunch erneut verschoben, kein neues StartdatumPriorität für Intelligenz, Persönlichkeit und NutzererlebnisAlterssicherung/Verifizierung noch nicht konkretisiert OpenAI...

CiteAudit: Offenes Tool erkennt gefälschte Zitate mit 97,2% Genauigkeit

In Kürze

CiteAudit: ein offenes Prüfwerkzeug

Fünf Agenten im Prüfprozess

Wie gut das klappt

Offenheit und Nutzungsoptionen

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

KI‑Agenten testen vor allem Programmierer – Benchmarks spiegeln Jobmarkt nicht wider

Studie: Sprachmodelle neigen in Wargames zur nuklearen Eskalation

Adult Mode von ChatGPT erneut verschoben – neuer Starttermin fehlt

Über uns

Dein Thema?

Pickert GmbH