Studie: Tausende biomedizinische Zitate nicht nachweisbar — starke Zunahme seit 2024

27.05.2026 | Allgemein, KI

Analyse zeigt tausende nicht nachweisbare Referenzen in biomedizinischen Papers – starke Zunahme seit Mitte 2024, Risiko für Reviews und Leitlinien.

In Kürze

  • 4.046 nicht nachweisbare Zitate in 2.810 von 2,47 Mio. Papers
  • Rate stieg seit Mitte 2024 stark an, Verbindung zu LLM-Nutzung vermutet
  • Reviews sind besonders betroffen und gefährden Evidenzketten für Leitlinien

Wenn du regelmäßig wissenschaftliche Artikel liest, könnten die Referenzlisten bald weniger verlässlich wirken: Ein internationales Forschungsteam, zu dem unter anderem Wissenschaftlerinnen und Wissenschaftler der Columbia University gehören, hat 2,47 Millionen biomedizinische Artikel aus PubMed Central (Januar 2023–Februar 2026) systematisch auf fehlerhafte oder erfundene Literaturangaben untersucht. Ergebnis: Von rund 97,1 Millionen Zitaten wurden 4.046 als erfunden eingestuft — sie tauchten in 2.810 Papieren auf. Eine Referenz galt als erfunden, wenn ihr Titel in keiner der vier großen Literaturdatenbanken (PubMed, Crossref, OpenAlex, Google Scholar) auffindbar war.

Rasanter Anstieg seit Mitte 2024

2023 lag die Rate fingierter Referenzen noch stabil niedrig bei etwa 4 erfundenen Referenzen pro 10.000 Artikel. Ab Mitte 2024 setzte aber ein starker Anstieg ein: Ende 2025 erreichte die Rate 51,3 pro 10.000, in den ersten sieben Wochen von 2026 sogar 56,9 pro 10.000 — mehr als das Zwölffache des Niveaus von 2023. Die Autorinnen und Autoren führen diese zeitliche Entwicklung unter anderem auf den breiteren Einsatz großer Sprachmodelle wie ChatGPT zurück, deren Verbreitung Ende 2022 begann; aufgrund typischer Prüf- und Publikationszeiten von 100–200 Tagen würden solche Effekte verzögert im Literaturbestand sichtbar. Andere Ursachen — etwa Paper‑Mills oder veränderte Indexierungspraktiken — schließen die Forschenden aber nicht aus.

Warum gefälschte Zitate schwer zu entdecken sind

Die untersuchten, als erfunden klassifizierten Referenzen wirken oft überzeugend: thematisch passend, korrekt formatiert, mit echten Autorennamen und plausiblen Jahreszahlen. Deshalb sind sie für Gutachterinnen und Gutachter sowie Leserinnen und Leser schwer zu erkennen. Besonders betroffen sind Übersichtsartikel (Reviews): Sie zeigen eine um 57 % höhere Rate erfundener Referenzen als andere Publikationstypen. Das ist brisant, weil Reviews häufig als Grundlage für klinische Leitlinien dienen — wenn die Quellenbasis fehlerhaft ist, gerät die gesamte Evidenzkette ins Risiko.

Konkrete Fundstellen und Muster

Die Studie nennt konkrete Beispiele: In einem urologischen Paper waren 18 von 30 geprüften Referenzen erfunden. Zudem deuten Verteilungsmuster auf koordinierte Aktivitäten hin — etwa zwei Autoren, die in mehreren Artikeln desselben Journals auftauchen und dort gehäuft erfundene Zitate zu Themen wie CRISPR‑Diagnostik und Darmmikrobiom platzieren.

Wie die Branche reagiert (und wo es noch holpert)

Zum Zeitpunkt des Audits hatten 98,4 % der betroffenen Papers keine Reaktion seitens der Verlage erfahren. Plattformen und Konferenzen reagieren unterschiedlich: arXiv hat seine Sanktionen gegenüber ungekennzeichneten KI‑Inhalten verschärft (unter anderem mit möglichen einjährigen Sperren), während Analysen zeigen, dass auch etablierte Konferenzen wie NeurIPS erfundene Zitationen nicht zuverlässig filtern. Als technischer Gegenpol gibt es erste Tools wie CiteAudit — ein Open‑Source‑Werkzeug zur automatischen Zitationsprüfung — doch die Untersuchungen zeigen zugleich, wie schwierig es für Modelle ist, falsche Referenzen zuverlässig zu erkennen.

Praktische Empfehlungen der Forschenden

  • Automatisierte Referenzprüfungen bereits vor dem Peer Review einführen, um falsche Zitate früh zu entdecken.
  • Integritäts‑Metadaten in Artikeldatensätzen ergänzen, damit Auffälligkeiten maschinell erkannt werden können.
  • Nachträgliches Screening bereits veröffentlichter Papiere durchführen, um bestehende Probleme zu identifizieren.
  • Eine eigene Kategorie „fabrizierte Referenzen“ in Forschungsintegritätsdatenbanken anlegen, damit entsprechende Fälle systematisch erfasst werden.

Nebenbemerkung zur Methodik

Für ihren Workflow setzten die Autorinnen und Autoren das Sprachmodell Claude zur Entwicklung von Code und zur Grammatikkorrektur ein — ein Detail, das die Diskussion um den Einsatz generativer KI in der Forschung weiter befeuern dürfte.

Quellen

  • Quelle: Columbia University
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…