Verlage sperren Wayback Machine – Schutz vor KI-Datensammlung

27.05.2026 | Allgemein, KI

Immer mehr Nachrichtenseiten blockieren das Internet Archive per robots.txt, aus Sorge, ihre Artikel könnten in KI-Trainingsdaten fließen.

In Kürze

  • Anstieg: Über 50 % mehr Sperren von Januar bis Mai
  • Besonders betroffen: US-Regionalzeitungen und große Medienhäuser
  • Konflikt: Archivpflicht vs. Schutz vor Datensammlern

Immer mehr Nachrichtenseiten verschließen der Wayback Machine die Tür – aus Sorge, dass ihre Artikel zum Rohstoff für KI-Modelle werden. Das ergibt eine Untersuchung des Nieman Journalism Lab an der Harvard-Universität, die zeigt, dass vor allem Lokal- und Regionalzeitungen zunehmend den Zugriff des Internet Archive per robots.txt unterbinden.

Zahlen und Entwicklung

In der vom Nieman Lab untersuchten Stichprobe fanden sich aktuell 382 Webseiten, die der Wayback Machine den Zugriff verwehren. Insgesamt spricht das Labor in seinem Bericht von „mehr als 340“ Blockierern und registriert einen deutlichen Anstieg: Zwischen Januar und Mai ist die Zahl der aussperrenden Seiten um mehr als 50 Prozent gewachsen.

Wer sperrt ab?

Betroffen sind überwiegend US-Regionalzeitungen, viele davon gehören zu einem der fünf großen US-Medienhäuser. Daneben stehen auch überregionale und internationale Titel auf der Liste: etwa die New York Times sowie europäische Leitmedien wie El País und Le Monde. Aus Deutschland werden in der Analyse bislang keine Medien genannt.

Warum die Sperren?

Verlage wollen verhindern, dass ihre Artikel ohne Erlaubnis in Trainingsdaten für KI-Modelle gelangen. Die Sorge: Firmen, die große Mengen Webinhalte sammeln, halten sich nicht immer an Hinweise wie robots.txt. Die Wayback Machine könnte für Datensammler als Umweg dienen, also sperren Seiten zunehmend auch den Archivdienst, um diesen Zugang zu schließen.

Was bedeutet robots.txt hier?

robots.txt ist ein klassisches Web‑Signal, mit dem Betreiberinnen und Betreiber Crawler anweisen können, welche Bereiche ihrer Seiten nicht indexiert werden sollen. Es ist kein rechtlich bindbares Verbot, aber viele automatisierte Sammler respektieren diese Datei. Das Internet Archive geriet bereits früher in Konflikte um die Auslegung solcher Regeln: 2017 erklärte die Organisation, sie werde robots.txt nicht in jedem Fall ausnahmslos befolgen. Aktuell reagieren jedoch viele Seiten darauf, indem sie ausdrücklich auch den Archivzugriff per robots.txt blockieren. Reddit hat zuletzt einen ähnlichen Schritt unternommen.

Was steht auf dem Spiel?

Die Wayback Machine archiviert seit Jahrzehnten Webseiten und gilt als zentrale Quelle zur Nachverfolgung der Entwicklung des Internets. Durch die zunehmenden Sperren gerät das Internet Archive stärker in die Mitte eines Konflikts zwischen Verlagen, die ihre Inhalte schützen wollen, und Akteurinnen und Akteuren, die große Datensätze für KI erstellen.

Quellen

  • Quelle: Internet Archive / Wayback Machine
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…