Verlage sperren Wayback Machine – Schutz vor KI-Datensammlung

Zahlen und Entwicklung

In der vom Nieman Lab untersuchten Stichprobe fanden sich aktuell 382 Webseiten, die der Wayback Machine den Zugriff verwehren. Insgesamt spricht das Labor in seinem Bericht von „mehr als 340“ Blockierern und registriert einen deutlichen Anstieg: Zwischen Januar und Mai ist die Zahl der aussperrenden Seiten um mehr als 50 Prozent gewachsen.

Wer sperrt ab?

Betroffen sind überwiegend US-Regionalzeitungen, viele davon gehören zu einem der fünf großen US-Medienhäuser. Daneben stehen auch überregionale und internationale Titel auf der Liste: etwa die New York Times sowie europäische Leitmedien wie El País und Le Monde. Aus Deutschland werden in der Analyse bislang keine Medien genannt.

Warum die Sperren?

Verlage wollen verhindern, dass ihre Artikel ohne Erlaubnis in Trainingsdaten für KI-Modelle gelangen. Die Sorge: Firmen, die große Mengen Webinhalte sammeln, halten sich nicht immer an Hinweise wie robots.txt. Die Wayback Machine könnte für Datensammler als Umweg dienen, also sperren Seiten zunehmend auch den Archivdienst, um diesen Zugang zu schließen.

Was bedeutet robots.txt hier?

robots.txt ist ein klassisches Web‑Signal, mit dem Betreiberinnen und Betreiber Crawler anweisen können, welche Bereiche ihrer Seiten nicht indexiert werden sollen. Es ist kein rechtlich bindbares Verbot, aber viele automatisierte Sammler respektieren diese Datei. Das Internet Archive geriet bereits früher in Konflikte um die Auslegung solcher Regeln: 2017 erklärte die Organisation, sie werde robots.txt nicht in jedem Fall ausnahmslos befolgen. Aktuell reagieren jedoch viele Seiten darauf, indem sie ausdrücklich auch den Archivzugriff per robots.txt blockieren. Reddit hat zuletzt einen ähnlichen Schritt unternommen.

Was steht auf dem Spiel?

Die Wayback Machine archiviert seit Jahrzehnten Webseiten und gilt als zentrale Quelle zur Nachverfolgung der Entwicklung des Internets. Durch die zunehmenden Sperren gerät das Internet Archive stärker in die Mitte eines Konflikts zwischen Verlagen, die ihre Inhalte schützen wollen, und Akteurinnen und Akteuren, die große Datensätze für KI erstellen.

Quellen

Quelle: Internet Archive / Wayback Machine

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

OpenAI lässt Codex gesperrte Macs steuern – Locked Use eingeführt

Mai 27, 2026 | Allgemein, KI

OpenAI ergänzt Codex um Locked Use: Die KI kann Aktionen auf einem gesperrten Mac ausführen.In KürzeLocked Use simuliert Eingaben und steuert Apps, auch bei gesperrtem BildschirmErforderliche Rechte: Screen Recording, Accessibility und ein Authorization Plug-inNicht...

Google plant KI‑Agent statt blauer Links – Nutzer strömen zu DuckDuckGo

Mai 27, 2026 | Allgemein, KI

Google will Trefferlisten durch KI‑Agenten ersetzen – das sorgt für Debatten.In KürzeKI statt blauer LinksKritik: Kontrollverlust, falsche AntwortenDuckDuckGo wächst; bietet AI‑free Google will die klassische Liste mit blauen Links durch einen KI‑Agenten ersetzen Die...

Studie: Tausende biomedizinische Zitate nicht nachweisbar — starke Zunahme seit 2024

Mai 27, 2026 | Allgemein, KI

Analyse zeigt tausende nicht nachweisbare Referenzen in biomedizinischen Papers – starke Zunahme seit Mitte 2024, Risiko für Reviews und Leitlinien.In Kürze4.046 nicht nachweisbare Zitate in 2.810 von 2,47 Mio. PapersRate stieg seit Mitte 2024 stark an, Verbindung zu...

Verlage sperren Wayback Machine – Schutz vor KI-Datensammlung

In Kürze

Zahlen und Entwicklung

Wer sperrt ab?

Warum die Sperren?

Was bedeutet robots.txt hier?

Was steht auf dem Spiel?

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

OpenAI lässt Codex gesperrte Macs steuern – Locked Use eingeführt

Google plant KI‑Agent statt blauer Links – Nutzer strömen zu DuckDuckGo

Studie: Tausende biomedizinische Zitate nicht nachweisbar — starke Zunahme seit 2024

Über uns

Dein Thema?

Pickert GmbH