OpenAI sieht sich schweren Vorwürfen ausgesetzt, da das KI-Modell GPT-4o möglicherweise ohne Genehmigung urheberrechtlich geschützte Inhalte verwendet hat.
In Kürze
- Studie zeigt, dass GPT-4o mit O’Reilly-Inhalten trainiert wurde.
- Forscher fordern mehr Transparenz und Lizenzvereinbarungen.
- New York Times leitet rechtliche Schritte gegen OpenAI ein.
OpenAI und die Vorwürfe der Urheberrechtsverletzung
OpenAI sieht sich derzeit mit ernsthaften Vorwürfen konfrontiert: Das Unternehmen soll sein KI-Modell GPT-4o ohne die erforderliche Genehmigung mit Inhalten aus Büchern des O’Reilly-Verlags trainiert haben. Eine aktuelle Studie des AI Disclosures Project legt nahe, dass beim Training urheberrechtlich geschütztes Material verwendet wurde.
Methodik der Studie
Die Forscher haben das Modell auf Herz und Nieren geprüft, indem sie Multiple-Choice-Fragen stellten, bei denen eine der Antworten ein direktes Zitat aus einem O’Reilly-Buch war. Wenn das Modell dieses Zitat korrekt erkannte, wurde dies als Hinweis gewertet, dass das Buch tatsächlich beim Training verwendet wurde. Die Ergebnisse waren aufschlussreich: Ein statistisches Maß, der AUROC-Wert, bestätigte die Vermutung mit einem Wert von 82 Prozent.
Mögliche Datenquellen
Zusätzlich wird vermutet, dass OpenAI auf eine bekannte Schattenbibliothek als Datenquelle zurückgegriffen hat. Interessanterweise ergaben die Untersuchungen bei einem weiteren Modell, dem GPT-4o mini, dass es nicht mit O’Reilly-Büchern trainiert wurde. Dies wirft Fragen auf, wie OpenAI seine Datenquellen auswählt und welche Standards dabei eingehalten werden.
Forderungen nach Transparenz
Die Studie hebt hervor, dass die Nutzung geschützter Werke beim Training von KI-Modellen ein systematisches Problem darstellt. Die Forscher fordern mehr Transparenz und formale Lizenzvereinbarungen, um solche Vorfälle in Zukunft zu vermeiden. Auch die New York Times hat bereits rechtliche Schritte gegen OpenAI eingeleitet, da ähnliche Urheberrechtsverletzungen festgestellt wurden.
Fazit
Die Diskussion um Urheberrecht und KI wird damit erneut angeheizt und zeigt, wie wichtig es ist, klare Regeln für den Umgang mit geschützten Inhalten zu etablieren.
Quellen
- Quelle: OpenAI
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.