EleutherAI präsentiert neues Dataset für ethische KI-Entwicklung

08.06.2025 | Allgemein, KI

EleutherAI hat mit „Common Pile v0.1“ ein neues Dataset veröffentlicht, das KI-Entwicklung ohne urheberrechtliche Probleme ermöglicht.

In Kürze

  • Dataset umfasst 8 Terabyte aus lizenzierten und gemeinfreien Quellen
  • Entwicklung von zwei leistungsstarken Sprachmodellen
  • Neue Maßstäbe für ethische KI-Entwicklung gesetzt

EleutherAI und das neue Text-Dataset „Common Pile v0.1“

EleutherAI hat mit „Common Pile v0.1“ ein neues Text-Dataset ins Leben gerufen, das mit satten 8 Terabyte aufwartet und ausschließlich aus lizenzierten sowie gemeinfreien Quellen besteht. Das Ziel? Leistungsstarke KI-Modelle zu trainieren, ohne dabei urheberrechtlich geschützte Inhalte zu verwenden – ein Problem, das viele bisherige Ansätze geplagt hat. Mit diesem Schritt will EleutherAI rechtliche Grauzonen vermeiden und gleichzeitig die Entwicklung von KI vorantreiben.

Zusammenarbeit und Quellen

Das Dataset entstand in enger Zusammenarbeit mit Partnern wie Hugging Face und verschiedenen Hochschulen. Es umfasst Texte aus 30 unterschiedlichen Quellen, darunter wissenschaftliche Arbeiten, Bücher und transkribierte Audios. Bei der Zusammenstellung wurde besonders auf die Qualität und rechtliche Sicherheit der Daten geachtet, um ein solides Fundament für die KI-Entwicklung zu schaffen.

Praxistest und erste Ergebnisse

Für den Praxistest hat EleutherAI zwei Sprachmodelle entwickelt, die auf 7 Milliarden Parametern basieren und jeweils bis zu zwei Billionen Datenpunkte aus dem „Common Pile v0.1“ verarbeiten können. Erste Ergebnisse zeigen, dass diese Modelle in ihrer Leistung mit solchen konkurrieren können, die auf urheberrechtlich geschützte Daten zurückgreifen. Das ist ein bemerkenswerter Fortschritt und könnte die Diskussion über die Nutzung von Daten in der KI-Entwicklung neu entfachen.

Reaktion auf rechtliche Konflikte

Mit diesem Projekt reagiert EleutherAI auf die wachsenden rechtlichen Konflikte im KI-Bereich und setzt neue Maßstäbe für ein verantwortungsvolles Training von KI-Modellen. Durch die transparente und ethische Datenbasis beweist EleutherAI, dass leistungsfähige KI auch ohne umstrittene Datenquellen möglich ist. Dieses Engagement könnte als Vorbild für andere KI-Entwickler dienen, die ebenfalls auf der Suche nach mehr ethischen Standards in der Branche sind.

Quellen

  • Quelle: EleutherAI
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

Eine neue Plattform beleuchtet die KI-Entwicklung bei OpenAI und fordert mehr Transparenz.In KürzeÖffentliche Sammlung von Berichten ehemaliger MitarbeitenderFokus auf CEO Sam Altman und seine RolleDebatte über ethische Implikationen und Renditen für Investoren The...

MITs SEAL: KI lernt selbstständig und effizient

MITs SEAL: KI lernt selbstständig und effizient

Ein innovatives System am MIT verändert die Lernweise von KI-Modellen grundlegend.In KürzeSEAL generiert und bewertet eigenes TrainingsmaterialPräzisere Informationen und bessere ProblemlösungsfähigkeitenHerausforderungen wie „Catastrophic Forgetting“ bleiben bestehen...

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google hat seine Live-Suche mit einem neuen KI-Chatbot aufgewertet, der gesprochene Antworten liefert.In KürzeSprachgesteuerter Chatbot liefert Antworten in gesprochener FormTestphase in den USA, Teilnahme über Google LabsGeplante Erweiterung um Bildinformationen für...