Ein neuer Datensatz namens „Common Pile“ revolutioniert das Training von KI-Sprachmodellen mit offenen Lizenzen.
In Kürze
- 8 Terabyte an Daten aus 30 Quellen
- Strenge Auswahlkriterien für hohe Datenqualität
- Erste Modelle zeigen vielversprechende Ergebnisse
Ein beeindruckender Datensatz: Der „Common Pile“
Ein Forschungsteam hat mit dem „Common Pile“ einen beeindruckenden Datensatz veröffentlicht, der für das Training von KI-Sprachmodellen gedacht ist. Mit satten 8 Terabyte an Daten aus 30 verschiedenen Quellen, darunter wissenschaftliche Publikationen, juristische Texte, Online-Foren und Programmierbeispiele, setzt dieser Datensatz neue Maßstäbe. Das Besondere daran: Alle Inhalte sind offen lizenziert, was rechtliche Probleme bei der Nutzung urheberrechtlich geschützter Daten ausschließt.
Sicherstellung der Datenqualität
Um die Qualität der Daten sicherzustellen, hat das Team strenge Auswahl- und Filtermechanismen implementiert. Texte mit unklarer Lizenzlage wurden konsequent vermieden, ebenso wie problematische Inhalte, doppelte Daten und persönliche Informationen. So entsteht ein sauberer und rechtssicherer Datensatz, der für die Entwicklung von KI-Modellen optimal geeignet ist.
Entwicklung und Ergebnisse der Sprachmodelle
Im Rahmen des Projekts wurden zwei Sprachmodelle entwickelt, die mit dem Common Pile trainiert wurden. Die Ergebnisse sind vielversprechend: Diese Modelle haben bei wissenschaftlichen Aufgaben und Programmierbenchmarks besser abgeschnitten als vergleichbare Modelle, die auf unlizenzierten Daten basieren. Allerdings zeigen sie Schwächen bei alltagsnahen Aufgaben. Das könnte daran liegen, dass solche Inhalte im Common Pile weniger stark vertreten sind.
Bedeutung für die Zukunft der KI-Trainingsmethoden
Dieser Ansatz ist ein bedeutender Schritt in Richtung rechtssicherer Trainingsmethoden für KI-Sprachmodelle. Er zeigt, dass leistungsfähige Modelle auch mit frei verfügbaren Daten erstellt werden können. Dennoch wird für die Zukunft eine erweiterte Datenbasis notwendig sein, um im Wettbewerb mit großen kommerziellen Modellen bestehen zu können.
Quellen
- Quelle: Common Pile
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.