Common Pile: Neuer Datensatz für KI-Sprachmodelle setzt Maßstäbe

07.06.2025 | Allgemein, KI

Ein neuer Datensatz namens „Common Pile“ revolutioniert das Training von KI-Sprachmodellen mit offenen Lizenzen.

In Kürze

  • 8 Terabyte an Daten aus 30 Quellen
  • Strenge Auswahlkriterien für hohe Datenqualität
  • Erste Modelle zeigen vielversprechende Ergebnisse

Ein beeindruckender Datensatz: Der „Common Pile“

Ein Forschungsteam hat mit dem „Common Pile“ einen beeindruckenden Datensatz veröffentlicht, der für das Training von KI-Sprachmodellen gedacht ist. Mit satten 8 Terabyte an Daten aus 30 verschiedenen Quellen, darunter wissenschaftliche Publikationen, juristische Texte, Online-Foren und Programmierbeispiele, setzt dieser Datensatz neue Maßstäbe. Das Besondere daran: Alle Inhalte sind offen lizenziert, was rechtliche Probleme bei der Nutzung urheberrechtlich geschützter Daten ausschließt.

Sicherstellung der Datenqualität

Um die Qualität der Daten sicherzustellen, hat das Team strenge Auswahl- und Filtermechanismen implementiert. Texte mit unklarer Lizenzlage wurden konsequent vermieden, ebenso wie problematische Inhalte, doppelte Daten und persönliche Informationen. So entsteht ein sauberer und rechtssicherer Datensatz, der für die Entwicklung von KI-Modellen optimal geeignet ist.

Entwicklung und Ergebnisse der Sprachmodelle

Im Rahmen des Projekts wurden zwei Sprachmodelle entwickelt, die mit dem Common Pile trainiert wurden. Die Ergebnisse sind vielversprechend: Diese Modelle haben bei wissenschaftlichen Aufgaben und Programmierbenchmarks besser abgeschnitten als vergleichbare Modelle, die auf unlizenzierten Daten basieren. Allerdings zeigen sie Schwächen bei alltagsnahen Aufgaben. Das könnte daran liegen, dass solche Inhalte im Common Pile weniger stark vertreten sind.

Bedeutung für die Zukunft der KI-Trainingsmethoden

Dieser Ansatz ist ein bedeutender Schritt in Richtung rechtssicherer Trainingsmethoden für KI-Sprachmodelle. Er zeigt, dass leistungsfähige Modelle auch mit frei verfügbaren Daten erstellt werden können. Dennoch wird für die Zukunft eine erweiterte Datenbasis notwendig sein, um im Wettbewerb mit großen kommerziellen Modellen bestehen zu können.

Quellen

  • Quelle: Common Pile
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

Eine neue Plattform beleuchtet die KI-Entwicklung bei OpenAI und fordert mehr Transparenz.In KürzeÖffentliche Sammlung von Berichten ehemaliger MitarbeitenderFokus auf CEO Sam Altman und seine RolleDebatte über ethische Implikationen und Renditen für Investoren The...

MITs SEAL: KI lernt selbstständig und effizient

MITs SEAL: KI lernt selbstständig und effizient

Ein innovatives System am MIT verändert die Lernweise von KI-Modellen grundlegend.In KürzeSEAL generiert und bewertet eigenes TrainingsmaterialPräzisere Informationen und bessere ProblemlösungsfähigkeitenHerausforderungen wie „Catastrophic Forgetting“ bleiben bestehen...

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google hat seine Live-Suche mit einem neuen KI-Chatbot aufgewertet, der gesprochene Antworten liefert.In KürzeSprachgesteuerter Chatbot liefert Antworten in gesprochener FormTestphase in den USA, Teilnahme über Google LabsGeplante Erweiterung um Bildinformationen für...