Forschende präsentieren einen innovativen Weg, KI-Modelle mit weniger Daten und Zeit zu trainieren.
In Kürze
- Nur 1.000 von 60.000 Fragen für das Training ausgewählt
- Modell s1-32B übertrifft größere Modelle von OpenAI
- Training auf Nvidia-GPUs dauert nur 26 Minuten
Effizientes Training von Künstlicher Intelligenz
Forschende haben einen neuartigen Ansatz entwickelt, um künstliche Intelligenz (KI) effizient zu trainieren, ohne dabei in die Ressourcenfalle zu geraten. Anstatt sich durch einen riesigen Datenpool zu arbeiten, haben sie aus fast 60.000 Fragen und Antworten lediglich 1.000 ausgewählt. Diese Auswahl ist anspruchsvoll, deckt verschiedene Themenbereiche ab und zeichnet sich durch hohe Qualität aus.
Mit diesen sorgfältig ausgewählten Daten wurde ein KI-Sprachmodell entwickelt, das auf dem Qwen2.5-Modell basiert und beeindruckende 32 Milliarden Parameter umfasst. Besonders bemerkenswert ist, dass das Training dieses Modells nur 26 Minuten auf spezialisierten Nvidia-H100-GPUs in Anspruch nahm.
Das Konzept des „Budget Forcing“
Ein weiterer durchdachter Aspekt der Forschenden ist das Konzept des „Budget Forcing“. Hierbei erhält das Modell einen festen Rahmen an Rechenschritten. Wenn dieser überschritten wird, ist es verpflichtet, eine Antwort zu liefern. Sollte es mehr Zeit benötigen, kann es durch das Wort „Wait“ dazu angeregt werden, seine bisherige Antwort zu überprüfen.
Leistungsstärke des s1-32B Modells
In Tests zur Mathematik hat das effizient trainierte Modell, das den Namen s1-32B trägt, sogar besser abgeschnitten als deutlich größere Modelle von OpenAI. Dieser Ansatz verdeutlicht, dass mit einer gezielten Datenauswahl und durchdachten Methoden leistungsstarke KI-Modelle mit weniger Aufwand entwickelt werden können.
Quellen
- Quelle: Stanford University und Allen Institute for AI
- Der ursprüngliche Artikel wurde hier veröffentlicht