Neuer Ansatz für KI-Training: Effizient und ressourcenschonend

06.02.2025 | KI

Forschende präsentieren einen innovativen Weg, KI-Modelle mit weniger Daten und Zeit zu trainieren.

In Kürze

  • Nur 1.000 von 60.000 Fragen für das Training ausgewählt
  • Modell s1-32B übertrifft größere Modelle von OpenAI
  • Training auf Nvidia-GPUs dauert nur 26 Minuten

Effizientes Training von Künstlicher Intelligenz

Forschende haben einen neuartigen Ansatz entwickelt, um künstliche Intelligenz (KI) effizient zu trainieren, ohne dabei in die Ressourcenfalle zu geraten. Anstatt sich durch einen riesigen Datenpool zu arbeiten, haben sie aus fast 60.000 Fragen und Antworten lediglich 1.000 ausgewählt. Diese Auswahl ist anspruchsvoll, deckt verschiedene Themenbereiche ab und zeichnet sich durch hohe Qualität aus.

Mit diesen sorgfältig ausgewählten Daten wurde ein KI-Sprachmodell entwickelt, das auf dem Qwen2.5-Modell basiert und beeindruckende 32 Milliarden Parameter umfasst. Besonders bemerkenswert ist, dass das Training dieses Modells nur 26 Minuten auf spezialisierten Nvidia-H100-GPUs in Anspruch nahm.

Das Konzept des „Budget Forcing“

Ein weiterer durchdachter Aspekt der Forschenden ist das Konzept des „Budget Forcing“. Hierbei erhält das Modell einen festen Rahmen an Rechenschritten. Wenn dieser überschritten wird, ist es verpflichtet, eine Antwort zu liefern. Sollte es mehr Zeit benötigen, kann es durch das Wort „Wait“ dazu angeregt werden, seine bisherige Antwort zu überprüfen.

Leistungsstärke des s1-32B Modells

In Tests zur Mathematik hat das effizient trainierte Modell, das den Namen s1-32B trägt, sogar besser abgeschnitten als deutlich größere Modelle von OpenAI. Dieser Ansatz verdeutlicht, dass mit einer gezielten Datenauswahl und durchdachten Methoden leistungsstarke KI-Modelle mit weniger Aufwand entwickelt werden können.

Quellen

  • Quelle: Stanford University und Allen Institute for AI
  • Der ursprüngliche Artikel wurde hier veröffentlicht

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Nvidia öffnet Warp: Python-Framework jetzt Open Source

Nvidia öffnet Warp: Python-Framework jetzt Open Source

Nvidia hat sein Python-Framework Warp unter die Open-Source-Lizenz Apache 2 gestellt und reagiert damit auf Community-Kritik.In KürzeWarp wandelt Python-Funktionen in Echtzeit in Code um.Das Framework unterstützt sowohl x86- als auch CUDA-GPUs.Integration in...