Forscher vom MIT-IBM Watson AI Lab haben eine innovative Technik entwickelt, die toxische Sprache in großen Sprachmodellen minimiert.
In Kürze
- Technik namens „self-disciplined autoregressive sampling“ (SASA)
- Reduziert toxische Inhalte ohne Umtraining der Modelle
- Verbesserung der Sprachsicherheit und Reduzierung von Vorurteilen
Spannende neue Methode zur Reduzierung toxischer Sprache in Sprachmodellen
Forscher vom MIT-IBM Watson AI Lab haben eine spannende neue Methode entwickelt, die große Sprachmodelle (LLMs) dazu bringt, weniger toxische Sprache zu verwenden, ohne dass die Flüssigkeit ihrer Ausgaben leidet. Die Technik trägt den Namen „self-disciplined autoregressive sampling“ (SASA) und funktioniert auf eine clevere Art und Weise: Statt das Sprachmodell umzutrainieren oder zusätzliche Belohnungsmodelle einzuführen, identifiziert SASA direkt im Modell die Grenzwerte zwischen toxischen und nicht-toxischen Sprachräumen.
Funktionsweise von SASA
Wie funktioniert das Ganze? Während ein Satz generiert wird, bewertet das Verfahren die Toxizität in Echtzeit und wählt Wörter aus, die eher im nicht-toxischen Bereich angesiedelt sind. So wird verhindert, dass die Modelle gefährliche oder voreingenommene Inhalte produzieren, die oft aus problematischen öffentlich zugänglichen Daten stammen.
Testergebnisse und Nebenwirkungen
Die Forscher haben SASA an verschiedenen Modellen getestet und dabei eine deutliche Reduktion toxischer Sprachinhalte festgestellt. Allerdings gab es einen kleinen Wermutstropfen: Die Sprachflüssigkeit wurde in gewissem Maße beeinträchtigt. Ein interessanter Nebeneffekt der Methode war die Reduzierung geschlechtsspezifischer Vorurteile in den Ausgaben der Modelle.
Zukunftsperspektiven von SASA
Insgesamt zeigt SASA vielversprechende Ansätze, um Sprachmodelle sicherer und werteorientierter zu gestalten. Die Technik könnte in Zukunft auch auf andere menschliche Werte wie Wahrheit, Hilfe und Loyalität ausgeweitet werden – und das ohne großen zusätzlichen Rechenaufwand. Das könnte für die Entwicklung von KI-Anwendungen, die verantwortungsbewusster mit Sprache umgehen, von großer Bedeutung sein.
Quellen
- Quelle: Massachusetts Institute of Technology
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.