Neue Methode reduziert toxische Sprache in KI-Modellen

15.04.2025 | Allgemein, KI

Forscher vom MIT-IBM Watson AI Lab haben eine innovative Technik entwickelt, die toxische Sprache in großen Sprachmodellen minimiert.

In Kürze

  • Technik namens „self-disciplined autoregressive sampling“ (SASA)
  • Reduziert toxische Inhalte ohne Umtraining der Modelle
  • Verbesserung der Sprachsicherheit und Reduzierung von Vorurteilen

Spannende neue Methode zur Reduzierung toxischer Sprache in Sprachmodellen

Forscher vom MIT-IBM Watson AI Lab haben eine spannende neue Methode entwickelt, die große Sprachmodelle (LLMs) dazu bringt, weniger toxische Sprache zu verwenden, ohne dass die Flüssigkeit ihrer Ausgaben leidet. Die Technik trägt den Namen „self-disciplined autoregressive sampling“ (SASA) und funktioniert auf eine clevere Art und Weise: Statt das Sprachmodell umzutrainieren oder zusätzliche Belohnungsmodelle einzuführen, identifiziert SASA direkt im Modell die Grenzwerte zwischen toxischen und nicht-toxischen Sprachräumen.

Funktionsweise von SASA

Wie funktioniert das Ganze? Während ein Satz generiert wird, bewertet das Verfahren die Toxizität in Echtzeit und wählt Wörter aus, die eher im nicht-toxischen Bereich angesiedelt sind. So wird verhindert, dass die Modelle gefährliche oder voreingenommene Inhalte produzieren, die oft aus problematischen öffentlich zugänglichen Daten stammen.

Testergebnisse und Nebenwirkungen

Die Forscher haben SASA an verschiedenen Modellen getestet und dabei eine deutliche Reduktion toxischer Sprachinhalte festgestellt. Allerdings gab es einen kleinen Wermutstropfen: Die Sprachflüssigkeit wurde in gewissem Maße beeinträchtigt. Ein interessanter Nebeneffekt der Methode war die Reduzierung geschlechtsspezifischer Vorurteile in den Ausgaben der Modelle.

Zukunftsperspektiven von SASA

Insgesamt zeigt SASA vielversprechende Ansätze, um Sprachmodelle sicherer und werteorientierter zu gestalten. Die Technik könnte in Zukunft auch auf andere menschliche Werte wie Wahrheit, Hilfe und Loyalität ausgeweitet werden – und das ohne großen zusätzlichen Rechenaufwand. Das könnte für die Entwicklung von KI-Anwendungen, die verantwortungsbewusster mit Sprache umgehen, von großer Bedeutung sein.

Quellen

  • Quelle: Massachusetts Institute of Technology
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…