Stability AI und Arm präsentieren revolutionäres KI-Audio-Modell für Smartphones

19.05.2025 | Allgemein, KI

Ein neues KI-Modell von Stability AI und Arm könnte die Audioerzeugung auf Smartphones revolutionieren.

In Kürze

  • Generiert Stereo-Audio mit nur 341 Millionen Parametern
  • Optimiert für mobile Geräte mit minimalem Speicherbedarf
  • Open-Source-Software mit kreativen Möglichkeiten für Entwickler

Einführung des neuen KI-Modells von Stability AI und Arm

Stability AI und Arm haben ein neues KI-Modell auf den Markt gebracht, das die Art und Weise, wie wir Audio auf unseren Smartphones erzeugen, verändern könnte. Das Modell mit dem klangvollen Namen „Stable Audio Open Small“ ist in der Lage, Stereo-Audiodateien von bis zu elf Sekunden Länge zu generieren – und das mit einem minimalen Speicherbedarf. Es wurde speziell für mobile Geräte optimiert und könnte damit die Tür zu neuen kreativen Möglichkeiten öffnen.

Kompakte Bauweise des Modells

Das Besondere an diesem Modell ist seine kompakte Bauweise. Mit nur 341 Millionen Parametern und einem Speicherverbrauch von lediglich 3,6 Gigabyte ist es leichtgewichtig genug, um auf leistungsfähigen Smartphones wie dem Vivo X200 Pro zu laufen. Das System arbeitet mit einem dreiteiligen Ansatz: Es nutzt einen Autoencoder, ein Embedding-System zur Textverarbeitung und ein Diffusionsmodell zur Audioerzeugung. So werden Textbeschreibungen in hörbare Audiosignale umgewandelt – eine spannende Entwicklung für alle, die mit Soundeffekten arbeiten.

Einschränkungen und Herausforderungen

Allerdings gibt es noch einige Einschränkungen. Die Musikproduktion und die Erzeugung von Gesangsstimmen sind derzeit noch nicht optimal umgesetzt, und das Modell funktioniert momentan am besten mit englischsprachigen Anweisungen. Das könnte für viele Nutzer eine kleine Hürde darstellen, aber die Möglichkeiten, die sich aus der Audioerzeugung ergeben, sind dennoch vielversprechend.

Training und Open-Source-Verfügbarkeit

Das Modell wurde mit über 472.000 Sounddateien aus einer freien Lizenz-Datenbank trainiert und steht als Open-Source-Software zur Verfügung. Das bedeutet, dass Entwickler den Quellcode und die Modellgewichte online einsehen können. Für die kommerzielle Nutzung gelten jedoch separate Lizenzbedingungen, was für Entwickler, die audiobasierte Anwendungen auf mobilen Geräten erstellen möchten, von Bedeutung ist.

Fazit

Insgesamt bietet „Stable Audio Open Small“ eine spannende neue Möglichkeit, Audio auf Smartphones zu generieren und könnte die Kreativität von Entwicklern und Nutzern anregen.

Quellen

  • Quelle: Stability AI
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

The OpenAI Files: Transparenz in der KI-Entwicklung gefordert

Eine neue Plattform beleuchtet die KI-Entwicklung bei OpenAI und fordert mehr Transparenz.In KürzeÖffentliche Sammlung von Berichten ehemaliger MitarbeitenderFokus auf CEO Sam Altman und seine RolleDebatte über ethische Implikationen und Renditen für Investoren The...

MITs SEAL: KI lernt selbstständig und effizient

MITs SEAL: KI lernt selbstständig und effizient

Ein innovatives System am MIT verändert die Lernweise von KI-Modellen grundlegend.In KürzeSEAL generiert und bewertet eigenes TrainingsmaterialPräzisere Informationen und bessere ProblemlösungsfähigkeitenHerausforderungen wie „Catastrophic Forgetting“ bleiben bestehen...

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google bringt sprachgesteuerten KI-Chatbot in Live-Suche

Google hat seine Live-Suche mit einem neuen KI-Chatbot aufgewertet, der gesprochene Antworten liefert.In KürzeSprachgesteuerter Chatbot liefert Antworten in gesprochener FormTestphase in den USA, Teilnahme über Google LabsGeplante Erweiterung um Bildinformationen für...