Meta hat ein bahnbrechendes KI-System vorgestellt, das die Transkription gesprochener Sprache revolutioniert.
In Kürze
- Unterstützung für über 1.600 Sprachen, darunter 500 seltene Sprachen
- Beeindruckende Fehlerquote von unter 10 % für 78 % der Sprachen
- Open Source: Entwickler:innen können das System weiterentwickeln
Meta stellt Omnilingual ASR vor
Meta hat mit Omnilingual ASR ein neues KI-System vorgestellt, das die Art und Weise, wie wir gesprochene Sprache transkribieren, revolutioniert. Mit der Fähigkeit, über 1.600 Sprachen zu erkennen und zu transkribieren, geht dieses System weit über die Grenzen der gängigen, gut dokumentierten Sprachen hinaus. Besonders bemerkenswert ist, dass Omnilingual ASR etwa 500 Sprachen abdeckt, die bisher kaum Unterstützung fanden. Damit wird ein wichtiger Schritt in Richtung eines universellen Transkriptionssystems gemacht, das Sprachbarrieren weltweit abbaut.
Beeindruckende Leistungsfähigkeit
Die Zahlen sprechen für sich: Für 78 % der unterstützten Sprachen erreicht Omnilingual ASR eine beeindruckende Zeichenfehlerquote von unter zehn Prozent. Besonders gut schneidet das System bei Sprachen ab, für die ausreichend Trainingsdaten zur Verfügung stehen. Aber auch bei sogenannten „Low-Resource“-Sprachen, die oft weniger Daten haben, zeigt das System beachtliche Ergebnisse. Das bedeutet, dass auch weniger verbreitete Sprachen von dieser Technologie profitieren können.
Innovativer „Bring Your Own Language“-Ansatz
Ein weiteres spannendes Merkmal ist der „Bring Your Own Language“-Ansatz. Hierbei kann das System durch In-Context-Learning, also das Lernen aus wenigen Beispielen, schnell auf neue Sprachen angepasst werden. Das bedeutet, dass theoretisch eine Erweiterung auf bis zu 5.400 Sprachen möglich ist, ohne dass dafür ein umfangreiches Training erforderlich ist. Das eröffnet ganz neue Möglichkeiten für die Sprachverarbeitung.
Open Source für Entwickler:innen und Forschende
Meta hat beschlossen, das System und die dazugehörigen Daten als Open Source zur Verfügung zu stellen. Damit erhalten Entwickler:innen und Forschende die Chance, das Modell zu nutzen und weiterzuentwickeln. Ziel ist es, Sprachgemeinschaften, die bisher von digitalen Angeboten oft ausgeschlossen waren, besser zu integrieren und ihnen eine Stimme zu geben.
Quellen
- Quelle: Meta
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




