ElevenLabs präsentiert mit Scribe ein neues Spracherkennungsmodell, das gesprochene Sprache präzise in Text umwandelt.
In Kürze
- Unterstützung für 99 Sprachen mit hoher Genauigkeit
- Erkennung von nicht-verbalen Elementen wie Lachen und Geräuschen
- Unterscheidung von bis zu 32 Sprechern in einer Aufnahme
Einführung von Scribe durch ElevenLabs
ElevenLabs, ein Unternehmen, das sich auf Sprachsynthese spezialisiert hat, hat mit Scribe ein neues Spracherkennungsmodell auf den Markt gebracht. Dieses Tool kann gesprochene Sprache aus 99 verschiedenen Sprachen in Text umwandeln – und das mit bemerkenswerter Präzision.
Erkennung nicht-verbaler Elemente
Ein besonders interessantes Merkmal von Scribe ist die Fähigkeit, nicht-verbale Elemente zu erkennen. Das bedeutet, dass das Modell nicht nur Worte transkribiert, sondern auch Lachen, Soundeffekte und Hintergrundgeräusche identifizieren kann. Dies trägt dazu bei, die Transkription lebendiger und authentischer zu gestalten.
Unterscheidung mehrerer Sprecher
Darüber hinaus kann Scribe bis zu 32 verschiedene Sprecher in einer einzigen Audioaufnahme unterscheiden. Dies erweist sich als besonders nützlich für Interviews oder Gruppendiskussionen, in denen mehrere Personen zu Wort kommen.
Kosten und Marktpositionierung
Für die Nutzung des Dienstes verlangt ElevenLabs 0,40 US-Dollar pro Stunde Transkription. Damit positioniert sich das Unternehmen im Wettbewerb mit bereits etablierten Anbietern in diesem Bereich.
Investitionen und Unternehmensbewertung
Kürzlich hat ElevenLabs zudem Investitionen in Höhe von 180 Millionen US-Dollar erhalten, was die Gesamtbewertung des Unternehmens auf 3,3 Milliarden US-Dollar anhebt. Damit zeigt ElevenLabs, dass es ernsthaft im Rennen um die Spitze der Spracherkennungstechnologie mitspielen möchte.
Quellen
- Quelle: ElevenLabs
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.