Open ASR Leaderboard: Neue Plattform für Spracherkennung im Test

13.10.2025 | Allgemein, KI

Ein internationales Forscherteam hat das Open ASR Leaderboard ins Leben gerufen, um Spracherkennungssysteme fair zu bewerten.

In Kürze

  • Über 60 Spracherkennungsmodelle im Vergleich
  • Bewertungskriterien: Wortfehlerrate und Transkriptionsgeschwindigkeit
  • Open-Source-Modelle oft besser bei kurzen Audios

Einführung des Open ASR Leaderboards

Ein internationales Forscherteam hat eine spannende Bewertungsplattform für Spracherkennungssysteme ins Leben gerufen: das Open ASR Leaderboard. An diesem Projekt sind namhafte Akteure wie Hugging Face, Nvidia, die University of Cambridge und Mistral AI beteiligt. Die Plattform ermöglicht es, über 60 verschiedene Spracherkennungsmodelle fair zu vergleichen und bietet eine transparente Grundlage für die Bewertung ihrer Leistungen.

Kategorien und Bewertungskriterien

Bewertungskategorien

Die Bewertung erfolgt in drei Kategorien:

  • Erkennung von Englisch
  • Mehrsprachigkeit – darunter auch Deutsch und Spanisch
  • Verarbeitung von langen Audiodateien

Hauptkriterien

Hierbei stehen zwei Hauptkriterien im Fokus: die Wortfehlerrate (Word Error Rate, WER) und der Inverse Real-Time Factor (RTFx). Letzterer gibt an, wie schnell eine Audioaufnahme transkribiert wird. Ein RTFx von 100 bedeutet, dass eine Minute Audio in nur 0,6 Sekunden transkribiert wird. Das klingt fast zu gut, um wahr zu sein, oder?

Ergebnisse und Erkenntnisse

Die Ergebnisse der Studie zeigen, dass Modelle, die auf großen Sprachmodellen basieren, die genauesten Ergebnisse liefern, allerdings benötigen sie auch mehr Zeit zur Verarbeitung. Interessanterweise schneiden Modelle, die speziell für eine Sprache optimiert sind, bei Tests in anderen Sprachen oft weniger gut ab. Ein Beispiel dafür ist Microsofts Phi-4-Multimodal-Instruct, das bei deutschsprachigen Tests besonders gut abgeschnitten hat.

Open-Source vs. Kommerzielle Modelle

Ein weiterer spannender Aspekt ist, dass Open-Source-Modelle bei kürzeren Audiosignalen häufig besser abschneiden als ihre kommerziellen Pendants. Bei längeren Audiodateien hingegen führen kommerzielle Anbieter wie Elevenlabs Scribe v1 das Feld an, was darauf hindeutet, dass sie spezielle Optimierungen für diese Anforderungen nutzen.

Zukunftsperspektiven

Das Bewertungssystem ist vollständig auf GitHub verfügbar, was Entwicklern die Möglichkeit gibt, es zu erweitern und neue Modelle einzureichen. In Zukunft sollen noch mehr Sprachen und Messwerte in die Plattform integriert werden, um die Vergleichbarkeit weiter zu verbessern. Das Open ASR Leaderboard könnte also ein wertvolles Werkzeug für alle sein, die sich mit Spracherkennungstechnologien beschäftigen.

Quellen

  • Quelle: Hugging Face, Nvidia, University of Cambridge, Mistral AI
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…