Echovo wandelt Text lokal in Sprache um und klont Stimmen auf dem iPhone – kostenlos.
In Kürze
- Qwen3‑TTS lokal
- Cloning ab ≈3s, Modelle 1,9GB
- Geräteabhängige Leistung
Neu auf dem iPhone: Echovo erzeugt Sprachaufnahmen aus Text und klont Stimmen – komplett lokal und kostenlos.
Die wichtigsten Fakten zuerst:
Echovo nutzt das Open‑Source‑TTS‑Modell Qwen3‑TTS von Alibaba Cloud, das im Januar 2026 veröffentlicht wurde und nach Angaben der Entwickler mit rund fünf Millionen Stunden Sprachdaten trainiert ist. Anders als viele bekannte Angebote, die auf Rechenzentren setzen (etwa von ElevenLabs oder OpenAI), ist Qwen3‑TTS darauf ausgelegt, direkt auf Endgeräten zu laufen – ohne Cloud‑Verbindung und ohne laufende Kosten.
Wie gut klingt das?
In Tests wirken die erzeugten Stimmen insgesamt überzeugend: Melodie und charakteristische Eigenheiten werden häufig gut getroffen. Schwächen treten vor allem bei Akzenten und Dialekten auf; hier klingt das Klonen mitunter noch künstlich. Vereinzelt berichten Nutzer:innen außerdem von unterschiedlichen Ergebnissen je nach Gerät.
Kurz zur Technik
Echovo läuft mit dem MLX‑Framework, das Apples Chips beschleunigt: GPU und die Neural Engine werden genutzt, damit das Modell effizient im Speicher liegt. Nach der Installation kannst du zwei Modelle herunterladen, jeweils etwa 1,9 GB groß:
- Base‑Modell: ausreichend für Standard‑TTS und Voice‑Cloning.
- CustomVoice: ermöglicht mehrere auswählbare Stimmen.
Was praktisch wichtig ist
- Für Voice‑Cloning reichen bereits rund drei Sekunden Ausgangsaufnahme.
- Die App zeigt Echtzeit‑Metriken wie Real‑Time‑Factor (RTF) (eine Kennzahl zur Verarbeitungszeit), RAM‑Verbrauch, Eingabelänge und Chip‑Wärme.
- In Tests lief die Erzeugung stellenweise schneller als die Aufnahme (bei einem Versuch auf einem Mac mit M4 Pro). Auf einem iPhone 17 Pro Max wurde ein geklonter Clip mit einem RTF von 4,074 erzeugt.
- Für beste Performance empfehlen die Entwickler ein iPhone mit A17 Pro oder neuer; außerdem brauchst du Speicherplatz für die Modelle.
Stabilität und Verfügbarkeit
Bei unseren Versuchen funktionierte die Generierung problemlos. Gleichzeitig melden einige Nutzer:innen, dass die Qualität und Geschwindigkeit geräteabhängig schwanken können. Die App speichert alles lokal, sodass keine Daten an externe Server gesendet werden müssen.
Was das praktisch bedeutet
Echovo demonstriert, dass hochwertige Text‑zu‑Sprache‑Erzeugung und Voice‑Cloning heute ohne Cloud‑Verbindung auf Smartphones möglich sind. Damit entfällt Laufzeitkostenpflicht für Cloud‑Rechenleistung, gleichzeitig fallen lokaler Speicherbedarf und unterschiedliche Leistung je nach Gerät an.
Quellen
- Quelle: Echovo
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




