Echovo fürs iPhone: Stimmen lokal klonen mit Qwen3‑TTS

11.02.2026 | Allgemein, KI

Echovo wandelt Text lokal in Sprache um und klont Stimmen auf dem iPhone – kostenlos.

In Kürze

  • Qwen3‑TTS lokal
  • Cloning ab ≈3s, Modelle 1,9GB
  • Geräteabhängige Leistung

Neu auf dem iPhone: Echovo erzeugt Sprachaufnahmen aus Text und klont Stimmen – komplett lokal und kostenlos.

Die wichtigsten Fakten zuerst:

Echovo nutzt das Open‑Source‑TTS‑Modell Qwen3‑TTS von Alibaba Cloud, das im Januar 2026 veröffentlicht wurde und nach Angaben der Entwickler mit rund fünf Millionen Stunden Sprachdaten trainiert ist. Anders als viele bekannte Angebote, die auf Rechenzentren setzen (etwa von ElevenLabs oder OpenAI), ist Qwen3‑TTS darauf ausgelegt, direkt auf Endgeräten zu laufen – ohne Cloud‑Verbindung und ohne laufende Kosten.

Wie gut klingt das?

In Tests wirken die erzeugten Stimmen insgesamt überzeugend: Melodie und charakteristische Eigenheiten werden häufig gut getroffen. Schwächen treten vor allem bei Akzenten und Dialekten auf; hier klingt das Klonen mitunter noch künstlich. Vereinzelt berichten Nutzer:innen außerdem von unterschiedlichen Ergebnissen je nach Gerät.

Kurz zur Technik

Echovo läuft mit dem MLX‑Framework, das Apples Chips beschleunigt: GPU und die Neural Engine werden genutzt, damit das Modell effizient im Speicher liegt. Nach der Installation kannst du zwei Modelle herunterladen, jeweils etwa 1,9 GB groß:

  • Base‑Modell: ausreichend für Standard‑TTS und Voice‑Cloning.
  • CustomVoice: ermöglicht mehrere auswählbare Stimmen.

Was praktisch wichtig ist

  • Für Voice‑Cloning reichen bereits rund drei Sekunden Ausgangsaufnahme.
  • Die App zeigt Echtzeit‑Metriken wie Real‑Time‑Factor (RTF) (eine Kennzahl zur Verarbeitungszeit), RAM‑Verbrauch, Eingabelänge und Chip‑Wärme.
  • In Tests lief die Erzeugung stellenweise schneller als die Aufnahme (bei einem Versuch auf einem Mac mit M4 Pro). Auf einem iPhone 17 Pro Max wurde ein geklonter Clip mit einem RTF von 4,074 erzeugt.
  • Für beste Performance empfehlen die Entwickler ein iPhone mit A17 Pro oder neuer; außerdem brauchst du Speicherplatz für die Modelle.

Stabilität und Verfügbarkeit

Bei unseren Versuchen funktionierte die Generierung problemlos. Gleichzeitig melden einige Nutzer:innen, dass die Qualität und Geschwindigkeit geräteabhängig schwanken können. Die App speichert alles lokal, sodass keine Daten an externe Server gesendet werden müssen.

Was das praktisch bedeutet

Echovo demonstriert, dass hochwertige Text‑zu‑Sprache‑Erzeugung und Voice‑Cloning heute ohne Cloud‑Verbindung auf Smartphones möglich sind. Damit entfällt Laufzeitkostenpflicht für Cloud‑Rechenleistung, gleichzeitig fallen lokaler Speicherbedarf und unterschiedliche Leistung je nach Gerät an.

Quellen

  • Quelle: Echovo
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Pony AI und Toyota starten Robotaxi-Serienfertigung in China

Pony AI und Toyota starten Robotaxi-Serienfertigung in China

Pony AI und Toyota haben in China mit der Serienfertigung eines vollelektrischen Robotaxis begonnen — ein erster Schritt für eine bis Jahresende stark wachsende Flotte.In KürzeErstes von 1.000 Toyota bZ4X im gemeinsamen Werk produziertPony AI peilt bis Jahresende über...