OpenAI präsentiert drei Echtzeit‑Audio‑Modelle: GPT‑Realtime‑2, Translate, Whisper

08.05.2026 | Allgemein, KI

OpenAI bringt GPT‑Realtime‑2 und zwei Spezialmodelle für Live‑Übersetzung und Transkription — sofort via Realtime‑API und Playground.

In Kürze

  • GPT‑Realtime‑2: tiefes Reasoning, Tonsteuerung und 128.000 Token Kontext
  • GPT‑Realtime‑Translate: Live‑Übersetzungen in mehr als 70 Eingabesprachen
  • GPT‑Realtime‑Whisper: Streaming‑Transkription mit niedriger Latenz; Preise & EU‑Datenresidenz

OpenAI hat drei neue Echtzeit‑Audio‑Modelle angekündigt: GPT‑Realtime‑2, GPT‑Realtime‑Translate und GPT‑Realtime‑Whisper. Alle drei sind ab sofort über die Realtime‑API und im Playground verfügbar. Laut OpenAI sollen die Modelle Gespräche besser verstehen, längeren Kontext behalten, Werkzeuge parallel nutzen und in Echtzeit reagieren.

Was GPT‑Realtime‑2 kann

GPT‑Realtime‑2 ist das neue Live‑Sprachkernmodell. OpenAI behauptet, es verfüge über Reasoning‑Fähigkeiten auf GPT‑5‑Niveau, also sehr tiefes Schlussfolgern. Das Modell ist für laufende Gespräche gebaut: Es kann parallel externe Tools aufrufen, auf Unterbrechungen reagieren und mit kurzen Hinweisen wie „einen Moment“ signalisieren, dass es nachdenkt — statt die Verbindung oder Ausgabe einfach abzubrechen. Fehler werden verbal angezeigt, nicht stillschweigend gestoppt.

Der Tonfall lässt sich gezielter steuern (ruhig, empathisch, fröhlich), und Entwickler können die „Denk‑Intensität“ in fünf Stufen einstellen (von minimal bis xhigh). Standardmäßig läuft das Modell auf „low“ für geringe Verzögerung; höhere Stufen liefern mehr Rechenleistung für komplexere Aufgaben, bringen aber auch mehr Latenz mit sich.

Mehr Kontext: 128.000 Token

GPT‑Realtime‑2 speichert deutlich mehr Gesprächskontext als vorherige Versionen: Der Verlauf steigt von 32.000 auf 128.000 Token. Token sind die Abrechnungseinheit beziehungsweise die Teilstücke von Text oder Audio, mit denen OpenAI rechnet. Das erlaubt längere, komplexere Unterhaltungen und bessere Bezugnahme auf frühere Gesprächsteile.

Benchmarks

OpenAI nennt markante Verbesserungen gegenüber GPT‑Realtime‑1.5. Beispiele: Beim „Big Bench Audio“ erreicht das neue Modell 96,6 % Genauigkeit gegenüber 81,4 % in der High‑Stufe der Vorgängerversion. In der Audio‑MultiChallenge schafft die Stufe „xhigh“ eine Bestehensrate von 48,5 % statt 34,7 %.

Neue Interaktionsmuster

  • Voice‑to‑Action: Du sprichst die Anweisung; die KI denkt, nutzt Tools und führt die Aufgabe aus (z. B. Reservierungen tätigen oder Formulare ausfüllen).
  • Systems‑to‑Voice: Software gibt proaktive, gesprochene Hinweise — etwa eine Reise‑App, die dir in Echtzeit sagt, wie du trotz Verspätung noch deinen Anschluss erreichst.
  • Voice‑to‑Voice: Echtzeit‑Hilfe, damit Gespräche trotz Sprachbarrieren weiterlaufen.

OpenAI plant, diese Funktionen auch in den Audiomodus von ChatGPT zu integrieren.

Übersetzen und Transkribieren in Echtzeit

GPT‑Realtime‑Translate ist für Live‑Übersetzungen gedacht: mehr als 70 Eingabesprachen und 13 Ausgabesprachen werden unterstützt. Ziel sei, Bedeutung und Tempo zu erhalten — auch bei Dialekten und Fachvokabular. Einsatzbereiche nennt OpenAI u. a. Support, Vertrieb, Bildung, Events und Medien.

GPT‑Realtime‑Whisper ist ein Streaming‑Transkriptionsmodell mit niedriger Latenz, ausgelegt für Live‑Untertitel, Meeting‑Notizen, Unterricht oder Broadcasts. Teams können während laufender Gespräche Zusammenfassungen und Folgeprozesse erzeugen.

Verfügbarkeit, Datenschutz und Preise

Die Modelle sind über die Realtime‑API und im Playground verfügbar. EU‑Datenresidenz wird unterstützt, und die Enterprise‑Datenschutzverpflichtungen von OpenAI gelten.

Preise (laut OpenAI):

  • GPT‑Realtime‑2: 32 US‑Dollar pro 1 Mio. Audio‑Input‑Token (0,40 US‑Dollar für gecachte Eingaben) und 64 US‑Dollar pro 1 Mio. Audio‑Output‑Token.
  • GPT‑Realtime‑Translate: 0,034 US‑Dollar pro Minute.
  • GPT‑Realtime‑Whisper: 0,017 US‑Dollar pro Minute.

Quellen

  • Quelle: OpenAI
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…