OpenAI präsentiert drei Echtzeit‑Audio‑Modelle: GPT‑Realtime‑2, Translate, Whisper

Was GPT‑Realtime‑2 kann

GPT‑Realtime‑2 ist das neue Live‑Sprachkernmodell. OpenAI behauptet, es verfüge über Reasoning‑Fähigkeiten auf GPT‑5‑Niveau, also sehr tiefes Schlussfolgern. Das Modell ist für laufende Gespräche gebaut: Es kann parallel externe Tools aufrufen, auf Unterbrechungen reagieren und mit kurzen Hinweisen wie „einen Moment“ signalisieren, dass es nachdenkt — statt die Verbindung oder Ausgabe einfach abzubrechen. Fehler werden verbal angezeigt, nicht stillschweigend gestoppt.

Der Tonfall lässt sich gezielter steuern (ruhig, empathisch, fröhlich), und Entwickler können die „Denk‑Intensität“ in fünf Stufen einstellen (von minimal bis xhigh). Standardmäßig läuft das Modell auf „low“ für geringe Verzögerung; höhere Stufen liefern mehr Rechenleistung für komplexere Aufgaben, bringen aber auch mehr Latenz mit sich.

Mehr Kontext: 128.000 Token

GPT‑Realtime‑2 speichert deutlich mehr Gesprächskontext als vorherige Versionen: Der Verlauf steigt von 32.000 auf 128.000 Token. Token sind die Abrechnungseinheit beziehungsweise die Teilstücke von Text oder Audio, mit denen OpenAI rechnet. Das erlaubt längere, komplexere Unterhaltungen und bessere Bezugnahme auf frühere Gesprächsteile.

Benchmarks

OpenAI nennt markante Verbesserungen gegenüber GPT‑Realtime‑1.5. Beispiele: Beim „Big Bench Audio“ erreicht das neue Modell 96,6 % Genauigkeit gegenüber 81,4 % in der High‑Stufe der Vorgängerversion. In der Audio‑MultiChallenge schafft die Stufe „xhigh“ eine Bestehensrate von 48,5 % statt 34,7 %.

Neue Interaktionsmuster

Voice‑to‑Action: Du sprichst die Anweisung; die KI denkt, nutzt Tools und führt die Aufgabe aus (z. B. Reservierungen tätigen oder Formulare ausfüllen).

Systems‑to‑Voice: Software gibt proaktive, gesprochene Hinweise — etwa eine Reise‑App, die dir in Echtzeit sagt, wie du trotz Verspätung noch deinen Anschluss erreichst.

Voice‑to‑Voice: Echtzeit‑Hilfe, damit Gespräche trotz Sprachbarrieren weiterlaufen.

OpenAI plant, diese Funktionen auch in den Audiomodus von ChatGPT zu integrieren.

Übersetzen und Transkribieren in Echtzeit

GPT‑Realtime‑Translate ist für Live‑Übersetzungen gedacht: mehr als 70 Eingabesprachen und 13 Ausgabesprachen werden unterstützt. Ziel sei, Bedeutung und Tempo zu erhalten — auch bei Dialekten und Fachvokabular. Einsatzbereiche nennt OpenAI u. a. Support, Vertrieb, Bildung, Events und Medien.

GPT‑Realtime‑Whisper ist ein Streaming‑Transkriptionsmodell mit niedriger Latenz, ausgelegt für Live‑Untertitel, Meeting‑Notizen, Unterricht oder Broadcasts. Teams können während laufender Gespräche Zusammenfassungen und Folgeprozesse erzeugen.

Verfügbarkeit, Datenschutz und Preise

Die Modelle sind über die Realtime‑API und im Playground verfügbar. EU‑Datenresidenz wird unterstützt, und die Enterprise‑Datenschutzverpflichtungen von OpenAI gelten.

Preise (laut OpenAI):

GPT‑Realtime‑2: 32 US‑Dollar pro 1 Mio. Audio‑Input‑Token (0,40 US‑Dollar für gecachte Eingaben) und 64 US‑Dollar pro 1 Mio. Audio‑Output‑Token.

GPT‑Realtime‑Translate: 0,034 US‑Dollar pro Minute.

GPT‑Realtime‑Whisper: 0,017 US‑Dollar pro Minute.

Quellen

Quelle: OpenAI

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

EU passt AI Act an: Mehr Zeit, klares Verbot, Erleichterungen für KMU

Mai 8, 2026 | Allgemein, KI

EU passt AI Act an: Mehr Zeit, klares Verbot, KMU-Erleichterungen.In KürzeHochrisiko ab Dez 2027; KI in Produkten ab Aug 2028Verbot sexualisierter KI ohne Einwilligung ('Nudification')Kennzeichnung Deepfakes/Text ab 2.8.2026; Erleichterungen für KMU EU einigt sich auf...

Fitbit‑App erhält Gemini‑KI: Health Coach analysiert deine Tracker‑Daten

Mai 8, 2026 | Allgemein, KI

Google überarbeitet die Fitbit‑App: Der Gemini‑basierte Health Coach wertet Tracker‑ und Health‑Connect‑Daten aus und gibt dialogorientierte Empfehlungen.In KürzeGemini interpretiert Fitbit‑ und Health‑Connect‑DatenDialogbasierte Tipps, kein Ersatz für Ärzt:innenTeil...

Kammergericht warnt: KI‑Zitate können nicht existierende Fundstellen sein

Mai 8, 2026 | Allgemein, KI

Berliner Gericht mahnt: Sprachmodelle liefern plausible, aber falsche Rechtzitierungen.In KürzeNicht existierende BGH‑Fundstelle in SchriftsatzRüge; Beschwerde zurückgewiesenSprachmodell‑Ergebnisse vor Einreichung prüfen Vorsicht mit KI-Zitaten: Das Kammergericht...

OpenAI präsentiert drei Echtzeit‑Audio‑Modelle: GPT‑Realtime‑2, Translate, Whisper

In Kürze

Was GPT‑Realtime‑2 kann

Mehr Kontext: 128.000 Token

Benchmarks

Neue Interaktionsmuster

Übersetzen und Transkribieren in Echtzeit

Verfügbarkeit, Datenschutz und Preise

Preise (laut OpenAI):

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

EU passt AI Act an: Mehr Zeit, klares Verbot, Erleichterungen für KMU

Fitbit‑App erhält Gemini‑KI: Health Coach analysiert deine Tracker‑Daten

Kammergericht warnt: KI‑Zitate können nicht existierende Fundstellen sein

Über uns

Dein Thema?

Pickert GmbH