OpenAI hat drei neue Audio-Sprachmodelle über seine Realtime API veröffentlicht. Jedes Modell erfüllt eine andere Aufgabe: Reasoning, Übersetzung und Transkription.
Das erste Modell, GPT-Realtime-2, bringt Reasoning auf GPT-5-Niveau in Live-Gespräche. Laut OpenAI kann es komplexe Anfragen bearbeiten, Unterbrechungen verarbeiten und externe Tools aufrufen, ohne den Gesprächsfluss zu unterbrechen.
Das zweite Modell, GPT-Realtime-Translate, übersetzt gesprochene Sprache in Echtzeit. Es unterstützt 70 Eingabesprachen und wandelt Sprache in 13 Ausgabesprachen um und das im Tempo des Sprechers.
Das dritte Modell, GPT-Realtime-Whisper, ist auf Transkription ausgelegt. OpenAI beschreibt es als Streaming-Modell mit geringer Latenz, das gesprochene Wörter sofort in Text umwandelt. Mögliche Anwendungen sind Live-Untertitel und Mitschriften von Meetings.
Die Preise unterscheiden sich je nach Modell:
- GPT-Realtime-2: 32 US-Dollar pro Million Audio-Input-Token, 64 US-Dollar pro Million Audio-Output-Token
- GPT-Realtime-Translate: 0,034 US-Dollar pro Minute
- GPT-Realtime-Whisper: 0,017 US-Dollar pro Minute
Alle drei Modelle lassen sich in OpenAIs Playground testen. OpenAI gibt an, die Modelle sollen Entwicklern helfen, eine neue Klasse von Sprachanwendungen zu bauen.
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
