OpenAI: Neue Modelle für Reasoning, Übersetzung und Transkription in der

OpenAI hat drei neue Audio-Sprachmodelle über seine Realtime API veröffentlicht. Jedes Modell erfüllt eine andere Aufgabe: Reasoning, Übersetzung und Transkription.

Das erste Modell, GPT-Realtime-2, bringt Reasoning auf GPT-5-Niveau in Live-Gespräche. Laut OpenAI kann es komplexe Anfragen bearbeiten, Unterbrechungen verarbeiten und externe Tools aufrufen, ohne den Gesprächsfluss zu unterbrechen.

Das zweite Modell, GPT-Realtime-Translate, übersetzt gesprochene Sprache in Echtzeit. Es unterstützt 70 Eingabesprachen und wandelt Sprache in 13 Ausgabesprachen um und das im Tempo des Sprechers.

Das dritte Modell, GPT-Realtime-Whisper, ist auf Transkription ausgelegt. OpenAI beschreibt es als Streaming-Modell mit geringer Latenz, das gesprochene Wörter sofort in Text umwandelt. Mögliche Anwendungen sind Live-Untertitel und Mitschriften von Meetings.

Die Preise unterscheiden sich je nach Modell:

GPT-Realtime-2: 32 US-Dollar pro Million Audio-Input-Token, 64 US-Dollar pro Million Audio-Output-Token
GPT-Realtime-Translate: 0,034 US-Dollar pro Minute
GPT-Realtime-Whisper: 0,017 US-Dollar pro Minute

Alle drei Modelle lassen sich in OpenAIs Playground testen. OpenAI gibt an, die Modelle sollen Entwicklern helfen, eine neue Klasse von Sprachanwendungen zu bauen.

Quellen: OpenAI, 9to5Mac

OpenAI: Neue Modelle für Reasoning, Übersetzung und Transkription in der Sprach-API

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen