OpenAI hat drei neue KI-Modelle eingeführt, die Sprache-zu-Text- und Text-zu-Sprache-Funktionen verbessern. Die Modelle gpt-4o-transcribe, gpt-4o-mini-transcribe und gpt-4o-mini-tts bieten Entwicklern höhere Genauigkeit und erweiterte Anpassungsoptionen für Sprachanwendungen.
Laut OpenAI übertreffen die neuen Transkriptionsmodelle ihren Vorgänger Whisper deutlich, besonders in lauten Umgebungen und bei verschiedenen Akzenten. Die internen Benchmarks des Unternehmens zeigen, dass das gpt-4o-transcribe-Modell eine Wortfehlerrate von nur 2,46% im Englischen erreicht, wobei die Leistung je nach Sprache variiert. Bei einigen indischen und dravidischen Sprachen liegt die Fehlerrate bei fast 30%.
Das Text-zu-Sprache-Modell gpt-4o-mini-tts erzeugt natürlicher klingende Sprache und bietet mehr Kontrolle über Stimmqualitäten. Entwickler können durch natürlichsprachliche Anweisungen wie „sprich wie ein verrückter Wissenschaftler“ oder „nutze eine ruhige Stimme wie ein Achtsamkeitslehrer“ anpassen, wie die KI spricht.
Hauptfunktionen und Anwendungen
Diese Modelle lassen sich in die OpenAI-API integrieren und erlauben Entwicklern, Sprachinteraktionen mit minimalen Codeänderungen zu implementieren. Jeff Harris, technischer Mitarbeiter bei OpenAI, erklärte während einer Demonstration, dass bestehende textbasierte Anwendungen mit nur „neun Zeilen Code“ Sprachfunktionen hinzufügen können.
Das Unternehmen sieht diese Modelle als ideal für:
- Kundenservice-Callcenter
- Besprechungstranskription
- KI-gestützte Assistenten
- E-Commerce-Anwendungen mit Sprachinteraktion
Preise und Verfügbarkeit
Die neuen Modelle sind sofort über die OpenAI-API mit folgender Preisstruktur verfügbar:
- gpt-4o-transcribe: 6,00 $ pro Million Audio-Input-Tokens (etwa 0,006 $ pro Minute)
- gpt-4o-mini-transcribe: 3,00 $ pro Million Audio-Input-Tokens (etwa 0,003 $ pro Minute)
- gpt-4o-mini-tts: 0,60 $ pro Million Text-Input-Tokens, 12,00 $ pro Million Audio-Output-Tokens (etwa 0,015 $ pro Minute)
Im Gegensatz zu Whisper, das als Open-Source-Software veröffentlicht wurde, macht OpenAI diese neuen Transkriptionsmodelle nicht öffentlich zugänglich. Harris betonte, dass die Modelle „viel größer als Whisper“ sind und sich nicht für die lokale Ausführung auf Geräten eignen.
Die Modelle stehen im Wettbewerb mit spezialisierten Sprach-KI-Unternehmen wie ElevenLabs, das sein Scribe-Modell zu ähnlichen Preisen anbietet, und Hume AI, das mit seinem Octave TTS-Modell anpassbare Text-zu-Sprache-Funktionen bereitstellt.
Erste Anwender berichten von vielversprechenden Ergebnissen. Das Unternehmen für die Automatisierung von Immobilienverwaltung EliseAI berichtet etwa, dass das neue Text-zu-Sprache-Modell natürlichere Interaktionen mit Mietern ermöglicht. Decagon wiederum verzeichnet eine 30-prozentige Verbesserung der Transkriptionsgenauigkeit.
OpenAI erklärt, dass diese Modelle in die breitere Vision des Unternehmens passen, automatisierte Systeme zu entwickeln, die selbstständig Aufgaben für Benutzer erledigen können, wobei in den kommenden Monaten weitere „Agent“-Anwendungen erwartet werden.
Quellen: TechCrunch, VentureBeat