Apple hat eine neue Spracherkennungstechnologie vorgestellt, die bestehende Transkriptionstools bei der Verarbeitungsgeschwindigkeit deutlich übertrifft. Das Unternehmen stellte SpeechAnalyzer und SpeechTranscriber als Teil seiner Entwickler-Beta-Versionen auf der WWDC vor.
John Voorhees von MacStories testete das neue Apple-Framework gegen beliebte Transkriptions-Apps, die auf OpenAIs Whisper-Modell basieren. Seine Tests verwendeten eine 34-minütige, 7GB große Videodatei zum Vergleich der Bearbeitungszeiten verschiedener Tools.
Apples Technologie schloss die Transkription in nur 45 Sekunden ab. MacWhisper mit dem Large V3 Turbo-Modell benötigte 1 Minute und 41 Sekunden. VidCap brauchte 1 Minute und 55 Sekunden, während MacWhispers Large V2-Modell 3 Minuten und 55 Sekunden benötigte.
Der Geschwindigkeitsvorteil entspricht einer 2,2-fachen Verbesserung gegenüber der schnellsten Whisper-basierten Alternative. Voorhees bemerkte, dass die Transkriptionsqualität bei allen getesteten Tools vergleichbar blieb.
Das neue Apple-Framework verarbeitet Audio- und Videodateien direkt auf dem Gerät statt cloudbasierte Dienste zu nutzen. Dieser Ansatz trägt zu den schnelleren Verarbeitungszeiten bei und wahrt gleichzeitig die Privatsphäre der Nutzer.
Alle getesteten Anwendungen zeigten ähnliche Schwierigkeiten mit Eigennamen und Markenbegriffen wie „AppStories.“ Die Tools trennten zusammengesetzte Wörter typischerweise falsch, was jedoch durch Suchen-und-Ersetzen-Vorgänge korrigiert werden kann.
Die SpeechAnalyzer- und SpeechTranscriber-Module funktionieren auf iPhone, iPad, Mac und Vision Pro-Geräten. Sie benötigen die neuesten Entwickler-Beta-Versionen von Apples Betriebssystemen.