ElevenLabs hat Scribe v1 veröffentlicht, ein neues Spracherkennungsmodell mit Höchstwerten bei der Genauigkeit in 99 Sprachen. Wie Carl Franzen für VentureBeat berichtet, übertrifft das Modell Konkurrenzprodukte von Google, OpenAI und Deepgram mit einer Genauigkeitsrate von 96,7% für Englisch. Scribe kann bis zu 32 verschiedene Sprecher in einer Audiodatei unterscheiden und erkennt nichtverbale Elemente wie Lachen und Hintergrundgeräusche. Das Unternehmen hebt besonders die Leistung in bisher vernachlässigten Sprachen wie Serbisch, Kantonesisch und Malayalam hervor. Zum Preis von 0,40 Dollar pro Stunde Audiomaterial (mit einem vorübergehenden Rabatt von 50%) richtet sich Scribe an Unternehmen, die hochpräzise Transkriptionen benötigen. Eine Version mit geringer Latenz für Echtzeitanwendungen ist in Entwicklung. Die Markteinführung erfolgte zeitgleich mit dem Launch von Octave durch Konkurrent Hume AI, einem emotionsanpassbaren Text-zu-Sprache-Modell, das als kostengünstigere Alternative zu ElevenLabs‘ Sprachdiensten positioniert wird.