Googles neue Sprach-KI kannst du steuern wie ein Regisseur beim Film

Google hat Gemini 3.1 Flash TTS veröffentlicht, ein neues Text-to-Speech-Modell. Das Unternehmen bezeichnet es als sein bisher natürlichstes und ausdrucksstärkstes Modell dieser Art. Es ist als Vorschauversion über die Gemini API, Google AI Studio, Vertex AI für Unternehmenskunden sowie Google Vids für Workspace-Nutzer verfügbar.

Das Modell unterstützt mehr als 70 Sprachen und kann Gespräche zwischen mehreren Sprechern verarbeiten. Auf dem Leaderboard von Artificial Analysis, das auf menschlichen Präferenzen in blinden Tests basiert, erreicht das Modell einen Elo-Wert von 1.211. Artificial Analysis ordnet es in die Kategorie mit dem besten Preis-Leistungs-Verhältnis ein.

Audio-Tags: Sprache mit einfachem Text steuern

Die wichtigste Neuerung sind Audio-Tags. Das sind kurze, direkt in den Skripttext eingebettete Anweisungen, die steuern, wie die KI den Text vorliest. Ton, Tempo, Akzent und nicht-verbale Geräusche lassen sich so festlegen und das ohne Code zu schreiben. Beispiele:

„[Read this like you’re excited]: Your script here.“
„This [pause] is amazing!“
„[laugh] That was a great point.“

Google beschreibt diesen Ansatz als eine Art Regiestuhl für Entwickler. In Google AI Studio können Nutzer den Szenenkontext definieren, einzelnen Sprechern Profile zuweisen und die fertige Konfiguration als API-Code exportieren.

Rollout für Unternehmen und Verbraucher

Unternehmenskunden auf Vertex AI erhalten Audio-Tags im Rahmen der Vorschauversion. Workspace-Nutzer nutzen die Funktion über Google Vids, wo 30 neue Stimmoptionen in 24 Sprachen verfügbar sind. Die unterstützten Sprachen in Vids wurden erweitert, unter anderem um Arabisch, Bengali, Hindi, Russisch und Ukrainisch – zusätzlich zu bereits vorhandenen Sprachen wie Englisch, Spanisch, Französisch und Deutsch.

In Google Vids erzeugt das Voiceover-Tool Sprache entweder für eine einzelne Szene oder für alle Szenen gleichzeitig. Skripte dürfen pro Voiceover maximal 2.500 Zeichen umfassen und unterstützen nur reinen Text. Die Oberfläche markiert außerdem veraltete Voiceovers, wenn ein Skript nach der Audioerstellung geändert wurde.

Preise und Wasserzeichen

Laut The Decoder kostet die kostenpflichtige API-Stufe 1,00 US-Dollar pro Million Text-Tokens und 20,00 US-Dollar pro Million Audio-Tokens. Im Batch-Modus halbieren sich diese Preise. Es gibt eine kostenlose Stufe, bei der Google die Daten zur Produktverbesserung verwenden darf. Auf der kostenpflichtigen Stufe verzichtet Google nach eigenen Angaben darauf.

Alle mit dem Modell erzeugten Audiodateien erhalten ein SynthID-Wasserzeichen. Dieses von Google entwickelte, nicht hörbare Wasserzeichen wird direkt in die Audiodatei eingebettet und soll die zuverlässige Erkennung von KI-generierten Inhalten ermöglichen.

Quellen: Google Blog, Google Workspace Updates, Google Help, The Decoder

Audio-Tags: Sprache mit einfachem Text steuern

Rollout für Unternehmen und Verbraucher

Preise und Wasserzeichen

Bleib auf dem Laufenden

Mehr zum Thema: