Google macht KI-Gespräche via Audio natürlicher

Google hat Gemini 3.1 Flash Live veröffentlicht. Valeria Wu und Yifan Ding schreiben im Google Blog, dass das Modell schneller antwortet und natürlichere Gespräche ermöglicht als sein Vorgänger.

Das Modell ist in mehreren Google-Produkten verfügbar. Entwicklerinnen und Entwickler können es über die Gemini Live API in Google AI Studio nutzen. Unternehmen haben Zugang über Gemini Enterprise for Customer Experience. Alle anderen Nutzerinnen und Nutzer begegnen dem Modell in Gemini Live und Search Live.

Google verweist auf verbesserte Ergebnisse in mehreren Benchmarks. Bei ComplexFuncBench Audio, das mehrstufige Aufgaben testet, erreicht das Modell 90,8 Prozent. Bei Scale AIs Audio MultiChallenge, das logisches Denken unter realistischen Audiobedingungen prüft, erzielt es 36,1 Prozent im sogenannten „Thinking“-Modus.

Das Modell erkennt außerdem akustische Merkmale wie Tonlage und Sprechtempo besser. Es passt seinen eigenen Ton an, wenn Nutzerinnen oder Nutzer Frustration oder Verwirrung zeigen.

In Gemini Live verfolgt das Modell doppelt so lange Gesprächsverläufe wie bisher. Das ist besonders bei längeren Unterhaltungen hilfreich. Außerdem antwortet es schneller als die Vorgängerversion.

Google weitet Search Live diese Woche auf mehr als 200 Länder und Gebiete aus. Möglich macht das die mehrsprachige Fähigkeit des Modells.

Alle vom Modell erzeugten Audioinhalte enthalten ein nicht wahrnehmbares Wasserzeichen des SynthID-Systems, das KI-generierte Inhalte kennzeichnet.

Google macht KI-Gespräche via Audio natürlicher

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen