ElevenLabs greift Spotify und Audible mit eigenem Hörbuch-Dienst an

ElevenLabs, das KI-Sprachunternehmen mit einem Marktwert von 11 Milliarden Dollar, steigt in den Hörbuch-Streamingmarkt ein. Der direkte Wettbewerb richtet sich gegen Spotify und Audible. Laut einem Bericht von Ashley Carman für Bloomberg hat das Unternehmen Lizenzen für 200.000 von Menschen eingesprochene Hörbücher erworben. Zu den Verlagspartnern zählen HarperCollins, Blackstone Publishing und Vinci Books. Die Titel …

Weiterlesen …

Spotify startet KI-Tools für Podcasts und Hörbücher

Spotify hat zwei neue KI-gestützte Tools für die Audioerstellung angekündigt: eine Desktop-App zum Erstellen persönlicher Podcasts und ein Hörbuch-Tool in Zusammenarbeit mit dem Sprachmodell-Unternehmen ElevenLabs. Die neue Desktop-App trägt den Namen Studio by Spotify Labs. Sie erstellt Podcasts auf Basis persönlicher Daten wie E-Mails, Kalendereinträgen und Reisebuchungen. Ein integrierter Agent durchsucht das Web und greift …

Weiterlesen …

Google aktualisiert Flow und Flow Music mit neuem KI-Modell und mobilen Apps

Google hat eine Reihe von Neuerungen für seine KI-gestützten Kreativplattformen Google Flow und Google Flow Music angekündigt. Die Änderungen wurden auf der Google I/O, der jährlichen Entwicklerkonferenz des Unternehmens, vorgestellt. Sie umfassen ein neues KI-Modell, einen agentischen Assistenten, benutzerdefinierte Werkzeuge und mobile Anwendungen. Google Flow ist ein KI-Kreativstudio, mit dem Nutzer mithilfe natürlicher Sprache Videos …

Weiterlesen …

KI-Musik: Stability AI veröffentlicht Stable Audio 3.0 mit offenen Modellgewichten

Stability AI hat Stable Audio 3.0 veröffentlicht, eine neue Familie von KI-Modellen zur Audiogenerierung. Alle Modelle wurden mit lizenzierten Musikdaten trainiert. Drei der vier Modelle sind als Open-Weight-Modelle frei verfügbar, das heißt, sie können heruntergeladen und weiterentwickelt werden. Die vier Modelle im Überblick: Small SFX, Small und Medium stehen auf Hugging Face zum Download bereit. …

Weiterlesen …

Alexa+ produziert Podcasts nach Wunsch mit KI

Amazon hat seinen KI-Sprachassistenten Alexa+ um eine Podcast-Funktion erweitert. Todd Spangler berichtet für Variety, dass das neue Feature namens Alexa Podcasts Audioepisoden vollständig durch künstliche Intelligenz erstellt, mit zwei synthetischen Stimmen als Gastgeber. Nutzer nennen Alexa+ per Sprache ein gewünschtes Thema. Der Assistent erstellt daraufhin eine Übersicht des geplanten Inhalts. Länge und Schwerpunkte lassen sich …

Weiterlesen …

OpenAI: Neue Modelle für Reasoning, Übersetzung und Transkription in der Sprach-API

OpenAI hat drei neue Audio-Sprachmodelle über seine Realtime API veröffentlicht. Jedes Modell erfüllt eine andere Aufgabe: Reasoning, Übersetzung und Transkription. Das erste Modell, GPT-Realtime-2, bringt Reasoning auf GPT-5-Niveau in Live-Gespräche. Laut OpenAI kann es komplexe Anfragen bearbeiten, Unterbrechungen verarbeiten und externe Tools aufrufen, ohne den Gesprächsfluss zu unterbrechen. Das zweite Modell, GPT-Realtime-Translate, übersetzt gesprochene Sprache …

Weiterlesen …

KI-Musik überflutet Streaming-Dienste

Künstliche Intelligenz produziert Musik in einem Ausmaß, das die Streaming-Branche grundlegend verändert. Der französische Streaming-Dienst Deezer meldet, dass täglich 75.000 KI-generierte Tracks auf die Plattform hochgeladen werden. Das entspricht rund 44 Prozent aller täglichen Uploads. Spotify löschte innerhalb eines Jahres mehr als 75 Millionen Spam-Tracks. Der Anstieg wird vor allem durch Tools wie Suno und …

Weiterlesen …

Googles neue Sprach-KI kannst du steuern wie ein Regisseur beim Film

Google hat Gemini 3.1 Flash TTS veröffentlicht, ein neues Text-to-Speech-Modell. Das Unternehmen bezeichnet es als sein bisher natürlichstes und ausdrucksstärkstes Modell dieser Art. Es ist als Vorschauversion über die Gemini API, Google AI Studio, Vertex AI für Unternehmenskunden sowie Google Vids für Workspace-Nutzer verfügbar. Das Modell unterstützt mehr als 70 Sprachen und kann Gespräche zwischen …

Weiterlesen …

Googles Lyria 3 Pro komponiert jetzt ganze Songs

Google hat sein KI-Musikmodell Lyria 3 Pro vorgestellt. Myriam Hamed Torres schreibt für Google DeepMind, dass das Modell Tracks von bis zu drei Minuten Länge erzeugen kann. Dabei versteht es musikalische Strukturen wie Intros, Verse, Refrains und Bridges. Das Modell ist auf mehreren Google-Plattformen verfügbar. Unternehmen können es über Vertex AI für die Produktion großer …

Weiterlesen …

Google macht KI-Gespräche via Audio natürlicher

Google hat Gemini 3.1 Flash Live veröffentlicht. Valeria Wu und Yifan Ding schreiben im Google Blog, dass das Modell schneller antwortet und natürlichere Gespräche ermöglicht als sein Vorgänger. Das Modell ist in mehreren Google-Produkten verfügbar. Entwicklerinnen und Entwickler können es über die Gemini Live API in Google AI Studio nutzen. Unternehmen haben Zugang über Gemini …

Weiterlesen …

×