Nvidia veröffentlicht kostenloses Spracherkennungsmodell

Nvidia hat ein neues Open-Source-Modell zur automatischen Spracherkennung namens Parakeet-TDT-0.6B-v2 veröffentlicht. Das Modell kann laut Bericht des VentureBeat-Journalisten Carl Franzen auf Nvidia-GPU-Hardware 60 Minuten Audio in nur einer Sekunde transkribieren. Es führt aktuell die Hugging Face Open ASR Rangliste mit einer Wortfehlerrate von nur 6,05% an. Das am 1. Mai 2025 veröffentlichte Modell steht unter …

Weiterlesen …

Neues KI-Sprachmodell Dia bietet natürliche Dialogfähigkeiten

Das Startup Nari Labs hat mit Dia ein Open-Source-Sprachmodell veröffentlicht, das natürlich klingende Dialoge erzeugen kann. Wie VentureBeat-Journalist Carl Franzen berichtet, soll das 1,6 Milliarden Parameter umfassende Modell mit Angeboten von ElevenLabs, OpenAI und Googles NotebookLM konkurrieren können. Mitgründer Toby Kim entwickelte Dia „ohne Finanzierung“ mit Unterstützung von Google, das Zugang zu TPU-Chips gewährte. Das …

Weiterlesen …

Groq und PlayAI stellen neues Text-to-Speech-System Dialog vor

Groq und PlayAI haben gemeinsam das Text-to-Speech-System Dialog entwickelt, das natürlicher klingende KI-Stimmen ermöglicht. Wie Michael Nuñez von VentureBeat berichtet, verbindet das System PlayAIs Expertise in Sprach-KI mit Groqs schneller Inferenz-Plattform. Dialog nutzt einen „adaptive speech contextualizer“, der den gesamten Gesprächsverlauf berücksichtigt und so Antworten mit passender Betonung und Emotion erzeugt. Das System ist sowohl …

Weiterlesen …

OpenAI: Neue KI-Modelle für Sprache und Transkription

OpenAI hat drei neue KI-Modelle eingeführt, die Sprache-zu-Text- und Text-zu-Sprache-Funktionen verbessern. Die Modelle gpt-4o-transcribe, gpt-4o-mini-transcribe und gpt-4o-mini-tts bieten Entwicklern höhere Genauigkeit und erweiterte Anpassungsoptionen für Sprachanwendungen. Laut OpenAI übertreffen die neuen Transkriptionsmodelle ihren Vorgänger Whisper deutlich, besonders in lauten Umgebungen und bei verschiedenen Akzenten. Die internen Benchmarks des Unternehmens zeigen, dass das gpt-4o-transcribe-Modell eine Wortfehlerrate …

Weiterlesen …

KI-Stimmklonungsdienste haben mangelhafte Schutzmaßnahmen

Die meisten KI-Dienste zur Stimmklonung bieten unzureichenden Schutz gegen nicht einvernehmliche Stimmimitationen, wie eine Untersuchung von Consumer Reports zeigt. Von sechs führenden öffentlich zugänglichen Tools haben fünf leicht zu umgehende Sicherheitsvorkehrungen. NBC News berichtet, dass vier Dienste (ElevenLabs, Speechify, PlayHT und Lovo) lediglich das Ankreuzen eines Kästchens zur Bestätigung der Autorisierung verlangen. Resemble AI fordert …

Weiterlesen …

ElevenLabs’ Spracherkennungsmodell Scribe liefert 96,7% Genauigkeit

ElevenLabs hat Scribe v1 veröffentlicht, ein neues Spracherkennungsmodell mit Höchstwerten bei der Genauigkeit in 99 Sprachen. Wie Carl Franzen für VentureBeat berichtet, übertrifft das Modell Konkurrenzprodukte von Google, OpenAI und Deepgram mit einer Genauigkeitsrate von 96,7% für Englisch. Scribe kann bis zu 32 verschiedene Sprecher in einer Audiodatei unterscheiden und erkennt nichtverbale Elemente wie Lachen …

Weiterlesen …

Sesame zeigt KI-Assistenten mit natürlicher Gesprächspräsenz

Sesame, ein Startup unter der Leitung des Oculus-Mitbegründers Brendan Iribe, hat einen neuen KI-Sprachassistenten namens Maya vorgestellt, der darauf abzielt, „das Uncanny Valley der Konversationssprache“ zu überwinden. Laut eines kürzlich erschienenen Artikels des Technologiejournalisten Sean Hollister bietet Maya natürlichere und ansprechendere Gespräche im Vergleich zu bestehenden Sprachassistenten wie Amazon’s Alexa oder Google’s Gemini. Das Unternehmen …

Weiterlesen …

Hume AI stellt Octave vor, ein Text-to-Speech-Modell mit emotionalen Steuerelementen

Das Startup Hume AI hat ein neues Text-to-Speech-System namens Octave eingeführt, das emotional nuancierte KI-Stimmen erzeugt. Laut einem Bericht von Carl Franzen für VentureBeat basiert das Modell auf einem Large Language Model, das Ton, Rhythmus und Sprachmelodie kontextabhängig anpassen kann. Nutzer können Emotionen auf Satzebene durch einfache Textbefehle wie „fröhlicher“ oder „sarkastischer“ steuern. Octave richtet …

Weiterlesen …

Spotify erweitert KI-Hörbücher durch ElevenLabs-Kooperation

Der Streaming-Dienst Spotify geht eine neue Partnerschaft mit dem KI-Unternehmen ElevenLabs ein. Wie The Verge berichtet, können Autoren künftig Hörbücher mit der KI-Sprachsynthese von ElevenLabs auf Spotify veröffentlichen. Das System unterstützt 29 Sprachen für die Vertonung. Für die Produktion eines durchschnittlichen Hörbuchs ist ein Pro-Abonnement für 99 Dollar monatlich erforderlich. Spotify will damit besonders kleineren …

Weiterlesen …

Riffusion stellt kostenlose KI-Plattform für personalisierte Musikproduktion vor

Das KI-Startup Riffusion aus San Francisco hat eine neue kostenlose Webplattform zur KI-gestützten Musikproduktion eingeführt. Wie Michael Nuñez bei VentureBeat berichtet, kann das KI-Modell Fuzz vollständige Songs aus Textbeschreibungen, Audioclips oder visuellen Eingaben generieren. Das System lernt dabei die musikalischen Vorlieben der Nutzer kennen und passt sich individuell an. Riffusions CEO Seth Forsgren betont, dass …

Weiterlesen …