ElevenLabs startet Musikgenerator mit lizenzierten Daten

Das auf KI-Stimmen spezialisierte Unternehmen ElevenLabs hat einen Dienst zur Musikerzeugung namens Eleven Music veröffentlicht. Laut einem Artikel von Belle Lin im Wall Street Journal trainiert das Unternehmen sein KI-Modell mit lizenzierter Musik, um rechtliche Konflikte zu vermeiden. Nutzer können per Texteingabe in wenigen Minuten einen kompletten Song mit Gesang und Instrumenten erstellen lassen. Laut …

Weiterlesen …

Adobe Firefly erzeugt jetzt KI-Soundeffekte und Video-Avatare

Adobe erweitert seine KI-Modelle der Firefly-Familie um neue Videofunktionen. Das berichtet Sabrina Ortiz für ZDNet. Nutzer können nun Soundeffekte aus einfachen Textbeschreibungen generieren. Eine Besonderheit ist die Möglichkeit, mit der eigenen Stimme den Rhythmus und die Intensität des erzeugten Tons zu steuern. Eine weitere neue Betafunktion ist „Text to Avatar“. Sie wandelt geschriebene Skripte in …

Weiterlesen …

Mistral veröffentlicht Voxtral, sein erstes Open-Source-KI-Audiomodell

Das französische KI-Unternehmen Mistral hat Voxtral veröffentlicht, seine erste Familie von Open-Source-KI-Modellen für die Audioverarbeitung. Das Unternehmen positioniert Voxtral als Lösung für Entwickler, die bisher zwischen unzuverlässigen Open-Source-Systemen und teuren, geschlossenen Modellen wählen mussten. Mistral gibt an, dass Voxtral hohe Leistung zu „weniger als der Hälfte des Preises“ vergleichbarer Lösungen bietet. Voxtral geht über die …

Weiterlesen …

Apples neue Sprachtechnologie schlägt OpenAIs Whisper bei Transkriptions-Geschwindigkeit

Apple hat eine neue Spracherkennungstechnologie vorgestellt, die bestehende Transkriptionstools bei der Verarbeitungsgeschwindigkeit deutlich übertrifft. Das Unternehmen stellte SpeechAnalyzer und SpeechTranscriber als Teil seiner Entwickler-Beta-Versionen auf der WWDC vor. John Voorhees von MacStories testete das neue Apple-Framework gegen beliebte Transkriptions-Apps, die auf OpenAIs Whisper-Modell basieren. Seine Tests verwendeten eine 34-minütige, 7GB große Videodatei zum Vergleich der …

Weiterlesen …

ElevenLabs neue Sprach-KI beherrscht natürlichere Gespräche

ElevenLabs hat Conversational AI 2.0 veröffentlicht, eine erweiterte Plattform für Sprach-Assistenten in Unternehmen. Das System simuliert menschliche Gesprächsmuster besser als bisherige Versionen. Die Aktualisierung behebt typische Probleme wie unnatürliche Pausen in automatisierten Gesprächen, berichtet Carl Franzen. Das neue System analysiert Gesprächssignale wie Zögern und Füllwörter. Dadurch erkennt es, wann es sprechen oder zuhören soll. Die …

Weiterlesen …

Hume stellt EVI 3 vor mit individueller Stimmerstellung

Das New Yorker Startup Hume hat EVI 3 vorgestellt, ein KI-Modell für Gespräche, das Nutzern die Erstellung eigener synthetischer Stimmen über Spracheingabe ermöglicht. Die Technologie zielt auf Anwendungen vom Kundensupport bis zur virtuellen Begleitung ab, berichtet Carl Franzen für VentureBeat. Nutzer können Persönlichkeitsmerkmale, Stimmqualitäten und emotionale Töne festlegen. So entstehen Stimmen von warmherzigen Begleitern bis …

Weiterlesen …

Nvidia veröffentlicht kostenloses Spracherkennungsmodell

Nvidia hat ein neues Open-Source-Modell zur automatischen Spracherkennung namens Parakeet-TDT-0.6B-v2 veröffentlicht. Das Modell kann laut Bericht des VentureBeat-Journalisten Carl Franzen auf Nvidia-GPU-Hardware 60 Minuten Audio in nur einer Sekunde transkribieren. Es führt aktuell die Hugging Face Open ASR Rangliste mit einer Wortfehlerrate von nur 6,05% an. Das am 1. Mai 2025 veröffentlichte Modell steht unter …

Weiterlesen …

Neues KI-Sprachmodell Dia bietet natürliche Dialogfähigkeiten

Das Startup Nari Labs hat mit Dia ein Open-Source-Sprachmodell veröffentlicht, das natürlich klingende Dialoge erzeugen kann. Wie VentureBeat-Journalist Carl Franzen berichtet, soll das 1,6 Milliarden Parameter umfassende Modell mit Angeboten von ElevenLabs, OpenAI und Googles NotebookLM konkurrieren können. Mitgründer Toby Kim entwickelte Dia „ohne Finanzierung“ mit Unterstützung von Google, das Zugang zu TPU-Chips gewährte. Das …

Weiterlesen …

Groq und PlayAI stellen neues Text-to-Speech-System Dialog vor

Groq und PlayAI haben gemeinsam das Text-to-Speech-System Dialog entwickelt, das natürlicher klingende KI-Stimmen ermöglicht. Wie Michael Nuñez von VentureBeat berichtet, verbindet das System PlayAIs Expertise in Sprach-KI mit Groqs schneller Inferenz-Plattform. Dialog nutzt einen „adaptive speech contextualizer“, der den gesamten Gesprächsverlauf berücksichtigt und so Antworten mit passender Betonung und Emotion erzeugt. Das System ist sowohl …

Weiterlesen …

OpenAI: Neue KI-Modelle für Sprache und Transkription

OpenAI hat drei neue KI-Modelle eingeführt, die Sprache-zu-Text- und Text-zu-Sprache-Funktionen verbessern. Die Modelle gpt-4o-transcribe, gpt-4o-mini-transcribe und gpt-4o-mini-tts bieten Entwicklern höhere Genauigkeit und erweiterte Anpassungsoptionen für Sprachanwendungen. Laut OpenAI übertreffen die neuen Transkriptionsmodelle ihren Vorgänger Whisper deutlich, besonders in lauten Umgebungen und bei verschiedenen Akzenten. Die internen Benchmarks des Unternehmens zeigen, dass das gpt-4o-transcribe-Modell eine Wortfehlerrate …

Weiterlesen …