EzAudio erzeugt hochwertige Soundeffekte

Forscher der Johns Hopkins University und des Tencent AI Lab haben ein neues Text-zu-Audio-Modell namens EzAudio entwickelt. Wie Michael Nuñez in VentureBeat berichtet, kann EzAudio hochwertige Soundeffekte aus Textbeschreibungen erzeugen. Das Modell nutzt eine innovative Methode zur Verarbeitung von Audiodaten und eine neue Architektur namens EzAudio-DiT. In Tests übertraf EzAudio bestehende Open-Source-Modelle in Qualität und …

Weiterlesen …

EVI 2 bietet eine stark verbesserte Sprachschnittstelle

Hume AI hat eine verbesserte Version seiner Sprach-KI EVI 2 vorgestellt. Die neue Version bietet natürlichere Gespräche, schnellere Reaktionszeiten und mehr Anpassungsmöglichkeiten bei der Stimme. Das berichtet Carl Franzen für VentureBeat. Laut Hume-Mitgründer Alan Cowen lässt sich EVI 2 nun direkt in Apps integrieren, um Nutzeranfragen zu bearbeiten. Die Technologie soll Emotionen besser erkennen und …

Weiterlesen …

Googles Audio Overview erklärt komplexe Konzepte

Google erweitert seine KI-gestützte Notiz-App NotebookLM um eine Audiofunktion. Die neue „Audio Overview“ ermöglicht es Nutzern, komplexe Themen aus hochgeladenen Dokumenten mündlich erklärt zu bekommen. Das berichtet Aisha Malik für TechCrunch. KI-generierte virtuelle Moderatoren fassen die Inhalte zusammen und erläutern schwierige Konzepte mit Metaphern. Die Funktion richtet sich an Menschen, die Informationen besser durch Zuhören …

Weiterlesen …

Musik-KI Suno auf iPhones verfügbar

Die Musik-KI Suno ist jetzt in den USA auch für iPhones verfügbar. Sie bietet eine Vielzahl von Stilen und Genres und kann sowohl komplette Songs mit Text und Gesang als auch Instrumentals generieren. Die App soll bald auch in anderen Ländern und für Android-Geräte verfügbar sein.

ElevenLabs AI Voice Isolator vorgestellt

ElevenLabs hat einen neuen, kostenlosen Dienst namens AI Voice Isolator eingeführt, der unerwünschte Hintergrundgeräusche aus Filmen, Podcasts oder YouTube-Videos entfernt. Im Gegensatz zu anderen Programmen, die nur konstante Geräusche entfernen können, bewältigt der Voice Isolator auch unregelmäßige Geräusche wie etwa das Öffnen einer Tür oder Klatschen.

ElevenLabs Reader liest dir vor

ElevenLabs hat eine neue App namens Reader veröffentlicht, die es Nutzern ermöglicht, beliebige Texte in AI-Stimmen vorlesen zu lassen. Neu sind dabei die „Iconic Voices“, die die Stimmen von verstorbenen Stars wie Judy Garland, James Dean und Laurence Olivier nachbilden. Das Unternehmen hat die Rechte an den Stimmen von CMG Worldwide erworben und betont, dass die …

Weiterlesen …

Resemble Detect-2B hilft Audio-Deepfakes zu erkennen

Resemble AI hat mit Detect-2B ein neues Modell zur Erkennung von Audio-Deepfakes vorgestellt, das mit einer Genauigkeit von 94 % aufwarten soll. Das Modell erkennt anhand subtiler Artefakte, ob es sich um echte oder künstlich generierte Sprache handelt. 

DeepMind V2A generiert Audio für Videos automatisch

Googles KI-Forschungslabor DeepMind hat eine neue Technologie namens V2A entwickelt, die automatisch passende Soundtracks, Soundeffekte und sogar Dialoge für Videos generieren kann. Obwohl V2A vielversprechend scheint, räumt DeepMind ein, dass die generierte Audioqualität noch nicht perfekt ist. Es ist vorerst nicht allgemein erhältlich.

Meta veröffentlicht zahlreiche neue KI-Modelle

Meta veröffentlicht eine Reihe neuer KI-Modelle für Audio, Text und Wasserzeichen. Außerdem stellt Meta zwei Größen seines multimodalenTextmodells Chameleon für Forschungszwecke zur Verfügung. Diese Modelle ermöglichen es, Aufgaben zu erledigen, die visuelles und textuelles Verständnis erfordern, wie z. B. Bildbeschriftung.