Forscher der Johns Hopkins University und des Tencent AI Lab haben ein neues Text-zu-Audio-Modell namens EzAudio entwickelt. Wie Michael Nuñez in VentureBeat berichtet, kann EzAudio hochwertige Soundeffekte aus Textbeschreibungen erzeugen. Das Modell nutzt eine innovative Methode zur Verarbeitung von Audiodaten und eine neue Architektur namens EzAudio-DiT. In Tests übertraf EzAudio bestehende Open-Source-Modelle in Qualität und Effizienz. Die Technologie könnte künftig in Bereichen wie Unterhaltung, Barrierefreiheit und virtuellen Assistenten eingesetzt werden. Der Quellcode und die Datensätze wurden öffentlich zugänglich gemacht, um weitere Forschung zu ermöglichen.
EzAudio erzeugt hochwertige Soundeffekte
Über den Autor
Bleib up-to-date:
Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)
Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?
Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.