EzAudio erzeugt hochwertige Soundeffekte

Forscher der Johns Hopkins University und des Tencent AI Lab haben ein neues Text-zu-Audio-Modell namens EzAudio entwickelt. Wie Michael Nuñez in VentureBeat berichtet, kann EzAudio hochwertige Soundeffekte aus Textbeschreibungen erzeugen. Das Modell nutzt eine innovative Methode zur Verarbeitung von Audiodaten und eine neue Architektur namens EzAudio-DiT. In Tests übertraf EzAudio bestehende Open-Source-Modelle in Qualität und Effizienz. Die Technologie könnte künftig in Bereichen wie Unterhaltung, Barrierefreiheit und virtuellen Assistenten eingesetzt werden. Der Quellcode und die Datensätze wurden öffentlich zugänglich gemacht, um weitere Forschung zu ermöglichen.

Mehr zum Thema:

Bleib up-to-date: