Audio | Page 5 of 8 | ✦ Smart Content Report

ElevenLabs startet KI-gestütztes Podcast-Produktionssystem

5. Februar 202510. Dezember 2024

Das Technologie-Startup ElevenLabs hat ein neues KI-System zur Podcast-Erstellung vorgestellt. Wie Ashley Carman für Bloomberg berichtet, ermöglicht die Software die Umwandlung von Textdokumenten in Podcasts mit künstlichen Stimmen. Das System unterstützt 32 Sprachen und bietet Zugriff auf tausende KI-generierte Stimmen. Benutzer können Transkripte bearbeiten und Audiodateien in hoher Qualität exportieren. Das in New York ansässige …

Hume AI stellt neue Stimmanpassungssoftware vor

5. Februar 20253. Dezember 2024

Das Technologieunternehmen Hume AI hat eine neue Software namens Voice Control vorgestellt, mit der Entwickler künstliche Stimmen individuell anpassen können. Wie Carl Franzen für VentureBeat berichtet, können Nutzer dabei zehn verschiedene Stimmmerkmale über Schieberegler einstellen. Die Software erfordert keine Programmierkenntnisse und verzichtet bewusst auf Stimmklonen, um ethische Bedenken zu berücksichtigen. Das System basiert auf der …

Nvidia stellt neues KI-Audiomodell Fugatto vor

5. Februar 202526. November 2024

Der Technologiekonzern Nvidia hat ein neues KI-Modell namens Fugatto entwickelt, das Audio generieren und modifizieren kann. Wie Stephen Nellis für Reuters berichtet, ermöglicht die Technologie die Umwandlung bestehender Klänge, die Änderung von Sprachakzenten und die Erzeugung neuartiger Audioeffekte durch Texteingaben. Das Modell kann beispielsweise Klavierpassagen in Gesang umwandeln oder eine Trompete wie einen bellenden Hund …

KI-Startup PlayAI erhält 21 Millionen Dollar für Stimmen-Klon-Technologie

5. Februar 202526. November 2024

Das Technologie-Unternehmen PlayAI hat eine Seed-Finanzierung von 21 Millionen Dollar erhalten. Die Firma entwickelt KI-gestützte Systeme zur Stimmen-Kloning und Text-zu-Sprache-Konvertierung. Kyle Wiggers berichtet für TechCrunch über die von 500 Startups und Kindred Ventures angeführte Finanzierungsrunde. Das Unternehmen wurde von Hammad Syed und Mahmoud Felfel gegründet. Die Technologie ermöglicht das Erstellen synthetischer Stimmen und automatisierter Kundenservice-Agenten. …

KI-Modell vereint Spracherkennung mit Datenschutz

5. Februar 202526. November 2024

Das israelische Startup aiOla hat ein neues KI-Modell namens Whisper-NER entwickelt. Carl Franzen berichtet für VentureBeat über diese Innovation, die auf OpenAIs Whisper-Framework basiert. Das Open-Source-Modell kombiniert Spracherkennung mit der automatischen Erkennung sensibler Informationen. Es kann vertrauliche Daten wie Namen, Telefonnummern und Adressen während der Transkription in Echtzeit unkenntlich machen. Das Tool ist auf Hugging …

YouTube erweitert KI-Musikfunktion für Shorts-Videos

5. Februar 202513. November 2024

YouTube testet eine neue KI-gestützte Funktion für ausgewählte Content-Creator. Diese können künftig lizenzierte Musikstücke für ihre Shorts-Videos neu interpretieren lassen, berichtet The Verge. Die Technologie ermöglicht es, per Texteingabe die Stimmung oder das Genre eines Songs zu ändern. Das System erstellt daraufhin einen 30-sekündigen Soundtrack. Bekannte Künstler wie Charlie Puth und John Legend stellen ihre …

OpenAI erweitert Realtime-API um neue Stimmen und senkt Preise für Entwickler

5. Februar 202531. Oktober 2024

OpenAI hat seine Realtime-API, die sich derzeit in der Beta-Phase befindet, um fünf neue ausdrucksstarke Stimmen für Speech-to-Speech-Anwendungen erweitert. Durch die Einführung von Prompt-Caching wurden die Kosten für Entwickler gesenkt. Laut der von VentureBeat zitierten API-Dokumentation von OpenAI ermöglicht die native Speech-to-Speech-Funktion eine geringe Latenz und nuancierte Ausgaben. Das Unternehmen präsentierte drei der neuen Stimmen …

Open-Source-Toolkit Amphion unterstützt Forschung zu Audio-, Musik- und Sprachgenerierung

5. Februar 202530. Oktober 2024

Das quelloffene Toolkit Amphion dient der Unterstützung von Forschung und Entwicklung im Bereich der Audio-, Musik- und Sprachgenerierung. Laut Projekt-Website bietet es einzigartige Visualisierungen klassischer Modelle und Architekturen, um Nachwuchsforscher*innen und Ingenieur*innen das Verständnis zu erleichtern. Amphion unterstützt verschiedene Generierungsaufgaben wie Text-to-Speech (TTS), Gesangsstimmensynthese (SVS), Stimmkonvertierung (VC), Gesangsstimmenkonvertierung (SVC), Text-to-Audio (TTA) und Text-to-Music (TTM). Zudem …

Nützliches KI-Modell beschleunigt Spracherkennung bei hoher Genauigkeit

5. Februar 202530. Oktober 2024

Das auf die Verbesserung der Mensch-Maschine-Kommunikation spezialisierte KI-Unternehmen Useful hat Moonshine als Open-Source-Modell veröffentlicht. Es soll die Latenzzeit von Sprachschnittstellen erheblich reduzieren und gleichzeitig die Genauigkeit von OpenAIs Whisper-Modell erreichen oder übertreffen. Laut Useful-Gründer Pete Warden liefert Moonshine Ergebnisse 1,7-mal schneller als Whisper. Dank des variablen Eingabefensters verarbeitet es kurze Audioclips fünfmal schneller. Der geringe …

KI-Tool von Amazon kann jetzt Audio-Werbung erstellen

5. Februar 202516. Oktober 2024

Amazon hat auf der Amazon unBoxed-Konferenz ein generatives KI-Tool vorgestellt, mit dem Werbetreibende neben Bildern und Videos auch Audio-Anzeigen erstellen können. Wie AdWeek berichtet, ermöglicht die neue Funktion Werbetreibenden, Anzeigen mit minimalen Produktinformationen zu erstellen, und ist Teil einer größeren Suite von Tools, die die Effizienz von Kampagnen auf Amazon-Plattformen wie Prime Video und Twitch …