Audio | Page 3 of 8 | ✦ Smart Content Report

Ehemalige Google-Entwickler veröffentlichen Audio-App Huxe

24. September 2025

Drei frühere Entwickler von Googles Projekt NotebookLM haben die Audio-App Huxe veröffentlicht. Sie generiert Podcasts mit KI-Moderatoren zu Nachrichten und Sachthemen. Ivan Mehta berichtet für TechCrunch, dass das Startup 4,6 Millionen US-Dollar an Finanzierung erhalten hat. Die App ist für iOS und Android verfügbar und erstellt ein tägliches Briefing basierend auf E-Mails und Kalendereinträgen. Nutzer …

Qwen3-Omni ist ein Open-Source-Modell für Text, Bild, Audio und Video

23. September 2025

Das chinesische Technologieunternehmen Alibaba hat Qwen3-Omni veröffentlicht. Es ist ein neues generatives KI-Modell, das eine Kombination aus Text, Bildern, Audio und Video verarbeiten kann. Das Modell zeichnet sich durch seine „omni-modalen“ Fähigkeiten und seine Open-Source-Lizenz aus. Damit positioniert es sich als direkter Konkurrent zu proprietären Modellen von US-Technologiekonzernen wie OpenAI und Google. Nach von Alibaba …

Neues Audio-Modell von Stability AI beschleunigt Produktion für Unternehmen

10. September 2025

Stability AI hat Stable Audio 2.5 veröffentlicht, ein generatives Audio-Modell für den Unternehmenseinsatz. Das Unternehmen gibt an, eine neue Technik ermögliche die Erzeugung von hochqualitativem Audio in nur acht statt bisher 50 Rechenschritten. Sean Michael Kerner berichtet für VentureBeat, dass dieser Durchbruch die Produktionszeit von Wochen auf Minuten verkürzen kann. Laut Zach Evans, Forschungsleiter für …

ElevenLabs startet Musikgenerator mit lizenzierten Daten

5. August 2025

Das auf KI-Stimmen spezialisierte Unternehmen ElevenLabs hat einen Dienst zur Musikerzeugung namens Eleven Music veröffentlicht. Laut einem Artikel von Belle Lin im Wall Street Journal trainiert das Unternehmen sein KI-Modell mit lizenzierter Musik, um rechtliche Konflikte zu vermeiden. Nutzer können per Texteingabe in wenigen Minuten einen kompletten Song mit Gesang und Instrumenten erstellen lassen. Laut …

Adobe Firefly erzeugt jetzt KI-Soundeffekte und Video-Avatare

22. Juli 2025

Adobe erweitert seine KI-Modelle der Firefly-Familie um neue Videofunktionen. Das berichtet Sabrina Ortiz für ZDNet. Nutzer können nun Soundeffekte aus einfachen Textbeschreibungen generieren. Eine Besonderheit ist die Möglichkeit, mit der eigenen Stimme den Rhythmus und die Intensität des erzeugten Tons zu steuern. Eine weitere neue Betafunktion ist „Text to Avatar“. Sie wandelt geschriebene Skripte in …

Mistral veröffentlicht Voxtral, sein erstes Open-Source-KI-Audiomodell

17. Juli 2025

Das französische KI-Unternehmen Mistral hat Voxtral veröffentlicht, seine erste Familie von Open-Source-KI-Modellen für die Audioverarbeitung. Das Unternehmen positioniert Voxtral als Lösung für Entwickler, die bisher zwischen unzuverlässigen Open-Source-Systemen und teuren, geschlossenen Modellen wählen mussten. Mistral gibt an, dass Voxtral hohe Leistung zu „weniger als der Hälfte des Preises“ vergleichbarer Lösungen bietet. Voxtral geht über die …

Apples neue Sprachtechnologie schlägt OpenAIs Whisper bei Transkriptions-Geschwindigkeit

26. Juni 2025

Apple hat eine neue Spracherkennungstechnologie vorgestellt, die bestehende Transkriptionstools bei der Verarbeitungsgeschwindigkeit deutlich übertrifft. Das Unternehmen stellte SpeechAnalyzer und SpeechTranscriber als Teil seiner Entwickler-Beta-Versionen auf der WWDC vor. John Voorhees von MacStories testete das neue Apple-Framework gegen beliebte Transkriptions-Apps, die auf OpenAIs Whisper-Modell basieren. Seine Tests verwendeten eine 34-minütige, 7GB große Videodatei zum Vergleich der …

ElevenLabs neue Sprach-KI beherrscht natürlichere Gespräche

4. Juni 2025

ElevenLabs hat Conversational AI 2.0 veröffentlicht, eine erweiterte Plattform für Sprach-Assistenten in Unternehmen. Das System simuliert menschliche Gesprächsmuster besser als bisherige Versionen. Die Aktualisierung behebt typische Probleme wie unnatürliche Pausen in automatisierten Gesprächen, berichtet Carl Franzen. Das neue System analysiert Gesprächssignale wie Zögern und Füllwörter. Dadurch erkennt es, wann es sprechen oder zuhören soll. Die …

Hume stellt EVI 3 vor mit individueller Stimmerstellung

30. Mai 2025

Das New Yorker Startup Hume hat EVI 3 vorgestellt, ein KI-Modell für Gespräche, das Nutzern die Erstellung eigener synthetischer Stimmen über Spracheingabe ermöglicht. Die Technologie zielt auf Anwendungen vom Kundensupport bis zur virtuellen Begleitung ab, berichtet Carl Franzen für VentureBeat. Nutzer können Persönlichkeitsmerkmale, Stimmqualitäten und emotionale Töne festlegen. So entstehen Stimmen von warmherzigen Begleitern bis …

Nvidia veröffentlicht kostenloses Spracherkennungsmodell

11. Mai 2025

Nvidia hat ein neues Open-Source-Modell zur automatischen Spracherkennung namens Parakeet-TDT-0.6B-v2 veröffentlicht. Das Modell kann laut Bericht des VentureBeat-Journalisten Carl Franzen auf Nvidia-GPU-Hardware 60 Minuten Audio in nur einer Sekunde transkribieren. Es führt aktuell die Hugging Face Open ASR Rangliste mit einer Wortfehlerrate von nur 6,05% an. Das am 1. Mai 2025 veröffentlichte Modell steht unter …