Spotify führt neue Regeln für KI-generierte Musik ein

Spotify reagiert mit neuen Richtlinien auf den zunehmenden Einsatz von künstlicher Intelligenz in der Musik. Die Änderungen umfassen die Kennzeichnung von KI-Inhalten, einen neuen Spam-Filter und ein klares Verbot von unerlaubten Stimmenklonen. Darüber berichtet Sarah Perez für TechCrunch. Für die Kennzeichnung wird das Unternehmen den Industriestandard DDEX einführen. Dieses System ermöglicht es Musikpartnern, in den …

Weiterlesen …

Ehemalige Google-Entwickler veröffentlichen Audio-App Huxe

Drei frühere Entwickler von Googles Projekt NotebookLM haben die Audio-App Huxe veröffentlicht. Sie generiert Podcasts mit KI-Moderatoren zu Nachrichten und Sachthemen. Ivan Mehta berichtet für TechCrunch, dass das Startup 4,6 Millionen US-Dollar an Finanzierung erhalten hat. Die App ist für iOS und Android verfügbar und erstellt ein tägliches Briefing basierend auf E-Mails und Kalendereinträgen. Nutzer …

Weiterlesen …

Qwen3-Omni ist ein Open-Source-Modell für Text, Bild, Audio und Video

Das chinesische Technologieunternehmen Alibaba hat Qwen3-Omni veröffentlicht. Es ist ein neues generatives KI-Modell, das eine Kombination aus Text, Bildern, Audio und Video verarbeiten kann. Das Modell zeichnet sich durch seine „omni-modalen“ Fähigkeiten und seine Open-Source-Lizenz aus. Damit positioniert es sich als direkter Konkurrent zu proprietären Modellen von US-Technologiekonzernen wie OpenAI und Google. Nach von Alibaba …

Weiterlesen …

Neues Audio-Modell von Stability AI beschleunigt Produktion für Unternehmen

Stability AI hat Stable Audio 2.5 veröffentlicht, ein generatives Audio-Modell für den Unternehmenseinsatz. Das Unternehmen gibt an, eine neue Technik ermögliche die Erzeugung von hochqualitativem Audio in nur acht statt bisher 50 Rechenschritten. Sean Michael Kerner berichtet für VentureBeat, dass dieser Durchbruch die Produktionszeit von Wochen auf Minuten verkürzen kann. Laut Zach Evans, Forschungsleiter für …

Weiterlesen …

ElevenLabs startet Musikgenerator mit lizenzierten Daten

Das auf KI-Stimmen spezialisierte Unternehmen ElevenLabs hat einen Dienst zur Musikerzeugung namens Eleven Music veröffentlicht. Laut einem Artikel von Belle Lin im Wall Street Journal trainiert das Unternehmen sein KI-Modell mit lizenzierter Musik, um rechtliche Konflikte zu vermeiden. Nutzer können per Texteingabe in wenigen Minuten einen kompletten Song mit Gesang und Instrumenten erstellen lassen. Laut …

Weiterlesen …

Adobe Firefly erzeugt jetzt KI-Soundeffekte und Video-Avatare

Adobe erweitert seine KI-Modelle der Firefly-Familie um neue Videofunktionen. Das berichtet Sabrina Ortiz für ZDNet. Nutzer können nun Soundeffekte aus einfachen Textbeschreibungen generieren. Eine Besonderheit ist die Möglichkeit, mit der eigenen Stimme den Rhythmus und die Intensität des erzeugten Tons zu steuern. Eine weitere neue Betafunktion ist „Text to Avatar“. Sie wandelt geschriebene Skripte in …

Weiterlesen …

Mistral veröffentlicht Voxtral, sein erstes Open-Source-KI-Audiomodell

Das französische KI-Unternehmen Mistral hat Voxtral veröffentlicht, seine erste Familie von Open-Source-KI-Modellen für die Audioverarbeitung. Das Unternehmen positioniert Voxtral als Lösung für Entwickler, die bisher zwischen unzuverlässigen Open-Source-Systemen und teuren, geschlossenen Modellen wählen mussten. Mistral gibt an, dass Voxtral hohe Leistung zu „weniger als der Hälfte des Preises“ vergleichbarer Lösungen bietet. Voxtral geht über die …

Weiterlesen …

Apples neue Sprachtechnologie schlägt OpenAIs Whisper bei Transkriptions-Geschwindigkeit

Apple hat eine neue Spracherkennungstechnologie vorgestellt, die bestehende Transkriptionstools bei der Verarbeitungsgeschwindigkeit deutlich übertrifft. Das Unternehmen stellte SpeechAnalyzer und SpeechTranscriber als Teil seiner Entwickler-Beta-Versionen auf der WWDC vor. John Voorhees von MacStories testete das neue Apple-Framework gegen beliebte Transkriptions-Apps, die auf OpenAIs Whisper-Modell basieren. Seine Tests verwendeten eine 34-minütige, 7GB große Videodatei zum Vergleich der …

Weiterlesen …

ElevenLabs neue Sprach-KI beherrscht natürlichere Gespräche

ElevenLabs hat Conversational AI 2.0 veröffentlicht, eine erweiterte Plattform für Sprach-Assistenten in Unternehmen. Das System simuliert menschliche Gesprächsmuster besser als bisherige Versionen. Die Aktualisierung behebt typische Probleme wie unnatürliche Pausen in automatisierten Gesprächen, berichtet Carl Franzen. Das neue System analysiert Gesprächssignale wie Zögern und Füllwörter. Dadurch erkennt es, wann es sprechen oder zuhören soll. Die …

Weiterlesen …

Hume stellt EVI 3 vor mit individueller Stimmerstellung

Das New Yorker Startup Hume hat EVI 3 vorgestellt, ein KI-Modell für Gespräche, das Nutzern die Erstellung eigener synthetischer Stimmen über Spracheingabe ermöglicht. Die Technologie zielt auf Anwendungen vom Kundensupport bis zur virtuellen Begleitung ab, berichtet Carl Franzen für VentureBeat. Nutzer können Persönlichkeitsmerkmale, Stimmqualitäten und emotionale Töne festlegen. So entstehen Stimmen von warmherzigen Begleitern bis …

Weiterlesen …