Google erweitert NotebookLM um interaktive KI-Funktionen und Unternehmensversion

Google hat bedeutende Aktualisierungen seiner KI-gestützten Notiz-Anwendung NotebookLM vorgestellt, darunter eine neue interaktive Funktion für Audio Overviews und eine unternehmensorientierte Version namens NotebookLM Plus. Die Anwendung, die für ihre Funktion bekannt wurde, Podcast-ähnliche Gespräche zwischen KI-Moderatoren auf Basis von Quellmaterialien zu generieren, ermöglicht es Nutzern nun, während der Wiedergabe direkt mit diesen synthetischen Moderatoren zu … Weiterlesen …

ElevenLabs startet KI-gestütztes Podcast-Produktionssystem

Das Technologie-Startup ElevenLabs hat ein neues KI-System zur Podcast-Erstellung vorgestellt. Wie Ashley Carman für Bloomberg berichtet, ermöglicht die Software die Umwandlung von Textdokumenten in Podcasts mit künstlichen Stimmen. Das System unterstützt 32 Sprachen und bietet Zugriff auf tausende KI-generierte Stimmen. Benutzer können Transkripte bearbeiten und Audiodateien in hoher Qualität exportieren. Das in New York ansässige … Weiterlesen …

Hume AI stellt neue Stimmanpassungssoftware vor

Das Technologieunternehmen Hume AI hat eine neue Software namens Voice Control vorgestellt, mit der Entwickler künstliche Stimmen individuell anpassen können. Wie Carl Franzen für VentureBeat berichtet, können Nutzer dabei zehn verschiedene Stimmmerkmale über Schieberegler einstellen. Die Software erfordert keine Programmierkenntnisse und verzichtet bewusst auf Stimmklonen, um ethische Bedenken zu berücksichtigen. Das System basiert auf der … Weiterlesen …

Nvidia stellt neues KI-Audiomodell Fugatto vor

Der Technologiekonzern Nvidia hat ein neues KI-Modell namens Fugatto entwickelt, das Audio generieren und modifizieren kann. Wie Stephen Nellis für Reuters berichtet, ermöglicht die Technologie die Umwandlung bestehender Klänge, die Änderung von Sprachakzenten und die Erzeugung neuartiger Audioeffekte durch Texteingaben. Das Modell kann beispielsweise Klavierpassagen in Gesang umwandeln oder eine Trompete wie einen bellenden Hund … Weiterlesen …

KI-Startup PlayAI erhält 21 Millionen Dollar für Stimmen-Klon-Technologie

Das Technologie-Unternehmen PlayAI hat eine Seed-Finanzierung von 21 Millionen Dollar erhalten. Die Firma entwickelt KI-gestützte Systeme zur Stimmen-Kloning und Text-zu-Sprache-Konvertierung. Kyle Wiggers berichtet für TechCrunch über die von 500 Startups und Kindred Ventures angeführte Finanzierungsrunde. Das Unternehmen wurde von Hammad Syed und Mahmoud Felfel gegründet. Die Technologie ermöglicht das Erstellen synthetischer Stimmen und automatisierter Kundenservice-Agenten. … Weiterlesen …

KI-Modell vereint Spracherkennung mit Datenschutz

Das israelische Startup aiOla hat ein neues KI-Modell namens Whisper-NER entwickelt. Carl Franzen berichtet für VentureBeat über diese Innovation, die auf OpenAIs Whisper-Framework basiert. Das Open-Source-Modell kombiniert Spracherkennung mit der automatischen Erkennung sensibler Informationen. Es kann vertrauliche Daten wie Namen, Telefonnummern und Adressen während der Transkription in Echtzeit unkenntlich machen. Das Tool ist auf Hugging … Weiterlesen …

YouTube erweitert KI-Musikfunktion für Shorts-Videos

YouTube testet eine neue KI-gestützte Funktion für ausgewählte Content-Creator. Diese können künftig lizenzierte Musikstücke für ihre Shorts-Videos neu interpretieren lassen, berichtet The Verge. Die Technologie ermöglicht es, per Texteingabe die Stimmung oder das Genre eines Songs zu ändern. Das System erstellt daraufhin einen 30-sekündigen Soundtrack. Bekannte Künstler wie Charlie Puth und John Legend stellen ihre … Weiterlesen …

OpenAI erweitert Realtime-API um neue Stimmen und senkt Preise für Entwickler

OpenAI hat seine Realtime-API, die sich derzeit in der Beta-Phase befindet, um fünf neue ausdrucksstarke Stimmen für Speech-to-Speech-Anwendungen erweitert. Durch die Einführung von Prompt-Caching wurden die Kosten für Entwickler gesenkt. Laut der von VentureBeat zitierten API-Dokumentation von OpenAI ermöglicht die native Speech-to-Speech-Funktion eine geringe Latenz und nuancierte Ausgaben. Das Unternehmen präsentierte drei der neuen Stimmen … Weiterlesen …

Open-Source-Toolkit Amphion unterstützt Forschung zu Audio-, Musik- und Sprachgenerierung

Das quelloffene Toolkit Amphion dient der Unterstützung von Forschung und Entwicklung im Bereich der Audio-, Musik- und Sprachgenerierung. Laut Projekt-Website bietet es einzigartige Visualisierungen klassischer Modelle und Architekturen, um Nachwuchsforscher*innen und Ingenieur*innen das Verständnis zu erleichtern. Amphion unterstützt verschiedene Generierungsaufgaben wie Text-to-Speech (TTS), Gesangsstimmensynthese (SVS), Stimmkonvertierung (VC), Gesangsstimmenkonvertierung (SVC), Text-to-Audio (TTA) und Text-to-Music (TTM). Zudem … Weiterlesen …

Nützliches KI-Modell beschleunigt Spracherkennung bei hoher Genauigkeit

Das auf die Verbesserung der Mensch-Maschine-Kommunikation spezialisierte KI-Unternehmen Useful hat Moonshine als Open-Source-Modell veröffentlicht. Es soll die Latenzzeit von Sprachschnittstellen erheblich reduzieren und gleichzeitig die Genauigkeit von OpenAIs Whisper-Modell erreichen oder übertreffen. Laut Useful-Gründer Pete Warden liefert Moonshine Ergebnisse 1,7-mal schneller als Whisper. Dank des variablen Eingabefensters verarbeitet es kurze Audioclips fünfmal schneller. Der geringe … Weiterlesen …