KI-generierte Audioversionen von Artikeln, Büchern, Dokumenten
Eine neue iOS-App von ElevenLabs ermöglicht es Nutzern, Artikel, Bücher oder Dokumente unterwegs in einer KI-generierten Audioversion anzuhören.
Eine neue iOS-App von ElevenLabs ermöglicht es Nutzern, Artikel, Bücher oder Dokumente unterwegs in einer KI-generierten Audioversion anzuhören.
ElevenLabs veröffentlicht ein neues Tool, mit dem Videomacher schnell und einfach passende Soundeffekte für ihre Clips erstellen können. Die App analysiert hochgeladene Videos und schlägt verschiedene Soundeffekte vor, die sich über eine Schnittstelle direkt in die Videos integriert lassen.
Das KI-Modell Mars5 von Camb AI ermöglicht realitätsnahes Klonen von Stimmen in über 140 Sprachen und kombiniert dabei Stimmklonung und Text-to-Speech in einer Plattform. Das Unternehmen behauptet, dass Mars5 besonders gut darin sei, emotionale Nuancen in Sprache zu erfassen, was es ideal für Anwendungen wie Sportkommentare und Filme mache.
Stability AI veröffentlicht mit „Stable Audio Open“ ein neues KI-Modell zur kostenlosen Erstellung von Sounds und Musikstücken mit bis 47 Sekunden Länge. Allerdings ist es aufgrund des Trainingsmaterials auf englischsprachige Beschreibungen und westliche Musikstile beschränkt.
ElevenLabs, ein KI-Startup für Sprachsynthese, hat mit „Sound Effects“ein neues Produkt vorgestellt, mit dem sich durch einfache Texteingabe Audiosamples erstellen lassen. Das Tool, das in Zusammenarbeit mit Shutterstock entwickelt wurde, soll Kreativschaffenden aus verschiedenen Bereichen wie Film, Fernsehen, Videospielen und Social Media dabei helfen, ihre Inhalte mit interessanten und passenden Klanglandschaften zu verbessern, ohne dafür aufwendig …
ElevenLabs hat ein neues Tool namens Audio Native auf den Markt gebracht, mit dem Websites automatisch Audioversionen ihrer Inhalte anbieten können.
Die Anruf-App Truecaller führt eine neue Funktion ein, mit der Nutzer eine KI-Version ihrer eigenen Stimme erstellen können, um Anrufe entgegenzunehmen und beispielsweise nach dem Grund des Anrufs zu fragen. Ob es aber eine gute Idee ist, dafür die eigene Stimme zu nutzen? Ich stelle mir das verwirrend vor …
Einen Tag vor Googles I/O versuchte OpenAI dem großen Konkurrenten die Show zu stehlen. Und ihre Demo hat definitiv für einiges Aufsehen gesorgt. Im Mittelpunkt stand dabei ihr neuestes KI-Modell GPT-4o, wobei das „o“ für „Omnimodel“ steht. Das wiederum soll deutlich machen, dass diese Version nicht nur Text verarbeitet, sondern etwa auch Bild- und Ton-Informationen. …
Google hat die Keynote seiner Entwicklerkonferenz „I/O“ wie erwartet dazu genutzt, Stärke beim Thema KI zu demonstrieren. Das Unternehmen hat dafür unter anderem neue KI-Modelle für verschiedenste Aufgaben vorgestellt. Einige werden direkt auf Android-Geräten laufen oder finden sich im Chrome-Browser. Andere hingegen nutzen Googles spezialisierte Server. Sie erstellen Text, Bilder, Musik oder auch Videoclips. Außerdem …
OpenVoice erlaubt es Nutzern, Stimmen in verschiedenen Sprachen und Akzenten realistisch zu klonen und sogar Emotionen und Sprechstile zu steuern. Die neueste Version, OpenVoice V2, bietet eine verbesserte Audioqualität, native Unterstützung für mehrere Sprachen und ist für die kommerzielle Nutzung kostenlos verfügbar. Quelle: Hacker News