ElevenLabs Sound Effects generiert Audiosamples

ElevenLabs, ein KI-Startup für Sprachsynthese, hat mit „Sound Effects“ein neues Produkt vorgestellt, mit dem sich durch einfache Texteingabe  Audiosamples erstellen lassen. Das Tool, das in Zusammenarbeit mit Shutterstock entwickelt wurde, soll Kreativschaffenden aus verschiedenen Bereichen wie Film, Fernsehen, Videospielen und Social Media dabei helfen, ihre Inhalte mit interessanten und passenden Klanglandschaften zu verbessern, ohne dafür aufwendig …

Weiterlesen …

Truecaller lässt eine KI mit deiner Stimme ans Telefon gehen

Die Anruf-App Truecaller führt eine neue Funktion ein, mit der Nutzer eine KI-Version ihrer eigenen Stimme erstellen können, um Anrufe entgegenzunehmen und beispielsweise nach dem Grund des Anrufs zu fragen. Ob es aber eine gute Idee ist, dafür die eigene Stimme zu nutzen? Ich stelle mir das verwirrend vor …

OpenAI veröffentlicht GPT-4o und weitere Neuerungen

Einen Tag vor Googles I/O versuchte OpenAI dem großen Konkurrenten die Show zu stehlen. Und ihre Demo hat definitiv für einiges Aufsehen gesorgt. Im Mittelpunkt stand dabei ihr neuestes KI-Modell GPT-4o, wobei das „o“ für „Omnimodel“ steht. Das wiederum soll deutlich machen, dass diese Version nicht nur Text verarbeitet, sondern etwa auch Bild- und Ton-Informationen. …

Weiterlesen …

Googles Feuerwerk neuer Werkzeuge und Funktionen

Google hat die Keynote seiner Entwicklerkonferenz „I/O“ wie erwartet dazu genutzt, Stärke beim Thema KI zu demonstrieren. Das Unternehmen hat dafür unter anderem neue KI-Modelle für verschiedenste Aufgaben vorgestellt. Einige werden direkt auf Android-Geräten laufen oder finden sich im Chrome-Browser. Andere hingegen nutzen Googles spezialisierte Server. Sie erstellen Text, Bilder, Musik oder auch Videoclips. Außerdem …

Weiterlesen …

OpenVoice ist eine KI für Stimmencloning

OpenVoice erlaubt es Nutzern, Stimmen in verschiedenen Sprachen und Akzenten realistisch zu klonen und sogar Emotionen und Sprechstile zu steuern. Die neueste Version, OpenVoice V2, bietet eine verbesserte Audioqualität, native Unterstützung für mehrere Sprachen und ist für die kommerzielle Nutzung kostenlos verfügbar. Quelle: Hacker News

AdaKWS bietet offenbar bessere Spracherkennung als OpenAIs Whisper

Das neue KI-Modell AdaKWS der Firma aiOla, einem Spezialisten für Spracherkennung, will durch seine Fähigkeit überzeugen, Sprache auch dann in korrekten Text umzuwandeln, wenn es sich um Fachjargon handelt. Das Modell  erreicht eine Genauigkeit von 94,6% – besser als OpenAIs Whisper.

Musik und Ton per KI generieren – drei Beispiele

KIs können nicht nur Texte, Bilder und Videos generieren, sondern auch Ton und Musik. Die Fortschritte bei der Qualität der Ergebnisse sind dabei erstaunlich.  Schauen wir uns drei prominente Beispiele an: Udio Udio ist vor einer Woche im Rahmen einer Public Beta gestartet und hat bereits für viel Wirbel gesorgt. Auf der Website finden sich zahlreiche …

Weiterlesen …

Soundry AI erstellt zusätzliche Musik

Soundry AI ist ein generatives KI-Tools für Musiker, mit der sch durch Texteingabe oder durch Beispielsamples weitere Musikschnippsel erstellen lassen. Quelle: Hacker News

Assembly AI zeigt Modell für Spracherkennung

Assembly AI stellt sein neues Spracherkennungsmodell Universal-1 vor, das im Vergleich zu OpenAIs Whisper  30% weniger Halluzinationen bei Sprachdaten und 90% weniger bei Umgebungsgeräuschen aufweisen soll. Das Modell bietet verbesserte Genauigkeit für Englisch, Spanisch, Französisch und Deutsch, unterstützt Code-Switching, optimierte Zeitstempelschätzung und schnellere Parallelverarbeitung, was für Anwendungen wie automatisierte Notizen, KI-gestützte Videobearbeitung und Telemedizin von Vorteil sein kann. …

Weiterlesen …

×