Konsistente Charaktere in KI-Videos mit Eggnog

Eggnog ermöglicht KI-generierte Videos mit konsistenten Charakteren. Zuerst erstellt man die Person inklusive Outfits, dann im Storyboard die geplanten Szenen des Clips und erstellt das Video im letzten Schritt. Eggnog möchte zum „YouTube für KI-Videos“ werden. Quellen: TechCrunch, Y Combinator

Vectorview bewertet Performance und Sicherheit

Vectorview hilft dabei, die Fähigkeiten und die Sicherheit von Sprachmodellen zu evaluieren. Durch gezielte Tests mit praxisnahen Szenarien können unbeabsichtigte Verhaltensweisen erkannt und verhindert werden, die von allgemeinen Benchmarks oft übersehen werden. Quellen: TechCrunch, Y Combinator

Assembly AI zeigt Modell für Spracherkennung

Assembly AI stellt sein neues Spracherkennungsmodell Universal-1 vor, das im Vergleich zu OpenAIs Whisper  30% weniger Halluzinationen bei Sprachdaten und 90% weniger bei Umgebungsgeräuschen aufweisen soll. Das Modell bietet verbesserte Genauigkeit für Englisch, Spanisch, Französisch und Deutsch, unterstützt Code-Switching, optimierte Zeitstempelschätzung und schnellere Parallelverarbeitung, was für Anwendungen wie automatisierte Notizen, KI-gestützte Videobearbeitung und Telemedizin von Vorteil sein kann. …

Weiterlesen …

Mit Dall-E lassen sich generierte Bilder nun weiter bearbeiten

Ein Demovideo auf Twitter/X zeigt eine Funktion, die landläufig als „Inpainting“ bekannt ist: Mit einem Pinselwerkzeug lassen sich Teile des Bildes auswählen und dann per Sprachbefehl verändern. Quelle: Axios

OpenAI Voice Engine vorgestellt

Und OpenAI stellt seine neue KI-Technologie „Voice Engine“ vor, die menschliche Stimmen offenbar täuschend echt nachahmen kann. Das Unternehmen beschränkt den Zugang aber vorerst auf ausgewählte Partner. Quelle: VentureBeat

OpenVoice kann Stimmen in vielen Sprachen klonen

MyShell TTS präsentiert mit OpenVoice einen vielseitigen Ansatz zum Klonen von Stimmen. Das Tool kann anhand kurzer Audioschnipsel die Stimme einer Person in mehreren Sprachen replizieren. OpenVoice ermöglicht dabei eine detaillierte Kontrolle über Stimmstil, Emotionen, Akzent, Rhythmus, Pausen und Intonation. Quelle: Hacker News

Resemble AI zeigt Rapid Voice Cloning

Resemble AI führt mit Rapid Voice Cloning ein Tool ein, mit dem sich innerhalb einer Minute KI-gestützte Stimmklone aus kurzen Audiodaten erstellen lassen. Quelle: VentureBeat

Adobe GenStudio: generative KI-Tools für Unternehmen

Adobe kündigt generative KI-Lösungen an, um die Content-Supply-Chain für Unternehmen zu optimieren. Mit Adobe GenStudio erhalten Marketer ein KI-gestütztes Angebot, um schnell markenkonforme Inhalte zu planen, zu erstellen und zu verwalten. Der Bildgenerator Adobe Firefly wird dabei nahtlos integriert und ermöglicht nach Aussagen des Unternehmens mit neuen Firefly Services und Custom Models eine skalierbare Inhaltsproduktion.

Opera: Text-KI auf dem eigenen PC

Opera ermöglicht es jetzt, KI-Sprachmodelle lokal auf den eigenen Rechner herunterzuladen und dort auszuführen – also auch ohne Internetverbindung, ohne zusätzliche Kosten und privat. Über 150 Modelle von mehr als 50 Familien stehen zur Auswahl, darunter Llama von Meta, Gemma von Google und Vicuna. Das Feature ist zunächst für Nutzer von Opera One im Developer-Stream …

Weiterlesen …

Stable Audio 2.0: Songs per Textbefehl

Stability AI hat mit Stable Audio 2.0 ein Update für seine generative Audio-KI veröffentlicht. Mit der neuen Version lassen sich bis zu dreiminütige Audioclips aus Textbeschreibungen erstellen. Außerdem kann Stable Audio 2.0 hochgeladene Audiodateien anhand von Anweisungen in natürlicher Sprache transformieren. Großen Wert hat das Unternehmen offenbar auf den Urheberrechtsschutz gelegt: Es hat nach eigener Aussage nur …

Weiterlesen …