Mit Dall-E lassen sich generierte Bilder nun weiter bearbeiten

Ein Demovideo auf Twitter/X zeigt eine Funktion, die landläufig als „Inpainting“ bekannt ist: Mit einem Pinselwerkzeug lassen sich Teile des Bildes auswählen und dann per Sprachbefehl verändern. Quelle: Axios

OpenAI Voice Engine vorgestellt

Und OpenAI stellt seine neue KI-Technologie „Voice Engine“ vor, die menschliche Stimmen offenbar täuschend echt nachahmen kann. Das Unternehmen beschränkt den Zugang aber vorerst auf ausgewählte Partner. Quelle: VentureBeat

OpenVoice kann Stimmen in vielen Sprachen klonen

MyShell TTS präsentiert mit OpenVoice einen vielseitigen Ansatz zum Klonen von Stimmen. Das Tool kann anhand kurzer Audioschnipsel die Stimme einer Person in mehreren Sprachen replizieren. OpenVoice ermöglicht dabei eine detaillierte Kontrolle über Stimmstil, Emotionen, Akzent, Rhythmus, Pausen und Intonation. Quelle: Hacker News

Resemble AI zeigt Rapid Voice Cloning

Resemble AI führt mit Rapid Voice Cloning ein Tool ein, mit dem sich innerhalb einer Minute KI-gestützte Stimmklone aus kurzen Audiodaten erstellen lassen. Quelle: VentureBeat

Adobe GenStudio: generative KI-Tools für Unternehmen

Adobe kündigt generative KI-Lösungen an, um die Content-Supply-Chain für Unternehmen zu optimieren. Mit Adobe GenStudio erhalten Marketer ein KI-gestütztes Angebot, um schnell markenkonforme Inhalte zu planen, zu erstellen und zu verwalten. Der Bildgenerator Adobe Firefly wird dabei nahtlos integriert und ermöglicht nach Aussagen des Unternehmens mit neuen Firefly Services und Custom Models eine skalierbare Inhaltsproduktion.

Opera: Text-KI auf dem eigenen PC

Opera ermöglicht es jetzt, KI-Sprachmodelle lokal auf den eigenen Rechner herunterzuladen und dort auszuführen – also auch ohne Internetverbindung, ohne zusätzliche Kosten und privat. Über 150 Modelle von mehr als 50 Familien stehen zur Auswahl, darunter Llama von Meta, Gemma von Google und Vicuna. Das Feature ist zunächst für Nutzer von Opera One im Developer-Stream … Weiterlesen …

Stable Audio 2.0: Songs per Textbefehl

Stability AI hat mit Stable Audio 2.0 ein Update für seine generative Audio-KI veröffentlicht. Mit der neuen Version lassen sich bis zu dreiminütige Audioclips aus Textbeschreibungen erstellen. Außerdem kann Stable Audio 2.0 hochgeladene Audiodateien anhand von Anweisungen in natürlicher Sprache transformieren. Großen Wert hat das Unternehmen offenbar auf den Urheberrechtsschutz gelegt: Es hat nach eigener Aussage nur … Weiterlesen …

Amazon-KI soll Shops das Leben erleichtern

Ein kleines, feines Beispiel für eine praktische KI-Anwendung zeigt Amazon: Ein Link zu einem Produkt im eigenen Shop genügt, und der Assistent generiert eine Amazon-Produktseite daraus, berichtet The Verge. Das Angebot ist zunächst in den USA verfügbar.

Stable Video 3D vorgestellt

Stable Video 3D erstellt 3D-Modelle aus einem einzigen Foto. Es lässt sich für nicht-kommerzielle Anwendungen kostenlos nutzen.

Google VLOGGER animiert Menschen von nur einem Foto

Google-Forscher zeigen VLOGGER, das aus einem einzigen Foto lebensechte Videos von Menschen erstellen kann, die sprechen, gestikulieren und sich bewegen. Das eröffnet eine Reihe potenzieller Anwendungen, wirft aber auch Bedenken hinsichtlich Fälschungen und Fehlinformationen auf. Quelle: VentureBeat