Mit Dall-E lassen sich generierte Bilder nun weiter bearbeiten

Ein Demovideo auf Twitter/X zeigt eine Funktion, die landläufig als „Inpainting“ bekannt ist: Mit einem Pinselwerkzeug lassen sich Teile des Bildes auswählen und dann per Sprachbefehl verändern. Quelle: Axios

OpenAI Voice Engine vorgestellt

Und OpenAI stellt seine neue KI-Technologie „Voice Engine“ vor, die menschliche Stimmen offenbar täuschend echt nachahmen kann. Das Unternehmen beschränkt den Zugang aber vorerst auf ausgewählte Partner. Quelle: VentureBeat

OpenVoice kann Stimmen in vielen Sprachen klonen

MyShell TTS präsentiert mit OpenVoice einen vielseitigen Ansatz zum Klonen von Stimmen. Das Tool kann anhand kurzer Audioschnipsel die Stimme einer Person in mehreren Sprachen replizieren. OpenVoice ermöglicht dabei eine detaillierte Kontrolle über Stimmstil, Emotionen, Akzent, Rhythmus, Pausen und Intonation. Quelle: Hacker News

Resemble AI zeigt Rapid Voice Cloning

Resemble AI führt mit Rapid Voice Cloning ein Tool ein, mit dem sich innerhalb einer Minute KI-gestützte Stimmklone aus kurzen Audiodaten erstellen lassen. Quelle: VentureBeat

Adobe GenStudio: generative KI-Tools für Unternehmen

Adobe kündigt generative KI-Lösungen an, um die Content-Supply-Chain für Unternehmen zu optimieren. Mit Adobe GenStudio erhalten Marketer ein KI-gestütztes Angebot, um schnell markenkonforme Inhalte zu planen, zu erstellen und zu verwalten. Der Bildgenerator Adobe Firefly wird dabei nahtlos integriert und ermöglicht nach Aussagen des Unternehmens mit neuen Firefly Services und Custom Models eine skalierbare Inhaltsproduktion.

Opera: Text-KI auf dem eigenen PC

Opera ermöglicht es jetzt, KI-Sprachmodelle lokal auf den eigenen Rechner herunterzuladen und dort auszuführen – also auch ohne Internetverbindung, ohne zusätzliche Kosten und privat. Über 150 Modelle von mehr als 50 Familien stehen zur Auswahl, darunter Llama von Meta, Gemma von Google und Vicuna. Das Feature ist zunächst für Nutzer von Opera One im Developer-Stream …

Weiterlesen …

Stable Audio 2.0: Songs per Textbefehl

Stability AI hat mit Stable Audio 2.0 ein Update für seine generative Audio-KI veröffentlicht. Mit der neuen Version lassen sich bis zu dreiminütige Audioclips aus Textbeschreibungen erstellen. Außerdem kann Stable Audio 2.0 hochgeladene Audiodateien anhand von Anweisungen in natürlicher Sprache transformieren. Großen Wert hat das Unternehmen offenbar auf den Urheberrechtsschutz gelegt: Es hat nach eigener Aussage nur …

Weiterlesen …

Merging

Merging bezeichnet im Kontext der generativen KI das Zusammenführen oder Verschmelzen verschiedener KI-Modelle oder deren Eigenschaften. Ähnlich wie bei einer Collage werden dabei die besten oder gewünschten Merkmale mehrerer Modelle in einem neuen Modell vereint. Ein praktisches Beispiel ist das Merging von verschiedenen Stable Diffusion-Modellen, bei dem etwa die Fähigkeit des einen Modells, Gesichter zu …

Weiterlesen …

Diese acht Personen haben ChatGPT möglich gemacht – bei Google

Dieser Wired-Artikel erzählt die Geschichte hinter der Entwicklung der „Transformer“, einer revolutionären KI-Architektur, die moderne Sprachmodelle wie ChatGPT antreibt. Ein Team von acht Google-Forschern entwickelte den Transformer im Jahr 2017 auf der Grundlage des Konzepts der Aufmerksamkeit (Attention). Das Team arbeitete intensiv an der Fertigstellung des Papiers vor einem wichtigen Konferenztermin, und ihr Durchbruch wurde …

Weiterlesen …

Stability AI strauchelt

Das britische Startup hat die von Müncher Studenten entwickelte „Diffusion“-Technik für KI-Bildgenerierung populär gemacht. Nun haben Robin Rombach, Andreas Blattmann und Dominik Lorenz das Unternehmen verlassen und damit drei der ursprünglich fünf Personen, die am Forschungsprojekt beteiligt waren. Quelle: Forbes