Stability AI hat Stable Audio 3.0 veröffentlicht, eine neue Familie von KI-Modellen zur Audiogenerierung. Alle Modelle wurden mit lizenzierten Musikdaten trainiert. Drei der vier Modelle sind als Open-Weight-Modelle frei verfügbar, das heißt, sie können heruntergeladen und weiterentwickelt werden.
Die vier Modelle im Überblick:
- Small SFX: erzeugt Soundeffekte auf Smartphones und Consumer-Laptops
- Small: komponiert vollständige Musikstücke auf Consumer-Geräten, bis zu zwei Minuten lang
- Medium: erzeugt Tracks von bis zu sechs Minuten und zwanzig Sekunden mit ausgeprägter musikalischer Struktur
- Large: für professionelle Plattformen mit hohem Generierungsvolumen
Small SFX, Small und Medium stehen auf Hugging Face zum Download bereit. Das Large-Modell ist nur über die Stability-AI-API oder kostenpflichtige Self-Hosting-Dienste zugänglich. Unternehmen mit einem Jahresumsatz von mehr als einer Million US-Dollar benötigen für die kommerzielle Nutzung eine Enterprise-Lizenz.
Stability AI bezeichnet die neuen Modelle als deutlichen technischen Fortschritt. Das bisherige Open-Weight-Modell Stable Audio Open konnte Audio von maximal 47 Sekunden erzeugen. Das Small-Modell der neuen Familie generiert nun bis zu zwei Minuten, Medium und Large mehr als sechs Minuten. Laut Stability AI ist das Small-Modell das erste, das vollständige Musikstücke auf einem Consumer-Gerät produzieren kann.
Ein zentrales technisches Merkmal ist die variable Länge der generierten Tracks. Nutzer können die genaue Dauer sekundengenau festlegen. Außerdem unterstützen die Modelle Audio Inpainting: Nutzer können einzelne Abschnitte eines Tracks bearbeiten oder ein Stück über sein ursprüngliches Ende hinaus verlängern.
Stability AI veröffentlicht außerdem eine Dokumentation für LoRA-Training. Diese Methode erlaubt es, ein Modell mit eigenen Audiodaten anzupassen. LoRA wurde zunächst in der Bildgenerierung bekannt und wird nun auf Audiomodelle übertragen.
Das Thema Lizenzierung spielt in der KI-Musikbranche eine wachsende Rolle. Die Konkurrenten Suno und Udio sind derzeit in rechtliche Auseinandersetzungen verwickelt, weil ihre Modelle offenbar mit nicht lizenzierten Musikdaten trainiert wurden. Stability AI betont, dass alle Modelle der neuen Familie ausschließlich mit lizenzierten Daten trainiert wurden. Das Unternehmen arbeitet bereits mit Universal Music Group und Warner Music Group zusammen.
Quellen: Stability AI, TechCrunch
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
