Meta Platforms veröffentlicht mit SAM Audio ein neues KI-Modell für die einfache Bearbeitung von Tonaufnahmen. Das System kann einzelne Geräusche aus komplexen Audio-Dateien isolieren oder entfernen. Mike Wheatley berichtet für Silicon Angle über diese Entwicklung. Nutzer finden das Werkzeug ab sofort im Segment Anything Playground von Meta.
Die Bedienung erfolgt über einfache Befehle. Wer eine Bandaufnahme bearbeitet, kann Gesang oder Gitarren mit einer Texteingabe trennen. Podcaster können störenden Straßenlärm oder Hundegebell mit wenigen Klicks löschen. Das Modell unterstützt drei verschiedene Arten von Prompts. Nutzer können Texte eintippen, in einem Video auf lärmende Objekte klicken oder bestimmte Zeitspannen markieren.
Die technische Basis bildet die Perception Encoder Audiovisual Engine. Diese Komponente erkennt das beschriebene Geräusch und trennt es präzise vom Rest der Aufnahme. Meta sieht vielfältige Einsatzmöglichkeiten in der Musikproduktion, im Filmwesen und in der Wissenschaft.
Besonderes Augenmerk liegt auf der Barrierefreiheit. Meta arbeitet mit Starkey Laboratories zusammen, um die Funktionen von Hörgeräten zu verbessern. Eine weitere Partnerschaft besteht mit 2gether-International zur Unterstützung behinderter Gründer. Das Modell weist jedoch noch Grenzen auf. Es versteht bisher keine rein akustischen Befehle. Auch die Trennung sehr ähnlicher Klänge, etwa eine einzelne Stimme in einem Chor, bereitet der KI noch Schwierigkeiten. Dennoch arbeitet SAM Audio extrem schnell und verarbeitet Daten effizient.
