Nvidia bündelt Sprache, Bild und Ton in Nemotron 3 Nano Omni

Nvidia hat Nemotron 3 Nano Omni vorgestellt, ein offenes KI-Modell, das Text, Bild und Audio in einem System vereint. Bisherige KI-Agenten nutzen für jede dieser Aufgaben separate Modelle. Das verlangsamt die Verarbeitung und erhöht die Kosten. Nvidia will dieses Problem mit dem neuen Modell lösen.

Das Modell basiert auf einer hybriden Mixture-of-Experts-Architektur mit 30 Milliarden Parametern. Nvidia integriert Vision- und Audio-Encoder direkt ins Modell. Laut Nvidia erreicht es dadurch bis zu neunmal höheren Durchsatz als vergleichbare offene Omni-Modelle.

Gautier Cloix, CEO von H Company, einem frühen Nutzer, sagt: „Um nützliche Agenten zu bauen, kann man nicht Sekunden warten, bis ein Modell einen Bildschirm interpretiert. Mit Nemotron 3 Nano Omni können unsere Agenten Full-HD-Bildschirmaufnahmen in Echtzeit verarbeiten — das war vorher nicht praktikabel.“

Das Modell ist für sogenannte agentische Workflows konzipiert, also Systeme, bei denen KI selbstständig Abfolgen von Aufgaben erledigt. Mögliche Anwendungen sind Dokumentenanalyse, Kundensupport sowie Audio- und Videoauswertung.

Nemotron 3 Nano Omni ist mit offenen Gewichten auf Hugging Face, OpenRouter und build.nvidia.com verfügbar. Es läuft auf lokaler Hardware wie dem Nvidia DGX Spark und in Cloud-Umgebungen. Nvidia gibt an, dass die gesamte Nemotron-Modellfamilie im vergangenen Jahr über 50 Millionen Downloads erreicht hat.

Quellen: Nvidia, Silicon Angle

Bleib auf dem Laufenden

Mehr zum Thema: