Gemini Omni: Bild, Ton und Video in einem einzigen Modell

Google hat Gemini Omni vorgestellt, ein neues KI-Modell, das Text, Bilder, Audio und Video als Eingabe akzeptiert und daraus Videos erstellt. Das Unternehmen beschreibt es als nativ multimodal: Ein einziges Modell verarbeitet alle Inhaltstypen, ohne Aufgaben an separate Systeme weiterzugeben. Das erste Modell der Familie, Gemini Omni Flash, ist jetzt für Abonnenten der Google-Pläne AI Plus, Pro und Ultra über die Gemini-App und Google Flow verfügbar. Auf YouTube Shorts ist es kostenlos nutzbar.

Ein zentrales Merkmal von Omni ist das gesprächsbasierte Videobearbeiten. Nutzer geben Anweisungen in normaler Sprache ein, und jede Anweisung baut auf der vorherigen auf. Figuren, Objekte und Szenendetails bleiben über mehrere Bearbeitungsschritte hinweg konsistent. Google zufolge kann das Modell einzelne Elemente in einem Video verändern, Aktionen neu gestalten, Figuren hinzufügen und Umgebungen transformieren, ohne den Zusammenhang der ursprünglichen Szene zu verlieren.

Google gibt außerdem an, das Modell habe ein verbessertes Verständnis physikalischer Zusammenhänge wie Schwerkraft, Strömungsdynamik und kinetischer Energie. Das wirkt sich darauf aus, wie sich Objekte und Umgebungen in erzeugten Aufnahmen verhalten. Das Unternehmen erklärt zudem, Omni könne auf sein Wissenssystem zurückgreifen, um aus kurzen Prompts erklärende Lehrvideos zu erstellen.

Neben der Bearbeitung können Nutzer dem Modell eine Kombination aus Referenzmaterialien übergeben — ein Foto, einen kurzen Videoclip, eine Audiodatei — und Omni fügt diese zu einem einzigen Video zusammen. Google zufolge werden Sprachaufnahmen als Audio-Eingabe von Anfang an unterstützt, weitere Audio-Eingabetypen sollen folgen.

Eine Avatar-Funktion erlaubt es Nutzern, ein kurzes Video aufzunehmen, um das System zu autorisieren, Videoinhalte mit ihrer eigenen Stimme und ihrem Aussehen zu erstellen.

Jedes mit Omni erstellte Video trägt ein digitales SynthID-Wasserzeichen, eine von Google entwickelte Technologie zur Kennzeichnung KI-generierter Inhalte. Google zufolge können Nutzer über die Gemini-App, Chrome und die Google-Suche prüfen, ob ein Video mit Omni erstellt wurde. Das Unternehmen erweitert außerdem die Unterstützung für C2PA Content Credentials, einen Branchenstandard zur Kennzeichnung der Entstehung und Bearbeitung von Medieninhalten.

VentureBeat stellt fest, dass Gemini Omni direkt mit Produkten von Unternehmen wie Synthesia, ByteDance und Kuaishou konkurriert. Das Magazin berichtet außerdem, dass ein früher Tester die Inhaltsbeschränkungen des Modells als streng bewertet hat, was bestimmte Anwendungsfälle einschränken könnte.

Für Unternehmen weist VentureBeat darauf hin, dass das Modell noch nicht über eine Programmierschnittstelle verfügbar ist, die viele Unternehmen für die Integration in eigene Systeme benötigen. Google hat angekündigt, den API-Zugang über seine Vertex AI Plattform in den nächsten Wochen bereitzustellen.

Google hat zur Markteinführung keine Angaben zur Performance veröffentlicht.

Quellen: Google Blog, VentureBeat

Bleib auf dem Laufenden

KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:

 

Weitere Infos …

Über den Autor

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (3. Ausgabe, Januar 2026)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklich gewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen

×