Google hat sein Modell Gemini Omni Flash erstmals über eine API für Entwickler und Unternehmenskunden geöffnet. Wie das Google-Blog berichtet und VentureBeat ausführlich analysiert, ermöglicht das Modell erstmals konversationelle Videobearbeitung in professionellen Arbeitsabläufen. Nutzer können Videoclips durch einfache Textanweisungen verändern, ohne jedes Mal von vorne beginnen zu müssen.
Die wichtigste Neuerung ist die zustandsbasierte Bearbeitung in mehreren Schritten. Jede Anweisung baut auf der vorherigen auf. Wer also die Beleuchtung anpasst, das Bild neu ausrichtet oder ein Logo austauscht, verliert dabei nicht die bereits gelungenen Teile eines Clips. Die zugrundeliegende Technologie nennt Google Interactions API.
Ein Modell ersetzt fünf separate Tools
Viele Teams setzen bisher auf eine Kette verschiedener Werkzeuge: eines für das Skript, eines für Bilder, eines für Video, eines für Lippensynchronisation und eines für Stimmen. Omni Flash vereint all das in einem einzigen Modell. Als Eingaben akzeptiert es Text, Bilder und kurze Videoclips. Als Ausgabe liefert es einen fertigen Clip mit Audio.
Weitere Funktionen, die für Content-Teams besonders relevant sind:
- Referenzbilder: Das Modell übernimmt echte Produktfotos oder Logos, statt generische Platzhalter zu erzeugen
- Physikalisch konsistente Darstellung: Wer Regen zu einer Szene hinzufügt, erhält automatisch Reflexionen von Personen und Objekten auf nassem Untergrund
- Text- und Logo-Einbindung: Schilder im Bild lassen sich umschreiben oder übersetzen, allerdings nicht immer konsistent über alle Frames hinweg
Preis, Einschränkungen und Sicherheitsgrenzen
Omni Flash kostet 0,10 US-Dollar pro Sekunde generiertes Video. Ein zehn Sekunden langer Clip kostet damit rund einen Dollar. Die Auflösung ist auf 720p begrenzt. Clips können zwischen drei und zehn Sekunden lang sein. Höhere Auflösungen wie 1080p oder 4K sind derzeit nicht verfügbar.
Jeder Clip enthält Googles SynthID-Wasserzeichen sowie C2PA-Metadaten zur Herkunftskennzeichnung. Das Modell verweigert die Lippensynchronisation eines Fotos einer realen Person mit einer Audioaufnahme. Diese Einschränkung soll Deepfakes begrenzen. Aufgezeichnete Sprache in eine andere Sprache zu übersetzen ist hingegen möglich und wird als Lokalisierungswerkzeug für Schulungsvideos positioniert.
In der Rangliste LMArena Text-to-Video Arena belegt Omni Flash derzeit Platz eins mit einem Score von 1527. Google räumt im eigenen Modell-Steckbrief ein, dass Charakterkonsistenz über mehrere Bearbeitungsschritte sowie die genaue Wiedergabe von Text noch ungelöste Probleme darstellen.
Quellen
- Google’s Gemini Omni Flash hits the API, turning enterprise video production into a conversation – VentureBeat
- Start building with Nano Banana 2 Lite and Gemini Omni Flash – The Keyword (Google Blog)
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
