Videos per Chat bearbeiten: Google bringt Omni Flash in die

Google hat sein Modell Gemini Omni Flash erstmals über eine API für Entwickler und Unternehmenskunden geöffnet. Wie das Google-Blog berichtet und VentureBeat ausführlich analysiert, ermöglicht das Modell erstmals konversationelle Videobearbeitung in professionellen Arbeitsabläufen. Nutzer können Videoclips durch einfache Textanweisungen verändern, ohne jedes Mal von vorne beginnen zu müssen.

Die wichtigste Neuerung ist die zustandsbasierte Bearbeitung in mehreren Schritten. Jede Anweisung baut auf der vorherigen auf. Wer also die Beleuchtung anpasst, das Bild neu ausrichtet oder ein Logo austauscht, verliert dabei nicht die bereits gelungenen Teile eines Clips. Die zugrundeliegende Technologie nennt Google Interactions API.

Ein Modell ersetzt fünf separate Tools

Viele Teams setzen bisher auf eine Kette verschiedener Werkzeuge: eines für das Skript, eines für Bilder, eines für Video, eines für Lippensynchronisation und eines für Stimmen. Omni Flash vereint all das in einem einzigen Modell. Als Eingaben akzeptiert es Text, Bilder und kurze Videoclips. Als Ausgabe liefert es einen fertigen Clip mit Audio.

Weitere Funktionen, die für Content-Teams besonders relevant sind:

Referenzbilder: Das Modell übernimmt echte Produktfotos oder Logos, statt generische Platzhalter zu erzeugen
Physikalisch konsistente Darstellung: Wer Regen zu einer Szene hinzufügt, erhält automatisch Reflexionen von Personen und Objekten auf nassem Untergrund
Text- und Logo-Einbindung: Schilder im Bild lassen sich umschreiben oder übersetzen, allerdings nicht immer konsistent über alle Frames hinweg

Preis, Einschränkungen und Sicherheitsgrenzen

Omni Flash kostet 0,10 US-Dollar pro Sekunde generiertes Video. Ein zehn Sekunden langer Clip kostet damit rund einen Dollar. Die Auflösung ist auf 720p begrenzt. Clips können zwischen drei und zehn Sekunden lang sein. Höhere Auflösungen wie 1080p oder 4K sind derzeit nicht verfügbar.

Jeder Clip enthält Googles SynthID-Wasserzeichen sowie C2PA-Metadaten zur Herkunftskennzeichnung. Das Modell verweigert die Lippensynchronisation eines Fotos einer realen Person mit einer Audioaufnahme. Diese Einschränkung soll Deepfakes begrenzen. Aufgezeichnete Sprache in eine andere Sprache zu übersetzen ist hingegen möglich und wird als Lokalisierungswerkzeug für Schulungsvideos positioniert.

In der Rangliste LMArena Text-to-Video Arena belegt Omni Flash derzeit Platz eins mit einem Score von 1527. Google räumt im eigenen Modell-Steckbrief ein, dass Charakterkonsistenz über mehrere Bearbeitungsschritte sowie die genaue Wiedergabe von Text noch ungelöste Probleme darstellen.

Quellen

Google’s Gemini Omni Flash hits the API, turning enterprise video production into a conversation – VentureBeat
Start building with Nano Banana 2 Lite and Gemini Omni Flash – The Keyword (Google Blog)

Videos per Chat bearbeiten: Google bringt Omni Flash in die Unternehmensproduktion

Ein Modell ersetzt fünf separate Tools

Preis, Einschränkungen und Sicherheitsgrenzen

Quellen

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Ein Modell ersetzt fünf separate Tools

Preis, Einschränkungen und Sicherheitsgrenzen

Quellen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen