Tencent stellt KI-Modell vor, das aus Fotos navigierbare 3D-Videos erstellt

Der chinesische Technologiekonzern Tencent hat HunyuanWorld-Voyager veröffentlicht, ein KI-Modell, das statische Bilder in navigierbare 3D-ähnliche Videosequenzen verwandelt. Benj Edwards von Ars Technica berichtet über die Ankündigung.

Das System erzeugt aus einem einzigen Foto 49-Frame-Videoclips von etwa zwei Sekunden Länge. Nutzer können Kamerabewegungen wie Vorwärts-, Rückwärts- und Drehbewegungen definieren, um virtuelle Szenen zu erkunden. Mehrere Clips lassen sich zu minutenlangen Sequenzen verbinden.

Anders als echte 3D-Modelle produziert Voyager 2D-Videoframes, die räumliche Konsistenz bewahren, als würde sich eine Kamera durch realen 3D-Raum bewegen. Die KI erstellt gleichzeitig Farbvideo und Tiefeninformationen. Objekte bleiben dadurch in korrekten relativen Positionen während Kamerabewegungen.

Tencent trainierte das Modell mit über 100.000 Videoclips, einschließlich computergenerierter Szenen aus der Unreal Engine. Das System nutzt einen „World Cache“, der 3D-Punkte aus vorherigen Frames sammelt, um Konsistenz in neuen Aufnahmen zu gewährleisten.

Das Modell benötigt erhebliche Rechenleistung und mindestens 60GB GPU-Speicher für 540p-Auflösung. Tencent empfiehlt 80GB für optimale Ergebnisse. Die Modellgewichte sind auf Hugging Face verfügbar.

Voyager unterliegt Lizenzierungsbeschränkungen und darf nicht in der Europäischen Union, Großbritannien und Südkorea verwendet werden.

Mehr zum Thema:

Bleib up-to-date: