OmniGen: Erstes einheitliches Modell für Bildgenerierung

Forscher haben OmniGen vorgestellt, das erste Diffusionsmodell, das verschiedene Bildgenerierungsaufgaben in einem einzigen Framework vereinen kann. Im Gegensatz zu bestehenden Modellen wie Stable Diffusion benötigt OmniGen keine zusätzlichen Module, um unterschiedliche Steuerbedingungen zu verarbeiten, so die Autoren Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan et al. Das Modell kann Text-zu-Bild-Generierung, Bildbearbeitung, subjektgesteuerte Generierung, visuell-bedingte Generierung und sogar einige Computer-Vision-Aufgaben wie Kantenerkennung und Erkennung menschlicher Posen durchführen.

Die Architektur von OmniGen ist erheblich vereinfacht und kommt ohne zusätzliche Textencoder und Vorverarbeitungsschritte aus, was es benutzerfreundlicher macht. Die Forscher heben auch die Fähigkeit des Modells hervor, Wissen effektiv über Aufgaben hinweg zu übertragen und unbekannte Aufgaben und Domänen zu bewältigen. Zum Training von OmniGen erstellten sie einen großen, vielfältigen Datensatz namens X2I („anything to image“), der etwa 100 Millionen Bilder in einem einheitlichen Format umfasst. Die Autoren planen, die zugehörigen Ressourcen zu veröffentlichen, um weitere Fortschritte auf diesem Gebiet zu fördern.

Mehr zum Thema:

Bleib up-to-date: