Forscher der New York University haben eine neue KI-Architektur vorgestellt, die Bilder qualitativ hochwertiger und effizienter erzeugt. Ben Dickson berichtet für VentureBeat, dass das Modell mit dem Namen Representation Autoencoders oder RAE das semantische Verständnis einer KI verbessert, was zu besseren Ergebnissen führt.
Die neue Methode bricht mit gängigen Ansätzen für Diffusionsmodelle, der Technologie hinter den meisten Bildgeneratoren. Heutige Modelle nutzen oft eine Autoencoder-Komponente, die zwar visuelle Details gut erfasst, aber kein tieferes Verständnis des Bildinhalts besitzt. Das NYU-Team ersetzt diesen durch RAE, der leistungsstarke, bereits trainierte Modelle zur visuellen Erkennung integriert.
Laut Co-Autor Saining Xie hilft dieser Ansatz, „den Verständnisteil mit dem generierenden Teil zu verbinden“. Durch die gemeinsame Entwicklung der Modellkomponenten fanden die Forscher heraus, dass ihr System wesentlich schneller lernt. Das RAE-basierte Modell erreicht eine 47-fache Beschleunigung im Training im Vergleich zu früheren Diffusionsmodellen und benötigt dabei deutlich weniger Rechenleistung.
Diese Effizienz und das bessere Verständnis führen zu einer höheren Bildqualität, die im ImageNet-Benchmark Spitzenwerte erreicht. Xie ist überzeugt, dass die Technologie zuverlässigere Funktionen für Unternehmensanwendungen ermöglichen kann und ein Schritt in Richtung einheitlicher KI-Modelle ist, die verschiedene Medien von Bild bis Video verarbeiten und erzeugen können.
