OpenAI hat native Bildgenerierungsfunktionen direkt in ChatGPT eingeführt, die vom multimodalen Modell GPT-4o angetrieben werden. Diese neue Funktion, „Images in ChatGPT“ genannt, steht jetzt Nutzern der Plus-, Pro-, Team- und kostenlosen Zugänge zur Verfügung. Optionen für Enterprise, Edu und über die API folgen in Kürze.
Im Gegensatz zum bisherigen DALL-E 3-Bildgenerator, der ein separates Diffusionsmodell war, ist diese neue Funktion direkt in GPT-4o selbst integriert, was OpenAI als „nativ multimodales Modell“ bezeichnet. Laut OpenAIs Forschungsleiter Gabriel Goh stellt diese Integration „einen Quantensprung gegenüber früheren Modellen“ in Qualität und Funktionalität dar.
Wichtige Verbesserungen und Fähigkeiten
Das neue Bildgenerierungssystem zeichnet sich in mehreren Bereichen aus, die für KI-Bildgeneratoren traditionell herausfordernd waren:
- Verbesserte Textdarstellung: Das System kann zusammenhängenden, lesbaren Text innerhalb von Bildern erzeugen, ohne die bei anderen Generatoren üblichen verzerrten Buchstaben. OpenAI gibt an, dies durch „viele Monate kleiner Verbesserungen“ erreicht zu haben.
- Besseres „Binding“: Das System kann korrekte Beziehungen zwischen Attributen und Objekten für 15-20 Elemente ohne Verwechslungen beibehalten. Das ist weit über die Grenze von 5-8 Objekten hinaus, bei der die meisten Generatoren beginnen, Farben, Formen und Attribute zu vermischen.
- Kontextbewusstsein: Bilder können durch natürliche Konversation verfeinert werden, wobei das Modell die visuelle Konsistenz über mehrere Iterationen hinweg beibehält.
- Integration von Weltwissen: Wie Jackie Shannon, Produktleiterin für ChatGPT Multimodal, erklärte, „bringt das Modell Weltwissen in die Gleichung ein“, was Nutzern das Erstellen präziser Visualisierungen von Konzepten gestattet, ohne diese detailliert erklären zu müssen.
Die Technologie verwendet einen autoregressiven Ansatz, der Bilder sequentiell von links nach rechts und von oben nach unten erzeugt (ähnlich wie Text geschrieben wird), anstatt der Diffusionsmodell-Technik, die von DALL-E und anderen Bildgeneratoren verwendet wird, die das gesamte Bild auf einmal erstellen.
Praktische Anwendungen
Die neuen Funktionen machen KI-generierte Bilder potenziell praktischer für den alltäglichen Gebrauch, über künstlerische Schöpfungen hinaus. Von OpenAI hervorgehobene Beispiele umfassen:
- Erstellung wissenschaftlicher Diagramme mit korrekt beschrifteten Komponenten
- Gestaltung von Comics mit konsistenten Charakteren
- Produktion von Informationspostern und Menüs mit präzisem Text
- Generierung von Bildern mit transparentem Hintergrund für Aufkleber und Logos
Diese Verbesserungen könnten KI-Bildgenerierung von einem primär dekorativen Werkzeug in ein Instrument für präzise visuelle Kommunikation verwandeln.
Sicherheitsmaßnahmen und Einschränkungen
OpenAI betont, dass das System Schutzmaßnahmen gegen potenziellen Missbrauch enthält. Alle generierten Bilder enthalten C2PA-Metadaten, die sie als KI-erstellt kennzeichnen, obwohl sichtbare Wasserzeichen fehlen.
Trotz dieser Fortschritte erkennt OpenAI Einschränkungen an, darunter Probleme beim Zuschneiden großer Bilder, Schwierigkeiten mit nicht-lateinischen Schriften, Probleme mit kleinen Textdetails und Herausforderungen bei der präzisen Bearbeitung.
Die neue Bildgenerierung dauert auch länger als frühere Systeme, was laut OpenAI ein lohnender Kompromiss für die verbesserte Qualität ist.
Branchenexperten und Nutzer haben bereits stark positive Reaktionen auf die Qualitätsverbesserungen gezeigt. Die unabhängige KI-Beraterin Allie K. Miller beschreibt es als einen „enormen Sprung in der Textgenerierung“ und als „das beste“ KI-Bildgenerierungsmodell, das sie gesehen habe.
Quellen: OpenAI, The Verge, VentureBeat