Googles neue KI nutzt Reasoning vor dem Erstellen von Bildern

Googles neuer Bildgenerator Gemini 3 Pro Image verändert die Funktionsweise dieser Toolkategorie grundlegend. Das Modell erstellt ein Bild nicht sofort aus einer Texteingabe. Stattdessen nutzt es einen „Thinking Mode“, um einen Plan zu entwerfen, zu kritisieren und zu korrigieren.

Stephen Smith schreibt bei Intelligence by Intent, dass dieser Ansatz einen wichtigen Fortschritt darstellt. Er beschreibt das Modell mit dem Spitznamen „Nano Banana Pro“ als eine „multimodale Denkmaschine in der Hülle eines Bildgenerators“. Dieser Denkprozess ermöglicht es der KI, Bilder in 4K-Auflösung mit lesbarem Text und durchgängig gleichen Charakteren in Bildserien zu erzeugen.

Laut Smith macht das neue System teure Spezialanpassungen für einheitliche Markendarstellungen überflüssig. Das Werkzeug kann Referenzbilder für Produkte und Logos nutzen und ist direkt in Google Workspace integriert. Smith hebt hervor, dass es detaillierte Storyboards erstellen, Werbematerialien mit Text in verschiedenen Sprachen anfertigen und komplexe Anweisungen verstehen kann.

Die neuen Fähigkeiten haben jedoch ihren Preis. Smith weist darauf hin, dass der Prozess langsamer und teurer ist als bei älteren Modellen. Zudem verhindern strenge Sicherheitsfilter die Erstellung von schädlichen Inhalten oder Urheberrechtsverletzungen.

Googles neue KI nutzt Reasoning vor dem Erstellen von Bildern

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen