Googles neueste Bild-KI Nano Banana Pro sorgt für Aufsehen

Google hat ein neues Modell zur Bilderzeugung und -bearbeitung namens Nano Banana Pro vorgestellt, das offiziell als Gemini 3 Pro Image bezeichnet wird. Das Modell basiert auf dem kürzlich veröffentlichten Large Language Model Gemini 3 Pro des Unternehmens und führt eine Reihe neuer Funktionen ein, um Bilder mit einem hohen Maß an Kontrolle und Genauigkeit zu erstellen und zu verändern. Die Veröffentlichung zielt auf ein breites Publikum ab, von gelegentlichen Nutzern und Studenten bis hin zu professionellen Kreativen, Entwicklern und Unternehmenskunden.

Laut der Ankündigung von Google nutzt Nano Banana Pro das fortschrittliche Reasoning und das Weltwissen seines zugrundeliegenden Gemini 3 Pro-Modells, um kontextreichere und genauere Bilder zu erzeugen. Dies ermöglicht es Nutzern, detaillierte Infografiken, Diagramme und lehrreiche Erklärungen zu erstellen, die auf bereitgestellten Inhalten basieren oder auf Fakten aus der realen Welt zurückgreifen. Das Modell kann sich auch mit der Google Suche verbinden, um Echtzeitinformationen zu integrieren, beispielsweise um eine Wettervorhersage im Comic-Stil zu visualisieren oder eine schrittweise Infografik für ein Rezept zu erstellen.

Eine der bedeutendsten Verbesserungen ist die Fähigkeit des Modells, klaren und lesbaren Text direkt in Bildern darzustellen. Diese Funktion unterstützt mehrere Sprachen, was auf das verbesserte mehrsprachige Reasoning von Gemini 3 Pro zurückgeführt wird. Nutzer können Poster mit Slogans, Mockups mit detailliertem Text oder Designs mit einer Vielzahl von Schriftarten, Texturen und Kalligrafien erstellen. Das Modell kann auch bestehenden Text innerhalb eines Bildes übersetzen und so die Lokalisierung von Inhalten für internationale Zielgruppen ermöglichen. Beispielsweise könnte ein Nutzer das Modell anweisen, den Text auf Getränkedosen vom Englischen ins Koreanische zu übersetzen, während der Rest des Designs unverändert bleibt.

Neue kreative Steuerung und Funktionen

Nano Banana Pro führt das ein, was Google als „kreative Steuerung in Studioqualität“ beschreibt, und gibt den Nutzern damit eine präzisere Kontrolle über das Endergebnis. Zu diesen Steuerungsmöglichkeiten gehören:

  • Fortgeschrittene Bearbeitung: Nutzer können bestimmte Teile eines Bildes auswählen und verändern, Kamerawinkel anpassen, die Schärfentiefe ändern, um den Fokus zu verlagern, und anspruchsvolles Color Grading anwenden.
  • Lichttransformation: Das Modell kann die Beleuchtung einer Szene verändern, zum Beispiel ein Tageslichtfoto in eine Nachtszene umwandeln oder dramatische Lichteffekte wie Chiaroscuro erzeugen.
  • Hochauflösende Ausgabe: Bilder können in verschiedenen Seitenverhältnissen und in 2K- und 4K-Auflösung erzeugt werden, wodurch sie für eine Reihe von Plattformen von Social Media bis zum Druck geeignet sind.
  • Bildkombination und Konsistenz: Das Modell kann mehrere Quellbilder zu einer einzigen, stimmigen Komposition zusammenfügen. Laut der API-Dokumentation, wie der Entwickler Simon Willison anmerkte, kann es bis zu 14 Referenzbilder kombinieren. Es kann auch die Konsistenz und Ähnlichkeit von bis zu fünf Personen über verschiedene Szenen hinweg beibehalten, eine nützliche Funktion für Storyboarding oder die Erstellung von Kampagnenbildern.

Frühe Tests von Entwicklern bestätigen diese Fähigkeiten. Willison demonstrierte die Fähigkeit des Modells, einen komplexen, mehrstufigen Bearbeitungs-Prompt für ein Bild eines Pfannkuchen-Schädels zu befolgen, wobei es erfolgreich bestimmte Garnituren hinzufügte und den Hintergrund wie angewiesen änderte.

Verfügbarkeit im gesamten Google-Ökosystem

Google integriert Nano Banana Pro in seine gesamte Produkt- und Dienstleistungspalette. Für Privatkunden wird das Modell weltweit in der Gemini-App für Nutzer eingeführt, die das „Thinking“-Modell (Gemini 3 Pro) zur Bilderstellung auswählen. Nutzer der kostenlosen Stufe erhalten eine begrenzte Anzahl von kostenlosen Generierungen, bevor sie auf das vorherige Nano-Banana-Modell zurückfallen, während Abonnenten von Google AI Plus, Pro und Ultra höhere Nutzungskontingente erhalten.

Das Modell wird auch für Fachleute und Unternehmen verfügbar gemacht:

  • Google Ads: Die Werkzeuge zur Bilderzeugung werden auf Nano Banana Pro aktualisiert.
  • Google Workspace: Das Modell wird für Kunden in Google Slides und Vids ausgerollt.
  • Entwickler: Es ist über die Gemini API, Google AI Studio und Vertex AI für den Unternehmenseinsatz verfügbar.
  • Kreative: Abonnenten von Google AI Ultra können in Flow, einem KI-Tool für die Filmproduktion, darauf zugreifen.

Die Preise für Entwickler, die die API nutzen, sind gestaffelt. Laut Berichten von VentureBeat und Simon Willison kostet ein 4K-Bild etwa 24 Cent, während 1K- oder 2K-Bilder etwa 13,4 Cent kosten. Bildeingaben werden separat berechnet. Für Anwendungsfälle mit hohem Volumen ist dieser Preis höher als bei einigen Konkurrenten, kann aber für Nutzer gerechtfertigt sein, die eine hohe Auflösung oder spezifische Unternehmensfunktionen benötigen.

Identifizierung von KI-generierten Inhalten mit SynthID

In seiner Ankündigung betonte Google die Bedeutung der Transparenz bei KI-generierten Inhalten. Alle mit Nano Banana Pro erstellten Bilder sind mit SynthID, einem nicht wahrnehmbaren digitalen Wasserzeichen, versehen. Das Unternehmen hat außerdem ein Verifizierungswerkzeug direkt in der Gemini-App veröffentlicht, mit dem Nutzer ein Bild hochladen und fragen können, ob es von Google AI generiert wurde.

Simon Willison testete diese Funktion, indem er ein Bild erzeugte, das sichtbare Wasserzeichen entfernte und es in die Gemini-App hochlud. Die App identifizierte korrekt, dass „dieses Bild ganz oder teilweise mit Google AI erstellt wurde“.

Während das unsichtbare SynthID-Wasserzeichen auf alle generierten Bilder angewendet wird, behält Google ein sichtbares Wasserzeichen (ein „Funkel“-Symbol) auf Bildern bei, die von Nutzern der kostenlosen und der Google AI Pro-Stufe erstellt werden. Google entfernt dieses sichtbare Wasserzeichen für Abonnenten von Google AI Ultra und für Bilder, die im Entwicklerwerkzeug Google AI Studio erstellt werden.

Erste Reaktionen und bekannte Einschränkungen

Die Veröffentlichung hat in der Entwickler- und KI-Community erhebliche positive Reaktionen hervorgerufen. VentureBeat berichtete, dass Nutzer die Fähigkeiten des Modells als „absolut verrückt“ bezeichneten und viele Beispiele für komplexe Infografiken, medizinische Illustrationen und detaillierte Produkt-Mockups teilten, die mit einem einzigen Prompt erstellt wurden. Besonders gelobt wurde seine Leistung bei der Darstellung von korrektem Text und strukturierten Layouts. Der Entwickler Deedy Das nannte es „das bei weitem beste Bildmodell, das ich je gesehen habe“ und hob seine Fähigkeit hervor, Bearbeitungen wie in Photoshop durchzuführen.

Allerdings haben Google und andere Tester auch auf aktuelle Einschränkungen hingewiesen. In einem Firmen-Blogbeitrag räumte Google ein, dass die Darstellung von sehr kleinem Text oder feinen Details noch unvollkommen sein kann. Die sachliche Richtigkeit von datengestützten Grafiken wie Diagrammen sollte vom Nutzer immer überprüft werden. Darüber hinaus können komplexe Bearbeitungen manchmal unnatürliche Ergebnisse erzeugen, und die Beibehaltung der Charakterkonsistenz kann, obwohl verbessert, gelegentlich variieren.

Der KI-Forscher Lisan al Gaib demonstrierte eine wesentliche Einschränkung im logischen Reasoning, indem er zeigte, dass das Modell daran scheiterte, ein Sudoku-Rätsel korrekt zu generieren oder zu lösen. Dies unterstreicht, dass es sich um ein visuelles Werkzeug und nicht um eine allgemeine künstliche Intelligenz handelt.

Quellen: Google Blog, Google Blog, 9to5Google, Simon Willison, VentureBeat

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen