Google begeistert mit neuem KI-Bildgenerator

Google hat ein aktualisiertes KI-Modell namens Gemini 2.5 Flash Image veröffentlicht. Es soll Nutzern mehr Kontrolle über die Erstellung und Bearbeitung von Bildern geben. Das Modell wurde zuvor anonym auf der Bewertungsplattform LMArena unter dem Codenamen „nano-banana“ getestet. Nun ist es in die Gemini-App integriert und steht Entwicklern über die Gemini API, Google AI Studio und Vertex AI zur Verfügung.

Laut offiziellen Mitteilungen von Google ist die Veröffentlichung eine Reaktion auf Nutzerfeedback. Nutzer wünschten sich Bilder von höherer Qualität und leistungsfähigere kreative Steuerungsmöglichkeiten als in früheren Versionen. Das Unternehmen hebt mehrere Kernfunktionen des neuen Modells hervor.

Kernfunktionen

Ein Hauptaugenmerk des Updates liegt auf der Verbesserung der Konsistenz von Motiven in Bildern. Google gibt an, dass das Modell das Aussehen einer Person, eines Haustieres oder eines Objekts über mehrere Bearbeitungsschritte und Prompts hinweg beibehalten kann. Dies ermöglicht es, dieselbe Figur in verschiedene Umgebungen oder Outfits zu platzieren, ohne ihre wesentlichen Merkmale zu verzerren. Damit wird eine häufige Herausforderung bei der KI-Bilderzeugung adressiert.

Weitere wichtige Funktionen sind:

  • Prompt-basierte Bearbeitung: Nutzer können mit einfachen Textbefehlen gezielte, lokale Änderungen an einem Bild vornehmen. Als Beispiele nennt Google das Weichzeichnen eines Hintergrunds, das Entfernen eines Objekts oder das Ändern der Pose einer Person.
  • Verschmelzung mehrerer Bilder: Das Modell kann Elemente aus mehreren Quellbildern zu einem neuen, stimmigen Bild zusammenfügen. So lassen sich Personen und Objekte in neuen Szenen kombinieren oder der Stil und die Textur eines Bildes auf ein anderes übertragen.
  • Mehrstufige Bearbeitung: Anwender können eine Reihe von Bearbeitungsschritten nacheinander durchführen. Das Modell behält dabei den Kontext von einem Schritt zum nächsten bei. Ein Nutzer könnte beispielsweise mit einem leeren Raum beginnen, dann die Wände streichen und anschließend Möbel hinzufügen.
  • Weltwissen: Das Modell nutzt die breitere Wissensbasis der Gemini-Familie. Laut Google kann es dadurch Bilder, die sich auf reale Konzepte und Diagramme beziehen, besser verstehen und erzeugen.

Mit dieser Veröffentlichung positioniert sich Google im umkämpften Markt für KI-Bildgeneratoren. Berichte von Medien wie TechCrunch und VentureBeat sehen das Update als einen Versuch, mit Angeboten von Konkurrenten wie OpenAI, Midjourney und Adobe mitzuhalten. Vor der Veröffentlichung sorgte das „nano-banana“-Modell in sozialen Medien für Aufsehen, wo Nutzer seine Fähigkeit lobten, komplexe Anweisungen zu befolgen.

Für Entwickler und Unternehmenskunden hat Google konkrete Preise für die Nutzung des Modells über seine API bekannt gegeben. Diese liegen bei 0,039 US-Dollar pro erzeugtem Bild. Zudem kündigte das Unternehmen Partnerschaften mit Plattformen wie OpenRouter.ai und fal.ai an, um den Zugang für Entwickler zu erweitern.

Um Sicherheitsbedenken und Transparenz zu begegnen, bestätigt Google, dass alle mit dem Modell erstellten oder bearbeiteten Bilder SynthID enthalten werden. Dies ist ein unsichtbares digitales Wasserzeichen, das sie als KI-generiert kennzeichnet. In der Gemini-App erzeugte Bilder erhalten zusätzlich ein sichtbares Wasserzeichen.

Quellen: Google, Google, TechCrunch, VentureBeat

Mehr zum Thema:

Bleib up-to-date: