Ein Überblick zu KI-Bildgeneratoren

Während die Aufmerksamkeit oft mehr bei den textbasierten KI-Angeboten liegt, haben sich die KI-Bildgeneratoren wie Dall-E, Stable Diffusion, MidJourney und andere stark weiterentwickelt.

Hier eine Übersicht wichtiger Angebote:

Dall-E 3

Dall-E kommt wie ChatGPT von OpenAI und ist in die Oberfläche des Chatbots integriert. Als Nutzer erklärst du also ChatGPT was du brauchst und der KI-Assistent gibt Dall-E die entsprechenden Anweisungen. Im Hintergrund erstellt Dall-E verschiedene Varianten und eine davon wird dir als Ergebnis präsentiert.

Du kannst im nächsten Schritt um Änderungen und Verbesserungen bitten. Allerdings erstellen ChatGPT und Dall-E dann immer ein komplett neues Bild. Du kannst also nicht etwa darum bitten, dass nur ein Detail geändert wird.

Tipps:

  1. Beschreibe ChatGPT möglichst genau, wofür du das Bild brauchst und welchen Zweck es erfüllen soll.
  2. Experimentiere mit verschiedenen Stilen, ansonsten sehen deine Bilder austauschbar aus. Frage also beispielsweise explizit nach einer „minimalistischen Grafik“ oder einem „3D Render“.

Fazit: Dall-E eignet sich perfekt für Einsteiger und eilige Nutzer, da es keinerlei Einstellungen gibt. Die Qualität der Ergebnisse ist gut. Der Mangel an Optionen und Freiheiten ist allerdings frustrierend, wenn man ein bestimmtes Motiv vor Augen hat. Es funktioniert somit am besten, wenn du dich von der KI inspirieren und leiten lässt.

Stable Diffusion

Stable Diffusion ist eine Familie von KI-Modellen von Stability AI. Das Besondere: Sie sind open source und stehen damit frei zur Verfügung.

Es hat sich in Windeseile eine höchst aktive Community rund um diese Bildgeneratoren entwickelt. Deshalb gibt es diverse Möglichkeiten, Stable Diffusion kostenlos auf dem eigenen Rechner zu nutzen – selbst Apps für Tablets und Smartphones gibt es. 

Stable Diffusion in Reinform ist nicht einsteigerfreundlich, da es eine lange Liste von Optionen und Funktionen gibt. Zudem musst du dich hier im Gegensatz zu Dall-E selbst um den Textbefehl (Prompt) kümmern.

Im Umkehrschluss bedeutet das: Hast du dich in Stable Diffusion eingearbeitet, hast du enorme Freiheiten. Es ist sicherlich das mächtigste Angebot.

Tipps:

  1. Du kannst Stable Diffusion hier kostenlos ausprobieren. Willst du mehr Optionen, findest du hier die Demo einer komplexeren Weboberfläche.
  2. Interessant ist auch die Toolsammlung Clipdrop, die im Hintergrund Stable Diffusion nutzt, um etwa den Hintergrund eines Fotos zu entfernen. Sehr beeindruckend ist darüber hinaus Stable Diffusion Turbo, das Bilder in Windeseile generiert.
  3. Willst du es genauer testen, nutze das DreamStudio.
  4. Für Fortgeschrittene gibt es browserbasierte Oberflächen wie Automatic1111 und ComfyUI. Für Apple-Geräte empfiehlt sich die kostenlose App Draw Things für Mac, iPad, iPhone.
  5. Finde Tipps und Tricks auf der Seite Stable Diffusion Art (Hinweis: Nicht alle Bilder auf der Seite sind geeignet fürs Aufrufen in der Öffentlichkeit)

Fazit: Stable Diffusion fühlt sich für mich an wie Photoshop und ähnlich mächtige Anwendungen. Am Anfang fällt es deshalb schwer, gute Ergebnisse zu erzielen. Aber wer sich vor der Lernkurve nicht scheut, hat hier ein enorm hilfreiches Werkzeug zur Hand, das sich sogar kostenlos nutzen lässt.

Midjourney

Midjourney ist beliebt, aber ich gebe an dieser Stelle ganz offen zu, dass ich es bislang nicht einsetze. Der Grund: Es war lange Zeit nur über die Chatplattform Discord nutzbar, was ich persönlich abschreckend fand. Es machte den Prozess unnötig umständlich.

Inzwischen scheint Midjourney an einer leichter verständlichen und nutzerfreundlicheren Oberfläche zu arbeiten. Insofern werde ich es sicher demnächst noch einmal ausprobieren, sobald die tatsächlich live geschaltet ist.

Die Ergebnisse, die ich im Netz sehe, können durchaus beeindruckend sein, allerdings gilt das auch für Dall-E und Stable Diffusion.

Fazit: Will ich schnell und einfach ein Bild generieren, ist Dall-E besser und simpler. Will ich experimentieren und viele Optionen haben, führt kein Weg an Stable Diffusion vorbei. Midjourney scheint sehr beliebt und führt offenbar schnell zu guten Ergebnissen. Insofern könnte dieser Dienst künftig einen Platz zwischen den beiden anderen genannten ergattern.

Weitere Angebote

Der Markt entwickelt sich schnell weiter. Hier einige weitere Angebote in aller Kürze:

Meta/Facebook: Imagine with Meta ist derzeit nur in den USA verfügbar. Es generiert vier Bilder zu einem Textprompt und ist derzeit kostenlos nutzbar. Login ist Pflicht. Alle Bilder haben ein sichtbares Wasserzeichen, das sie als KI-generiert kennzeichnet.

Microsoft: Image Creator from Designer war vorher bekannt als Bing Image Creator und nutzt hinter den Kulissen Dall-E (siehe oben). Es ist eine gute Möglichkeit, Dall-Es Fähigkeiten gratis auszuprobieren, wenn man mit den teils strikten Beschränkungen leben kann: Die KI verweigert sich sehr schnell auch bei harmlos scheinenden Bildbeschreibungen. Es ist in Microsofts Copilot Chatbot integriert (früher Bing Chat). Es setzt Microsofts Edge-Browser voraus.

Google: ImageFX ist derzeit eine Vorschau. Seine Besonderheit: Es möchte die Nutzer dabei unterstützen, Bildideen zu entwickeln und mit verschiedenen Stilen und Motiven zu experimentieren. Deshalb werden Teile des Textprompts automatisch zu Pulldownmenüs, mit denen sich schnell Alternativen auswählen lassen. Alle Bilder enthalten ein unsichtbares Wasserzeichen.

Amazon: Der Titan Image Generator steht derzeit für Nutzer des Dienstes AWS Bedrock zur Verfügung.

Mehr zum Thema:

Bleib up-to-date: