Das Qwen-Team von Alibaba hat mit Qwen-Image einen neuen KI-Bildgenerator veröffentlicht. Nach Angaben der Entwickler ist das Modell darauf spezialisiert, Bilder mit präzisem Text in englischer und chinesischer Sprache zu erzeugen. Dies ist eine bekannte Schwachstelle vieler KI-Systeme. Der Journalist Carl Franzen schreibt für VentureBeat, dass sich damit Inhalte wie Plakate, Präsentationen oder Ladenbeschriftungen mit lesbarem Text erstellen lassen.
Das Modell ist unter der Apache-2.0-Lizenz als Open Source verfügbar, was die kostenlose kommerzielle Nutzung und Anpassung erlaubt. Dies macht es zu einer Alternative zu abo-basierten Diensten wie Midjourney. Franzens erste Tests zeigten allerdings, dass die Textqualität nicht merklich besser war als bei der Konkurrenz.
Für Unternehmen ist der Open-Source-Ansatz ein großer Vorteil. Ein wesentlicher Nachteil ist jedoch, dass Alibaba die Trainingsdaten nicht offenlegt. Zudem bietet das Unternehmen im Gegensatz zu Adobe oder OpenAI keinen Rechtsschutz bei möglichen Urheberrechtsverletzungen.
In offiziellen Benchmarks schneidet Qwen-Image stark ab und übertrifft andere Modelle, insbesondere bei der Darstellung chinesischer Schriftzeichen. Auf der öffentlichen Bewertungsplattform AI Arena ist es das bestplatzierte Open-Source-Modell. Qwen-Image ist über Dienste wie Hugging Face und GitHub frei zugänglich.