Ein neues Open Source Modell setzt Maßstäbe bei der Erstellung von komplexen Grafiken mit viel Text. Die Software GLM Image des Startups Z.ai übertrifft in Tests sogar die Leistung von Googles Nano Banana Pro. Carl Franzen berichtet für VentureBeat über die wachsende Konkurrenz für den Tech Riesen aus den USA.
GLM Image nutzt eine Architektur aus zwei Teilen mit insgesamt 16 Milliarden Parametern. Ein Modul dient als Architekt und plant logisch den Aufbau des Bildes sowie die präzise Platzierung der Texte. Ein zweites Modul fungiert als Maler und übernimmt die künstlerische Gestaltung der Details wie Texturen und Licht. Diese Methode verhindert typische Fehler bei der Darstellung von Buchstaben und Zahlen. Im sogenannten CVTG 2k Test erreichte die Software eine Genauigkeit von über 90 Prozent. Google schnitt in diesem speziellen Bereich deutlich schlechter ab.
Besonders für Unternehmen bietet die Veröffentlichung große Vorteile. Die Software nutzt freie Lizenzen wie MIT und Apache 2.0. Firmen können das Modell auf eigenen Servern betreiben und an ihre Bedürfnisse anpassen. Das schützt sensible Daten und vermeidet teure Abhängigkeiten von Plattformen.
Die Nutzung erfordert jedoch Geduld und viel Rechenleistung. Die Erstellung eines einzigen Bildes dauert auf moderner Hardware mehrere Minuten. Erste Praxistests zeigen zudem, dass Google bei der optischen Qualität und der Befolgung allgemeiner Anweisungen noch vorne liegt. Dennoch beweist GLM Image, dass offene KI Modelle bei speziellen Aufgaben wie der Erstellung von Infografiken oder technischen Diagrammen nun zur Weltspitze gehören.
