Das Qwen-Team von Alibaba hat mit QVQ-72B-Preview ein neues experimentelles visuelles KI-Modell veröffentlicht, das die Fähigkeiten zur visuellen Analyse verbessern soll. Aufbauend auf der Qwen2-VL-72B-Architektur kombiniert das Modell Sprach- und Bildverarbeitung zur Bewältigung komplexer analytischer Aufgaben. Nach Unternehmensangaben erreichte QVQ einen Wert von 70,3 im MMMU-Benchmark, was eine Verbesserung gegenüber dem Vorgängermodell darstellt.
Das Modell wurde mit mehreren spezialisierten Datensätzen getestet, darunter die mathematisch orientierten MathVista und MathVision sowie dem Olympiade-Niveau-Datensatz OlympiadBench. Erste Tests unabhängiger Forscher zeigen gemischte, aber vielversprechende Ergebnisse, wobei das Modell besondere Stärken bei systematischen Problemlösungsansätzen aufweist. Bei visuellen Rätseln oder Zählaufgaben versucht QVQ, Probleme in Einzelschritte zu zerlegen und seinen Denkprozess zu erklären.
Allerdings weist das Modell auch einige dokumentierte Einschränkungen auf. Dazu gehören die Tendenz zum unerwarteten Mischen von Sprachen, mögliche zirkuläre Argumentationsmuster und der allmähliche Verlust des Bildfokus bei mehrstufigen Analyseprozessen. Ursprünglich unter einer Apache 2.0-Lizenz veröffentlicht, wurde die Lizenz auf Alibabas proprietäre Qwen-Lizenz umgestellt. Das Modell ist über Hugging Face Spaces für Tests zugänglich, und kompatible Versionen sind für verschiedene Frameworks einschließlich MLX verfügbar.
Quellen: Qwen LM, Simon Willison