Neues KI-Modell Qwen3-VL soll sehen, verstehen und handeln

Das QwenTeam hat eine neue Serie quelloffener Vision-Language-Modelle namens Qwen3-VL veröffentlicht. Laut der offiziellen Ankündigung sollen die Modelle nicht nur Bilder und Videos erkennen, sondern auch Kontexte verstehen, logisch schlussfolgern und Aktionen ausführen. Das Spitzenmodell der Reihe, Qwen3-VL-235B-A22B, wird in zwei Versionen angeboten.

Die Entwickler berichten, dass die „Instruct“-Version in wichtigen Tests zur visuellen Wahrnehmung mit führenden geschlossenen Modellen wie Gemini 2.5 Pro konkurrieren oder diese sogar übertreffen könne. Eine zweite „Thinking“-Version ist für komplexes logisches Denken in Wissenschaft, Technik und Mathematik optimiert.

Zu den wichtigsten Fähigkeiten zählt laut dem Team die Funktion als visueller Agent. Damit kann das Modell Benutzeroberflächen von Computern und Mobilgeräten bedienen, um Aufgaben zu erledigen. Es kann zudem aus visuellen Entwürfen Programmcode erstellen und eine Designskizze in eine funktionale Webseite umwandeln. Das Modell zeigt ein verbessertes räumliches Verständnis und kann sehr lange Videos oder Dokumente verarbeiten, darunter Videoinhalte von bis zu zwei Stunden Länge. Weitere Verbesserungen umfassen die Texterkennung in 32 Sprachen sowie eine erweiterte Fähigkeit, verschiedenste Objekte wie Prominente oder Sehenswürdigkeiten zu identifizieren. Das Modell Qwen3-VL-235B-A22B ist als Open-Source-Software verfügbar.

Mehr zum Thema:

Bleib up-to-date: