Das Allen Institute for AI hat Molmo 2 vorgestellt, ein Open-Source-Videomodell für Videoanalyse und Videoverständnis. Es soll mit größeren proprietären Systemen konkurrieren können. Emilia David berichtet für VentureBeat.
Ai2 hat drei Versionen von Molmo 2 veröffentlicht: ein 8B-Modell auf Basis von Qwen-3 für optimales Video-Grounding und Fragenbeantwortung, eine effizientere 4B-Variante und eine 7B-Version auf Grundlage des Olmo-Modells. Die Modelle verarbeiten Einzelbilder, mehrere Bilder und Videoclips unterschiedlicher Länge.
Das Institut erklärt, dass ein zentrales Ziel die Schließung der Grounding-Lücke bei offenen Modellen war. Grounding bezeichnet die Fähigkeit einer KI, bestimmte Elemente in visuellen Inhalten auf Pixelebene zu lokalisieren und zu verfolgen.
Benchmark-Tests zeigen, dass Molmo 2 Konkurrenten wie Googles Gemini 3 Pro bei Videotracking-Aufgaben übertrifft. Die 8B-Version führt bei allen Open-Weight-Modellen im Bereich Bild- und Mehrbildanalyse, die 4B-Variante folgt knapp dahinter. Die stärksten Ergebnisse erzielten die Modelle bei Video-Grounding und Video-Counting.
Ai2 räumt ein, dass Video-Grounding weiterhin schwierig bleibt. Kein aktuelles Modell erreicht 40% Genauigkeit in bestehenden Benchmarks. Anders als Videogenerierungsmodelle wie Googles Veo 3.1 oder OpenAIs Sora konzentriert sich Molmo 2 auf Videoanalyse und Verständnis statt auf Inhaltserstellung.
Das Unternehmen hatte die Molmo-Familie für Bildanalyse im vergangenen Jahr eingeführt.
