Chinesische Forscher haben ein neuartiges KI-System namens LLaVA-o1 entwickelt. Ben Dickson berichtet für VentureBeat über dieses offene Sprachmodell für visuelle Verarbeitung. Das System nutzt einen vierstufigen Denkprozess: Zusammenfassung, Bildbeschreibung, Analyse und Schlussfolgerung. LLaVA-o1 basiert auf Llama-3.2-11B-Vision-Instruct und wurde mit 100.000 Bild-Text-Paaren trainiert. Eine besondere Innovation ist die „Stage-Level-Beam-Search“-Technik zur Verbesserung der Genauigkeit. In Tests übertraf das Modell sowohl offene als auch geschlossene Konkurrenzsysteme wie GPT-4-o-mini und Gemini 1.5 Pro. Die Leistung liegt dabei 6,9 Prozent über dem Basismodell.