LLaVA-o1 verbessert Bildverarbeitung durch strukturiertes Denken
Chinesische Forscher haben ein neuartiges KI-System namens LLaVA-o1 entwickelt. Ben Dickson berichtet für VentureBeat über dieses offene Sprachmodell für visuelle Verarbeitung. Das System nutzt einen vierstufigen Denkprozess: Zusammenfassung, Bildbeschreibung, Analyse und Schlussfolgerung. LLaVA-o1 basiert auf Llama-3.2-11B-Vision-Instruct und wurde mit 100.000 Bild-Text-Paaren trainiert. Eine besondere Innovation ist die „Stage-Level-Beam-Search“-Technik zur Verbesserung der Genauigkeit. In Tests übertraf … Weiterlesen …