Hugging Face stellt kompakte KI-Modelle für Bild- und Textanalyse vor

Hugging Face präsentiert zwei neue KI-Modelle für die Verarbeitung von Bildern, Videos und Texten auf ressourcenbeschränkten Geräten. Die als SmolVLM-256M und SmolVLM-500M bezeichneten Systeme benötigen weniger als 1GB Arbeitsspeicher. Wie der TechCrunch-Autor Kyle Wiggers berichtet, können die Modelle Bilder beschreiben, Videoclips analysieren und PDF-Dokumente auswerten. Die Entwicklung basiert auf den firmeneigenen Datensätzen „The Cauldron“ und „Docmatix“. Hugging Face gibt an, dass die kompakten Modelle in bestimmten Benchmarks bessere Ergebnisse erzielen als größere Alternativen. Studien von Google DeepMind und anderen Forschern weisen allerdings darauf hin, dass kleinere Modelle bei komplexen Reasoning-Aufgaben Schwächen zeigen können.

Mehr zum Thema:

Bleib up-to-date: