ARIA ist ein offenes, multimodales Mixture-of-Experts-Modell, das entwickelt wurde, um verschiedene Formen von Informationen für ein umfassendes Verständnis zu integrieren, und das bestehende proprietäre Modelle bei mehreren Aufgaben übertrifft. Mit insgesamt 24,9 Milliarden Parametern aktiviert es 3,9 Milliarden bzw. 3,5 Milliarden Parameter für visuelle bzw. Text-Token. Das Modell wird auf einem umfangreichen Datensatz trainiert, der 6,4 Billionen Sprach-Token und 400 Milliarden multimodale Token umfasst, und verwendet eine vierstufige Trainingspipeline, die seine Fähigkeiten schrittweise verbessert. Die Architektur von ARIA beinhaltet einen feinkörnigen Mixture-of-Experts-Decoder, der eine effiziente Nutzung der Parameter und eine hervorragende Leistung in verschiedenen Modalitäten wie Text, Bild und Video ermöglicht.
Der Trainingsprozess konzentriert sich auf multimodales Verstehen und lange Kontextfähigkeiten und erreicht ein Kontextfenster von 64k Token. Benchmark-Ergebnisse zeigen, dass ARIA beim multimodalen Verstehen von langen Kontexten hervorragend abschneidet und sowohl Open-Source- als auch proprietäre Modelle bei Aufgaben wie dem Verstehen von Dokumenten und der Videoanalyse übertrifft. Darüber hinaus zeigt ARIA starke Fähigkeiten beim Befolgen von Anweisungen, was es für reale Anwendungen geeignet macht.