Das französische KI-Startup Mistral AI hat Mistral Small 3 veröffentlicht, ein Sprachmodell mit 24 Milliarden Parametern, das laut Unternehmensangaben die Leistung von dreimal größeren Modellen erreicht. Dem Unternehmen zufolge erzielt das neue Modell eine Genauigkeit von 81% bei Standardtests und verarbeitet 150 Token pro Sekunde, was es mit Metas Llama 3.3 70B Modell vergleichbar macht, während es deutlich schneller arbeitet.
Das Modell wird unter der Apache 2.0-Lizenz veröffentlicht, wodurch Unternehmen es frei modifizieren und einsetzen können. Mistral AI gibt an, dass die Leistungsverbesserungen durch optimierte Trainingstechniken und nicht durch erhöhte Rechenleistung erreicht wurden, wobei das Modell mit 8 Billionen Token trainiert wurde, im Vergleich zu den üblichen 15 Billionen bei vergleichbaren Modellen. Das Unternehmen berichtet, dass das Modell ohne Reinforcement Learning oder synthetische Trainingsdaten entwickelt wurde.
Laut Mistral AI eignet sich das neue Modell besonders für Unternehmen, die eine lokale Bereitstellung von KI aus Gründen der Privatsphäre und Zuverlässigkeit benötigen, darunter Finanzdienstleister, Gesundheitsunternehmen und Produktionsbetriebe. Das Unternehmen gibt an, dass das Modell auf einer einzelnen GPU laufen kann und 80-90% der typischen Geschäftsanwendungen abdeckt. Das Modell ist derzeit über verschiedene Plattformen wie Hugging Face, Ollama, Kaggle, Together AI und Fireworks AI verfügbar, weitere Plattform-Veröffentlichungen sind geplant.
Quellen: Mistral, VentureBeat