Das französische KI-Unternehmen Mistral hat Voxtral veröffentlicht, seine erste Familie von Open-Source-KI-Modellen für die Audioverarbeitung. Das Unternehmen positioniert Voxtral als Lösung für Entwickler, die bisher zwischen unzuverlässigen Open-Source-Systemen und teuren, geschlossenen Modellen wählen mussten. Mistral gibt an, dass Voxtral hohe Leistung zu „weniger als der Hälfte des Preises“ vergleichbarer Lösungen bietet.
Voxtral geht über die reine Transkription hinaus und ist auf das Sprachverständnis ausgelegt. Es basiert auf Mistrals Large Language Model „Small 3.1“. Dadurch kann es Audioinhalte zusammenfassen, Fragen dazu beantworten und Sprachbefehle in Aktionen wie API-Aufrufe umwandeln. Das Modell unterstützt mehrere Sprachen, darunter Deutsch, Englisch, Spanisch und Französisch.
Modellvarianten und Leistung
Mistral bietet zwei Hauptversionen an: Voxtral Small (24 Milliarden Parameter) für große Anwendungen und Voxtral Mini (3 Milliarden Parameter) für den lokalen Einsatz. Das Unternehmen erklärt, dass seine Modelle bei Transkriptionsgenauigkeit und Audioverständnis mit etablierten Systemen wie OpenAIs Whisper, GPT-4o-mini und ElevenLabs Scribe konkurrenzfähig sind oder diese übertreffen.
Voxtral ist unter einer Apache-2.0-Lizenz auf Hugging Face verfügbar und kann in Mistrals Chatbot „Le Chat“ getestet werden. Die Preise für die API beginnen bei 0,001 US-Dollar pro Minute.
Quellen: TechCrunch, VentureBeat