Microsoft hat das KI-Modell Phi-4-reasoning-vision-15B veröffentlicht. Es verarbeitet sowohl Bilder als auch Text und kann komplexe Mathematik- und Wissenschaftsaufgaben lösen. Michael Nuñez berichtet für VentureBeat, dass das Modell mit 15 Milliarden Parametern deutlich größere Systeme in vielen Bereichen einholt oder übertrifft. Der Rechenaufwand und der Bedarf an Trainingsdaten sind dabei deutlich geringer.
Das Modell ist ab sofort auf Microsoft Foundry, HuggingFace und GitHub unter einer offenen Lizenz verfügbar.
Besonders hervorzuheben ist der Umgang mit dem sogenannten Reasoning, also dem schrittweisen Durchdenken von Problemen. Manche Aufgaben wie mathematische Berechnungen profitieren davon. Andere Aufgaben wie das Beschriften von Fotos oder das Erkennen von Text in Bildern tun das nicht. Microsoft trainierte das Modell mit einem gemischten Datensatz. Etwa 20 Prozent der Beispiele enthielten explizite Denkschritte, 80 Prozent verlangten direkte Antworten. So setzt das Modell tiefes Reasoning nur dort ein, wo es sinnvoll ist.
Auch beim Trainingsaufwand unterscheidet sich das Modell von der Konkurrenz. Microsoft verwendete rund 200 Milliarden Daten-Token. Vergleichbare Modelle von Unternehmen wie Alibaba, Google und SenseTime nutzten jeweils mehr als eine Billion Token.
In standardisierten Tests schneidet Phi-4-reasoning-vision-15B vergleichbar mit ähnlich großen Modellen ab. Bei den schwierigsten Aufgaben liegt es jedoch hinter deutlich größeren Systemen zurück.
Zur Qualitätssicherung prüften Teammitglieder Trainingsdaten manuell und korrigierten Fehler in weit verbreiteten öffentlichen Datensätzen.
