Microsoft hat drei neue kleine Sprachmodelle (SLMs) vorgestellt, die sich auf komplexe Reasoning-Aufgaben konzentrieren: Phi-4-reasoning, Phi-4-reasoning-plus und Phi-4-mini-reasoning. Diese Modelle sind für angesichts ihrer kompakten Größe erstaunlich leistungsfähig, besonders bei mathematischem Reasoning und mehrstufiger Problemlösung.
Das Flaggschiff Phi-4-reasoning-plus, ein Modell mit 14 Milliarden Parametern, zeigt eine Leistung, die offenbar mit viel größeren KI-Systemen mithalten kann. Laut Microsofts Benchmarks übertrifft es OpenAIs o1-mini und DeepSeek-R1-Distill-Llama-70B bei verschiedenen Reasoning-Aufgaben, obwohl es deutlich kleiner ist. Beim AIME 2025-Test – einer Qualifikation für die USA Math Olympiad – erzielt es sogar bessere Ergebnisse als das vollständige DeepSeek-R1-Modell mit 671 Milliarden Parametern.
Was diese Modelle auszeichnet, ist ihre Trainingsmethodik. Microsoft setzte überwachtes Fine-Tuning mit sorgfältig ausgewählten Reasoning-Demonstrationen ein, gefolgt von Reinforcement Learning zur Verbesserung der Reasoning-Fähigkeiten. Die Modelle verwenden spezielle Tokens, um ihren schrittweisen Denkprozess von endgültigen Antworten zu trennen, was die Transparenz und Kohärenz verbessert.
Hauptmerkmale der neuen Modelle
- Phi-4-reasoning-plus: Das leistungsfähigste Modell mit 14 Milliarden Parametern, trainiert mit überwachtem Fine-Tuning und Reinforcement Learning
- Phi-4-reasoning: Ebenfalls 14 Milliarden Parameter, aber ohne das zusätzliche RL-Training
- Phi-4-mini-reasoning: Ein kompaktes Modell mit 3,8 Milliarden Parametern, optimiert für Bildungsanwendungen
Alle drei Modelle unterstützen standardmäßig Kontextlängen von 32.000 Tokens, wobei Tests eine stabile Leistung bis zu 64.000 Tokens zeigen. Sie sind auf Azure AI Foundry und Hugging Face unter einer permissiven MIT-Lizenz verfügbar, die kommerzielle Nutzung und Anpassung erlaubt.
Microsoft betont, dass diese Modelle zeigen, wie sorgfältige Datenkuration und Trainingstechniken kleineren Modellen ermöglichen, mit viel größeren zu konkurrieren. Dies hat erhebliche Auswirkungen auf Unternehmensanwendungen, da kleinere Modelle weniger Rechenressourcen benötigen und selbst auf ressourcenbeschränkten Geräten effizient laufen können.
Das Unternehmen hat diese Modelle auch umfangreichen Sicherheitstests unterzogen, einschließlich adversarialer Evaluierungen durch Microsofts AI Red Team und Benchmarking mit Tools wie Toxigen.
Diese neuen Phi-Modelle werden schließlich in Windows 11-Geräte integriert, besonders in Copilot+ PCs, wo sie die NPU (Neural Processing Unit) für effiziente lokale KI-Verarbeitung nutzen können. Microsoft plant, sie in Funktionen wie Click to Do und in Produktivitätsanwendungen wie Outlook für die Offline-Zusammenfassungserstellung einzusetzen.
Quellen: Microsoft, VentureBeat, TechCrunch