Microsoft zeigt effizientes Phi-4 für Text-, Bild- und Sprachverarbeitung

Microsoft hat zwei neue KI-Modelle in seiner Phi-Serie vorgestellt: Phi-4-multimodal mit 5,6 Milliarden Parametern und Phi-4-mini mit 3,8 Milliarden Parametern. Diese kleinen Sprachmodelle (SLMs) liefern außergewöhnliche Leistung bei deutlich geringerem Rechenaufwand als größere Systeme und stellen damit die Vorstellung in Frage, dass größere KI-Modelle immer besser sind.

Das Phi-4-multimodal-Modell zeichnet sich durch seine Fähigkeit aus, Text, Bilder und Sprache gleichzeitig mit einer neuartigen „Mixture of LoRAs“-Technik zu verarbeiten. Dieser Ansatz ermöglicht es dem Modell, mehrere Eingabetypen ohne die Leistungseinbußen zu verarbeiten, die typischerweise mit multimodalen Systemen verbunden sind. Microsoft berichtet, dass das Modell mit einer Wortfehlerrate von 6,14% die Spitzenposition auf der Hugging Face OpenASR-Rangliste erreicht hat und damit spezialisierte Spracherkennungssysteme übertrifft.

Trotz seiner kompakten Größe zeigt Phi-4-mini bemerkenswerte Fähigkeiten bei textbasierten Aufgaben und überzeugt besonders in Mathematik und Programmierung. Laut des technischen Berichts von Microsoft erreichte das Modell auf dem GSM-8K-Mathematik-Benchmark einen Wert von 88,6% und übertraf damit die meisten Modelle mit 8 Milliarden Parametern, während es auf dem MATH-Benchmark 64% erreichte, was deutlich höher ist als bei vergleichbar großen Wettbewerbern.

Hauptmerkmale und Anwendungen

  • Beide Modelle verwenden Decoder-only-Transformer-Architektur und Grouped Query Attention (GQA), um die Leistung zu optimieren und den Hardwarebedarf zu reduzieren
  • Phi-4-multimodal kann visuelle, Audio- und Texteingaben in einem einzigen Modell verarbeiten
  • Die Modelle sind für den effizienten Einsatz auf Standardhardware oder direkt auf Geräten konzipiert
  • Sie eignen sich besonders für Edge-Computing-Szenarien, in denen Echtzeit-Intelligenz erforderlich ist, aber die Cloud-Konnektivität eingeschränkt sein kann

Weizhu Chen, Vizepräsident für generative KI bei Microsoft, erklärte: „Diese Modelle sollen Entwicklern erweiterte KI-Fähigkeiten zur Verfügung stellen. Phi-4-multimodal eröffnet mit seiner Fähigkeit, Sprache, Bilder und Text gleichzeitig zu verarbeiten, neue Möglichkeiten für die Erstellung innovativer und kontextbewusster Anwendungen.“

Reale Anwendungen zeichnen sich bereits ab. Capacity, eine KI-„Antwort-Engine“, hat die Phi-Familie genutzt, um die Effizienz und Genauigkeit ihrer Plattform zu verbessern und berichtet von 4,2-fachen Kosteneinsparungen im Vergleich zu konkurrierenden Workflows bei ähnlichen oder besseren Ergebnissen.

Beide Phi-4-Modelle werden über Azure AI Foundry, Hugging Face und den Nvidia API Catalog unter einer MIT-Lizenz verfügbar sein, die kommerzielle Nutzung erlaubt. Diese Zugänglichkeit zielt darauf ab, KI-Fähigkeiten zu demokratisieren und fortschrittliche Intelligenz für Entwickler unabhängig von ihren Hardware-Ressourcen verfügbar zu machen.

Quellen: VentureBeat, SiliconAngle

Mehr zum Thema:

Bleib up-to-date: