OpenAI hat zwei neue KI-Modelle, o3 und o4-mini, veröffentlicht, die erweiterte Reasoning-Fähigkeiten bieten und neue Funktionen wie das „Denken mit Bildern“ einführen. Diese Modelle sind die neueste Entwicklung in der o-Serie des Unternehmens und erscheinen nur wenige Tage nach der Veröffentlichung von GPT-4.1.
Die markanteste Eigenschaft der Modelle ist ihre Fähigkeit, Bilder nicht nur zu erkennen, sondern sie direkt in ihren Denkprozess zu integrieren. Laut OpenAI „sehen diese Modelle ein Bild nicht nur – sie denken damit“, wodurch sie Diagramme, Skizzen und Whiteboard-Inhalte analysieren, selbst wenn diese von schlechter Qualität sind.
Beide Modelle können selbstständig alle in ChatGPT verfügbaren Tools nutzen, darunter Web-Browsing, Python-Code-Ausführung, Dateianalyse und Bilderzeugung. Dies unterscheidet sie von früheren Modellen, die für komplexe mehrstufige Probleme mehr direkte menschliche Führung benötigten.
Leistung und Anwendungen
OpenAI gibt an, dass o3 besonders starke Leistungen im Bereich Programmierung, Mathematik, Wissenschaft und visuelle Aufgaben zeigt. Bei Benchmarks wie Codeforces, SWE-bench und MMMU hat das Modell laut Unternehmen neue Bestwerte erzielt. Externe Bewerter stellten fest, dass o3 bei schwierigen realen Aufgaben 20 Prozent weniger schwerwiegende Fehler macht als sein Vorgänger OpenAI o1.
Das kleinere o4-mini-Modell ist für schnelleres, kosteneffizienteres Reasoning konzipiert und behält dabei starke Fähigkeiten in verschiedenen Bereichen bei. Beim AIME 2025 Mathematikwettbewerb erreichte o4-mini laut Berichten eine Genauigkeit von 92,7%.
Dan Shipper von Every, der o3 vor der öffentlichen Freigabe testete, betonte die Vielseitigkeit: „Allein in der letzten Woche hat es jeden einzelnen Fall markiert, in dem ich Konflikten in meinen Meeting-Transkripten ausgewichen bin, einen kompakten ML-Kurs erstellt, der mich jeden Morgen benachrichtigt, eine Kinderwagen-Marke auf einem verschwommenen Foto erkannt, einen neuen KI-Benchmark programmiert und einen Klassiker von Annie Dillard auf Schreibtechniken untersucht, die ich nie bemerkt hatte.“
Tool-Integration und Programmierfähigkeiten
Ein wesentlicher Fortschritt ist die Fähigkeit der Modelle, mehrere Tools bei der Problemlösung ohne ständige menschliche Anleitung zu verketten. Greg Brockman, Präsident von OpenAI, bemerkte: „Sie nutzen diese Tools in ihrem Gedankengang, wenn sie versuchen, ein schwieriges Problem zu lösen. Wir haben zum Beispiel gesehen, wie o3 etwa 600 Tool-Aufrufe hintereinander verwendet hat, um eine besonders schwierige Aufgabe zu lösen.“
Neben diesen Modellen hat OpenAI Codex CLI eingeführt, einen leichtgewichtigen Coding-Agenten, der direkt im Terminal des Benutzers läuft. Das Unternehmen unterstützt dieses Tool mit einer Million Dollar Initiative für Projekte, die Codex CLI mit OpenAI-Modellen nutzen.
Sicherheit und Verfügbarkeit
OpenAI berichtet, dass die neuen Modelle umfangreiche Sicherheitstests durchlaufen haben, mit besonderem Fokus auf ihre Fähigkeit, potenziell schädliche Anfragen abzulehnen. Das Unternehmen hat seine Sicherheitstrainingsdaten neu aufgebaut und systemweite Maßnahmen entwickelt, um gefährliche Prompts in Risikobereichen zu kennzeichnen.
Die Modelle sind sofort für ChatGPT Plus-, Pro- und Team-Nutzer verfügbar, während Enterprise- und Education-Kunden nächste Woche Zugang erhalten. Kostenlose Nutzer können auf o4-mini zugreifen, indem sie „Think“ im Composer auswählen, bevor sie ihre Anfrage absenden. Entwickler können beide Modelle über OpenAIs Chat Completions API und Responses API nutzen, wobei einige Organisationen eine Verifizierung benötigen.
Laut OpenAI spiegeln diese Veröffentlichungen die Richtung wider, in die sich ihre Modelle entwickeln: die Konvergenz spezialisierter Reasoning-Fähigkeiten mit natürlichen Konversationsfähigkeiten und Tool-Nutzung. Das Unternehmen deutet an, dass dieser Ansatz zu künftigen Modellen führen wird, die „nahtlose, natürliche Gespräche zusammen mit proaktiver Tool-Nutzung und fortschrittlicher Problemlösung“ unterstützen.
Quellen: OpenAI, Engadget, CNBC, Every, VentureBeat