OpenAI stellt GPT-4.5-Modell vor

OpenAI hat offiziell GPT-4.5 eingeführt, sein neuestes und größtes KI-Sprachmodell. Das intern zuvor als „Orion“ bekannte Modell wird als Forschungsvorschau veröffentlicht und verspricht verbesserte Gesprächsfähigkeiten, reduzierte Halluzinationsraten und eine verbesserte emotionale Intelligenz im Vergleich zu früheren Modellen. Während OpenAI GPT-4.5 als „größtes und bestes Modell für Chat“ positioniert, räumt das Unternehmen ein, dass es kein Frontier-Modell ist und bei bestimmten Benchmarks hinter seinen Reasoning-Modellen zurückbleibt.

Verfügbarkeit und Einführungsplan

GPT-4.5 ist zunächst für ChatGPT Pro-Abonnenten verfügbar, die 200 Dollar pro Monat für OpenAIs Premium-Stufe zahlen. Laut OpenAIs Ankündigung werden Plus- und Team-Nutzer nächste Woche Zugang erhalten, gefolgt von Enterprise- und Education-Nutzern in der Woche darauf. Entwickler aller kostenpflichtigen API-Stufen können ebenfalls über die Chat Completions API, Assistants API und Batch API auf GPT-4.5 zugreifen.

Das Modell bringt erhebliche Kostenimplikationen für Entwickler mit sich. Die API-Preise liegen bei 75 Dollar pro Million Eingabe-Tokens (etwa 750.000 Wörter) und 150 Dollar pro Million Ausgabe-Tokens. Dies stellt eine erhebliche Steigerung im Vergleich zu GPT-4o dar, das nur 2,50 Dollar pro Million Eingabe-Tokens und 10 Dollar pro Million Ausgabe-Tokens kostet. OpenAI hat eingeräumt, dass das Modell „sehr groß und rechenintensiv“ ist und erklärt, dass sie „evaluieren, ob sie es langfristig in der API weiter anbieten werden“.

Technischer Ansatz und Fähigkeiten

GPT-4.5 repräsentiert OpenAIs kontinuierliche Investition in die Skalierung des unsupervised learning anstatt sich ausschließlich auf Reasoning-Fähigkeiten zu konzentrieren. Während Reasoning-Modelle wie o1 und o3-mini darauf ausgelegt sind, schrittweise zu denken, bevor sie antworten, konzentriert sich GPT-4.5 darauf, die „Weltmodellgenauigkeit und Intuition“ durch deutlich skalierte Rechenleistung und Daten sowie architektonische Verbesserungen zu erhöhen.

OpenAI behauptet, dieser Ansatz habe zu mehreren Verbesserungen geführt:

  • Reduzierte Halluzinationen: Bei OpenAIs SimpleQA-Benchmark erreichte GPT-4.5 eine Halluzinationsrate von 37,1%, niedriger als GPT-4o und sogar das Reasoning-Modell o1.
  • Verbesserte Konversationsfähigkeiten: Menschliche Tester bevorzugten in vergleichenden Bewertungen angeblich GPT-4.5 gegenüber GPT-4o und fanden es natürlicher und besser auf die menschliche Zusammenarbeit abgestimmt.
  • Verbesserte emotionale Intelligenz: OpenAI hebt die Fähigkeit von GPT-4.5 hervor, menschliche Absichten besser zu verstehen und mit größerem „EQ“ zu reagieren, indem es angemessene Wärme und Intuition in Gesprächen zeigt.

Das Modell unterstützt das Hochladen von Dateien und Bildern und kann Canvas für Schreib- und Codearbeit nutzen. Es unterstützt jedoch derzeit keine multimodalen Funktionen wie Voice Mode, Video und Screen Sharing in ChatGPT.

Leistungs-Benchmarks und Einschränkungen

Laut den von OpenAI veröffentlichten Benchmarks zeigt GPT-4.5 im Vergleich zu anderen Modellen gemischte Leistungen:

  • Es erreicht 71,4% bei GPQA (Wissenschaft), verglichen mit 53,6% für GPT-4o, aber unter o3-minis 79,7%
  • Bei AIME ’24 (Mathematik) erzielt es 36,7%, besser als GPT-4os 9,3%, aber deutlich unter o3-minis 87,3%
  • Für MMLU (mehrsprachig) erreicht es 85,1%, etwas über GPT-4o (81,5%) und o3-mini (81,1%)
  • Bei Coding-Benchmarks zeigt es bescheidene Verbesserungen gegenüber GPT-4o, bleibt aber hinter OpenAIs Reasoning-Modellen zurück

OpenAI erkennt diese Einschränkungen an und stellt in einem durchgesickerten Dokument fest, dass „GPT-4.5 kein Frontier-Modell ist“ und „seine Leistung unter der von o1, o3-mini und deep research bei den meisten Vorbereitungsbewertungen liegt“. Das Unternehmen betont, dass „akademische Benchmarks nicht immer die Nützlichkeit in der realen Welt widerspiegeln“ und deutet an, dass GPT-4.5 in Bereichen wie Schreibhilfe, Kommunikation, Lernen, Coaching und Brainstorming seine Stärke zeigen könnte.

Branchenkontext und zukünftige Ausrichtung

Die Veröffentlichung von GPT-4.5 erfolgt inmitten eines intensiven Wettbewerbs im KI-Bereich, mit kürzlichen Modell-Einführungen von Anthropic (Claude 3.7 Sonnet) und dem chinesischen Unternehmen DeepSeek (R1). Berichten zufolge positioniert OpenAI GPT-4.5 als sein „letztes Nicht-Chain-of-Thought-Modell“, wobei CEO Sam Altman andeutet, dass zukünftige Modelle, einschließlich des für später in diesem Jahr erwarteten GPT-5, Reasoning-Fähigkeiten integrieren werden.

OpenAI-Forscher Nick Ryder erläuterte, dass das Ziel des Unternehmens darin besteht, den Nutzern letztendlich ein stärker gemischtes Erlebnis zu bieten, bei dem sie nicht explizit auswählen müssen, welches Modell sie verwenden. „Zu sagen, dass dies das letzte Nicht-Reasoning-Modell ist, bedeutet wirklich, dass wir nach einer Zukunft streben, in der alle Nutzer zum richtigen Modell geleitet werden“, erklärte Ryder.

Die Veröffentlichung von GPT-4.5 wirft auch Fragen zur Sinnhaftigkeit von OpenAIs Skalierungsansatz auf. Während das Unternehmen weiterhin in größere Modelle investiert, die mehr Rechenleistung und Daten erfordern, haben einige Experten angedeutet, darunter der ehemalige OpenAI-Chefwissenschaftler Ilya Sutskever, dass „Pre-Training, wie wir es kennen, zweifellos enden wird“ und dass die Branche „Peak Data erreicht hat“.

Trotz dieser Herausforderungen sieht OpenAI GPT-4.5 als wichtigen Schritt in Richtung zukünftiger Modelle, die die Stärken beider Ansätze kombinieren werden. „Wir glauben, dass Reasoning eine Kernfähigkeit zukünftiger Modelle sein wird“, erklärt das Unternehmen, „und dass die beiden Skalierungsansätze – Pre-Training und Reasoning – sich gegenseitig ergänzen werden.“

Vorstellungsvideo

Quellen: OpenAI, TechCrunch, Wired, The Verge, Engadget

Mehr zum Thema:

Bleib up-to-date: