OpenAI veröffentlicht GPT-5.2 mit verbesserter Genauigkeit für professionelle Aufgaben

OpenAI hat am 11. Dezember GPT-5.2 veröffentlicht, seine neueste Familie von KI-Modellen. Das Unternehmen beschreibt es als das bisher leistungsfähigste Modell für professionelle Wissensarbeit. Die Veröffentlichung umfasst drei Varianten: GPT-5.2 Instant für schnellere Antworten, GPT-5.2 Thinking für komplexe Aufgaben und GPT-5.2 Pro für die anspruchsvollsten Fragen.

Nach Angaben von OpenAI zeigt das Modell Verbesserungen beim Erstellen von Tabellen, beim Aufbau von Präsentationen, beim Schreiben von Code, beim Verstehen von Bildern, bei der Verarbeitung langer Dokumente und bei der Bewältigung mehrstufiger Projekte. Das Unternehmen gibt an, dass bestehende ChatGPT Enterprise-Nutzer bereits berichten, täglich 40 bis 60 Minuten zu sparen, während intensive Nutzer mehr als 10 Stunden pro Woche einsparen.

OpenAI testete GPT-5.2 Thinking mit GDPval, einem internen Benchmark, der Wissensarbeitsaufgaben in 44 Berufen misst. Das Unternehmen behauptet, das Modell habe menschliche Experten in 70,9 Prozent der Vergleiche geschlagen oder erreicht, wobei es Aufgaben mit über 11-facher Geschwindigkeit und weniger als 1 Prozent der Kosten erledigte. Zu den Aufgaben gehörten die Erstellung von Präsentationen, Tabellen und anderen professionellen Arbeitsprodukten. Ein Benchmark-Gutachter kommentierte, dass die Ergebnisse so aussahen, als wären sie von einem professionellen Unternehmen mit Personal erstellt worden.

Das Modell erreichte 55,6 Prozent bei SWE-Bench Pro, einer Software-Engineering-Evaluation, die praxisnahe Coding-Aufgaben in vier Programmiersprachen testet. Bei SWE-bench Verified, das nur Python testet, erzielte GPT-5.2 Thinking 80 Prozent. Frühe Tester berichteten von stärkerer Performance bei Front-End-Entwicklung und komplexer User-Interface-Arbeit.

OpenAI behauptet, GPT-5.2 Thinking produziere 30 Prozent weniger Antworten mit Fehlern im Vergleich zu GPT-5.1 Thinking bei einer Reihe von ChatGPT-Anfragen. Das Unternehmen betont, dass Nutzer Antworten für kritische Aufgaben dennoch überprüfen sollten. Das Modell zeigt auch verbessertes Long-Context-Reasoning und erreicht bei bestimmten Tests mit 256.000 Token eine Genauigkeit von nahezu 100 Prozent.

Bei Vision-Aufgaben halbiert GPT-5.2 Thinking laut OpenAI die Fehlerrate beim Chart-Reasoning und beim Verstehen von Software-Interfaces. Das Modell zeigt stärkeres räumliches Bewusstsein bei der Identifizierung von Komponenten in Bildern und deren Positionen.

Das Modell erreichte 98,7 Prozent bei Tau2-bench Telecom, einem Test, der die Tool-Nutzung in mehrstufigen Kundensupport-Aufgaben misst. OpenAI gibt an, dies ermögliche zuverlässigere End-to-End-Workflows für Aufgaben wie die Lösung von Support-Fällen und die Koordination von Aktionen über mehrere Systeme hinweg.

In wissenschaftlichen Bereichen erzielte GPT-5.2 Pro 93,2 Prozent bei GPQA Diamond, einem Benchmark auf Graduiertenniveau für Physik, Chemie und Biologie. GPT-5.2 Thinking löste 40,3 Prozent der Probleme bei FrontierMath, einer Evaluation für Mathematik auf Expertenniveau. Das Modell war auch das erste, das bei ARC-AGI-1, einem allgemeinen Reasoning-Benchmark, 90 Prozent überschritt, während es die Kosten im Vergleich zum vorherigen o3-preview-Modell um etwa das 390-fache senkte.

Die Veröffentlichung erfolgt inmitten erhöhten Wettbewerbsdrucks für OpenAI. CEO Sam Altman soll intern letzte Woche einen Code-Red-Alarm ausgegeben haben, der einen unternehmensweiten Push zur Verbesserung von ChatGPT signalisiert, während Googles Gemini-App auf 650 Millionen monatlich aktive Nutzer gewachsen ist, verglichen mit OpenAIs 800 Millionen wöchentlich aktiven Nutzern. Fidji Simo, OpenAIs CEO of Applications, bestritt, dass der Launch beschleunigt wurde, und erklärte, das Unternehmen habe viele Monate an der Veröffentlichung gearbeitet. Sie bestätigte, dass zusätzliche Ressourcen auf ChatGPT-Verbesserungen umgeleitet wurden.

OpenAI sagt, es habe die Arbeit an Safe Completions fortgesetzt und Antworten auf Prompts verstärkt, die auf Selbstverletzung, psychische Belastung oder emotionale Abhängigkeit vom Modell hinweisen. Das Unternehmen führt ein Age-Prediction-System ein, um automatisch Inhaltsschutz für Nutzer unter 18 Jahren anzuwenden. Simo erklärte, dass der Adult Mode, der Nutzern über 18 verschiedene Arten von Gesprächen ermöglichen wird, für das erste Quartal 2026 geplant ist.

ChatGPT-Nutzer mit bezahlten Plänen sehen GPT-5.2 ab heute schrittweise ausgerollt. GPT-5.1 bleibt drei Monate lang unter Legacy Models verfügbar, bevor es eingestellt wird. In der API hat OpenAI derzeit keine Pläne, GPT-5.1, GPT-5 oder GPT-4.1 einzustellen, und wird bei zukünftigen Deprecations im Voraus informieren.

Quellen: OpenAIs Ankündigung, OpenAI Docs, Wired, The Verge

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen