OpenAI hat die Veröffentlichung von zwei neuen Open-Weight-Sprachmodellen angekündigt: gpt-oss-120b und gpt-oss-20b. Dies ist die erste Veröffentlichung von Open-Weight-Modellen des Unternehmens seit über fünf Jahren, seit GPT-2 im Jahr 2019, und markiert einen bedeutenden strategischen Wandel für die Organisation, die sich zuletzt auf proprietäre Systeme wie GPT-4o und ChatGPT konzentriert hat. Die Modelle, ihre Gewichte und ein neuer Tokenizer stehen auf der Plattform Hugging Face unter der freizügigen Apache-2.0-Lizenz zum Download bereit. Diese Lizenz erlaubt die kostenlose kommerzielle Nutzung, Modifikation und Weiterverbreitung.
In einer Erklärung positionierte OpenAI-CEO Sam Altman die Veröffentlichung als einen Weg, „KI in die Hände von so vielen Menschen wie möglich zu geben“ und auf einem „offenen KI-Stack aufzubauen, der in den Vereinigten Staaten auf der Grundlage demokratischer Werte geschaffen wurde“. Unternehmenspräsident Greg Brockman beschrieb die neuen Modelle als „ergänzend“ zu den kostenpflichtigen API-Diensten von OpenAI. Er merkte an, dass Open-Weight-Modelle andere Stärken bieten, wie die Möglichkeit, sie lokal ohne Internetverbindung und hinter der Firewall eines Unternehmens zu betreiben, um den Datenschutz und die Sicherheit zu erhöhen.
Modellfähigkeiten und Leistung
Die beiden neuen Modelle sind für unterschiedliche Anwendungsfälle und Hardware-Anforderungen konzipiert.
- gpt-oss-120b ist ein Modell mit 117 Milliarden Parametern, das laut OpenAI effizient auf einer einzelnen 80-GB-GPU laufen kann. Das Unternehmen gibt an, dass seine Leistung bei zentralen Reasoning-Benchmarks nahe an der seines proprietären o4-mini-Modells liegt und es in speziellen Bereichen wie gesundheitsbezogenen Abfragen (HealthBench) und Wettbewerbsmathematik (AIME) sogar übertrifft.
- gpt-oss-20b ist ein kleineres Modell mit 21 Milliarden Parametern, das für Consumer-Hardware und Edge-Geräte entwickelt wurde und nur 16 GB Arbeitsspeicher benötigt. OpenAI gibt an, dass seine Leistung mit der seines o3-mini-Modells vergleichbar ist, was es für On-Device-Anwendungen und schnelle lokale Entwicklung geeignet macht.
Beide Modelle sind rein textbasiert und bauen auf einer Mixture-of-Experts (MoE)-Architektur auf. Diese reduziert den Rechenaufwand, indem für eine gegebene Aufgabe nur ein Bruchteil der Gesamtparameter des Modells aktiviert wird. Sie unterstützen eine Kontextlänge von bis zu 128.000 Tokens und sind für Reasoning, das Befolgen von Anweisungen und die Nutzung von Werkzeugen (Tool Use) wie Websuche oder die Ausführung von Python-Code optimiert. Die Modelle verwenden einen „Chain-of-Thought“ (CoT)-Prozess für das Reasoning, bei dem sie ihre Denkschritte darlegen, bevor sie eine endgültige Antwort geben. Entwickler können zudem den „Reasoning-Aufwand“ des Modells zwischen den Stufen niedrig, mittel und hoch einstellen, um Leistung und Latenz auszubalancieren.
Ein Fokus auf Sicherheit und Transparenz
OpenAI betonte die umfangreichen Sicherheitsmaßnahmen, die vor der Veröffentlichung ergriffen wurden, welche Berichten zufolge für zusätzliche Tests verschoben wurde. Zusätzlich zum standardmäßigen Sicherheitstraining führte das Unternehmen eine neuartige Evaluierung durch: Es hat eine Version von gpt-oss-120b absichtlich für böswillige Zwecke mittels Fine-Tuning angepasst. Damit wurde simuliert, wie ein Angreifer versuchen könnte, das Modell zur Erzeugung von biologischen oder Cybersicherheitsbedrohungen zu missbrauchen. Laut einem von OpenAI veröffentlichten Forschungspapier erreichten diese „böswillig optimierten“ Modelle kein Fähigkeitslevel, das OpenAI im Rahmen seines Preparedness Frameworks als hohes Risiko einstuft. Diese Methodik wurde von externen Experten überprüft.
Ein zentraler Aspekt des Modelldesigns ist der bewusste Verzicht auf eine direkte Überwachung des Chain-of-Thought (CoT)-Prozesses. OpenAI gibt an, dieser Ansatz erleichtere die Überwachung des Modells auf Fehlverhalten oder Täuschung, da das interne Reasoning nicht künstlich geglättet wird. Das Unternehmen warnt Entwickler jedoch ausdrücklich davor, diese CoT-Ausgaben Endnutzern zu zeigen, da sie Halluzinationen, schädliche Inhalte oder Informationen enthalten können, die das Modell anweisungsgemäß aus der finalen Antwort ausschließen sollte.
Um die Beteiligung der Community an der Sicherheitsforschung weiter zu fördern, hat OpenAI eine „Red Teaming Challenge“ mit einem Preisgeld von 500.000 US-Dollar ins Leben gerufen, bei der die Öffentlichkeit eingeladen wird, potenzielle Schwachstellen in den neuen Modellen zu identifizieren und zu melden.
Strategische Motivation und Marktkontext
Mit dieser Veröffentlichung positioniert sich OpenAI im direkten Wettbewerb auf dem schnell wachsenden Markt für Open-Weight-KI, auf dem starke Konkurrenten wie Meta (Llama-Serie), Mistral aus Europa und mehrere chinesische Firmen wie DeepSeek und Alibaba aufgetreten sind. Die Wahl der sehr freizügigen Apache-2.0-Lizenz ist bemerkenswert, da sie im Gegensatz zu den restriktiveren Lizenzen einiger Konkurrenten steht, wie etwa der Llama-Lizenz von Meta, die eine separate kommerzielle Vereinbarung für Unternehmen mit über 700 Millionen monatlichen Nutzern erfordert. Dies macht die gpt-oss-Modelle besonders attraktiv für Unternehmen und Entwickler in stark regulierten oder datenschutzsensiblen Branchen wie dem Finanz- und Gesundheitswesen, da sie vollständig On-Premise betrieben werden können.
Analysten vermuten, dass dieser Schritt eine Reaktion auf Unternehmenskunden ist, die bereits eine Mischung aus der proprietären API von OpenAI und Open-Source-Modellen anderer Anbieter nutzten. Indem OpenAI nun eigene leistungsstarke Open-Weight-Modelle anbietet, kann das Unternehmen mehr Entwickler in seinem Ökosystem halten. Die Veröffentlichung dient auch dazu, Kritik von Persönlichkeiten wie Elon Musk zu entkräften, die dem Unternehmen vorgeworfen hatten, seine ursprüngliche Open-Source-Mission aufgegeben zu haben.
Um eine breite Zugänglichkeit zu gewährleisten, hat OpenAI Partnerschaften mit einer Vielzahl von Deployment-Plattformen wie Microsoft Azure, AWS, Hugging Face und Vercel sowie mit Hardware-Herstellern wie NVIDIA, AMD und Groq geschlossen. Microsoft veröffentlicht zudem GPU-optimierte Versionen von gpt-oss-20b für die lokale Inferenz auf Windows-Geräten.
Während die neuen Modelle kostenlos nutzbar sind, stützt sich das Geschäft von OpenAI weiterhin auf seine kostenpflichtigen API-Dienste und ChatGPT-Abonnements. Die gpt-oss-Modelle bieten Entwicklern eine Wahl: vollständig anpassbare, selbst gehostete Modelle für spezifische Anforderungen oder die API-Modelle von OpenAI für multimodale Fähigkeiten, integrierte Tools und eine nahtlose Plattformintegration.
Quellen: OpenAI, Wired, VentureBeat