OpenAI hat eine neue Familie von KI-Modellen namens „o1“ vorgestellt. Sie war zuvor als „Project Strawberry“ bekannt und hatte zu allerlei Spekulationen und hohen Erwartungen geführt.
Die beiden ersten Versionen, o1-preview und o1-mini, nutzen eine als „Chain of Thought“ bezeichnete Reasoning-Methode, um komplexe Aufgaben zu lösen. Diese Technik ermöglicht es den Modellen, vor der Antwortgenerierung länger nachzudenken und Probleme schrittweise anzugehen, ähnlich wie Menschen es tun würden.
Laut OpenAI zeigen die neuen Modelle deutlich verbesserte Leistungen in Bereichen wie Mathematik, Programmierung und Naturwissenschaften. In Benchmarks erreichte o1-preview Leistungen auf PhD-Niveau in einigen wissenschaftlichen Disziplinen und übertraf GPT-4 deutlich bei mathematischen Olympiaden-Aufgaben. Bei Programmierwettbewerben auf Codeforces erreichte das Modell das 89. Perzentil der Teilnehmer.
Die Entwicklung von o1 basiert auf einer neuartigen Trainingsmethode, die Reinforcement Learning einsetzt. Dabei wird das Modell durch Belohnungen und Strafen trainiert, was zu einer verbesserten Problemlösungsfähigkeit führt. OpenAI gibt an, dass o1 weniger zu Halluzinationen neigt als frühere Modelle, betont jedoch, dass das Problem nicht vollständig gelöst ist.
Trotz der Fortschritte weist o1 auch Einschränkungen auf. Die Modelle arbeiten langsamer als GPT-4 und sind in der API-Nutzung deutlich teurer. Zudem fehlen in der Anfangsphase noch Funktionen wie Websuche oder Bildanalyse. Die Verfügbarkeit ist zunächst auf ChatGPT Plus und Team-Nutzer beschränkt, mit Plänen zur Ausweitung auf weitere Nutzergruppen.
OpenAI betont den Fokus auf sichere und ethische Nutzung der neuen Modelle. Das Unternehmen hat Vereinbarungen mit US-amerikanischen und britischen KI-Sicherheitsinstituten getroffen und führt umfangreiche interne Tests durch. OpenAI plant, die o1-Modellfamilie kontinuierlich weiterzuentwickeln und mehr Funktionen hinzuzufügen, um die Nützlichkeit und Zugänglichkeit für verschiedene Anwendungen zu erhöhen.
Quellen: OpenAI, The Verge, TechCrunch, VentureBeat