Das neue Sprachmodell o3 von OpenAI hat beim FrontierMath-Test einen Erfolg von 25 Prozent erzielt. Dies geht aus einem Blogbeitrag des Xena Projects hervor. FrontierMath ist ein Datensatz mit hunderten anspruchsvoller Mathematikaufgaben. Die Aufgaben erfordern numerische Antworten, die automatisch überprüft werden können. Fields-Medaillengewinner Terence Tao bezeichnet die Aufgaben als „äußerst anspruchsvoll“. Laut Elliot Glazer von Epoch AI entsprechen etwa 25 Prozent der Aufgaben dem Niveau von Undergraduate-Studenten oder der Internationalen Mathematik-Olympiade. Das Ergebnis zeigt Fortschritte in der KI-Entwicklung. Dennoch bleibt die KI weit hinter menschlichen Experten zurück, besonders beim Beweisen mathematischer Sätze.