KI scheitert an anspruchsvollem Mathe-Benchmark
Epoch AI hat mit FrontierMath einen neuen Benchmark entwickelt, der die Grenzen der mathematischen Fähigkeiten von KI-Systemen aufzeigt. Der Test umfasst Hunderte von anspruchsvollen Mathe-Aufgaben, die tiefgreifendes Verständnis und Kreativität erfordern. Laut Epoch AI lösen selbst fortschrittliche KI-Modelle wie GPT-4o und Gemini 1.5 Pro weniger als 2 % dieser Aufgaben. FrontierMath wurde in Zusammenarbeit mit … Weiterlesen …