Benchmarking: Aufgaben aus der Arbeitswelt statt traditionelle KI-Tests
Artificial Analysis hat seine Methode zur Messung von KI-Intelligenz grundlegend überarbeitet. Die unabhängige Organisation ersetzt etablierte Benchmarks durch Tests, die messen, ob KI tatsächliche Arbeitsaufgaben erledigen kann. Michael Nuñez berichtet darüber für VentureBeat. Die neue Version 4.0 des Intelligence Index entfernt drei häufig zitierte Tests, darunter MMLU-Pro und AIME 2025. An ihre Stelle treten zehn …