DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem Denken eines Modells nicht angemessen bewerten. Michelangelo zielt darauf ab, diese Lücke zu schließen, indem der Schwerpunkt auf das Verstehen von Beziehungen im Kontext und nicht nur auf die Suche nach Fakten gelegt wird.
Erste Auswertungen von zehn LLMs, darunter Varianten von Gemini und GPT, zeigten einen Leistungsabfall mit zunehmender Aufgabenkomplexität, was auf ein Verbesserungspotential bei diesen Fähigkeiten hinweist. Die Ergebnisse deuten darauf hin, dass Modelle in realen Anwendungen Schwierigkeiten beim Multi-Hop-Reasoning haben können, insbesondere wenn irrelevante Informationen präsent sind.