DeepMind's Michelangelo testet logisches Denken in langen

DeepMind hat den Michelangelo-Benchmark vorgestellt, um die Fähigkeiten von Large Language Models (LLMs) mit langen Kontextfenstern zu testen, berichtet Ben Dickson für VentureBeat. LLMs können zwar mit großen Kontextfenstern umgehen, aber Untersuchungen zeigen, dass sie Schwierigkeiten haben, Schlussfolgerungen über komplexe Datenstrukturen zu ziehen. Aktuelle Benchmarks konzentrieren sich oft auf Suchaufgaben, die die Fähigkeiten zu logischem Denken eines Modells nicht angemessen bewerten. Michelangelo zielt darauf ab, diese Lücke zu schließen, indem der Schwerpunkt auf das Verstehen von Beziehungen im Kontext und nicht nur auf die Suche nach Fakten gelegt wird.

Erste Auswertungen von zehn LLMs, darunter Varianten von Gemini und GPT, zeigten einen Leistungsabfall mit zunehmender Aufgabenkomplexität, was auf ein Verbesserungspotential bei diesen Fähigkeiten hinweist. Die Ergebnisse deuten darauf hin, dass Modelle in realen Anwendungen Schwierigkeiten beim Multi-Hop-Reasoning haben können, insbesondere wenn irrelevante Informationen präsent sind.

Bleib up-to-date:

Hinweis: Der Autorname SCR steht für Inhalte, die mit KI-Hilfe erzeugt wurden. Jeder Beitrag wird vor der Veröffentlichung kontrolliert und bearbeitet. Redaktionelle Verantwortung: Jan Tissler. Lies mehr darüber, wie diese Website entsteht und welche Prompts zum Einsatz kommen.

DeepMind’s Michelangelo testet logisches Denken in langen Kontextfenstern

Mehr zum Thema:

Bleib up-to-date: