Forscher von Hugging Face haben eine neue Methode entwickelt, die kleinen Sprachmodellen ermöglicht, bessere Leistungen als größere Modelle zu erzielen. Wie Ben Dickson für VentureBeat berichtet, erreichte ein Llama-3-Modell mit nur 3 Milliarden Parametern die gleiche Leistung wie seine Version mit 70 Milliarden Parametern bei komplexen mathematischen Aufgaben. Die Methode basiert auf der Skalierung der Rechenzeit während der Ausführung. Dabei kommen verschiedene Techniken zum Einsatz, darunter Mehrheitsentscheidungen, Bewertungsmodelle und spezielle Suchalgorithmen. Ein „compute-optimal scaling“ System wählt automatisch die beste Methode je nach Aufgabenschwierigkeit. Die Technik benötigt derzeit noch ein separates Überprüfungsmodell und eignet sich besonders für Aufgaben mit eindeutig bewertbaren Lösungen wie Mathematik und Programmierung.