Cerebras hat ein bedeutendes Update für seine Cerebras Inference-Plattform vorgestellt, die nun das Sprachmodell Llama 3.1-70B mit beeindruckenden 2.100 Token pro Sekunde ausführt – eine dreifache Leistungssteigerung im Vergleich zur vorherigen Version. Laut James Wang vom offiziellen Cerebras-Blog ist diese Leistung 16-mal schneller als die schnellste GPU-Lösung und 8-mal schneller als GPUs, die das wesentlich kleinere Llama 3.1-3B-Modell ausführen. Das Unternehmen behauptet, dass die drastische Geschwindigkeitssteigerung ein Wendepunkt für Echtzeit-KI-Anwendungen ist und die Entwicklung von reaktionsschnellen, intelligenten Anwendungen ermöglicht, die bisher unerreichbar waren.