Cerebras Inference erzielt Durchbruch bei der Leistung von Llama 3.1-70B
Cerebras hat ein bedeutendes Update für seine Cerebras Inference-Plattform vorgestellt, die nun das Sprachmodell Llama 3.1-70B mit beeindruckenden 2.100 Token pro Sekunde ausführt – eine dreifache Leistungssteigerung im Vergleich zur vorherigen Version. Laut James Wang vom offiziellen Cerebras-Blog ist diese Leistung 16-mal schneller als die schnellste GPU-Lösung und 8-mal schneller als GPUs, die das wesentlich … Weiterlesen …