Cerebras Inference erzielt Durchbruch bei der Leistung von Llama 3.1-70B

5. Februar 202525. Oktober 2024 von SCR

Cerebras hat ein bedeutendes Update für seine Cerebras Inference-Plattform vorgestellt, die nun das Sprachmodell Llama 3.1-70B mit beeindruckenden 2.100 Token pro Sekunde ausführt – eine dreifache Leistungssteigerung im Vergleich zur vorherigen Version. Laut James Wang vom offiziellen Cerebras-Blog ist diese Leistung 16-mal schneller als die schnellste GPU-Lösung und 8-mal schneller als GPUs, die das wesentlich kleinere Llama 3.1-3B-Modell ausführen. Das Unternehmen behauptet, dass die drastische Geschwindigkeitssteigerung ein Wendepunkt für Echtzeit-KI-Anwendungen ist und die Entwicklung von reaktionsschnellen, intelligenten Anwendungen ermöglicht, die bisher unerreichbar waren.

_{Über den Autor}

Artikel mit dem Autornamen SCR wurden mit KI-Hilfe erstellt. Jan Tissler wählt die Themen manuell aus. Jeder Beitrag wird von ihm vor der Veröffentlichung kontrolliert und bearbeitet. Er übernimmt die volle redaktionelle Verantwortung für die Inhalte. Lies mehr darüber, wie diese Website entsteht und welche Prompts zum Einsatz kommen.

Mehr zum Thema:

Schlagwörter: Cerebras, Entwickler, Llama, Plattformen

Bleib auf dem Laufenden

Mehr zum Thema: