Apple und Nvidia haben die Integration von Apples ReDrafter-Technologie in Nvidias TensorRT-LLM-Framework bekannt gegeben, die eine schnellere Verarbeitung großer Sprachmodelle (LLMs) auf Nvidia-GPUs ermöglicht. ReDrafter, ein von Apple entwickelter Open-Source-Ansatz für spekulatives Dekodieren, nutzt rekurrente neuronale Netze zur Vorhersage zukünftiger Token bei der Texterzeugung, kombiniert mit Beam-Search und Tree-Attention-Algorithmen.
Die Zusammenarbeit hat zu deutlichen Leistungsverbesserungen geführt, wobei Apple von einer 2,7-fachen Beschleunigung der Token-Generierung bei Tests eines Produktionsmodells mit mehreren zehn Milliarden Parametern auf Nvidia-GPUs berichtet. Diese Beschleunigung wird durch die Verlagerung der Validierungs- und Entwurfsprozesse in die TensorRT-LLM-Engine erreicht, anstatt separate Engines oder Laufzeitverarbeitung zu nutzen, was den Rechenaufwand reduziert.
Die Implementierung ist mit Nvidias Inflight-Batching-Strategie kompatibel, die eine gleichzeitige Verarbeitung mehrerer Anfragen ermöglicht. Laut Nvidia hängen die Leistungsvorteile von ReDrafter von verschiedenen Faktoren ab, einschließlich GPU-Auslastung, Token-Akzeptanzraten und spezifischen Aufgaben. Die Technologie ist nun für Entwickler über das TensorRT-LLM-Framework verfügbar und bietet potenzielle Vorteile für LLM-Anwendungen in der Produktion in der gesamten Branche.