Inception Labs hat mit Mercury eine neue Familie von Sprachmodellen vorgestellt, die auf Diffusionstechnologie basieren und Texte bis zu zehnmal schneller generieren können als herkömmliche LLMs. Die Mercury-Modelle erreichen laut Unternehmensangaben mehr als 1.000 Token pro Sekunde auf NVIDIA H100 Grafikprozessoren – eine Geschwindigkeit, die bisher nur mit Spezialchips möglich war.
Das erste öffentlich verfügbare Modell, Mercury Coder, ist speziell für die Codegenerierung optimiert. Bei Standard-Benchmarks für Programmierung erreicht es vergleichbare oder bessere Ergebnisse als geschwindigkeitsoptimierte Modelle wie GPT-4o Mini und Claude 3.5 Haiku, arbeitet jedoch deutlich schneller.
Im Gegensatz zu herkömmlichen autoregressiven Modellen, die Text Wort für Wort von links nach rechts erzeugen, verfeinern Diffusionsmodelle ihre Ausgabe in mehreren „Entrauschungs“-Schritten. Dadurch kann Mercury während der Generierung mehrere Tokens gleichzeitig bearbeiten.
„Da Diffusionsmodelle nicht darauf beschränkt sind, nur vorherige Ausgaben zu berücksichtigen, sind sie besser im logischen Denken und in der Strukturierung ihrer Antworten“, erklärt Inception Labs in ihrer Ankündigung.
Mercury Coder lässt sich in einem öffentlichen Playground testen. Für Unternehmen bietet das Startup sowohl Code- als auch allgemeine Modelle über API und lokale Installationen an, mit Möglichkeiten zur Feinabstimmung.
Inception Labs sieht Anwendungspotenziale in effizienteren KI-Agenten, verbessertem logischen Denken mit Fehlerkorrektur, kontrollierbarer Textgenerierung und besserer Leistung auf ressourcenbeschränkten Geräten wie Smartphones.