Metas Llama 4-Modelle stoßen auf gemischte Resonanz

Meta hat seine neueste Generation von Künstliche-Intelligenz-Modellen, Llama 4, mit drei Varianten und verbesserten Fähigkeiten veröffentlicht. Es umfasst zwei sofort verfügbare Angebote – Llama 4 Scout und Llama 4 Maverick – während ein drittes Modell, Llama 4 Behemoth, noch in Entwicklung ist.

Laut Meta markieren die Llama 4-Modelle „den Beginn einer neuen Ära“ für ihr KI-Ökosystem. Dies sind Metas erste Modelle, die eine Mixture-of-Experts (MoE)-Architektur verwenden, die sie recheneffizienter macht, indem nur ein Teil der Parameter für jedes verarbeitete Token aktiviert wird.

Wichtige Modellspezifikationen

Llama 4 Scout: Ein Modell mit 17 Milliarden aktiven Parametern und 16 Experten (insgesamt 109 Milliarden Parameter), das ein branchenführendes Kontextfenster von 10 Millionen Token bietet. Meta positioniert Scout als geeignet für Mehrfachdokument-Zusammenfassungen und Reasoning über große Codebasen.
Llama 4 Maverick: Ein Modell mit 17 Milliarden aktiven Parametern und 128 Experten (insgesamt 400 Milliarden Parameter), das als Metas „Arbeitspferd“ für allgemeine Assistenten- und Chat-Anwendungsfälle beschrieben wird. Meta behauptet, Maverick übertreffe Modelle wie GPT-4o und Gemini 2.0 bei verschiedenen Benchmarks.
Llama 4 Behemoth: Dieses noch in Entwicklung befindliche Modell verfügt über 288 Milliarden aktive Parameter mit 16 Experten (fast 2 Billionen Parameter insgesamt). Meta sagt, es übertreffe GPT-4.5, Claude Sonnet 3.7 und Gemini 2.0 Pro bei STEM-fokussierten Benchmarks.

Sowohl Scout als auch Maverick können von llama.com und Hugging Face heruntergeladen werden und wurden in Metas KI-Assistenten für WhatsApp, Messenger und Instagram Direct integriert. Meta-CEO Mark Zuckerberg erwähnte außerdem, dass ein viertes Modell, Llama 4 Reasoning, „im nächsten Monat“ angekündigt werden soll.

Resonanz und Kontroverse

Trotz Metas Behauptungen über die Fähigkeiten seiner Modelle hat die KI-Community nach der Veröffentlichung erhebliche Bedenken geäußert. Erste Tests von Forschern und Community-Mitgliedern zeigten inkonsistente Leistungen, besonders bei Programmieraufgaben.

Die größte Kontroverse entstand, als entdeckt wurde, dass Meta eine andere Version von Llama 4 Maverick bei der KI-Benchmark-Seite LMArena eingereicht hatte als die öffentlich verfügbare. Diese „experimentelle Chat-Version“ war speziell für „Gesprächsoptimierung“ ausgelegt und sicherte sich den zweiten Platz auf der Rangliste.

LMArena postete später auf X (ehemals Twitter), dass „Metas Interpretation unserer Richtlinien nicht mit dem übereinstimmt, was wir von Modellanbietern erwarten“ und kündigte an, ihre Ranglisten-Richtlinien zu aktualisieren, um faire Bewertungen zu gewährleisten.

Metas VP und Leiter der GenAI-Abteilung Ahmad Al-Dahle reagierte auf die Kritik mit der Aussage: „Wir hören auch einige Berichte über gemischte Qualität bei verschiedenen Diensten. Da wir die Modelle veröffentlicht haben, sobald sie fertig waren, erwarten wir, dass es einige Tage dauern wird, bis alle öffentlichen Implementierungen darauf eingestellt sind.“

Al-Dahle bestritt auch Vorwürfe, Meta habe „auf Testsets trainiert“, um Benchmarks zu manipulieren, und bezeichnete solche Behauptungen als „einfach nicht wahr“.

Anpassungen der politischen Haltung

In seiner Veröffentlichung hob Meta hervor, dass Llama 4-Modelle darauf abgestimmt wurden, kontroverse Fragen seltener abzulehnen als frühere Versionen. Das Unternehmen erklärt, dass Llama 4 auf „viel diskutierte“ politische und soziale Themen reagiert, die frühere Llama-Modelle nicht behandelt hätten.

Laut Meta verweigert Llama 4 insgesamt weniger Antworten zu diskutierten politischen und sozialen Themen (von 7% bei Llama 3.3 auf unter 2%) und ist „dramatisch ausgewogener“ bei der Auswahl der Prompts, auf die es nicht reagiert.

Diese Anpassungen erfolgen vor dem Hintergrund von Vorwürfen einiger politischer Persönlichkeiten, dass KI-Chatbots politische Voreingenommenheit aufweisen, obwohl Meta behauptet, sein Ziel sei es, Llama „reaktionsfreudiger“ zu machen, ohne bestimmte Standpunkte zu bevorzugen.

Während Meta sich auf seine Entwicklerkonferenz LlamaCon am 29. April vorbereitet, deutet die anfänglich gemischte Resonanz auf Llama 4 darauf hin, dass das Unternehmen erhebliche Diskussionspunkte zu Benchmark-Praktiken und Modellleistung ansprechen muss.

Quellen: Meta, TechCrunch, Engadget, VentureBeat, TechCrunch

Metas Llama 4-Modelle stoßen auf gemischte Resonanz

Wichtige Modellspezifikationen

Resonanz und Kontroverse

Anpassungen der politischen Haltung

Mehr zum Thema:

Bleib up-to-date: