Zweifel an der Performance von Reflection 70B

Welchen Unterschied ein Wochenende macht: Noch vor einigen Tagen galt das neue Reflection 70B als potenzieller Champion unter den Open-Source-Modellen. Das Modell basiert nach offiziellen Angaben auf Metas Llama 3.1 70B, aber mit einer Besonderheit: Es ist speziell darauf trainiert, nicht sofort eine Antwort zu geben, sondern das Problem zunächst zu analysieren und die eigene Lösung in einer „Reflection“-Phase zu überprüfen. Auf diese Weise soll Reflection 70B in der Lage sein, die eigenen Fehler zu erkennen. Versprochen wurde zudem, dass es andere frei verfügbare Modelle in wesentlichen Benchmarks schlägt und sogar mit kommerziellen Angeboten wie ChatGPT oder Claude mithalten kann.

Aber wie Carl Franzen auf VentureBeat in seinem Artikel zusammenfasst, gibt es nun einige Tage später erhebliche Zweifel an den Versprechungen der Macher. Manche sehen gar einen Betrug.

So gibt es offenbar Anzeichen, dass nicht das aktuelle 3.1 Llama-Modell die Basis ist, sondern das ältere 3.0. Aber noch wichtiger: Die behaupteten Benchmark-Spitzenwerte konnten unabhängige Tester zunächst nicht bestätigen. Matt Shumer erklärte daraufhin, das beim Upload des Modells auf die Seite Hugging Face etwas schiefgelaufen sei. Später erklärte er, das Modell müsse neu trainiert werden, was Fachleute verwirrt zurück ließ.

Darüber hinaus glauben manche Tester, dass die offizielle Schnittstelle (API) nicht etwa Zugriff auf Reflection 70B gibt, sondern auf Anthropics Claude 3.5 Sonnet. Als sich die Anzeichen dafür häuften, schien nun OpenAIs GPT-4o zum Einsatz zu kommen. Es ist allerdings nicht hundertprozentig klar, was hier hinter den Kulisse tatsächlich passiert.

Was immer nun am Ende herauskommt: Es ist zeigt erneut, dass man den Versprechungen von Entwicklern und Herstellern nicht blind vertrauen sollte – und das gilt von kleinen Teams wie dem hinter Reflection 70B ebenso wie für große Unternehmen wie OpenAI oder Google.

Mehr zum Thema:

Bleib up-to-date: