Llama 4: Meta wehrt sich gegen Vorwürfe der Benchmark-Manipulation

Meta verteidigt sein neues KI-Modell Llama 4 gegen Kritik aus der Community. Während Anwender über schlechte Performance berichten und Manipulationsvorwürfe laut werden, dementiert das Unternehmen und spricht von Implementierungsproblemen.
Ki, Künstliche Intelligenz, AI, Artificial Intelligence, Meta, Sprachmodell, KI-Modell, Llama, Meta Llama, Llama 3.1, Llama 3.1 405B

Llama 4 unter Beschuss: Meta wehrt sich gegen Kritik

Metas am Wochenende überraschend veröffentlichte KI-Modelle Llama 4 Scout und Llama 4 Maverick stehen massiv in der Kritik. Nutzer und Experten berichten von deutlich schlechterer Performance als von Meta beworben. Das führte einige Nutzer dazu, von Benchmark-Manipulation zu sprechen. Die Diskrepanz zwischen den versprochenen und tatsächlichen Leistungen sorgt aber ohnehin für Unmut in der KI-Community.

Die neuen Modelle, die mit der "Mixture-of-Experts"-Architektur und einer als MetaP bekannten Trainingsmethode mit festen Hyperparametern arbeiten, sollten laut Meta Konkurrenzprodukte wie GPT-4o und Gemini 2.0 Flash übertreffen. Besonders hervorgehoben wurde dabei das große Kontextfenster von angeblich zehn Millionen Token für das Scout-Modell, was eine deutliche Verbesserung gegenüber früheren Versionen darstellen würde.

Schummeln oder Bugs?

Ein besonders kritischer Punkt: Meta nutzte für die Benchmark-Tests auf der Plattform LMArena eine spezielle "experimentelle" Version von Maverick, die auf Konversationsfähigkeit optimiert wurde - nicht die öffentlich verfügbare Standardversion. Diese Praxis führte laut TechCrunch dazu, dass LMArena nach der Veröffentlichung seine Richtlinien überarbeiten musste. Ein Meta-Sprecher rechtfertigte das mit der Aussage, dass das Unternehmen "mit allen Arten von benutzerdefinierten Varianten experimentiert".


Simon Willison, unabhängiger KI-Forscher, kritisierte indes gegenüber The Verge: "Als Llama 4 herauskam, hat mich die Tatsache, dass es in der Arena den zweiten Platz nach Gemini 2.5 Pro belegte, wirklich beeindruckt, und ich ärgere mich, dass ich das Kleingedruckte nicht gelesen habe." Diese Aussage verdeutlicht die Enttäuschung vieler Experten, die zunächst von den vermeintlichen Fortschritten begeistert waren.

Meta dementiert

Zusätzlich zu den Benchmark-Problemen kursieren unbestätigte Gerüchte, dass Meta seine Modelle gezielt auf Testdatensätze trainiert habe, um bessere Ergebnisse vorzutäuschen. Ahmad Al-Dahle, Vice President für generative KI bei Meta, wies diese Vorwürfe entschieden zurück: "Wir haben auch Behauptungen gehört, dass wir auf Testdatensätzen trainiert haben - das ist schlichtweg nicht wahr und wir würden das niemals tun."

Die ungewöhnliche Veröffentlichung am Samstag sorgte für zusätzliche Spekulationen. Meta-CEO Mark Zuckerberg erklärte dazu lediglich auf Threads: "Das war der Zeitpunkt, zu dem es fertig war." Diese knappe Antwort trug wenig zur Beruhigung der Situation bei und ließ Raum für weitere Interpretationen. Meta führt die von Nutzern gemeldeten Leistungsprobleme auf "Implementierungsschwierigkeiten" zurück. Al-Dahle erklärte, es werde "einige Tage dauern, bis alle öffentlichen Implementierungen eingestellt sind" und versprach, an Fehlerbehebungen zu arbeiten.

Experten weisen wohlgemerkt darauf hin, dass Benchmark-Ergebnisse generell mit Vorsicht zu betrachten sind, da sie oft nicht die reale Nutzungserfahrung widerspiegeln. Die Praxis, speziell "optimierte" Versionen für Benchmarks zu verwenden, ist auch nicht ungewöhnlich - sollte aber entsprechend klar und transparent kommuniziert werden.

Was haltet ihr von Metas Erklärung zu den Llama 4-Problemen? Glaubt ihr an technische Schwierigkeiten oder seht ihr bewusste Manipulation? Teilt eure Meinung in den Kommentaren!

Zusammenfassung
  • Metas neue KI-Modelle Llama 4 Scout und Maverick unter Kritik
  • Nutzer berichten von schlechterer Leistung als von Meta beworben
  • Vorwürfe der Benchmark-Manipulation durch spezielle Testversionen
  • Meta dementiert Anschuldigungen und spricht von Implementierungsproblemen
  • Ungewöhnliche Veröffentlichung am Wochenende sorgt für Spekulationen
  • Experten mahnen zur Vorsicht bei der Interpretation von Benchmark-Ergebnissen
  • Meta verspricht Fehlerbehebungen in den kommenden Tagen

Siehe auch:


Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!