Super Mario Bros. wird zum neuen, aber umstrittenen KI-Benchmark

Forscher der University of California San Diego nutzen Super Mario Bros. als neue Benchmark für KI-Modelle. Die Ergebnisse über­ra­schen: Klassische Modelle wie GPT-4 scheitern an der Echtzeit-Heraus­forderung, während andere KIs besser abschneiden.
Ki, Künstliche Intelligenz, Nintendo, AI, Artificial Intelligence, Roboter, Super Mario, Mario, Super Mario Bros., Videospielcharakter

Klempner vs. KI: Mario als digitaler Prüfstein

Künstliche Intelligenz hat schon viele Spiele gemeistert - von Schach über Go bis zu Starcraft und Pokémon. Nun stellt sich ein Klassiker der Videospielgeschichte als besonders harte Nuss heraus: Super Mario Bros. Forscher der University of California San Diego haben das ikonische Nintendo-Spiel als neue Benchmark für KI-Modelle eingeführt - mit überraschenden Ergebnissen. Allerdings sorgt die Methode auch für Kritik, denn nicht alle halten das Spiel für KI-geeignet.

Super Mario Bros, 1985 von Nintendo veröffentlicht und von Shigeru Miyamoto und Takashi Tezuka entwickelt, gilt als eines der einflussreichsten Videospiele aller Zeiten. Es wird besonders für seine präzisen Steuerungsmechanismen geschätzt.

Wie TechCrunch berichtet, entwickelte das Hao AI Lab der University of California San Diego einen speziellen Emulator namens GamingAgent. Dieser ermöglicht es KI-Modellen, Mario in einer emulierten Version des Spiels zu steuern. Die künstlichen Intelligenzen erhalten Bildschirmaufnahmen und grundlegende Anweisungen wie "Weiche Hindernissen oder Gegnern aus". Daraufhin müssen sie in Echtzeit Python-Code generieren, um Mario durch die Level zu navigieren.

Bei den Tests zeigten sich unerwartete Stärken und Schwächen der KI-Modelle. Claude 3.7 und Claude 3.5 von Anthropics schnitten am besten ab, während etablierte Systeme wie Googles Gemini 1.5 Pro und OpenAIs GPT-4 Schwierigkeiten mit dieser Aufgabe hatten. Besonders interessant: Die sogenannten Reasoning-Modelle, die Probleme schrittweise durchdenken, waren den "nicht-denkenden" Modellen unterlegen.

Timing ist alles

Die besondere Herausforderung liegt in den präzisen Steuerungsmechanismen des Spiels, die es Spielern ermöglichen, genau zu kontrollieren, wie hoch und weit Mario springt und wie schnell er läuft - Fähigkeiten, die für KI-Systeme schwer zu meistern sind, besonders wenn Entscheidungen in Sekundenbruchteilen getroffen werden müssen.

Der Grund für das schlechte Abschneiden der Reasoning-Modelle liegt in ihrer Arbeitsweise. Sie benötigen oft mehrere Sekunden, um Entscheidungen zu treffen - zu lang für ein Echtzeit-Spiel wie Super Mario Bros, wo Sekundenbruchteile über Erfolg und Misserfolg entscheiden. Die Verwendung von Spielen als KI-Benchmark ist nicht neu, wird aber von Experten kritisch gesehen. Andrej Karpathy, Co-Gründer von OpenAI, sprach in einem Post auf Twitter/X sogar von einer "Evaluationskrise". Er betont:

Meine Reaktion ist, dass es eine Evaluationskrise gibt. Ich weiß nicht wirklich, welche Metriken ich mir jetzt ansehen soll ... Meine Reaktion ist, dass ich wirklich nicht weiß, wie gut diese Modelle gerade sind.
Andrej Karpathy, Forscher bei OpenAI
Was haltet ihr von Super Mario Bros. als KI-Benchmark? Glaubt ihr, dass Videospiele gute Testfelder für künstliche Intelligenz sind? Teilt eure Gedanken in den Kommentaren!

Zusammenfassung
  • Forscher nutzen Super Mario Bros. als neue Benchmark für KI-Modelle
  • Klassische KI-Modelle scheitern an der Echtzeit-Herausforderung
  • Spezieller Emulator 'GamingAgent' ermöglicht KI-Steuerung von Mario
  • Claude 3.7 und 3.5 schneiden besser ab als GPT-4 und Gemini 1.5 Pro
  • 'Nicht-denkende' Modelle übertreffen 'Reasoning'-Modelle im Test
  • Präzise Steuerungsmechanismen stellen besondere Herausforderung dar
  • Experten sehen Verwendung von Spielen als KI-Benchmark kritisch

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!