Super Mario Bros. wird zum neuen, aber umstrittenen KI-Benchmark

Forscher der University of California San Diego nutzen Super Mario Bros. als neue Benchmark für KI-Modelle. Die Ergebnisse überraschen: Klassische Modelle wie GPT-4 scheitern an der Echtzeit-Herausforderung, während andere KIs besser abschneiden.

Witold Pryjda, 04.03.2025 09:06 Uhr

Ki, Künstliche Intelligenz, Nintendo, AI, Artificial Intelligence, Roboter, Super Mario, Mario, Super Mario Bros., Videospielcharakter

Klempner vs. KI: Mario als digitaler Prüfstein

Künstliche Intelligenz hat schon viele Spiele gemeistert - von Schach über Go bis zu Starcraft und Pokémon. Nun stellt sich ein Klassiker der Videospielgeschichte als besonders harte Nuss heraus: Super Mario Bros. Forscher der University of California San Diego haben das ikonische Nintendo-Spiel als neue Benchmark für KI-Modelle eingeführt - mit überraschenden Ergebnissen. Allerdings sorgt die Methode auch für Kritik, denn nicht alle halten das Spiel für KI-geeignet.

Super Mario Bros, 1985 von Nintendo veröffentlicht und von Shigeru Miyamoto und Takashi Tezuka entwickelt, gilt als eines der einflussreichsten Videospiele aller Zeiten. Es wird besonders für seine präzisen Steuerungsmechanismen geschätzt.

Wie TechCrunch berichtet, entwickelte das Hao AI Lab der University of California San Diego einen speziellen Emulator namens GamingAgent. Dieser ermöglicht es KI-Modellen, Mario in einer emulierten Version des Spiels zu steuern. Die künstlichen Intelligenzen erhalten Bildschirmaufnahmen und grundlegende Anweisungen wie "Weiche Hindernissen oder Gegnern aus". Daraufhin müssen sie in Echtzeit Python-Code generieren, um Mario durch die Level zu navigieren.

Bei den Tests zeigten sich unerwartete Stärken und Schwächen der KI-Modelle. Claude 3.7 und Claude 3.5 von Anthropics schnitten am besten ab, während etablierte Systeme wie Googles Gemini 1.5 Pro und OpenAIs GPT-4 Schwierigkeiten mit dieser Aufgabe hatten. Besonders interessant: Die sogenannten Reasoning-Modelle, die Probleme schrittweise durchdenken, waren den "nicht-denkenden" Modellen unterlegen.

Timing ist alles

Die besondere Herausforderung liegt in den präzisen Steuerungsmechanismen des Spiels, die es Spielern ermöglichen, genau zu kontrollieren, wie hoch und weit Mario springt und wie schnell er läuft - Fähigkeiten, die für KI-Systeme schwer zu meistern sind, besonders wenn Entscheidungen in Sekundenbruchteilen getroffen werden müssen.

Der Grund für das schlechte Abschneiden der Reasoning-Modelle liegt in ihrer Arbeitsweise. Sie benötigen oft mehrere Sekunden, um Entscheidungen zu treffen - zu lang für ein Echtzeit-Spiel wie Super Mario Bros, wo Sekundenbruchteile über Erfolg und Misserfolg entscheiden. Die Verwendung von Spielen als KI-Benchmark ist nicht neu, wird aber von Experten kritisch gesehen. Andrej Karpathy, Co-Gründer von OpenAI, sprach in einem Post auf Twitter/X sogar von einer "Evaluationskrise". Er betont:

Meine Reaktion ist, dass es eine Evaluationskrise gibt. Ich weiß nicht wirklich, welche Metriken ich mir jetzt ansehen soll ... Meine Reaktion ist, dass ich wirklich nicht weiß, wie gut diese Modelle gerade sind.
Andrej Karpathy, Forscher bei OpenAI

Was haltet ihr von Super Mario Bros. als KI-Benchmark? Glaubt ihr, dass Videospiele gute Testfelder für künstliche Intelligenz sind? Teilt eure Gedanken in den Kommentaren!

Zusammenfassung

Forscher nutzen Super Mario Bros. als neue Benchmark für KI-Modelle
Klassische KI-Modelle scheitern an der Echtzeit-Herausforderung
Spezieller Emulator 'GamingAgent' ermöglicht KI-Steuerung von Mario
Claude 3.7 und 3.5 schneiden besser ab als GPT-4 und Gemini 1.5 Pro
'Nicht-denkende' Modelle übertreffen 'Reasoning'-Modelle im Test
Präzise Steuerungsmechanismen stellen besondere Herausforderung dar
Experten sehen Verwendung von Spielen als KI-Benchmark kritisch

Siehe auch:

Thema:

Künstliche Intelligenz

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren4

Hinweis einsenden

Weitere Nachrichten zum Thema Super Mario Bros: Nach 40 Jahren neue "Minus-Welt"-Level gefundenDrift in die Vitrine: Lego enthüllt neues Mario Kart-Set mit 1.972 TeilenMario-Film-Fortsetzung: NBCUniversal verrät versehentlich neuen TitelKI-Nutzung an Universitäten ist kein direkter Auslöser für PlagiateApple wird bei KI immer mehr abgehängt, modernisierte Siri erst 2027KI rekonstruiert 27 Jahre alte EXE-Datei und schreibt sie in Python neu