2 Prozent richtig: So kläglich versagt KI bei echter Mathematik

Künstliche Intelligenz (KI) zeigt zwar beeindruckende Fortschritte in der Textgenerierung und Bilderkennung. Doch in der höheren Mathematik stößt sie an ihre Grenzen, wie die neue Benchmark FrontierMath nun eindrucksvoll verdeutlicht.

Christian Kahle, 14.11.2024 10:30 Uhr

Mathematik, Berechnung, Mathe, Geometrie, rechnen, Formeln

Große Modelle im Test

Die von der Forschungsgruppe Epoch AI entwickelte Benchmark umfasst mehrere Hundert mathematische Probleme auf Forschungsebene, die tiefes logisches Denken und Kreativität verlangen - Fähigkeiten, die aktuelle KI-Modelle wie GPT-4o oder Gemini 1.5 Pro bisher kaum beherrschen. Das berichtete das US-Magazin VentureBeat.

Laut Epoch AI gelingt es den derzeit besten KI-Modellen, weniger als 2 Prozent der anspruchsvollen Aufgaben zu lösen, selbst mit umfangreicher Unterstützung. FrontierMath ist allerdings auch weitaus schwieriger als bisherige Mathematik-Benchmarks wie GSM-8K und MATH, bei denen KI-Modelle mittlerweile über 90 Prozent Trefferquote erreichen. Ein Problem dieser Tests ist die sogenannte "Datenkontamination": Da KI-Modelle oft auf ähnlichen Aufgaben trainiert werden, erscheinen ihre Leistungen beeindruckender, als sie tatsächlich sind.

FrontierMath hingegen enthält vollkommen neue und unveröffentlichte Probleme, die speziell entwickelt wurden, um unzulässige Vereinfachungen zu vermeiden. Diese Aufgaben lassen sich nicht durch Mustererkennung oder Auswendiglernen lösen - sie erfordern tiefes Verständnis und kreative Lösungsansätze.

Raten hilft nicht

Der renommierte Mathematiker Terence Tao erklärte nach einer Überprüfung der Benchmarks, dass diese Probleme selbst für Experten extrem anspruchsvoll seien. Sie umfassen komplexe Themen wie die algebraische Geometrie und die Zahlentheorie. Die Probleme sind so gestaltet, dass sie nicht durch Raten gelöst werden können und oft große numerische Antworten erfordern, sodass die Wahrscheinlichkeit eines zufälligen Treffers äußerst gering ist.

Die Entwicklung von FrontierMath wurde in Zusammenarbeit mit mehr als 60 führenden Mathematikern, darunter auch Fields-Medaillenträger, realisiert. Timothy Gowers und Evan Chen betonten, dass die Aufgaben weit über das Niveau klassischer Mathematik-Olympiaden hinausgehen. "Alle Aufgaben, die ich sah, waren extrem anspruchsvoll und weit entfernt von typischen Olympiaden-Problemen", so Gowers.

Zusammenfassung

KI versagt bei anspruchsvoller Mathematik laut FrontierMath-Benchmark
Weniger als 2 Prozent der schwierigen Aufgaben werden von KI-Modellen gelöst
FrontierMath enthält neue, unveröffentlichte mathematische Probleme
Aufgaben erfordern tiefes Verständnis und kreative Lösungsansätze
Über 60 führende Mathematiker waren an der Entwicklung beteiligt
Probleme gehen weit über das Niveau von Mathematik-Olympiaden hinaus
Datenkontamination bei bisherigen Mathematik-Benchmarks vermieden

Siehe auch:

Thema:

Künstliche Intelligenz

Kommentieren1

Hinweis einsenden

Weitere Nachrichten zum Thema Forscher löst nach 200 Jahren "unlösbares" MathematikproblemWissenschaftsskandal: In der Mathematik wird systematisch betrogenKIs erreichen bei Mathe-Olympiade erstmals Goldmedaillen-Niveau100 Jahre alte Formel abgelöst: Neue Mathematik verbessert WindräderiPadOS 18: Apple stellt viel Neues vor, und ja, Mathe kann Spaß machenGalaktische Gleichungen: Star Trek macht KI-Bots zu Mathe-Genies