2 Prozent richtig: So kläglich versagt KI bei echter Mathematik

Künstliche Intelligenz (KI) zeigt zwar beeindruckende Fortschritte in der Textgenerierung und Bilderkennung. Doch in der höheren Mathematik stößt sie an ihre Grenzen, wie die neue Benchmark FrontierMath nun eindrucksvoll verdeutlicht.
Mathematik, Berechnung, Mathe, Geometrie, rechnen, Formeln

Große Modelle im Test

Die von der Forschungsgruppe Epoch AI entwickelte Benchmark umfasst mehrere Hundert mathematische Probleme auf Forschungsebene, die tiefes logisches Denken und Kreativität verlangen - Fähigkeiten, die aktuelle KI-Modelle wie GPT-4o oder Gemini 1.5 Pro bisher kaum beherrschen. Das berichtete das US-Magazin VentureBeat.

Laut Epoch AI gelingt es den derzeit besten KI-Modellen, weniger als 2 Prozent der anspruchsvollen Aufgaben zu lösen, selbst mit umfangreicher Unterstützung. FrontierMath ist allerdings auch weitaus schwieriger als bisherige Mathematik-Benchmarks wie GSM-8K und MATH, bei denen KI-Modelle mittlerweile über 90 Prozent Trefferquote erreichen. Ein Problem dieser Tests ist die sogenannte "Datenkontamination": Da KI-Modelle oft auf ähnlichen Aufgaben trainiert werden, erscheinen ihre Leistungen beeindruckender, als sie tatsächlich sind.


FrontierMath hingegen enthält vollkommen neue und unveröffentlichte Probleme, die speziell entwickelt wurden, um unzulässige Vereinfachungen zu vermeiden. Diese Aufgaben lassen sich nicht durch Mustererkennung oder Auswendiglernen lösen - sie erfordern tiefes Verständnis und kreative Lösungsansätze.

Raten hilft nicht

Der renommierte Mathematiker Terence Tao erklärte nach einer Überprüfung der Benchmarks, dass diese Probleme selbst für Experten extrem anspruchsvoll seien. Sie umfassen komplexe Themen wie die algebraische Geometrie und die Zahlentheorie. Die Probleme sind so gestaltet, dass sie nicht durch Raten gelöst werden können und oft große numerische Antworten erfordern, sodass die Wahrscheinlichkeit eines zufälligen Treffers äußerst gering ist.

Die Entwicklung von FrontierMath wurde in Zusammenarbeit mit mehr als 60 führenden Mathematikern, darunter auch Fields-Medaillenträger, realisiert. Timothy Gowers und Evan Chen betonten, dass die Aufgaben weit über das Niveau klassischer Mathematik-Olympiaden hinausgehen. "Alle Aufgaben, die ich sah, waren extrem anspruchsvoll und weit entfernt von typischen Olympiaden-Problemen", so Gowers.

Zusammenfassung
  • KI versagt bei anspruchsvoller Mathematik laut FrontierMath-Benchmark
  • Weniger als 2 Prozent der schwierigen Aufgaben werden von KI-Modellen gelöst
  • FrontierMath enthält neue, unveröffentlichte mathematische Probleme
  • Aufgaben erfordern tiefes Verständnis und kreative Lösungsansätze
  • Über 60 führende Mathematiker waren an der Entwicklung beteiligt
  • Probleme gehen weit über das Niveau von Mathematik-Olympiaden hinaus
  • Datenkontamination bei bisherigen Mathematik-Benchmarks vermieden

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!