KI versagt kläglich: LLMs können einfachste Logik-Aufgaben nicht lösen

Eine Studie hat die Leistung von insgesamt 27 aktuellen Large Language Models (LLM) mit einer simplen Logik-Aufgabe getestet. Die Forscher sind von den Antworten und Erklärungsversuchen der KI be­sorgt. Fast alle Modelle fallen durch, bis auf zwei.
Ki, Künstliche Intelligenz, AI, Artificial Intelligence, Roboter, Chatbot, KI-Chatbot, Robot, Bots, Chatbots, AI-ChatBot, Verrückte Roboter, Verrückte Bots, Crazy Robots, Robots, Durchgedreht, Frage

KI-Anwendungen immer noch mit großen Defiziten

Schaut man sich den Enthusiasmus an, mit dem Unternehmen wie Microsoft oder Google künstliche Intelligenz in ihre Anwendungen und Plattformen einbauen, sollte man meinen, die neue Technologie sei bereits völlig ausgereift. Dass das natürlich nicht der Fall ist, muss jedoch jedem klar sein.

Test mit Logikaufgabe

Dass Large Language Models (LLMs) wie GPT, Claude oder Gemini in einigen Bereichen extreme Schwächen haben und teilweise nicht einmal einfachste Aufgaben lösen können, beweist jetzt wieder einmal eindrucksvoll eine wissenschaftliche Untersuchung. Die Studie (PDF) von Forschern des Jülich Supercomputing Center, des Forschungszentrums Jülich und der School of Electrical and Electronic Engineering an der University of Bristol stellte den LLMs dabei eine simple Logikaufgabe, an der diese reihenweise scheiterten. Infografik Künstliche Intelligenz: Marktwachstum von jährlich rund 20 ProzentKünstliche Intelligenz: Marktwachstum von jährlich rund 20 Prozent Die Frage, die es zu beantworteten galt, lautete:

"Alice hat N Brüder und sie hat M Schwestern. Wie viele Schwestern hat der Bruder von Alice?"

Merke: Die korrekte Antwort auf die in der Untersuchung gestellte Frage lautet natürlich M + 1. Als Beispiel: Bei N = 2 und M = 4 wäre die richtige Antwort also 5.

LLMs scheitern reihenweise

In mehreren Versuchen wurden die Variablen N und M mit konkreten Zahlen ersetzt. Die unterschiedlichen KIs wurden außerdem mit mehreren andersartig gestalteten Prompts zur Lösung des Problems aufgefordert. Die Leistung von 27 verschiedenen LLMs wurde dabei verglichen, darunter GPT-4 und GPT-4o, Claude 3 Opus, Llama-2-70b, Mistral Large und Gemini Pro. Die Ergebnisse waren alles andere als ein Grund zur Begeisterung.


Im Text der Studie heißt es dazu: "Bei den meisten Modellen kommt es zu schwerwiegenden Störungen und viele sind nicht in der Lage, auch nur eine einzige richtige Antwort zu geben." Einzig das LLM von Open AIs GPT-4 und GPT-4o sowie Anthropics Claude 3 Opus bilden eine Ausnahme. Diese Modelle lagen zumindest in über 30 Prozent der Fälle richtig mit ihren Antworten.

KI besteht auf Richtigkeit falscher Antworten

Was die Wissenschaftler jedoch am meisten besorgte, war die Nachdrücklichkeit, mit der die getesteten KI-Modelle bei Nachfrage auf der Richtigkeit ihrer falschen Lösungen beharrten. "Wir sehen, dass die Modelle in vielen Fällen der beobachteten Antworten mit falscher Argumentation und falscher endgültiger Antwort eine hohe Qualität für ihre bereitgestellte Lösung beanspruchen und auch stark davon überzeugt sind, dass die bereitgestellte falsche Lösung richtig ist", so die Forscher.

So nutzten die LLMs Sätze wie "Die Logik hält stand; die Lösung wird doppelt geprüft; keine Fehler in der Argumentation; die Lösung ist korrekt" oder "Diese Schlussfolgerung ist einfach und klar". Gleichzeitig lieferten die KIs sehr überzeugende Erklärungen, die schlussfolgerungsartige oder auf anderem Wege plausibel klingende Aussagen enthielten, um ihre oft unsinnigen Antworten zu unterstützen.

Zwar verbessern sich LLMs mit jeder neuen Version deutlich, wie die Studie allerdings zeigt, sind sie noch lange keine absolut zuverlässigen Informationsquellen. Vor allem dann nicht, wenn es um Lösungen zu Fragen geht, bei denen logisches Schlussfolgern verlangt wird.

Zusammenfassung
  • Unternehmen wie Microsoft und Google integrieren KI begeistert in ihre Produkte
  • Wissenschaftliche Untersuchung zeigt Schwächen von Large Language Models (LLMs)
  • Studie testete KIs mit einer simplen Logikaufgabe, die oft nicht gelöst wurde
  • 27 verschiedene LLMs, darunter GPT-4 und Claude 3 Opus, wurden verglichen
  • Nur GPT-4, GPT-4o und Claude 3 Opus lagen in über 30 Prozent der Fälle richtig
  • KIs beharrten auf Nachfrage oft auf der Richtigkeit ihrer falschen Lösungen
  • LLMs liefern überzeugende, aber oft falsche Erklärungen zu ihren Antworten

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!