KI versagt kläglich: LLMs können einfachste Logik-Aufgaben nicht lösen
Eine Studie hat die Leistung von insgesamt 27 aktuellen Large Language Models (LLM) mit einer simplen Logik-Aufgabe getestet. Die Forscher sind von den Antworten und Erklärungsversuchen der KI besorgt. Fast alle Modelle fallen durch, bis auf zwei.
Die Frage, die es zu beantworteten galt, lautete:
"Alice hat N Brüder und sie hat M Schwestern. Wie viele Schwestern hat der Bruder von Alice?"
Im Text der Studie heißt es dazu: "Bei den meisten Modellen kommt es zu schwerwiegenden Störungen und viele sind nicht in der Lage, auch nur eine einzige richtige Antwort zu geben." Einzig das LLM von Open AIs GPT-4 und GPT-4o sowie Anthropics Claude 3 Opus bilden eine Ausnahme. Diese Modelle lagen zumindest in über 30 Prozent der Fälle richtig mit ihren Antworten.
So nutzten die LLMs Sätze wie "Die Logik hält stand; die Lösung wird doppelt geprüft; keine Fehler in der Argumentation; die Lösung ist korrekt" oder "Diese Schlussfolgerung ist einfach und klar". Gleichzeitig lieferten die KIs sehr überzeugende Erklärungen, die schlussfolgerungsartige oder auf anderem Wege plausibel klingende Aussagen enthielten, um ihre oft unsinnigen Antworten zu unterstützen.
Zwar verbessern sich LLMs mit jeder neuen Version deutlich, wie die Studie allerdings zeigt, sind sie noch lange keine absolut zuverlässigen Informationsquellen. Vor allem dann nicht, wenn es um Lösungen zu Fragen geht, bei denen logisches Schlussfolgern verlangt wird.
Siehe auch:
KI-Anwendungen immer noch mit großen Defiziten
Schaut man sich den Enthusiasmus an, mit dem Unternehmen wie Microsoft oder Google künstliche Intelligenz in ihre Anwendungen und Plattformen einbauen, sollte man meinen, die neue Technologie sei bereits völlig ausgereift. Dass das natürlich nicht der Fall ist, muss jedoch jedem klar sein.Test mit Logikaufgabe
Dass Large Language Models (LLMs) wie GPT, Claude oder Gemini in einigen Bereichen extreme Schwächen haben und teilweise nicht einmal einfachste Aufgaben lösen können, beweist jetzt wieder einmal eindrucksvoll eine wissenschaftliche Untersuchung. Die Studie (PDF) von Forschern des Jülich Supercomputing Center, des Forschungszentrums Jülich und der School of Electrical and Electronic Engineering an der University of Bristol stellte den LLMs dabei eine simple Logikaufgabe, an der diese reihenweise scheiterten. Infografik Künstliche Intelligenz: Marktwachstum von jährlich rund 20 Prozent
Die Frage, die es zu beantworteten galt, lautete:
"Alice hat N Brüder und sie hat M Schwestern. Wie viele Schwestern hat der Bruder von Alice?"
Merke:
Die korrekte Antwort auf die in der Untersuchung gestellte Frage lautet natürlich M + 1. Als Beispiel: Bei N = 2 und M = 4 wäre die richtige Antwort also 5.
LLMs scheitern reihenweise
In mehreren Versuchen wurden die Variablen N und M mit konkreten Zahlen ersetzt. Die unterschiedlichen KIs wurden außerdem mit mehreren andersartig gestalteten Prompts zur Lösung des Problems aufgefordert. Die Leistung von 27 verschiedenen LLMs wurde dabei verglichen, darunter GPT-4 und GPT-4o, Claude 3 Opus, Llama-2-70b, Mistral Large und Gemini Pro. Die Ergebnisse waren alles andere als ein Grund zur Begeisterung.Im Text der Studie heißt es dazu: "Bei den meisten Modellen kommt es zu schwerwiegenden Störungen und viele sind nicht in der Lage, auch nur eine einzige richtige Antwort zu geben." Einzig das LLM von Open AIs GPT-4 und GPT-4o sowie Anthropics Claude 3 Opus bilden eine Ausnahme. Diese Modelle lagen zumindest in über 30 Prozent der Fälle richtig mit ihren Antworten.
KI besteht auf Richtigkeit falscher Antworten
Was die Wissenschaftler jedoch am meisten besorgte, war die Nachdrücklichkeit, mit der die getesteten KI-Modelle bei Nachfrage auf der Richtigkeit ihrer falschen Lösungen beharrten. "Wir sehen, dass die Modelle in vielen Fällen der beobachteten Antworten mit falscher Argumentation und falscher endgültiger Antwort eine hohe Qualität für ihre bereitgestellte Lösung beanspruchen und auch stark davon überzeugt sind, dass die bereitgestellte falsche Lösung richtig ist", so die Forscher.So nutzten die LLMs Sätze wie "Die Logik hält stand; die Lösung wird doppelt geprüft; keine Fehler in der Argumentation; die Lösung ist korrekt" oder "Diese Schlussfolgerung ist einfach und klar". Gleichzeitig lieferten die KIs sehr überzeugende Erklärungen, die schlussfolgerungsartige oder auf anderem Wege plausibel klingende Aussagen enthielten, um ihre oft unsinnigen Antworten zu unterstützen.
Zwar verbessern sich LLMs mit jeder neuen Version deutlich, wie die Studie allerdings zeigt, sind sie noch lange keine absolut zuverlässigen Informationsquellen. Vor allem dann nicht, wenn es um Lösungen zu Fragen geht, bei denen logisches Schlussfolgern verlangt wird.
Zusammenfassung
- Unternehmen wie Microsoft und Google integrieren KI begeistert in ihre Produkte
- Wissenschaftliche Untersuchung zeigt Schwächen von Large Language Models (LLMs)
- Studie testete KIs mit einer simplen Logikaufgabe, die oft nicht gelöst wurde
- 27 verschiedene LLMs, darunter GPT-4 und Claude 3 Opus, wurden verglichen
- Nur GPT-4, GPT-4o und Claude 3 Opus lagen in über 30 Prozent der Fälle richtig
- KIs beharrten auf Nachfrage oft auf der Richtigkeit ihrer falschen Lösungen
- LLMs liefern überzeugende, aber oft falsche Erklärungen zu ihren Antworten
Siehe auch:
- Panikmodus: KI-Bots können im Team Zero-Days finden und ausnutzen
- DuckDuckGo bietet anonymen Zugang zu mehreren KI-Chatbots
- KI-Gadget Ai Pin: Zuerst hagelt es Verrisse, nun gibt's noch Brandgefahr
- KI-Hype hat die Börse voll erfasst: Nvidia jetzt wertvoller als Apple
- Gefährliche KI: Angestellte von Google und OpenAI sind besorgt
Thema:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Aktuelle Technik-Blitzangebote von Amazon im Überblick
- Neue Microsoft-Geräte: Surface Pro und Surface Laptop sind da
- Tesla Cybercab: Batteriegröße, Gewicht und Leistung bestätigt
- Apple iPhone 18: Zulieferer bestätigt die Verschiebung auf 2027
- Wahnsinns-Deal: Samsung Galaxy S26 Ultra mit 50 GB Telekom-Tarif
- Was Tesla nicht schafft, setzt Xiaomi um, und stellt Laderoboterarm vor
- Aktionäre klagen: Ist Microsofts KI- & Cloud-Boom auf Lügen gebaut?
Videos
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen