Selbstbewusst falsch: Forscher haben entschlüsselt, warum KI lügt

Sprachmodelle wie GPT-4o oder Gemma 3 können bei einfachen Fragen übertrieben selbstsicher antworten - und bei Kritik plötzlich einknicken. Diese paradoxe Mischung aus Starrsinn und Verunsicherung lässt sich nun erstmals systematisch erklären.

John Woll, 17.07.2025 13:40 Uhr

Sprachmodell, LLM, Datenanalyse, Training, Datenvisualisierung, Bias, LLMs, A/B-Test, UX-Design, Entscheidungsfindung, Konversionsoptimierung, Netzwerkgrafik, Glühende Symbole, Technologiehintergrund

"KI-Psychologie": Warum LLMs manchmal stur lügen

Was auf den ersten Blick wie ein psychologisches Problem wirkt, wurde mit einem gezielten Experiment sichtbar gemacht. Die Forscher von Google DeepMind und University College London entwickelten ein Testverfahren, bei dem ein Sprachmodell zunächst eine Antwort mit zugehörigem Selbstvertrauen abgeben sollte - also einer internen Einschätzung, wie wahrscheinlich sie richtig liegt - etwa zur geografischen Lage einer Stadt. Danach bekam es einen "Ratschlag" eines zweiten, fiktiven KI-Modells. Dieser war wahlweise korrekt, falsch oder neutral - und mit einem Vertrauenswert versehen.

Entscheidend: In einigen Durchläufen wurde dem Modell die eigene ursprüngliche Antwort nochmals angezeigt, in anderen nicht. So konnten die Forscher genau messen, wie das Modell seine Meinung änderte - oder eben nicht - und wie sich das eigene "Vertrauen" in die Antwort veränderte.

Spartipp: Media Markt und Saturn starten den beliebten Super Spar Sale Zuversicht Veränderung in Sprachmodellen (Google DeepMind)

Zuversicht Veränderung in Sprachmodellen (Google DeepMind)

Vertrauensänderungen in Sprachmodellen sichtbar gemacht Die Auswertung ergab zwei bemerkenswerte Phänomene. Erstens: Wenn das Modell seine erste Antwort sehen konnte, stieg die Wahrscheinlichkeit, dass es dabei blieb - selbst wenn die Gegenargumente stark waren. Diese sogenannte "choice-supportive bias" ähnelt dem Verhalten von Menschen, die ungern von früheren Aussagen abweichen.

Zweitens: Wurde das Modell mit gegenteiliger Meinung konfrontiert, sank das Vertrauen in die eigene Antwort deutlich stärker, als es ein sogenannter Bayes'scher Beobachter erwarten würde - ein theoretisches Modell aus der Statistik- und Kognitionswissenschaft, das Entscheidungen rein logisch anhand neuer und alter Informationen abwägt.

Die übermäßige Verunsicherung bei Kritik folgt keinem Zufall - sie ist Teil eines wiederkehrenden Musters, das die Forscher in mehreren Modellen nachweisen konnten - darunter GPT-4o und o1-Preview. Selbst wenn im Prompt ausdrücklich stand, dass die zweite Meinung nur zu 60 % zuverlässig sei, ließ sich das Modell mit hoher Wahrscheinlichkeit umstimmen

Ein Erklärungsansatz der Forscher liegt in der Trainingsmethode vieler KI-Modelle: Das sogenannte Reinforcement Learning mit menschlichem Feedback (RLHF) könnte zu einer Art "Höflichkeitsbias" führen - eine übermäßige Bereitschaft, sich fremden Meinungen anzupassen. Doch die Studie zeigt: Es ist nicht nur Höflichkeit. Vielmehr wirken zwei Mechanismen zusammen - Selbstbestätigung, wenn die eigene Antwort sichtbar ist, und Unsicherheit, wenn sie fehlt und Widerspruch kommt.

Nutzen für den Alltag?

Was bedeutet das für den Alltag mit KI? In längeren Gesprächen mit Sprachmodellen kann es passieren, dass neuere Eingaben übermäßig viel Gewicht bekommen - und die KI vorherige, sogar richtige Einschätzungen leicht aufgibt. Für den Einsatz in sensiblen Bereichen wie Medizin oder Justiz ist das ein ernst zu nehmender Punkt.

Die vollständige Studie (DOI: 10.48550/arxiv.2507.03120) wurde am 3. Juli 2025 auf arXiv veröffentlicht. Sie bietet nicht nur neue Einblicke in das Entscheidungsverhalten großer Sprachmodelle, sondern liefert auch Werkzeuge, um es künftig gezielter zu analysieren.

Die Forscher zeigen, dass sich das Verhalten eines Modells mit nur drei Größen erstaunlich gut vorhersagen lässt:

Anfangsvertrauen in die erste Antwort
Sichtbarkeit dieser Antwort im späteren Verlauf
Richtung und Gewichtung externer Ratschläge

Aus diesen Faktoren ergibt sich ein plausibles "psychologisches Modell" der KI - übertragbar auf ganz unterschiedliche Bereiche, von Rechenaufgaben bis zu Wissensfragen. Es erlaubt, KI-Verhalten künftig systematisch zu planen, statt es nur nachträglich zu bewerten.

Was ist ein LLM?

LLM steht für "Large Language Model" oder auf Deutsch "Großes Sprachmodell". Es handelt sich um ein KI-System, das auf neuronalen Netzwerken mit Transformer-Architektur basiert und darauf trainiert wurde, menschliche Sprache zu verstehen und zu generieren.

Diese Modelle zeichnen sich durch ihre enorme Größe aus - sie verfügen über Milliarden oder sogar Hunderte Milliarden Parameter und wurden mit riesigen Textmengen (oft Hunderte Gigabyte) trainiert, um statistische Muster in der Sprache zu erkennen.

Wie funktionieren LLMs?

LLMs basieren auf der Transformer-Architektur, die einen sogenannten "Attention-Mechanismus" nutzt. Dies erlaubt dem Modell, Beziehungen zwischen Wörtern in einem Text zu erkennen und zu bewerten, unabhängig von ihrer Position im Satz.

Der Verarbeitungsprozess beginnt mit der Tokenisierung des Textes in kleinere Einheiten. Das Modell verwendet dann seine Parameter, um aus diesen Tokens Bedeutung zu extrahieren und die wahrscheinlichste Fortsetzung vorherzusagen, wodurch es kohärente Texte generieren kann.

Wofür werden LLMs eingesetzt?

LLMs finden in zahlreichen Bereichen Anwendung: Sie können Texte generieren, übersetzen, zusammenfassen und analysieren. Sie dienen als Grundlage für Chatbots und virtuelle Assistenten wie ChatGPT oder Googles Bard.

Zudem werden sie für Programmcode-Generierung, Content-Erstellung, Sentiment-Analyse, Informationssuche und -extraktion eingesetzt. In Unternehmen helfen sie bei der Automatisierung von Kundenservice, Datenanalyse und bei der Erschließung großer Wissensbestände.

Welche Vorteile bieten LLMs?

LLMs können große Datenmengen in hoher Geschwindigkeit verarbeiten und analysieren, was menschliche Fähigkeiten übertrifft. Sie automatisieren zeitintensive Aufgaben und senken dadurch Betriebskosten erheblich.

Ihre Anpassungsfähigkeit erlaubt den Einsatz in verschiedensten Anwendungsbereichen. Moderne LLMs generieren schnelle Antworten mit geringer Latenz und verstehen kontextuelle Zusammenhänge, was sie zu wertvollen Werkzeugen für die Mensch-Maschine-Interaktion machen.

Welche Herausforderungen gibt es?

LLMs stehen vor mehreren Herausforderungen: Sie neigen zu "Halluzinationen" - der Generierung falscher oder erfundener Informationen. Der Betrieb erfordert erhebliche Rechenressourcen und verursacht hohe Energie- und Kostenaufwände.

Datenschutzbedenken entstehen, wenn sensible Informationen verarbeitet werden. Zudem können LLMs Voreingenommenheiten (Biases) aus ihren Trainingsdaten übernehmen und reproduzieren, was zu verzerrten oder diskriminierenden Ausgaben führen kann.

Was sind bekannte LLM-Modelle?

Zu den bekanntesten LLMs zählen die GPT-Modelle von OpenAI (GPT-3.5, GPT-4), die in ChatGPT und Microsoft Copilot verwendet werden. Google entwickelte PaLM, Gemini und Gemma, während Meta die LLaMA-Familie als Open-Source-Alternativen anbietet.

Weitere bedeutende Modelle sind Claude von Anthropic, Grok-1 von X.AI sowie BERT und T5 von Google. Auch chinesische Unternehmen wie Alibaba und Deepseek haben leistungsfähige LLMs entwickelt.

Wie werden LLMs trainiert?

Das Training von LLMs erfolgt mehrstufig: Zuerst werden sie in einer Phase des unüberwachten Lernens (unsupervised learning) mit riesigen Textmengen aus dem Internet, Büchern und wissenschaftlichen Artikeln trainiert, um Sprachmuster zu erkennen.

Anschließend folgt oft eine Feinabstimmung für spezifische Aufgaben sowie ein Training durch Reinforcement Learning from Human Feedback (RLHF), bei dem menschliche Bewerter die Qualität der Modellantworten bewerten und so das Verhalten des Modells verbessern.

Wie sieht die Zukunft von LLMs aus?

Die Zukunft von LLMs verspricht weitere Fortschritte: Es wird erwartet, dass kommende Modellgenerationen effizienter arbeiten und menschliche Sprache noch präziser verstehen. Ein Trend geht zu domänenspezifischen LLMs, die für bestimmte Branchen oder Anwendungsfälle optimiert sind.

Techniken wie Retrieval-Augmented Generation (RAG) werden sich weiterentwickeln, um faktenbasierte Informationen besser einzubinden. Zugleich wachsen die Bemühungen, die Energieeffizienz zu verbessern und ethische Fragen wie Datenschutz und Fairness zu adressieren.

Zusammenfassung

KI-Modelle zeigen paradoxe Mischung aus Starrsinn und Verunsicherung
Forscher entwickelten einen Test zur Messung von Selbstvertrauen bei KI-Antworten
Bei sichtbarer Erstantwort bleiben KI-Modelle auch bei Kritik oft standhaft
Konfrontation mit Gegenmeinungen führt zu übermäßiger Verunsicherung
RLHF-Training könnte zur übertriebenen Anpassungsbereitschaft führen
Die Studie wurde am 3. Juli 2025 auf arXiv mit DOI-Nummer veröffentlicht
KI-Verhalten lässt sich durch drei grundlegende Faktoren vorhersagen

Siehe auch:

Thema:

Künstliche Intelligenz

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren16

Hinweis einsenden

Weitere Nachrichten zum Thema Coding-KI läuft Amok und löscht gesamte Firmendatenbank aus "Panik"KI-Experten warnen: Fenster zu den "Gedanken" der KI schließt sichMassenentlassungen in IT wegen KI? CEOs wollen, dass man das denktKI baut Killer-Protein gegen antibiotikaresistente SuperbakterienVor Human-Tests: Google-Tochter will mit KI "alle Krankheiten" heilenWer erkennt es besser? Kleinkinder schlagen die besten KI-Systeme