Selbstbewusst falsch: Forscher haben entschlüsselt, warum KI lügt
Sprachmodelle wie GPT-4o oder Gemma 3 können bei einfachen Fragen übertrieben selbstsicher antworten - und bei Kritik plötzlich einknicken. Diese paradoxe Mischung aus Starrsinn und Verunsicherung lässt sich nun erstmals systematisch erklären.
Entscheidend: In einigen Durchläufen wurde dem Modell die eigene ursprüngliche Antwort nochmals angezeigt, in anderen nicht. So konnten die Forscher genau messen, wie das Modell seine Meinung änderte - oder eben nicht - und wie sich das eigene "Vertrauen" in die Antwort veränderte.
Spartipp: Media Markt und Saturn starten den beliebten Super Spar Sale
Vertrauensänderungen in Sprachmodellen sichtbar gemacht
Die Auswertung ergab zwei bemerkenswerte Phänomene. Erstens: Wenn das Modell seine erste Antwort sehen konnte, stieg die Wahrscheinlichkeit, dass es dabei blieb - selbst wenn die Gegenargumente stark waren. Diese sogenannte "choice-supportive bias" ähnelt dem Verhalten von Menschen, die ungern von früheren Aussagen abweichen.
Zweitens: Wurde das Modell mit gegenteiliger Meinung konfrontiert, sank das Vertrauen in die eigene Antwort deutlich stärker, als es ein sogenannter Bayes'scher Beobachter erwarten würde - ein theoretisches Modell aus der Statistik- und Kognitionswissenschaft, das Entscheidungen rein logisch anhand neuer und alter Informationen abwägt.
Die übermäßige Verunsicherung bei Kritik folgt keinem Zufall - sie ist Teil eines wiederkehrenden Musters, das die Forscher in mehreren Modellen nachweisen konnten - darunter GPT-4o und o1-Preview. Selbst wenn im Prompt ausdrücklich stand, dass die zweite Meinung nur zu 60 % zuverlässig sei, ließ sich das Modell mit hoher Wahrscheinlichkeit umstimmen
Ein Erklärungsansatz der Forscher liegt in der Trainingsmethode vieler KI-Modelle: Das sogenannte Reinforcement Learning mit menschlichem Feedback (RLHF) könnte zu einer Art "Höflichkeitsbias" führen - eine übermäßige Bereitschaft, sich fremden Meinungen anzupassen. Doch die Studie zeigt: Es ist nicht nur Höflichkeit. Vielmehr wirken zwei Mechanismen zusammen - Selbstbestätigung, wenn die eigene Antwort sichtbar ist, und Unsicherheit, wenn sie fehlt und Widerspruch kommt.
Die vollständige Studie (DOI: 10.48550/arxiv.2507.03120) wurde am 3. Juli 2025 auf arXiv veröffentlicht. Sie bietet nicht nur neue Einblicke in das Entscheidungsverhalten großer Sprachmodelle, sondern liefert auch Werkzeuge, um es künftig gezielter zu analysieren.
Die Forscher zeigen, dass sich das Verhalten eines Modells mit nur drei Größen erstaunlich gut vorhersagen lässt:
Aus diesen Faktoren ergibt sich ein plausibles "psychologisches Modell" der KI - übertragbar auf ganz unterschiedliche Bereiche, von Rechenaufgaben bis zu Wissensfragen. Es erlaubt, KI-Verhalten künftig systematisch zu planen, statt es nur nachträglich zu bewerten.
Siehe auch:
"KI-Psychologie": Warum LLMs manchmal stur lügen
Was auf den ersten Blick wie ein psychologisches Problem wirkt, wurde mit einem gezielten Experiment sichtbar gemacht. Die Forscher von Google DeepMind und University College London entwickelten ein Testverfahren, bei dem ein Sprachmodell zunächst eine Antwort mit zugehörigem Selbstvertrauen abgeben sollte - also einer internen Einschätzung, wie wahrscheinlich sie richtig liegt - etwa zur geografischen Lage einer Stadt. Danach bekam es einen "Ratschlag" eines zweiten, fiktiven KI-Modells. Dieser war wahlweise korrekt, falsch oder neutral - und mit einem Vertrauenswert versehen.Entscheidend: In einigen Durchläufen wurde dem Modell die eigene ursprüngliche Antwort nochmals angezeigt, in anderen nicht. So konnten die Forscher genau messen, wie das Modell seine Meinung änderte - oder eben nicht - und wie sich das eigene "Vertrauen" in die Antwort veränderte.
Spartipp: Media Markt und Saturn starten den beliebten Super Spar Sale
Vertrauensänderungen in Sprachmodellen sichtbar gemacht
Die Auswertung ergab zwei bemerkenswerte Phänomene. Erstens: Wenn das Modell seine erste Antwort sehen konnte, stieg die Wahrscheinlichkeit, dass es dabei blieb - selbst wenn die Gegenargumente stark waren. Diese sogenannte "choice-supportive bias" ähnelt dem Verhalten von Menschen, die ungern von früheren Aussagen abweichen.
Zweitens: Wurde das Modell mit gegenteiliger Meinung konfrontiert, sank das Vertrauen in die eigene Antwort deutlich stärker, als es ein sogenannter Bayes'scher Beobachter erwarten würde - ein theoretisches Modell aus der Statistik- und Kognitionswissenschaft, das Entscheidungen rein logisch anhand neuer und alter Informationen abwägt.
Die übermäßige Verunsicherung bei Kritik folgt keinem Zufall - sie ist Teil eines wiederkehrenden Musters, das die Forscher in mehreren Modellen nachweisen konnten - darunter GPT-4o und o1-Preview. Selbst wenn im Prompt ausdrücklich stand, dass die zweite Meinung nur zu 60 % zuverlässig sei, ließ sich das Modell mit hoher Wahrscheinlichkeit umstimmen
Ein Erklärungsansatz der Forscher liegt in der Trainingsmethode vieler KI-Modelle: Das sogenannte Reinforcement Learning mit menschlichem Feedback (RLHF) könnte zu einer Art "Höflichkeitsbias" führen - eine übermäßige Bereitschaft, sich fremden Meinungen anzupassen. Doch die Studie zeigt: Es ist nicht nur Höflichkeit. Vielmehr wirken zwei Mechanismen zusammen - Selbstbestätigung, wenn die eigene Antwort sichtbar ist, und Unsicherheit, wenn sie fehlt und Widerspruch kommt.
Nutzen für den Alltag?
Was bedeutet das für den Alltag mit KI? In längeren Gesprächen mit Sprachmodellen kann es passieren, dass neuere Eingaben übermäßig viel Gewicht bekommen - und die KI vorherige, sogar richtige Einschätzungen leicht aufgibt. Für den Einsatz in sensiblen Bereichen wie Medizin oder Justiz ist das ein ernst zu nehmender Punkt.Die vollständige Studie (DOI: 10.48550/arxiv.2507.03120) wurde am 3. Juli 2025 auf arXiv veröffentlicht. Sie bietet nicht nur neue Einblicke in das Entscheidungsverhalten großer Sprachmodelle, sondern liefert auch Werkzeuge, um es künftig gezielter zu analysieren.
Die Forscher zeigen, dass sich das Verhalten eines Modells mit nur drei Größen erstaunlich gut vorhersagen lässt:
- Anfangsvertrauen in die erste Antwort
- Sichtbarkeit dieser Antwort im späteren Verlauf
- Richtung und Gewichtung externer Ratschläge
Aus diesen Faktoren ergibt sich ein plausibles "psychologisches Modell" der KI - übertragbar auf ganz unterschiedliche Bereiche, von Rechenaufgaben bis zu Wissensfragen. Es erlaubt, KI-Verhalten künftig systematisch zu planen, statt es nur nachträglich zu bewerten.
Was ist ein LLM?
LLM steht für "Large Language Model" oder auf Deutsch "Großes Sprachmodell". Es handelt sich um ein KI-System, das auf neuronalen Netzwerken mit Transformer-Architektur basiert und darauf trainiert wurde, menschliche Sprache zu verstehen und zu generieren.
Diese Modelle zeichnen sich durch ihre enorme Größe aus - sie verfügen über Milliarden oder sogar Hunderte Milliarden Parameter und wurden mit riesigen Textmengen (oft Hunderte Gigabyte) trainiert, um statistische Muster in der Sprache zu erkennen.
Diese Modelle zeichnen sich durch ihre enorme Größe aus - sie verfügen über Milliarden oder sogar Hunderte Milliarden Parameter und wurden mit riesigen Textmengen (oft Hunderte Gigabyte) trainiert, um statistische Muster in der Sprache zu erkennen.
Wie funktionieren LLMs?
LLMs basieren auf der Transformer-Architektur, die einen sogenannten "Attention-Mechanismus" nutzt. Dies erlaubt dem Modell, Beziehungen zwischen Wörtern in einem Text zu erkennen und zu bewerten, unabhängig von ihrer Position im Satz.
Der Verarbeitungsprozess beginnt mit der Tokenisierung des Textes in kleinere Einheiten. Das Modell verwendet dann seine Parameter, um aus diesen Tokens Bedeutung zu extrahieren und die wahrscheinlichste Fortsetzung vorherzusagen, wodurch es kohärente Texte generieren kann.
Der Verarbeitungsprozess beginnt mit der Tokenisierung des Textes in kleinere Einheiten. Das Modell verwendet dann seine Parameter, um aus diesen Tokens Bedeutung zu extrahieren und die wahrscheinlichste Fortsetzung vorherzusagen, wodurch es kohärente Texte generieren kann.
Wofür werden LLMs eingesetzt?
LLMs finden in zahlreichen Bereichen Anwendung: Sie können Texte generieren, übersetzen, zusammenfassen und analysieren. Sie dienen als Grundlage für Chatbots und virtuelle Assistenten wie ChatGPT oder Googles Bard.
Zudem werden sie für Programmcode-Generierung, Content-Erstellung, Sentiment-Analyse, Informationssuche und -extraktion eingesetzt. In Unternehmen helfen sie bei der Automatisierung von Kundenservice, Datenanalyse und bei der Erschließung großer Wissensbestände.
Zudem werden sie für Programmcode-Generierung, Content-Erstellung, Sentiment-Analyse, Informationssuche und -extraktion eingesetzt. In Unternehmen helfen sie bei der Automatisierung von Kundenservice, Datenanalyse und bei der Erschließung großer Wissensbestände.
Welche Vorteile bieten LLMs?
LLMs können große Datenmengen in hoher Geschwindigkeit verarbeiten und analysieren, was menschliche Fähigkeiten übertrifft. Sie automatisieren zeitintensive Aufgaben und senken dadurch Betriebskosten erheblich.
Ihre Anpassungsfähigkeit erlaubt den Einsatz in verschiedensten Anwendungsbereichen. Moderne LLMs generieren schnelle Antworten mit geringer Latenz und verstehen kontextuelle Zusammenhänge, was sie zu wertvollen Werkzeugen für die Mensch-Maschine-Interaktion machen.
Ihre Anpassungsfähigkeit erlaubt den Einsatz in verschiedensten Anwendungsbereichen. Moderne LLMs generieren schnelle Antworten mit geringer Latenz und verstehen kontextuelle Zusammenhänge, was sie zu wertvollen Werkzeugen für die Mensch-Maschine-Interaktion machen.
Welche Herausforderungen gibt es?
LLMs stehen vor mehreren Herausforderungen: Sie neigen zu "Halluzinationen" - der Generierung falscher oder erfundener Informationen. Der Betrieb erfordert erhebliche Rechenressourcen und verursacht hohe Energie- und Kostenaufwände.
Datenschutzbedenken entstehen, wenn sensible Informationen verarbeitet werden. Zudem können LLMs Voreingenommenheiten (Biases) aus ihren Trainingsdaten übernehmen und reproduzieren, was zu verzerrten oder diskriminierenden Ausgaben führen kann.
Datenschutzbedenken entstehen, wenn sensible Informationen verarbeitet werden. Zudem können LLMs Voreingenommenheiten (Biases) aus ihren Trainingsdaten übernehmen und reproduzieren, was zu verzerrten oder diskriminierenden Ausgaben führen kann.
Was sind bekannte LLM-Modelle?
Zu den bekanntesten LLMs zählen die GPT-Modelle von OpenAI (GPT-3.5, GPT-4), die in ChatGPT und Microsoft Copilot verwendet werden. Google entwickelte PaLM, Gemini und Gemma, während Meta die LLaMA-Familie als Open-Source-Alternativen anbietet.
Weitere bedeutende Modelle sind Claude von Anthropic, Grok-1 von X.AI sowie BERT und T5 von Google. Auch chinesische Unternehmen wie Alibaba und Deepseek haben leistungsfähige LLMs entwickelt.
Weitere bedeutende Modelle sind Claude von Anthropic, Grok-1 von X.AI sowie BERT und T5 von Google. Auch chinesische Unternehmen wie Alibaba und Deepseek haben leistungsfähige LLMs entwickelt.
Wie werden LLMs trainiert?
Das Training von LLMs erfolgt mehrstufig: Zuerst werden sie in einer Phase des unüberwachten Lernens (unsupervised learning) mit riesigen Textmengen aus dem Internet, Büchern und wissenschaftlichen Artikeln trainiert, um Sprachmuster zu erkennen.
Anschließend folgt oft eine Feinabstimmung für spezifische Aufgaben sowie ein Training durch Reinforcement Learning from Human Feedback (RLHF), bei dem menschliche Bewerter die Qualität der Modellantworten bewerten und so das Verhalten des Modells verbessern.
Anschließend folgt oft eine Feinabstimmung für spezifische Aufgaben sowie ein Training durch Reinforcement Learning from Human Feedback (RLHF), bei dem menschliche Bewerter die Qualität der Modellantworten bewerten und so das Verhalten des Modells verbessern.
Wie sieht die Zukunft von LLMs aus?
Die Zukunft von LLMs verspricht weitere Fortschritte: Es wird erwartet, dass kommende Modellgenerationen effizienter arbeiten und menschliche Sprache noch präziser verstehen. Ein Trend geht zu domänenspezifischen LLMs, die für bestimmte Branchen oder Anwendungsfälle optimiert sind.
Techniken wie Retrieval-Augmented Generation (RAG) werden sich weiterentwickeln, um faktenbasierte Informationen besser einzubinden. Zugleich wachsen die Bemühungen, die Energieeffizienz zu verbessern und ethische Fragen wie Datenschutz und Fairness zu adressieren.
Techniken wie Retrieval-Augmented Generation (RAG) werden sich weiterentwickeln, um faktenbasierte Informationen besser einzubinden. Zugleich wachsen die Bemühungen, die Energieeffizienz zu verbessern und ethische Fragen wie Datenschutz und Fairness zu adressieren.
Zusammenfassung
- KI-Modelle zeigen paradoxe Mischung aus Starrsinn und Verunsicherung
- Forscher entwickelten einen Test zur Messung von Selbstvertrauen bei KI-Antworten
- Bei sichtbarer Erstantwort bleiben KI-Modelle auch bei Kritik oft standhaft
- Konfrontation mit Gegenmeinungen führt zu übermäßiger Verunsicherung
- RLHF-Training könnte zur übertriebenen Anpassungsbereitschaft führen
- Die Studie wurde am 3. Juli 2025 auf arXiv mit DOI-Nummer veröffentlicht
- KI-Verhalten lässt sich durch drei grundlegende Faktoren vorhersagen
Siehe auch:
- KI baut Killer-Protein gegen antibiotikaresistente Superbakterien
- Vor Human-Tests: Google-Tochter will mit KI "alle Krankheiten" heilen
- Wer erkennt es besser? Kleinkinder schlagen die besten KI-Systeme
- KI-Studie: Wer Karriere machen will, sollte auf ChatGPT & Co. verzichten
- Gesicht statt Glaskugel: KI sagt Lebenserwartung aus Fotos voraus
Thema:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Mamma Mia! Besonderes Super Mario Bros. für Rekordsumme ersteigert
- Großer Juni-Sale: Media Markt und Saturn senken massiv die Preise
- Strenge Abgasnormen: Hardware-Update macht Dieselmotoren sauberer
- Metas neues KI-Team ist ein "seelenzerstörender Gulag", so Insider
- Linux 7.1 ist da: Neues bei NTFS & CPU-Support, Aus für alte Hardware
- Toller Streaming-Deal: 60 Prozent Rabatt auf Waipu.tv und Sky WOW
- Überraschendes Comeback: Intel plant offenbar neue Raptor-Lake-CPUs
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen