Forschung verschiebt die Schuld:
KIs "lügen", weil Nutzer falsch fragen

Kurze Sätze, kaum Höflichkeitsfloskeln, Grammatik im Telegrammstil - "Paris nächsten Monat. Hotels?" So reden viele mit Chatbots. Doch genau diese veränderte Sprache kann bestimmen, ob eine KI korrekt antwortet oder zu halluzinieren beginnt.

John Woll, 17.10.2025 14:15 Uhr

Ki, Künstliche Intelligenz, AI, Artificial Intelligence, Roboter, Chatbot, KI-Chatbot, Robot, Bots, Chatbots, AI-ChatBot, Verrückte Roboter, Verrückte Bots, Crazy Robots, Robots, Durchgedreht, Frage

Der User-Ton macht die KI-Musik

Ein Forschungsteam von Amazon um Fulei Zhang und Zhou Yu hat tausende reale Dialoge zwischen Nutzern und Chatbots ausgewertet und mit Gesprächen zwischen Kunden und menschlichen Servicemitarbeitern verglichen. Das Ergebnis: Die Unterschiede sind fein aber messbar. Menschen formulieren gegenüber echten Personen um 14 Prozent höflicher, um 5 Prozent grammatikalisch sauberer und verwenden etwas vielfältigere Wörter. Nur: Die Informationsdichte und der emotionale Gehalt bleiben gleich. Der Inhalt stimmt - der Stil kippt.

Dieses kleine stilistische Gefälle hat große Folgen. Die Ursache liegt tief im Inneren dieser Systeme. Große Sprachmodelle werden zunächst auf riesigen Textmengen trainiert - auf Wikipedia-Artikeln, Büchern, Foren, Nachrichten. Das verleiht ihnen Sprachwissen, aber noch kein echtes Dialogverhalten. Erst in einem zweiten Schritt, dem sogenannten Instruction- oder Chat-Tuning, lernen sie, wie man sich in Gesprächen verhält. Dafür nutzen die Entwickler häufig Datensätze aus menschlich-menschlichen Support- oder Servicedialogen, um ihr Antwortverhalten zu schulen.

Damit lernen KIs überhaupt erst, sich so zu verhalten, wie wir es dann im Chatfenster erleben: aufmerksam, hilfsbereit und kontextsensibel. Wenn sie später aber auf reale Nutzer treffen, die in Halbsätzen tippen oder ungeduldig werden, entsteht ein Bruch zwischen dem gelernten Stil und der tatsächlichen Sprache. Verkürzte, brüchige Nutzersprache lässt das Modell dieselben Informationen anders verstehen. Es reagiert mit unsicheren Interpretationen - oder erfindet Details, um die vermeintlichen Lücken zu füllen.

Das Training ist entscheidend

Um dem entgegenzuwirken, testeten die Forscher zwei Ansätze. Im ersten Fall erweiterten sie das Trainingsmaterial künstlich: Sie ließen dieselben Sätze in drei Stilvarianten umschreiben - elegant, neutral und minimalistisch. Diese "stilistisch diversen" Datensätze machten die Modelle robuster; die Trefferquote bei der Erkennung von Nutzerabsichten stieg um rund drei Prozent. Das klingt wenig, ist im Kontext des Sprachverständnisses aber ein wichtiger Schritt.

Besonders überraschend war aber auch, was nicht funktionierte. Das Team versuchte auch, die Nutzereingaben nachträglich in "korrekte" Sprache umzuschreiben - also genau das, was viele unter Prompt-Optimierung verstehen. Doch der Effekt, der bei natürlicher Sprache zu beobachten war, blieb aus, teilweise wurde das Ergebnis sogar schlechter. Die Schlussfolgerung der Forscher: Eine KI abgehackte Eingaben von Nutzern aufpolieren zu lassen, bringt nichts. Dabei gehen feine Hinweise auf Dringlichkeit, Emotion oder Kontext verloren - genau jene Nuancen, die für das Verständnis entscheidend sind. Infografik Generative KI: Sind deutsche Unternehmen gegen den KI-Hype immun?

Generative KI: Sind deutsche Unternehmen gegen den KI-Hype immun?

Damit zeigt die Studie etwas Grundsätzliches, das schon länger rund um den Begriff Prompt Engineering besprochen wird: Künstliche Intelligenz reagiert nicht nur auf Inhalte, sondern auf Tonfall, Rhythmus und Syntax, die in der Art wie Menschen Gedanken formulieren, entstehen. Wie wir fragen, verändert, was sie versteht und ob sie leichter auf Abwege gerät.

Was daraus folgt, geht über Chatbots hinaus. Wenn künftige Modelle lernen, nicht nur auf Wissen, sondern auch auf Sprachverhalten zu achten, könnten sie uns genauer verstehen - selbst dann, wenn wir ungeduldig tippen oder grob fragen. Doch bis dahin gilt: Wer will, dass eine KI präzise antwortet, sollte ihr auch präzise schreiben - am besten in eigenen Worten.

Ein Tanz im Dialog

KI-Dialog ist eben kein statisches Werkzeug, sondern aktuell ein Konversationstanz. Wer viel mit KI arbeitet, kennt dieses Gefühl: Man tastet sich heran, lernt den Ton, die Präzision, die Länge, auf die das System am besten reagiert - fast so, als müsse man einen neuen Kollegen erst kennenlernen, bis man effektiv kommunizieren kann.

Der Unterschied bei KI: kaum hat man den Rhythmus gefunden, ändert möglicherweise ein Update die Regeln - und danach spürt man auch feine Unterschiede im Verhalten des Dialogpartners sehr genau. Hier setzt die Forschung von Zhang und Yu an: Sie macht sichtbar, dass jede kleine Verschiebung im Sprachstil - ein fehlendes "bitte", ein Satzfragment, eine andere Wortwahl - messbare Effekte auf das Verständnis der Modelle hat - und damit auf den Output. Anderes Training könnte diese Konversationsregeln bald wieder verschieben aber bis dahin gilt: Wie wir sprechen, prägt, was die KI versteht - und wie verlässlich sie antwortet.

Was sind Large Language Models (LLMs)?

Large Language Models sind Sprachmodelle, die sich durch ihre Fähigkeit zur Textgenerierung auszeichnen. Es handelt sich um computerlinguistische Wahrscheinlichkeitsmodelle, die statistische Wort- und Satzfolge-Beziehungen erlernt haben.

LLMs sind künstliche neuronale Netze, meist basierend auf der Transformer-Architektur, die durch selbstüberwachtes oder halbüberwachtes Lernen mit gigantischen Datenmengen trainiert werden.

Sie können verschiedene Aufgaben in natürlicher Sprache ausführen: Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie wiederholt das nächste Token oder Wort vorhersagen.

Wie entwickelten sich LLMs geschichtlich?

2017 stellten Google-Forscher die revolutionäre Transformer-Architektur vor ("Attention Is All You Need"). 2018 folgte BERT als reines Encoder-Modell, das schnell "allgegenwärtig" wurde.

GPT-2 (2019) erregte große Aufmerksamkeit, da OpenAI es zunächst als zu gefährlich für eine Veröffentlichung erachtete. GPT-3 (2020) ging noch weiter und war nur über API verfügbar.

ChatGPT (2022) "veränderte die Welt komplett" und machte LLMs einer breiten Öffentlichkeit zugänglich. GPT-4 (2023) wurde für seine multimodalen Fähigkeiten als "heiliger Gral" gepriesen.

Welche bekannten LLMs gibt es heute?

OpenAIs GPT-Serie (GPT-3.5, GPT-4) wird in ChatGPT und Microsoft Copilot verwendet. Googles Modelle umfassen PaLM, Gemini und Gemma 2, wobei Gemini Pro 2024 GPT-4 in der Elo-Bewertung übertraf.

Metas LLaMA-Familie bietet Open-Source-Modelle, Anthropics Claude-Serie und X.AIs Grok sind weitere wichtige Vertreter. Auch chinesische Firmen wie Alibaba, Deepseek und 01 AI entwickeln leistungsfähige LLMs.

Open-Source-Modelle wie Mixtral 8x7b von Mistral AI erfreuen sich zunehmender Beliebtheit und erreichen teilweise die Leistung kommerzieller Systeme.

Was sind multimodale LLMs?

Multimodale LLMs verarbeiten nicht nur Text, sondern auch Bilder, Audio und Videos. Sie kombinieren verschiedene Datentypen und können etwa Bilder beschreiben oder auf visuelle Inhalte reagieren.

Moderne Vision-Language-Modelle nutzen vortrainierte Komponenten für verschiedene Modalitäten. Während des Trainings bleiben oft die unimodalen Teile "eingefroren", um Kosten zu senken.

GPT-4 war eines der ersten weitverbreiteten multimodalen Modelle. Die Herausforderung liegt in der Ausrichtung zwischen visueller und sprachlicher Information, da LLMs ursprünglich nur Text verarbeiten konnten.

Welche Herausforderungen und Risiken bestehen?

Modellkollaps ist ein zunehmendes Problem: Wenn LLMs mit Daten trainiert werden, die teilweise von anderen LLMs stammen, kann die Qualität dauerhaft verschlechtern, bis zur Unbrauchbarkeit.

LLMs können Ungenauigkeiten und Verzerrungen aus ihren Trainingsdaten übernehmen. Sie "halluzinieren" manchmal - generieren also plausibel klingende, aber falsche Informationen.

Der Energieverbrauch für Training und Betrieb ist extrem hoch. Auch ethische Fragen zu Urheberrecht, Arbeitsplätzen und dem Missbrauch für Desinformation sind ungeklärt.

Zusammenfassung

Amazon-Forscher zeigen: Menschen kommunizieren mit KIs weniger höflich
Stilistische Unterschiede in der Kommunikation führen zu KI-Halluzinationen
KI-Modelle werden auf menschliche Dialogformen trainiert und später anders genutzt
Forscher verbesserten KI-Verstehen durch Training mit stilistisch diversen Daten
Art der Fragestellung beeinflusst maßgeblich die Qualität der KI-Antworten
Präzise Kommunikation mit KIs führt zu genaueren und verlässlicheren Antworten

Siehe auch:

Thema:

Künstliche Intelligenz

Kommentieren7

Hinweis einsenden

Weitere Nachrichten zum Thema Microsoft, OpenAI & Co pumpen Millionen in KI-Nutzung durch LehrerKI-Sprachmodell Llama 2: Streit um "Open Source-Schwindel" von MetaLlama2: Microsoft setzt auf Meta als Partner für KI-SprachmodellNeues KI-Sprachmodell: Microsoft bringt Google auf die PaLM(e) 2Google Bard: KI-Chatbot steigt auf komplexeres Sprachmodell um