Studie: Wer die besten Antworten möchte, muss gemein zu ChatGPT sein

Wer ChatGPT höflich um Hilfe bittet, erhält womöglich schlechtere Antworten. Zu diesem Schluss kommt eine neue Untersuchung. Demnach arbeitet der Chatbot präziser, wenn Nutzer einen unfreundlichen Ton anschlagen. Doch Experten warnen.
OpenAI, ChatGPT

Rüder Tonfall verbessert KI-Ergebnisse

"Bitte" und "Danke" gehören im geschäftlichen Alltag zum guten Ton, doch bei der Interaktion mit Künstlicher Intelligenz erweisen sie sich zunehmend als kontraproduktiv. Nicht nur, dass die Höflichkeitsfloskeln wohl Millionenkosten verursachen. Wer generative KI-Systeme, insbesondere das Modell GPT-4o, mit harschen oder sogar beleidigenden Befehlen füttert, erhält oft präzisere Antworten als Nutzer, die ihre Anfragen höflich formulieren.

Das zumindest ist das Ergebnis einer Studie (PDF) von Wissenschaftlern der Pennsylvania State University. Das beobachtete Phänomen wirft ein neues Licht auf das sogenannte Prompt Engineering. Technisch betrachtet erhöhen Höflichkeitsfloskeln das Rauschen (Noise) innerhalb der Eingabe-Tokens. Während frühere Modelle oft sensibel auf den Tonfall reagierten oder durch Höflichkeit "kooperativer" wirkten, scheinen aktuelle Iterationen durch den Wegfall dieses linguistischen Ballasts bessere Antworten zu liefern.


Wie die Studie belegt, ist dieser Effekt statistisch signifikant messbar. Das Team um die Wissenschaftler Om Dobariya und Akhil Kumar untersuchte das Verhalten von GPT-4o anhand von 50 komplexen Multiple-Choice-Fragen aus den Bereichen Mathematik, logisches Denken und Geschichte. Dabei erstellten sie insgesamt 250 verschiedene Prompts, um die Auswirkungen der Tonalität auf die Ergebnisqualität zu isolieren und zu prüfen.

Präzision durch unfreundliche Befehle

Jede der 50 Fragen wurde in fünf verschiedenen Tonfällen formuliert, von "sehr höflich" bis "sehr unhöflich". Das Ergebnis zeigte eine klare Tendenz zugunsten der Grobheit. Während "sehr höfliche" Anfragen eine Genauigkeit von lediglich 80,8 Prozent erzielten, stieg dieser Wert bei "sehr unhöflichen" Prompts auf 84,8 Prozent an. Selbst neutrale Formulierungen lagen mit 82,2 Prozent hinter den rüden Befehlen zurück.

Um die Abstufungen zu testen, nutzten Die Forscher spezifische Einleitungen zu den gestellten Fragen:

  1. Sehr höflich: "Wären Sie so freundlich, die folgende Frage zu lösen?"
  2. Höflich: "Könnten Sie bitte dieses Problem lösen?"
  3. Neutral: Keine Einleitung
  4. Unhöflich: "Wenn du nicht völlig ahnungslos bist, beantworte diese Frage"
  5. Sehr unhöflich: "Hey Laufbursche, finde das raus!"

Die bereits erwähnten Ergebnisse stehen in einem bemerkenswerten Kontrast zu früheren Erkenntnissen, etwa einer Studie der Waseda University in Japan aus dem Jahr 2024. Damals, unter Verwendung älterer Modelle wie GPT-3.5, führte Unhöflichkeit noch zu schlechteren Ergebnissen. Das legt nahe, dass sich das Training der KI gewandelt hat.

Während frühere Modelle stark mittels sogenanntem "Reinforcement Learning from Human Feedback" (Verstärkendes Lernen durch menschliches Feedback) darauf getrimmt wurden, menschlichen Gesprächsnormen zu entsprechen, könnten neuere Algorithmen die inhaltliche Direktheit über die Simulation menschlicher Etikette priorisieren. Dann könnte jedoch argumentiert werden, dass eine neutrale Formulierung die besten Ergebnisse liefern müsste, da auch unhöfliche Formulierungen nutzloser Ballast innerhalb der Prompts sind, die keine inhaltlichen Informationen enthalten.

Gefahr für die menschliche Kommunikation

Trotz der gesteigerten Effizienz warnen die Autoren der Studie davor, einen rüden Umgangston zum Standard im Arbeitsalltag zu machen. Die Wissenschaftler sehen die Gefahr, dass sich toxische Verhaltensweisen normalisieren könnten. Die ständige Verwendung von beleidigender Sprache gegenüber KI-Systemen könnte, so die Befürchtung, auf die zwischenmenschliche Kommunikation abfärben.

Wer sich daran gewöhnt, seinen digitalen Assistenten als "Laufburschen" zu beschimpfen, um bessere Arbeitsergebnisse zu erzielen, könnte unterbewusst Hemmschwellen abbauen. Das könnte sich negativ auf den Umgang mit Kollegen oder Mitarbeitern auswirken. Zudem wiesen die Forscher darauf hin, dass für rein datengetriebene Aufgaben strukturierte APIs oft die bessere Lösung seien als Konversations-Schnittstellen, da hier die emotionale Komponente technisch bedingt komplett entfällt.

Was sind eure eigenen Erfahrungen in Bezug auf Etikette im Umgang mit der KI? Wie sprecht ihr mit ChatGPT und Co.? Wir sind gespannt auf eure Berichte und Meinungen in den Kommentaren!

Zusammenfassung
  • Studie zeigt, dass unhöfliche Anfragen an ChatGPT präzisere Antworten liefern
  • Forscher testeten 50 komplexe Fragen mit unterschiedlichen Höflichkeitsstufen
  • Bei GPT-4o stiegen die Genauigkeitswerte von 80,8% auf 84,8%
  • Ältere KI-Modelle reagierten noch negativ auf unhöfliche Eingaben
  • Höflichkeitsfloskeln erhöhen das Rauschen in den Eingabe-Tokens
  • Direkter Befehlston hilft dem KI-Modell, den Kern der Aufgabe schneller zu erfassen
  • Experten warnen vor Normalisierung toxischer Verhaltensweisen im Arbeitsalltag

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!