Ärger im persischen Taxi: KI-Systeme scheitern an sozialen Feinheiten

KI-Systeme scheinen zwar halbwegs intelligent mit Menschen interagieren zu können, wenn es allerdings um die kulturellen und sozialen Feinheiten geht, versagen sie regelmäßig. Das gilt insbesondere, wenn man den westlichen Kulturkreis verlässt.
Auto, Fahrzeug, Autos, Verkehr, Transport, Straßenverkehr, Taxi, Mitfahrdienst, Transportmittel, Automobil, Tunnel, Mitfahrautos, Taxi App, Taxifahrt, Taxe

KI versteht nicht

Wenn etwa ein iranischer Taxifahrer den Fahrpreis ablehnt mit den Worten "Diesmal geht es auf mich", erwartet er keineswegs, dass der Gast tatsächlich nichts zahlt. Im Gegenteil: Mehrfaches Bestehen auf einer Bezahlung gehört zum Ritual. Diese soziale Choreografie, bekannt als Taarof, prägt unzählige Alltagsgespräche im persischen Raum - und stellt moderne KI-Modelle vor große Probleme.

Eine neue Untersuchung mit dem Titel "We Politely Insist: Your LLM Must Learn the Persian Art of Taarof" zeigt, dass große Sprachmodelle wie GPT-4o, Claude 3.5 oder Llama 3 nur in etwa 34 bis 42 Prozent der Fälle korrekt auf solche Szenarien reagieren. Selbst eigens auf Persisch abgestimmte Systeme wie Dorna tun sich schwer mit den feinen Nuancen dieser Kommunikationsform.


Das Forscherteam um Nikta Gohari Sadr von der Brock University hat dafür mit TaarofBench den ersten Teststandard entwickelt, der misst, wie gut KI mit dieser komplexen Höflichkeitspraxis umgeht. Die Ergebnisse zeigen: KI neigt zu einer westlich geprägten Direktheit und übersieht, dass in der persischen Kultur Angebote oft nicht wörtlich gemeint sind, Komplimente zurückgewiesen und Bitten zunächst abgeschwächt werden.

So kann etwa die Antwort "Danke, ich habe hart dafür gearbeitet" auf ein Kompliment für ein neues Auto höflich klingen - wirkt aber in persischem Kontext schnell prahlerisch. Angemessen wäre eine bescheidene Replik wie "Ach, nichts Besonderes" oder ein Verweis auf Glück beim Kauf. Ähnliche Feinheiten finden sich nicht nur im persischen Raum, sondern auch in vielen anderen Regionen der Welt.

Das kann Probleme geben

Die Forscher weisen darauf hin, dass Missverständnisse dieser Art in sensiblen Situationen schwerwiegende Folgen haben können. Das reicht von gescheiterten Verhandlungen, bei denen die neuen Übersetzungs-Features zum Einsatz kommen, bis hin zur Verstärkung kultureller Stereotype. Der Unterschied zwischen bloßer Höflichkeit und kultureller Angemessenheit wird dabei besonders deutlich: Ein Intel-Tool bewertete 84 Prozent der KI-Antworten als "höflich", doch nur 42 Prozent entsprachen tatsächlich den Erwartungen von Taarof.

Aber auch hier zeigt sich, wie stark sich KI-Systeme mit den richtigen Daten trainieren lassen: Wenn die Modelle auf Persisch statt auf Englisch angesprochen wurden, verbesserten sich die Ergebnisse deutlich. DeepSeek V3 etwa steigerte seine Trefferquote von 36,6 auf 68,6 Prozent. Die Studie macht deutlich: Sprachmodelle können nur dann wirklich global eingesetzt werden, wenn sie nicht nur Grammatik und Wortschatz, sondern auch die kulturellen Codes ihrer Nutzer verstehen.

Zusammenfassung
  • KI-Systeme scheitern bei kulturellen Feinheiten wie dem persischen Taarof
  • Große Sprachmodelle erkennen Höflichkeitsrituale nur in 34-42 Prozent der Fälle
  • TaarofBench ist der erste Teststandard für diese komplexe Kommunikationsform
  • Westlich geprägte KI übersieht, dass Angebote oft nicht wörtlich gemeint sind
  • Kulturelle Missverständnisse können in sensiblen Situationen gravierende Folgen haben
  • Bei Ansprache auf Persisch verbessert sich die Trefferquote der KI-Systeme deutlich
  • Globale KI-Nutzung erfordert Verständnis für kulturelle Codes der Anwender

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!