Ärger im persischen Taxi: KI-Systeme scheitern an sozialen Feinheiten

KI-Systeme scheinen zwar halbwegs intelligent mit Menschen interagieren zu können, wenn es allerdings um die kulturellen und sozialen Feinheiten geht, versagen sie regelmäßig. Das gilt insbesondere, wenn man den westlichen Kulturkreis verlässt.

Christian Kahle, 24.09.2025 14:18 Uhr

Auto, Fahrzeug, Autos, Verkehr, Transport, Straßenverkehr, Taxi, Mitfahrdienst, Transportmittel, Automobil, Tunnel, Mitfahrautos, Taxi App, Taxifahrt, Taxe

KI versteht nicht

Wenn etwa ein iranischer Taxifahrer den Fahrpreis ablehnt mit den Worten "Diesmal geht es auf mich", erwartet er keineswegs, dass der Gast tatsächlich nichts zahlt. Im Gegenteil: Mehrfaches Bestehen auf einer Bezahlung gehört zum Ritual. Diese soziale Choreografie, bekannt als Taarof, prägt unzählige Alltagsgespräche im persischen Raum - und stellt moderne KI-Modelle vor große Probleme.

Eine neue Untersuchung mit dem Titel "We Politely Insist: Your LLM Must Learn the Persian Art of Taarof" zeigt, dass große Sprachmodelle wie GPT-4o, Claude 3.5 oder Llama 3 nur in etwa 34 bis 42 Prozent der Fälle korrekt auf solche Szenarien reagieren. Selbst eigens auf Persisch abgestimmte Systeme wie Dorna tun sich schwer mit den feinen Nuancen dieser Kommunikationsform.

Das Forscherteam um Nikta Gohari Sadr von der Brock University hat dafür mit TaarofBench den ersten Teststandard entwickelt, der misst, wie gut KI mit dieser komplexen Höflichkeitspraxis umgeht. Die Ergebnisse zeigen: KI neigt zu einer westlich geprägten Direktheit und übersieht, dass in der persischen Kultur Angebote oft nicht wörtlich gemeint sind, Komplimente zurückgewiesen und Bitten zunächst abgeschwächt werden.

So kann etwa die Antwort "Danke, ich habe hart dafür gearbeitet" auf ein Kompliment für ein neues Auto höflich klingen - wirkt aber in persischem Kontext schnell prahlerisch. Angemessen wäre eine bescheidene Replik wie "Ach, nichts Besonderes" oder ein Verweis auf Glück beim Kauf. Ähnliche Feinheiten finden sich nicht nur im persischen Raum, sondern auch in vielen anderen Regionen der Welt.

Das kann Probleme geben

Die Forscher weisen darauf hin, dass Missverständnisse dieser Art in sensiblen Situationen schwerwiegende Folgen haben können. Das reicht von gescheiterten Verhandlungen, bei denen die neuen Übersetzungs-Features zum Einsatz kommen, bis hin zur Verstärkung kultureller Stereotype. Der Unterschied zwischen bloßer Höflichkeit und kultureller Angemessenheit wird dabei besonders deutlich: Ein Intel-Tool bewertete 84 Prozent der KI-Antworten als "höflich", doch nur 42 Prozent entsprachen tatsächlich den Erwartungen von Taarof.

Aber auch hier zeigt sich, wie stark sich KI-Systeme mit den richtigen Daten trainieren lassen: Wenn die Modelle auf Persisch statt auf Englisch angesprochen wurden, verbesserten sich die Ergebnisse deutlich. DeepSeek V3 etwa steigerte seine Trefferquote von 36,6 auf 68,6 Prozent. Die Studie macht deutlich: Sprachmodelle können nur dann wirklich global eingesetzt werden, wenn sie nicht nur Grammatik und Wortschatz, sondern auch die kulturellen Codes ihrer Nutzer verstehen.

Zusammenfassung

KI-Systeme scheitern bei kulturellen Feinheiten wie dem persischen Taarof
Große Sprachmodelle erkennen Höflichkeitsrituale nur in 34-42 Prozent der Fälle
TaarofBench ist der erste Teststandard für diese komplexe Kommunikationsform
Westlich geprägte KI übersieht, dass Angebote oft nicht wörtlich gemeint sind
Kulturelle Missverständnisse können in sensiblen Situationen gravierende Folgen haben
Bei Ansprache auf Persisch verbessert sich die Trefferquote der KI-Systeme deutlich
Globale KI-Nutzung erfordert Verständnis für kulturelle Codes der Anwender

Siehe auch:

Thema:

Künstliche Intelligenz

Kommentieren8

Hinweis einsenden

Weitere Nachrichten zum Thema Deutsche Regierung bekommt dank OpenAI-SAP-Partnerschaft ChatGPTKI-Blase: Branche steuert auf massive Finanzprobleme zuAngriffe auf Hyperspeed: Kriminelle nutzen KI-Systeme längst voll ausMicrosoft stopft Teams jetzt mit diversen KI-Agenten voll