Forscher knacken KI-Schutzmechanismen mit schlechter Grammatik

Sicherheitsforscher von Palo Alto Networks haben eine überraschend einfache Methode gefunden, um die eingebauten Schutzmechanismen großer KI-Sprachmodelle (LLMs) auszuhebeln: lange, grammatikalisch fehlerhafte Schachtelsätze.

Christian Kahle, 28.08.2025 08:23 Uhr

Ki, Künstliche Intelligenz, AI, Artificial Intelligence, Roboter, Chatbot, KI-Chatbot, Robot, Bots, Chatbots, AI-ChatBot, Verrückte Roboter, Verrückte Bots, Crazy Robots, Robots, Durchgedreht

Nicht abgeschlossene Sätze sind ein Problem

Das Team der Forschungseinheit Unit 42 zeigte, dass Chatbots wie Metas Llama oder Googles Gemma in bis zu 100 Prozent der Fälle manipuliert werden können, wenn Nutzer ihre Anfragen ohne Punkt und Komma formulieren. Der Trick: Solange ein Satz nicht abgeschlossen wird, haben die sogenannten Guardrails der Modelle kaum Gelegenheit, einzugreifen. Damit lassen sich Antworten erzwingen, die eigentlich blockiert sein sollten - etwa zu illegalen oder gefährlichen Themen.

Im Kern nutzen die Forscher aus, dass Sprachmodelle lediglich Wahrscheinlichkeiten für die Fortsetzung von Text berechnen. Schutzmechanismen wie das sogenannte Alignment-Training arbeiten dabei mit negativen Bewertungen (Logits) für unerwünschte Inhalte. Diese greifen jedoch vor allem an Satzenden. Innerhalb laufender Sätze bevorzugen die Modelle weiterhin flüssigen, grammatikalisch plausiblen Text - selbst wenn dieser in riskante Bereiche führt.

Um Angriffe besser abwehren zu können, schlägt das Forschungsteam eine neue Metrik vor: die "Refusal-Affirmation Logit Gap". Sie beschreibt die Differenz zwischen der Wahrscheinlichkeit, eine gefährliche Antwort abzulehnen oder doch zu liefern. Laut den Autoren ist diese Lücke nie vollständig geschlossen - mit der richtigen Eingabe lässt sich das Sicherheitsnetz immer noch umgehen.

Zusatz-Stufe nötig

Billy Hewlett, Forschungsdirektor bei Palo Alto Networks, bezeichnete die Schwachstelle als "grundlegend für die Architektur heutiger LLMs". Selbst das stärkste Nachtraining könne das Risiko nur verringern, nie aber vollständig ausschließen. Deshalb empfehlen die Experten eine mehrschichtige Verteidigungsstrategie: Neben der KI selbst sollten externe Systeme wie Filter oder sogenannte "AI Firewalls" problematische Ausgaben prüfen und blockieren.

Ein vollständiger Schutz sei nur denkbar, wenn Sicherheitsmechanismen direkt in die Grundausbildung von KI-Modellen eingebaut würden - ein aufwendiger und teurer Prozess. Bis dahin dürfte es beim bekannten Katz-und-Maus-Spiel bleiben: Angreifer finden neue Wege für einen Jailbreak und die Entwickler reagieren mit nachträglichen Patches.

Zusammenfassung

Forscher umgehen KI-Sicherheitsmaßnahmen durch lange fehlerbehaftete Sätze
In bis zu 100 Prozent der Fälle können Schutzmechanismen ausgetrickst werden
Die Guardrails der KI-Modelle können bei unvollendeten Sätzen kaum eingreifen
Sprachmodelle priorisieren grammatikalisch sinnvolle Textfortsetzungen
Forscher schlagen neue Bewertungsmetriken zur besseren Abwehr vor
Palo Alto Networks sieht Schwäche als grundlegendes Problem der KI-Architektur
Mehrschichtige Verteidigungsstrategie mit externen Filtern wird empfohlen

Siehe auch:

Thema:

Künstliche Intelligenz

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren11

Hinweis einsenden

Weitere Nachrichten zum Thema Fast jeder zweite KI-generierte Code hat teils schwere SicherheitslückenUSA und UK wollen Erklärung über sichere KIs nicht unterzeichnenBillig-KI: DeepSeek-App bringt eklatante Sicherheitsmängel mit