Forscher knacken KI-Schutzmechanismen mit schlechter Grammatik

Sicherheitsforscher von Palo Alto Networks haben eine überraschend einfache Methode gefunden, um die eingebauten Schutz­me­cha­nis­men großer KI-Sprachmodelle (LLMs) auszuhebeln: lange, gram­ma­ti­ka­lisch fehlerhafte Schachtelsätze.
Ki, Künstliche Intelligenz, AI, Artificial Intelligence, Roboter, Chatbot, KI-Chatbot, Robot, Bots, Chatbots, AI-ChatBot, Verrückte Roboter, Verrückte Bots, Crazy Robots, Robots, Durchgedreht

Nicht abgeschlossene Sätze sind ein Problem

Das Team der Forschungseinheit Unit 42 zeigte, dass Chatbots wie Metas Llama oder Googles Gemma in bis zu 100 Prozent der Fälle manipuliert werden können, wenn Nutzer ihre Anfragen ohne Punkt und Komma formulieren. Der Trick: Solange ein Satz nicht abgeschlossen wird, haben die sogenannten Guardrails der Modelle kaum Gelegenheit, einzugreifen. Damit lassen sich Antworten erzwingen, die eigentlich blockiert sein sollten - etwa zu illegalen oder gefährlichen Themen.

Im Kern nutzen die Forscher aus, dass Sprachmodelle lediglich Wahrscheinlichkeiten für die Fortsetzung von Text berechnen. Schutzmechanismen wie das sogenannte Alignment-Training arbeiten dabei mit negativen Bewertungen (Logits) für unerwünschte Inhalte. Diese greifen jedoch vor allem an Satzenden. Innerhalb laufender Sätze bevorzugen die Modelle weiterhin flüssigen, grammatikalisch plausiblen Text - selbst wenn dieser in riskante Bereiche führt.


Um Angriffe besser abwehren zu können, schlägt das Forschungsteam eine neue Metrik vor: die "Refusal-Affirmation Logit Gap". Sie beschreibt die Differenz zwischen der Wahrscheinlichkeit, eine gefährliche Antwort abzulehnen oder doch zu liefern. Laut den Autoren ist diese Lücke nie vollständig geschlossen - mit der richtigen Eingabe lässt sich das Sicherheitsnetz immer noch umgehen.

Zusatz-Stufe nötig

Billy Hewlett, Forschungsdirektor bei Palo Alto Networks, bezeichnete die Schwachstelle als "grundlegend für die Architektur heutiger LLMs". Selbst das stärkste Nachtraining könne das Risiko nur verringern, nie aber vollständig ausschließen. Deshalb empfehlen die Experten eine mehrschichtige Verteidigungsstrategie: Neben der KI selbst sollten externe Systeme wie Filter oder sogenannte "AI Firewalls" problematische Ausgaben prüfen und blockieren.

Ein vollständiger Schutz sei nur denkbar, wenn Sicherheitsmechanismen direkt in die Grundausbildung von KI-Modellen eingebaut würden - ein aufwendiger und teurer Prozess. Bis dahin dürfte es beim bekannten Katz-und-Maus-Spiel bleiben: Angreifer finden neue Wege für einen Jailbreak und die Entwickler reagieren mit nachträglichen Patches.

Zusammenfassung
  • Forscher umgehen KI-Sicherheitsmaßnahmen durch lange fehlerbehaftete Sätze
  • In bis zu 100 Prozent der Fälle können Schutzmechanismen ausgetrickst werden
  • Die Guardrails der KI-Modelle können bei unvollendeten Sätzen kaum eingreifen
  • Sprachmodelle priorisieren grammatikalisch sinnvolle Textfortsetzungen
  • Forscher schlagen neue Bewertungsmetriken zur besseren Abwehr vor
  • Palo Alto Networks sieht Schwäche als grundlegendes Problem der KI-Architektur
  • Mehrschichtige Verteidigungsstrategie mit externen Filtern wird empfohlen

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!