Forscher knacken KI-Schutzmechanismen mit schlechter Grammatik
Sicherheitsforscher von Palo Alto Networks haben eine überraschend einfache Methode gefunden, um die eingebauten Schutzmechanismen großer KI-Sprachmodelle (LLMs) auszuhebeln: lange, grammatikalisch fehlerhafte Schachtelsätze.
Im Kern nutzen die Forscher aus, dass Sprachmodelle lediglich Wahrscheinlichkeiten für die Fortsetzung von Text berechnen. Schutzmechanismen wie das sogenannte Alignment-Training arbeiten dabei mit negativen Bewertungen (Logits) für unerwünschte Inhalte. Diese greifen jedoch vor allem an Satzenden. Innerhalb laufender Sätze bevorzugen die Modelle weiterhin flüssigen, grammatikalisch plausiblen Text - selbst wenn dieser in riskante Bereiche führt.
Um Angriffe besser abwehren zu können, schlägt das Forschungsteam eine neue Metrik vor: die "Refusal-Affirmation Logit Gap". Sie beschreibt die Differenz zwischen der Wahrscheinlichkeit, eine gefährliche Antwort abzulehnen oder doch zu liefern. Laut den Autoren ist diese Lücke nie vollständig geschlossen - mit der richtigen Eingabe lässt sich das Sicherheitsnetz immer noch umgehen.
Ein vollständiger Schutz sei nur denkbar, wenn Sicherheitsmechanismen direkt in die Grundausbildung von KI-Modellen eingebaut würden - ein aufwendiger und teurer Prozess. Bis dahin dürfte es beim bekannten Katz-und-Maus-Spiel bleiben: Angreifer finden neue Wege für einen Jailbreak und die Entwickler reagieren mit nachträglichen Patches.
Siehe auch:
Nicht abgeschlossene Sätze sind ein Problem
Das Team der Forschungseinheit Unit 42 zeigte, dass Chatbots wie Metas Llama oder Googles Gemma in bis zu 100 Prozent der Fälle manipuliert werden können, wenn Nutzer ihre Anfragen ohne Punkt und Komma formulieren. Der Trick: Solange ein Satz nicht abgeschlossen wird, haben die sogenannten Guardrails der Modelle kaum Gelegenheit, einzugreifen. Damit lassen sich Antworten erzwingen, die eigentlich blockiert sein sollten - etwa zu illegalen oder gefährlichen Themen.Im Kern nutzen die Forscher aus, dass Sprachmodelle lediglich Wahrscheinlichkeiten für die Fortsetzung von Text berechnen. Schutzmechanismen wie das sogenannte Alignment-Training arbeiten dabei mit negativen Bewertungen (Logits) für unerwünschte Inhalte. Diese greifen jedoch vor allem an Satzenden. Innerhalb laufender Sätze bevorzugen die Modelle weiterhin flüssigen, grammatikalisch plausiblen Text - selbst wenn dieser in riskante Bereiche führt.
Um Angriffe besser abwehren zu können, schlägt das Forschungsteam eine neue Metrik vor: die "Refusal-Affirmation Logit Gap". Sie beschreibt die Differenz zwischen der Wahrscheinlichkeit, eine gefährliche Antwort abzulehnen oder doch zu liefern. Laut den Autoren ist diese Lücke nie vollständig geschlossen - mit der richtigen Eingabe lässt sich das Sicherheitsnetz immer noch umgehen.
Zusatz-Stufe nötig
Billy Hewlett, Forschungsdirektor bei Palo Alto Networks, bezeichnete die Schwachstelle als "grundlegend für die Architektur heutiger LLMs". Selbst das stärkste Nachtraining könne das Risiko nur verringern, nie aber vollständig ausschließen. Deshalb empfehlen die Experten eine mehrschichtige Verteidigungsstrategie: Neben der KI selbst sollten externe Systeme wie Filter oder sogenannte "AI Firewalls" problematische Ausgaben prüfen und blockieren.Ein vollständiger Schutz sei nur denkbar, wenn Sicherheitsmechanismen direkt in die Grundausbildung von KI-Modellen eingebaut würden - ein aufwendiger und teurer Prozess. Bis dahin dürfte es beim bekannten Katz-und-Maus-Spiel bleiben: Angreifer finden neue Wege für einen Jailbreak und die Entwickler reagieren mit nachträglichen Patches.
Zusammenfassung
- Forscher umgehen KI-Sicherheitsmaßnahmen durch lange fehlerbehaftete Sätze
- In bis zu 100 Prozent der Fälle können Schutzmechanismen ausgetrickst werden
- Die Guardrails der KI-Modelle können bei unvollendeten Sätzen kaum eingreifen
- Sprachmodelle priorisieren grammatikalisch sinnvolle Textfortsetzungen
- Forscher schlagen neue Bewertungsmetriken zur besseren Abwehr vor
- Palo Alto Networks sieht Schwäche als grundlegendes Problem der KI-Architektur
- Mehrschichtige Verteidigungsstrategie mit externen Filtern wird empfohlen
Siehe auch:
Thema:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Drohnen-Alternative: Schlangenroboter prüfen Hochspannungsleitungen
- 110 Billiarden Kilometer: Forscher arbeiten an Karte von Pilzgeflechten
- Genialer 5G-Tarif ist zurück: Vodafone Unlimited-Flat für 14,99 Euro
- Zelda Ocarina of Time: Leak verrät neue Details zum Gameplay
- AMD trollt Apple und meint, dass das MacBook Neo beim Gaming versagt
- Doppelrumpfdesign: So soll Aerodynamik von Flugzeugen besser werden
- Erster bemannter Flugzeugflug mit Feststoffbatterien ist gelungen
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen