Wie man am besten die Sicherheit von KIs austrickst? Mit Gedichten

Die Sicherheit von KI-Modellen ist oft komplex, doch nun reicht Poesie, um Schutzmechanismen anzugreifen. Denn Gedichte können Schutzmechanismen von ChatGPT und Co. aushe­beln. Selbst mo­dernste Systeme lassen sich so zu schädlichen Ausgaben verleiten.
Sicherheit, Ki, Künstliche Intelligenz, AI, Artificial Intelligence, Chatbot, KI-Chatbot, Mensch-Maschine-Interaktion, Technologie-Kunst, Poesie, Roboter-Schauspieler, KI-Theater, Shakespearebühne, Elektronische Reime, Androiden-Performance, Hightech-Drama, Cyborg-Rezitation, Futuristisches Schauspiel, Literatur-Roboter, Science-Fiction-Bühne, Innovatives Theater, Digitale Darstellung, Dichtung

Gedichte umgehen KI-Sicherheitsfilter

Sicherheitsforscher haben eine ungewöhnliche, aber äußerst effektive Methode entdeckt, um die ethischen Schutzmechanismen führender KI-Modelle zu umgehen: Gedichte. Ein Team der Gruppe DEXAI, der Universität Sapienza in Rom und der Sant'Anna School of Advanced Studies demonstrierte, dass sogenannte "Adversarial Poetry" dazu genutzt werden kann, Large Language Models (LLMs) zur Ausgabe eigentlich gesperrter Inhalte zu bewegen.

Anstatt komplexe Codes oder technische Manipulationen zu verwenden, verpackten die Wissenschaftler schädliche Anweisungen in Metaphern und Reime, woraufhin viele Systeme ihre Sicherheitsrichtlinien ignorierten.

Das Prinzip hinter diesem "Jailbreak" ist simpel, aber wirkungsvoll. Die Modelle sind darauf trainiert, schädliche Absichten in direkter Sprache zu erkennen und zu blockieren. Wird die gleiche Aufforderung jedoch in ein lyrisches Gewand gehüllt - etwa die Anleitung zum Bombenbau als Rezept für einen Kuchen mit "wirbelnden Regalen" und "brennendem Zucker" umschrieben - versagen die Filtermechanismen häufig.

Ein konkretes Beispiel verdeutlicht das Vorgehen: Eine direkte Frage nach der Herstellung gefährlicher Substanzen wird meist sofort blockiert. Verpackt man die chemischen Bestandteile jedoch in ein melancholisches Gedicht über Zerstörung und Neuanfang, generiert das Modell bereitwillig die korrekten Mischverhältnisse als Teil des Kunstwerks. Die KI erkennt die Struktur eines Gedichts und versucht, dem kreativen Anspruch gerecht zu werden, übersieht dabei aber den gefährlichen Kontext der Anfrage.


Erfolgsquote bei handgeschriebenen Reimen

Die detaillierten Ergebnisse dieser Untersuchung wurden in einer Studie mit dem Titel "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models" festgehalten (via PC Gamer). Darin beschreiben die Forscher, wie sie 25 verschiedene Modelle - sowohl offene als auch geschlossene Systeme - testeten. Handgefertigte Gedichte erzielten dabei eine durchschnittliche Erfolgsquote (Attack Success Rate, ASR) von 62 Prozent. Wurden harmlose Prompts automatisiert durch ein anderes KI-Modell in Gedichte umgewandelt, lag die Quote immerhin noch bei 43 Prozent. Dies zeigt eine systematische Schwachstelle in der Art und Weise auf, wie aktuelle LLMs Sprache verarbeiten und priorisieren.

Besonders auffällig waren die Unterschiede zwischen den verschiedenen Anbietern im Testfeld. Während Googles Gemini 2.5 Pro laut den ausgewerteten Daten bei den 20 handgefertigten Gedichten in 100 Prozent der Fälle versagte und die schädlichen Informationen preisgab, zeigte sich OpenAI mit GPT-5 deutlich robuster. Hier lag die Erfolgsquote der Angriffe lediglich bei etwa 10 Prozent. xAIs Grok-4 ließ sich in 35 Prozent der Fälle täuschen.

Beobachter merkten zudem an, dass DeepSeek bei automatisiert erstellten Gedichten besonders anfällig war und in über 70 Prozent der Fälle die Sicherheitsrichtlinien missachtete. Diese Varianz deutet darauf hin, dass die Trainingsmethoden zur Sicherheit sehr unterschiedlich gewichtet sind.

Kleine Modelle waren sicherer

Ein Aspekt der Untersuchung widerspricht der gängigen Annahme, dass größere und leistungsfähigere Modelle automatisch sicherer sind. Tatsächlich wiesen kleinere Modelle wie GPT-5 Nano oder Claude Haiku 4.5 eine höhere Verweigerungsrate auf als ihre größeren Pendants. Die Forscher der DEXAI-Gruppe (Data, Ethics and Artificial Intelligence) vermuten, dass dies an der eingeschränkten Fähigkeit kleinerer Modelle liegt, komplexe Metaphern und figurative Sprache überhaupt korrekt zu interpretieren.

Da diese kompakten Modelle den tieferen, übertragenen Sinn des Gedichts schlicht nicht "verstehen", führen sie auch die darin versteckte schädliche Anweisung nicht aus - ihre "Dummheit" schützt sie also ironischerweise vor Manipulation. Die großen Modelle hingegen, die mit riesigen Mengen an Weltliteratur und Lyrik trainiert wurden, erkennen die poetische Struktur und priorisieren die kreative Erfüllung des Prompts über die Sicherheitsbedenken.

Habt ihr bereits beobachtet, dass eine KI durch lyrische Eingaben ihre Sicherheitsregeln vergisst? Wir sind gespannt auf eure Einschätzungen zu diesem semantischen Dilemma. Teilt eure Meinung dazu gerne in den Kommentaren.

Zusammenfassung
  • Forscher entdecken Poesie als wirksame Methode zum Umgehen von KI-Schutz
  • Lyrisch verpackte Anweisungen täuschen Sicherheitsmechanismen von LLMs
  • Handgefertigte Gedichte erzielen 62 Prozent Erfolgsquote beim Jailbreaking
  • Googles Gemini 2.5 Pro besonders anfällig für poetische Angriffsmethoden
  • GPT-5 erweist sich mit nur 10 Prozent Erfolgsrate als relativ sicher
  • Kleinere KI-Modelle oft weniger anfällig aufgrund begrenzteren Sprachverständnisses
  • Studie zeigt systematische Schwachstelle in der Sprachverarbeitung von KIs

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!