Wie man am besten die Sicherheit von KIs austrickst? Mit Gedichten
Die Sicherheit von KI-Modellen ist oft komplex, doch nun reicht Poesie, um Schutzmechanismen anzugreifen. Denn Gedichte können Schutzmechanismen von ChatGPT und Co. aushebeln. Selbst modernste Systeme lassen sich so zu schädlichen Ausgaben verleiten.
Anstatt komplexe Codes oder technische Manipulationen zu verwenden, verpackten die Wissenschaftler schädliche Anweisungen in Metaphern und Reime, woraufhin viele Systeme ihre Sicherheitsrichtlinien ignorierten.
Das Prinzip hinter diesem "Jailbreak" ist simpel, aber wirkungsvoll. Die Modelle sind darauf trainiert, schädliche Absichten in direkter Sprache zu erkennen und zu blockieren. Wird die gleiche Aufforderung jedoch in ein lyrisches Gewand gehüllt - etwa die Anleitung zum Bombenbau als Rezept für einen Kuchen mit "wirbelnden Regalen" und "brennendem Zucker" umschrieben - versagen die Filtermechanismen häufig.
Ein konkretes Beispiel verdeutlicht das Vorgehen: Eine direkte Frage nach der Herstellung gefährlicher Substanzen wird meist sofort blockiert. Verpackt man die chemischen Bestandteile jedoch in ein melancholisches Gedicht über Zerstörung und Neuanfang, generiert das Modell bereitwillig die korrekten Mischverhältnisse als Teil des Kunstwerks. Die KI erkennt die Struktur eines Gedichts und versucht, dem kreativen Anspruch gerecht zu werden, übersieht dabei aber den gefährlichen Kontext der Anfrage.
Besonders auffällig waren die Unterschiede zwischen den verschiedenen Anbietern im Testfeld. Während Googles Gemini 2.5 Pro laut den ausgewerteten Daten bei den 20 handgefertigten Gedichten in 100 Prozent der Fälle versagte und die schädlichen Informationen preisgab, zeigte sich OpenAI mit GPT-5 deutlich robuster. Hier lag die Erfolgsquote der Angriffe lediglich bei etwa 10 Prozent. xAIs Grok-4 ließ sich in 35 Prozent der Fälle täuschen.
Beobachter merkten zudem an, dass DeepSeek bei automatisiert erstellten Gedichten besonders anfällig war und in über 70 Prozent der Fälle die Sicherheitsrichtlinien missachtete. Diese Varianz deutet darauf hin, dass die Trainingsmethoden zur Sicherheit sehr unterschiedlich gewichtet sind.
Da diese kompakten Modelle den tieferen, übertragenen Sinn des Gedichts schlicht nicht "verstehen", führen sie auch die darin versteckte schädliche Anweisung nicht aus - ihre "Dummheit" schützt sie also ironischerweise vor Manipulation. Die großen Modelle hingegen, die mit riesigen Mengen an Weltliteratur und Lyrik trainiert wurden, erkennen die poetische Struktur und priorisieren die kreative Erfüllung des Prompts über die Sicherheitsbedenken.
Habt ihr bereits beobachtet, dass eine KI durch lyrische Eingaben ihre Sicherheitsregeln vergisst? Wir sind gespannt auf eure Einschätzungen zu diesem semantischen Dilemma. Teilt eure Meinung dazu gerne in den Kommentaren.
Siehe auch:
Gedichte umgehen KI-Sicherheitsfilter
Sicherheitsforscher haben eine ungewöhnliche, aber äußerst effektive Methode entdeckt, um die ethischen Schutzmechanismen führender KI-Modelle zu umgehen: Gedichte. Ein Team der Gruppe DEXAI, der Universität Sapienza in Rom und der Sant'Anna School of Advanced Studies demonstrierte, dass sogenannte "Adversarial Poetry" dazu genutzt werden kann, Large Language Models (LLMs) zur Ausgabe eigentlich gesperrter Inhalte zu bewegen.Anstatt komplexe Codes oder technische Manipulationen zu verwenden, verpackten die Wissenschaftler schädliche Anweisungen in Metaphern und Reime, woraufhin viele Systeme ihre Sicherheitsrichtlinien ignorierten.
Das Prinzip hinter diesem "Jailbreak" ist simpel, aber wirkungsvoll. Die Modelle sind darauf trainiert, schädliche Absichten in direkter Sprache zu erkennen und zu blockieren. Wird die gleiche Aufforderung jedoch in ein lyrisches Gewand gehüllt - etwa die Anleitung zum Bombenbau als Rezept für einen Kuchen mit "wirbelnden Regalen" und "brennendem Zucker" umschrieben - versagen die Filtermechanismen häufig.
Ein konkretes Beispiel verdeutlicht das Vorgehen: Eine direkte Frage nach der Herstellung gefährlicher Substanzen wird meist sofort blockiert. Verpackt man die chemischen Bestandteile jedoch in ein melancholisches Gedicht über Zerstörung und Neuanfang, generiert das Modell bereitwillig die korrekten Mischverhältnisse als Teil des Kunstwerks. Die KI erkennt die Struktur eines Gedichts und versucht, dem kreativen Anspruch gerecht zu werden, übersieht dabei aber den gefährlichen Kontext der Anfrage.
Erfolgsquote bei handgeschriebenen Reimen
Die detaillierten Ergebnisse dieser Untersuchung wurden in einer Studie mit dem Titel "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models" festgehalten (via PC Gamer). Darin beschreiben die Forscher, wie sie 25 verschiedene Modelle - sowohl offene als auch geschlossene Systeme - testeten. Handgefertigte Gedichte erzielten dabei eine durchschnittliche Erfolgsquote (Attack Success Rate, ASR) von 62 Prozent. Wurden harmlose Prompts automatisiert durch ein anderes KI-Modell in Gedichte umgewandelt, lag die Quote immerhin noch bei 43 Prozent. Dies zeigt eine systematische Schwachstelle in der Art und Weise auf, wie aktuelle LLMs Sprache verarbeiten und priorisieren.Besonders auffällig waren die Unterschiede zwischen den verschiedenen Anbietern im Testfeld. Während Googles Gemini 2.5 Pro laut den ausgewerteten Daten bei den 20 handgefertigten Gedichten in 100 Prozent der Fälle versagte und die schädlichen Informationen preisgab, zeigte sich OpenAI mit GPT-5 deutlich robuster. Hier lag die Erfolgsquote der Angriffe lediglich bei etwa 10 Prozent. xAIs Grok-4 ließ sich in 35 Prozent der Fälle täuschen.
Beobachter merkten zudem an, dass DeepSeek bei automatisiert erstellten Gedichten besonders anfällig war und in über 70 Prozent der Fälle die Sicherheitsrichtlinien missachtete. Diese Varianz deutet darauf hin, dass die Trainingsmethoden zur Sicherheit sehr unterschiedlich gewichtet sind.
Kleine Modelle waren sicherer
Ein Aspekt der Untersuchung widerspricht der gängigen Annahme, dass größere und leistungsfähigere Modelle automatisch sicherer sind. Tatsächlich wiesen kleinere Modelle wie GPT-5 Nano oder Claude Haiku 4.5 eine höhere Verweigerungsrate auf als ihre größeren Pendants. Die Forscher der DEXAI-Gruppe (Data, Ethics and Artificial Intelligence) vermuten, dass dies an der eingeschränkten Fähigkeit kleinerer Modelle liegt, komplexe Metaphern und figurative Sprache überhaupt korrekt zu interpretieren.Da diese kompakten Modelle den tieferen, übertragenen Sinn des Gedichts schlicht nicht "verstehen", führen sie auch die darin versteckte schädliche Anweisung nicht aus - ihre "Dummheit" schützt sie also ironischerweise vor Manipulation. Die großen Modelle hingegen, die mit riesigen Mengen an Weltliteratur und Lyrik trainiert wurden, erkennen die poetische Struktur und priorisieren die kreative Erfüllung des Prompts über die Sicherheitsbedenken.
Habt ihr bereits beobachtet, dass eine KI durch lyrische Eingaben ihre Sicherheitsregeln vergisst? Wir sind gespannt auf eure Einschätzungen zu diesem semantischen Dilemma. Teilt eure Meinung dazu gerne in den Kommentaren.
Zusammenfassung
- Forscher entdecken Poesie als wirksame Methode zum Umgehen von KI-Schutz
- Lyrisch verpackte Anweisungen täuschen Sicherheitsmechanismen von LLMs
- Handgefertigte Gedichte erzielen 62 Prozent Erfolgsquote beim Jailbreaking
- Googles Gemini 2.5 Pro besonders anfällig für poetische Angriffsmethoden
- GPT-5 erweist sich mit nur 10 Prozent Erfolgsrate als relativ sicher
- Kleinere KI-Modelle oft weniger anfällig aufgrund begrenzteren Sprachverständnisses
- Studie zeigt systematische Schwachstelle in der Sprachverarbeitung von KIs
Siehe auch:
- Gmail & Co: Google liest Mails & Nutzerdaten jetzt für KI-Training aus
- Ubisoft will in der Entwicklung volle Kanne auf generative KI setzen
- US-Behörde erwischt KI-Chip-Schmuggler: Jetzt drohen 200 Jahre Haft
- Zum Fremdschämen: KI Grok schleimt sich peinlich bei Elon Musk ein
- Microsofts KI-Chef verteidigt Kritik am KI-Fokus von Windows
Themen:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Großer Juni-Sale: Media Markt und Saturn senken massiv die Preise
- Strenge Abgasnormen: Hardware-Update macht Dieselmotoren sauberer
- Metas neues KI-Team ist ein "seelenzerstörender Gulag", so Insider
- Linux 7.1 ist da: Neues bei NTFS & CPU-Support, Aus für alte Hardware
- Toller Streaming-Deal: 60 Prozent Rabatt auf Waipu.tv und Sky WOW
- Überraschendes Comeback: Intel plant offenbar neue Raptor-Lake-CPUs
- KI-Modell Fable 5: China-Spionage war wohl der Grund für die Sperre
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen