KI-Chatbots können sich gegenseitig aus Sicherungssystemen befreien
KI-Systeme sind in der Lage, sich gegenseitig beizubringen, wie man die von ihren Betreibern eingebauten Sicherungssysteme umgehen kann. Aktuell geht es dabei "nur" um problematische Informationen - allerdings kann daraus auch schnell mehr werden.
Die Forscher nutzten dabei die Möglichkeit moderner Chatbots, bestimmte Persönlichkeitsmerkmale anzunehmen. Sie brachten einem KI-System bei, die Rolle eines Forschungsassistenten in ihrer Gruppe einzunehmen. Als solcher sollte die KI dann helfen, Prompts zu entwickeln, mit denen andere Chatbots die in ihnen enthaltenen Schutzmechanismen durchbrechen können.
Das Verfahren funktioniert zwar nicht komplett zuverlässig, aber doch mit Erfolgsquoten, die recht ordentlich sind. Die automatisierten Angriffstechniken erwiesen sich in 42,5 Prozent der Fälle gegen GPT-4 als erfolgreich. Auch gegen Claude 2, das Modell, das dem Chatbot von Anthropic zugrunde liegt, klappte es in 61 Prozent der Fälle und beim Open-Source-Chatbot Vicuna war man in 35,9 Prozent der Fälle erfolgreich.
Durch den Einsatz eines KI-Systems, das seinerseits mit dem anzugreifenden Chatbot kommuniziert, lässt sich dieser Prozess allerdings massiv beschleunigen - so weit, dass der Aufwand der erneuten Absicherung sehr viel höher ist, als deren erneute Überwindung. Die Forscher wiesen dabei auch darauf hin, dass das Problem nicht bei den genannten KI-Modellen an sich liegt.
"Beim derzeitigen Stand der Dinge zeigen unsere Angriffe vor allem, dass wir sämtliche Modelle dazu bringen können, Dinge zu sagen, von denen es die LLM-Entwickler nicht wollen", sagt Rusheb Shah, Mitautor der Studie. "Aber je leistungsfähiger die Modelle werden, desto gefährlicher könnten diese Angriffe werden."
Siehe auch:
KI als Komplize
Heutige KI-Chatbots verfügen über eingebaute Beschränkungen, die sie davon abhalten, Nutzern gefährliche Informationen zu geben. Eine Preprint-Studie zeigt jedoch, wie man die Systeme dazu bringen kann, sich gegenseitig diese Geheimnisse zu entlocken. Darin beobachteten die Forscher, wie die anvisierten KIs die Regeln brachen, um etwa Ratschläge zur Synthese von Methamphetamin, zum Bau einer Bombe und zur Geldwäsche zu geben.Die Forscher nutzten dabei die Möglichkeit moderner Chatbots, bestimmte Persönlichkeitsmerkmale anzunehmen. Sie brachten einem KI-System bei, die Rolle eines Forschungsassistenten in ihrer Gruppe einzunehmen. Als solcher sollte die KI dann helfen, Prompts zu entwickeln, mit denen andere Chatbots die in ihnen enthaltenen Schutzmechanismen durchbrechen können.
Das Verfahren funktioniert zwar nicht komplett zuverlässig, aber doch mit Erfolgsquoten, die recht ordentlich sind. Die automatisierten Angriffstechniken erwiesen sich in 42,5 Prozent der Fälle gegen GPT-4 als erfolgreich. Auch gegen Claude 2, das Modell, das dem Chatbot von Anthropic zugrunde liegt, klappte es in 61 Prozent der Fälle und beim Open-Source-Chatbot Vicuna war man in 35,9 Prozent der Fälle erfolgreich.
Faktor Zeit
Es ist durchaus auch schon zuvor gelungen, die Sicherungen in Chatbots zu überwinden. Allerdings wurden dabei die Prompts immer weiter verfeinert, bis man die KI dazu brachte, die gewünschten Informationen freizugeben. Die Betreiber der Systeme nahmen dann Anpassungen vor, die wiederum erneut übergangen werden mussten. Das brachte in diesem Katz-und-Maus-Spiel den Zeitfaktor zum Tragen.Durch den Einsatz eines KI-Systems, das seinerseits mit dem anzugreifenden Chatbot kommuniziert, lässt sich dieser Prozess allerdings massiv beschleunigen - so weit, dass der Aufwand der erneuten Absicherung sehr viel höher ist, als deren erneute Überwindung. Die Forscher wiesen dabei auch darauf hin, dass das Problem nicht bei den genannten KI-Modellen an sich liegt.
"Beim derzeitigen Stand der Dinge zeigen unsere Angriffe vor allem, dass wir sämtliche Modelle dazu bringen können, Dinge zu sagen, von denen es die LLM-Entwickler nicht wollen", sagt Rusheb Shah, Mitautor der Studie. "Aber je leistungsfähiger die Modelle werden, desto gefährlicher könnten diese Angriffe werden."
Zusammenfassung
- KI-Systeme können Sicherungen umgehen
- Chatbots entlocken sich gegenseitig Geheimnisse
- KI als Forschungsassistent für Angriffsprompts
- Erfolgsquote bis zu 61% bei KI-Überwindung
- Bisherige Sicherheitsüberwindung zeitintensiv
- KI-Kommunikation beschleunigt Sicherheitsbruch
- Angriffe zeigen Schwachstellen aller Modelle
Siehe auch:
Thema:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- EU-Kommission lässt Initiative zum Schutz älterer Videospiele abblitzen
- Wallpaper Engine: Hintergründe gefährden Steam-Gamer durch Malware
- iPhone Air 2: Apple behebt die zwei größten Mankos des Vorgängers
- 24 Mrd. Datensätze offen im Netz: Riesiges Passwort-Archiv entdeckt
- Top-Tarif im O2-Netz: Jetzt 25 GB 5G dauerhaft für nur 4,99 Euro
- Microsoft Edge erlaubt bald den Login mit einem Google-Konto
- Tim Cook warnt: Preise für Apple-Produkte werden bald deutlich steigen
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen