KI-Chatbots können sich gegenseitig aus Sicherungssystemen befreien

KI-Systeme sind in der Lage, sich gegenseitig beizubringen, wie man die von ihren Betreibern eingebauten Sicherungssysteme umgehen kann. Aktuell geht es dabei "nur" um problematische Informationen - allerdings kann daraus auch schnell mehr werden.

Christian Kahle, 08.12.2023 08:41 Uhr

Internet, Ki, Künstliche Intelligenz, Forschung, Wissenschaft, Daten, Netzwerk, AI, Artificial Intelligence, Datenübertragung, Stockfotos, Telekommunikation, Traffic, Datenverarbeitung, scientist, Cyber, Forschen, Netzwerke, Hub, Zentrale

KI als Komplize

Heutige KI-Chatbots verfügen über eingebaute Beschränkungen, die sie davon abhalten, Nutzern gefährliche Informationen zu geben. Eine Preprint-Studie zeigt jedoch, wie man die Systeme dazu bringen kann, sich gegenseitig diese Geheimnisse zu entlocken. Darin beobachteten die Forscher, wie die anvisierten KIs die Regeln brachen, um etwa Ratschläge zur Synthese von Methamphetamin, zum Bau einer Bombe und zur Geldwäsche zu geben.

Die Forscher nutzten dabei die Möglichkeit moderner Chatbots, bestimmte Persönlichkeitsmerkmale anzunehmen. Sie brachten einem KI-System bei, die Rolle eines Forschungsassistenten in ihrer Gruppe einzunehmen. Als solcher sollte die KI dann helfen, Prompts zu entwickeln, mit denen andere Chatbots die in ihnen enthaltenen Schutzmechanismen durchbrechen können.

Das Verfahren funktioniert zwar nicht komplett zuverlässig, aber doch mit Erfolgsquoten, die recht ordentlich sind. Die automatisierten Angriffstechniken erwiesen sich in 42,5 Prozent der Fälle gegen GPT-4 als erfolgreich. Auch gegen Claude 2, das Modell, das dem Chatbot von Anthropic zugrunde liegt, klappte es in 61 Prozent der Fälle und beim Open-Source-Chatbot Vicuna war man in 35,9 Prozent der Fälle erfolgreich.

Faktor Zeit

Es ist durchaus auch schon zuvor gelungen, die Sicherungen in Chatbots zu überwinden. Allerdings wurden dabei die Prompts immer weiter verfeinert, bis man die KI dazu brachte, die gewünschten Informationen freizugeben. Die Betreiber der Systeme nahmen dann Anpassungen vor, die wiederum erneut übergangen werden mussten. Das brachte in diesem Katz-und-Maus-Spiel den Zeitfaktor zum Tragen.

Durch den Einsatz eines KI-Systems, das seinerseits mit dem anzugreifenden Chatbot kommuniziert, lässt sich dieser Prozess allerdings massiv beschleunigen - so weit, dass der Aufwand der erneuten Absicherung sehr viel höher ist, als deren erneute Überwindung. Die Forscher wiesen dabei auch darauf hin, dass das Problem nicht bei den genannten KI-Modellen an sich liegt.

"Beim derzeitigen Stand der Dinge zeigen unsere Angriffe vor allem, dass wir sämtliche Modelle dazu bringen können, Dinge zu sagen, von denen es die LLM-Entwickler nicht wollen", sagt Rusheb Shah, Mitautor der Studie. "Aber je leistungsfähiger die Modelle werden, desto gefährlicher könnten diese Angriffe werden."

Zusammenfassung

KI-Systeme können Sicherungen umgehen
Chatbots entlocken sich gegenseitig Geheimnisse
KI als Forschungsassistent für Angriffsprompts
Erfolgsquote bis zu 61% bei KI-Überwindung
Bisherige Sicherheitsüberwindung zeitintensiv
KI-Kommunikation beschleunigt Sicherheitsbruch
Angriffe zeigen Schwachstellen aller Modelle

Siehe auch:

Thema:

Künstliche Intelligenz

Kommentieren9

Hinweis einsenden

Weitere Nachrichten zum Thema Arbeitsamt setzt KI-Chatbot ein und das endet in einem DesasterIn Sekunden geknackt: KI-Modelle leisten Attacken wenig WiderstandPanikmodus: KI-Bots können im Team Zero-Days finden und ausnutzenGoogle Gemini: Neue KI schlägt ChatGPT in einer Reihe von TestsMicrosoft bohrt KI-Copilot mit GPT-4 Turbo & Dall-E 3 von OpenAI aufMusk ist auf der Suche nach einer Milliarde Dollar für sein KI-Startup