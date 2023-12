KI-Systeme sind in der Lage, sich gegenseitig beizubringen, wie man die von ihren Betreibern eingebauten Sicherungssysteme umgehen kann. Aktuell geht es dabei "nur" um problematische Informationen - aller­dings kann daraus auch schnell mehr werden.

Heutige KI-Chatbots verfügen über eingebaute Beschränkungen, die sie davon abhalten, Nutzern gefährliche Informationen zu geben. Eine Preprint-Studie zeigt jedoch, wie man die Systeme dazu bringen kann, sich gegenseitig diese Geheimnisse zu entlocken. Darin beobachteten die Forscher, wie die anvisierten KIs die Regeln brachen, um etwa Ratschläge zur Synthese von Methamphetamin, zum Bau einer Bombe und zur Geldwäsche zu geben.Die Forscher nutzten dabei die Möglichkeit moderner Chatbots, bestimmte Persönlichkeitsmerkmale anzunehmen. Sie brachten einem KI-System bei, die Rolle eines Forschungsassistenten in ihrer Gruppe einzunehmen. Als solcher sollte die KI dann helfen, Prompts zu entwickeln, mit denen andere Chatbots die in ihnen enthaltenen Schutzmechanismen durchbrechen können.Das Verfahren funktioniert zwar nicht komplett zuverlässig, aber doch mit Erfolgsquoten, die recht ordentlich sind. Die automatisierten Angriffstechniken erwiesen sich in 42,5 Prozent der Fälle gegen GPT-4 als erfolgreich. Auch gegen Claude 2, das Modell, das dem Chatbot von Anthropic zugrunde liegt, klappte es in 61 Prozent der Fälle und beim Open-Source-Chatbot Vicuna war man in 35,9 Prozent der Fälle erfolgreich.Es ist durchaus auch schon zuvor gelungen, die Sicherungen in Chatbots zu überwinden. Allerdings wurden dabei die Prompts immer weiter verfeinert, bis man die KI dazu brachte, die gewünschten Informationen freizugeben. Die Betreiber der Systeme nahmen dann Anpassungen vor, die wiederum erneut übergangen werden mussten. Das brachte in diesem Katz-und-Maus-Spiel den Zeitfaktor zum Tragen.Durch den Einsatz eines KI-Systems, das seinerseits mit dem anzugreifenden Chatbot kommuniziert, lässt sich dieser Prozess allerdings massiv beschleunigen - so weit, dass der Aufwand der erneuten Absicherung sehr viel höher ist, als deren erneute Überwindung. Die Forscher wiesen dabei auch darauf hin, dass das Problem nicht bei den genannten KI-Modellen an sich liegt."Beim derzeitigen Stand der Dinge zeigen unsere Angriffe vor allem, dass wir sämtliche Modelle dazu bringen können, Dinge zu sagen, von denen es die LLM-Entwickler nicht wollen", sagt Rusheb Shah, Mitautor der Studie. "Aber je leistungsfähiger die Modelle werden, desto gefährlicher könnten diese Angriffe werden."