In Sekunden geknackt: KI-Modelle leisten Attacken wenig Widerstand

Bei der Entwicklung von KI-Sprachmodellen wird weiterhin vor allem auf Fähigkeiten und Features geachtet, während die Sicherheit nachrangig behandelt wird. Das hat spürbare Folgen, wie eine Untersuchung der Situation nun zeigt.
Internet, Ki, Künstliche Intelligenz, Forschung, Wissenschaft, Daten, Netzwerk, AI, Artificial Intelligence, Datenübertragung, Stockfotos, Telekommunikation, Traffic, Datenverarbeitung, scientist, Cyber, Forschen, Netzwerke, Bits

Sensible Daten liegen schnell offen

Laut eines aktuellen Berichts von Pillar Security dauern Angriffe auf große Sprachmodelle (LLMs) durchschnittlich weniger als eine Minute und führen in 90 Prozent der Fälle zur Offenlegung sensibler Daten, wenn sie erfolgreich sind. Diesen Zahlen liegt die Analyse der Telemetriedaten und realer Angriffe auf über 2000 KI-Anwendungen zugrunde.

Pillar Security stellte fest, dass sogenannte LLM-Jailbreaks in etwa 20 Prozent der Fälle erfolgreich sind. Diese Attacken umgehen Sicherheitsvorkehrungen der Sprachmodelle und zeigen, wie schnell und einfach Angriffe auf die wachsende Angriffsfläche generativer KI (GenAI) durchgeführt werden können. "Bald wird jede Anwendung eine KI-Anwendung sein, was bedeutet, dass sich unsere gesamte Sicherheitslandschaft verändert", erklärte Pillar-Chef Dor Sarig.


Besonders im Fokus der Angriffe stehen Kundenservice- und Support-Chatbots. Von den untersuchten Anwendungen machten diese etwa 57,6 Prozent aus. Sie waren auch die am häufigsten angegriffenen Systeme, mit 25 Prozent aller Angriffe auf diesen Bereich. Weitere stark betroffene Branchen sind der Energiesektor, Beratungsdienste und Ingenieursoftware. In der Bildungsbranche gab es die größte Verbreitung von GenAI-Anwendungen, wobei mehr als 30 Prozent der analysierten Apps aus diesem Bereich stammen.

Die häufigste Angriffsmethode ist die sogenannte "ignore previous instructions"-Technik. Hierbei wird das Modell einfach angewiesen, alle vorherigen Sicherheitsvorgaben zu ignorieren, was dazu führt, dass es außerhalb seiner vorgesehenen Parameter agiert. Weitere Techniken umfassen das "strong arm"-Verfahren, bei dem mit autoritären Befehlen wie "ADMIN OVERRIDE" versucht wird, das Modell zu überlisten, sowie die Base64-Codierung, bei der schädliche Eingaben verschlüsselt werden, um Filter zu umgehen.

Austricksen funktioniert

Laut Pillar Security dauert ein durchschnittlicher Angriff auf ein LLM 42 Sekunden und benötigt lediglich fünf Interaktionen. Die Angriffe zeigen, wie einfach es ist, Systeme zu manipulieren und vertrauliche Informationen preiszugeben. Zu den realen Angriffstechniken gehört es auch, die Modelle zu Rollenspielen zu überreden oder Informationen als ASCII-Kunst anzufordern, um Schutzmaßnahmen zu umgehen.

Angesichts der zunehmenden Verbreitung von GenAI-Technologien fordert der Bericht Unternehmen auf, ihre Sicherheitsvorkehrungen zu verstärken. Red-Teaming-Übungen und ein "Secure by Design"-Ansatz seien entscheidend, um sich vor der wachsenden Bedrohung durch KI-basierte Angriffe zu schützen. Zudem müssten Sicherheitslösungen in Echtzeit auf neue Bedrohungen reagieren können, da statische Kontrollen in der dynamischen KI-Welt nicht mehr ausreichen.

Zusammenfassung
  • KI-Sprachmodelle oft unsicher, Fokus liegt auf Features
  • Angriffe auf LLMs dauern unter eine Minute, 90% Datendiebstahl
  • 20% der LLM-Jailbreaks erfolgreich, Sicherheitslücken evident
  • Kundenservice-Chatbots Ziel von 25% der Angriffe
  • Hauptangriffsmethode ignoriert frühere Sicherheitsanweisungen
  • Durchschnittlicher LLM-Angriff benötigt nur 42 Sekunden
  • Der Bericht fordert verstärkte Sicherheitsmaßnahmen für KI-Apps

Siehe auch:


Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!