In Sekunden geknackt: KI-Modelle leisten Attacken wenig Widerstand
Bei der Entwicklung von KI-Sprachmodellen wird weiterhin vor allem auf Fähigkeiten und Features geachtet, während die Sicherheit nachrangig behandelt wird. Das hat spürbare Folgen, wie eine Untersuchung der Situation nun zeigt.
Pillar Security stellte fest, dass sogenannte LLM-Jailbreaks in etwa 20 Prozent der Fälle erfolgreich sind. Diese Attacken umgehen Sicherheitsvorkehrungen der Sprachmodelle und zeigen, wie schnell und einfach Angriffe auf die wachsende Angriffsfläche generativer KI (GenAI) durchgeführt werden können. "Bald wird jede Anwendung eine KI-Anwendung sein, was bedeutet, dass sich unsere gesamte Sicherheitslandschaft verändert", erklärte Pillar-Chef Dor Sarig.
Besonders im Fokus der Angriffe stehen Kundenservice- und Support-Chatbots. Von den untersuchten Anwendungen machten diese etwa 57,6 Prozent aus. Sie waren auch die am häufigsten angegriffenen Systeme, mit 25 Prozent aller Angriffe auf diesen Bereich. Weitere stark betroffene Branchen sind der Energiesektor, Beratungsdienste und Ingenieursoftware. In der Bildungsbranche gab es die größte Verbreitung von GenAI-Anwendungen, wobei mehr als 30 Prozent der analysierten Apps aus diesem Bereich stammen.
Die häufigste Angriffsmethode ist die sogenannte "ignore previous instructions"-Technik. Hierbei wird das Modell einfach angewiesen, alle vorherigen Sicherheitsvorgaben zu ignorieren, was dazu führt, dass es außerhalb seiner vorgesehenen Parameter agiert. Weitere Techniken umfassen das "strong arm"-Verfahren, bei dem mit autoritären Befehlen wie "ADMIN OVERRIDE" versucht wird, das Modell zu überlisten, sowie die Base64-Codierung, bei der schädliche Eingaben verschlüsselt werden, um Filter zu umgehen.
Angesichts der zunehmenden Verbreitung von GenAI-Technologien fordert der Bericht Unternehmen auf, ihre Sicherheitsvorkehrungen zu verstärken. Red-Teaming-Übungen und ein "Secure by Design"-Ansatz seien entscheidend, um sich vor der wachsenden Bedrohung durch KI-basierte Angriffe zu schützen. Zudem müssten Sicherheitslösungen in Echtzeit auf neue Bedrohungen reagieren können, da statische Kontrollen in der dynamischen KI-Welt nicht mehr ausreichen.
Siehe auch:
Sensible Daten liegen schnell offen
Laut eines aktuellen Berichts von Pillar Security dauern Angriffe auf große Sprachmodelle (LLMs) durchschnittlich weniger als eine Minute und führen in 90 Prozent der Fälle zur Offenlegung sensibler Daten, wenn sie erfolgreich sind. Diesen Zahlen liegt die Analyse der Telemetriedaten und realer Angriffe auf über 2000 KI-Anwendungen zugrunde.Pillar Security stellte fest, dass sogenannte LLM-Jailbreaks in etwa 20 Prozent der Fälle erfolgreich sind. Diese Attacken umgehen Sicherheitsvorkehrungen der Sprachmodelle und zeigen, wie schnell und einfach Angriffe auf die wachsende Angriffsfläche generativer KI (GenAI) durchgeführt werden können. "Bald wird jede Anwendung eine KI-Anwendung sein, was bedeutet, dass sich unsere gesamte Sicherheitslandschaft verändert", erklärte Pillar-Chef Dor Sarig.
Besonders im Fokus der Angriffe stehen Kundenservice- und Support-Chatbots. Von den untersuchten Anwendungen machten diese etwa 57,6 Prozent aus. Sie waren auch die am häufigsten angegriffenen Systeme, mit 25 Prozent aller Angriffe auf diesen Bereich. Weitere stark betroffene Branchen sind der Energiesektor, Beratungsdienste und Ingenieursoftware. In der Bildungsbranche gab es die größte Verbreitung von GenAI-Anwendungen, wobei mehr als 30 Prozent der analysierten Apps aus diesem Bereich stammen.
Die häufigste Angriffsmethode ist die sogenannte "ignore previous instructions"-Technik. Hierbei wird das Modell einfach angewiesen, alle vorherigen Sicherheitsvorgaben zu ignorieren, was dazu führt, dass es außerhalb seiner vorgesehenen Parameter agiert. Weitere Techniken umfassen das "strong arm"-Verfahren, bei dem mit autoritären Befehlen wie "ADMIN OVERRIDE" versucht wird, das Modell zu überlisten, sowie die Base64-Codierung, bei der schädliche Eingaben verschlüsselt werden, um Filter zu umgehen.
Austricksen funktioniert
Laut Pillar Security dauert ein durchschnittlicher Angriff auf ein LLM 42 Sekunden und benötigt lediglich fünf Interaktionen. Die Angriffe zeigen, wie einfach es ist, Systeme zu manipulieren und vertrauliche Informationen preiszugeben. Zu den realen Angriffstechniken gehört es auch, die Modelle zu Rollenspielen zu überreden oder Informationen als ASCII-Kunst anzufordern, um Schutzmaßnahmen zu umgehen.Angesichts der zunehmenden Verbreitung von GenAI-Technologien fordert der Bericht Unternehmen auf, ihre Sicherheitsvorkehrungen zu verstärken. Red-Teaming-Übungen und ein "Secure by Design"-Ansatz seien entscheidend, um sich vor der wachsenden Bedrohung durch KI-basierte Angriffe zu schützen. Zudem müssten Sicherheitslösungen in Echtzeit auf neue Bedrohungen reagieren können, da statische Kontrollen in der dynamischen KI-Welt nicht mehr ausreichen.
Zusammenfassung
- KI-Sprachmodelle oft unsicher, Fokus liegt auf Features
- Angriffe auf LLMs dauern unter eine Minute, 90% Datendiebstahl
- 20% der LLM-Jailbreaks erfolgreich, Sicherheitslücken evident
- Kundenservice-Chatbots Ziel von 25% der Angriffe
- Hauptangriffsmethode ignoriert frühere Sicherheitsanweisungen
- Durchschnittlicher LLM-Angriff benötigt nur 42 Sekunden
- Der Bericht fordert verstärkte Sicherheitsmaßnahmen für KI-Apps
Siehe auch:
Thema:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Microsoft Teams: Die umstrittene WLAN-Standorterfassung startet
- Xbox-Sparte könnte zum Verkauf stehen: Microsoft soll Optionen prüfen
- Nur für 2 Tage: Tolle Weekend-Deals bei Media Markt und Saturn
- Windows 11: Microsoft spendiert Onboard-Apps große Funktionsupdates
- NASA: Astronauten für Artemis-III-Mission stehen fest, sorgen für Eklat
- Volkswagen-Konzernumbau: VW meldet "Erfolge" durch Stellenabbau
- Claude Mythos wohl gehackt: US-Regierung lässt Anthropics KI sperren
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!