KI-Halluzinationen bei Code-Entwicklung führen in Security-Katastrophe

Der zunehmende Einsatz von KI-Modellen bei der Entwicklung von Software führt zu alarmierenden Sicherheitsproblemen. Das zeigt eine aktuelle Untersuchung, bei der über eine halbe Million Code-Beispiele genauer untersucht wurden.
Hacker, Security, Hack, Entwickler, Entwicklung, Cybersecurity, Exploit, Hacking, Code, Programmierung, Quellcode, Programmierer, Developer, Sdk, Programmieren, Sourcecode, Cyber, Dev, Coding, Coder, Development, Binärcode, Binär

Verweis in die Leere

Forscher analysierten diese Beiträge, die von 16 weit verbreiteten großen Sprachmodellen erstellt wurden. Dabei stellte sich heraus, dass fast 20 Prozent der Einbindungen von Software-Bibliotheken auf nicht existierende Pakete verweisen - ein Phänomen, das die Autoren als "Package Hallucination" bezeichnen.

Diese sogenannten Halluzinationen entstehen, wenn ein KI-Modell fiktive Informationen generiert - in diesem Fall Bibliotheken, die es in der Realität gar nicht gibt. Der Algorithmus denkt sich also quasi etwas aus, um zu einem vermeintlich besseren Ergebnis zu kommen.


Im Rahmen der Studie wurden insgesamt 576.000 Code-Snippets erzeugt. Darin fanden sich rund 2,23 Millionen Verweise auf externe Pakete, von denen über 440.000 nicht existierten. Besonders häufig traten diese Fehler bei Open-Source-Modellen wie CodeLlama und DeepSeek auf. Hier lag die Fehlerquote bei rund 22 Prozent - deutlich höher als bei kommerziellen Modellen wie ChatGPT, die mit etwa 5 Prozent besser abschnitten.

Das Problem hat weitreichende Konsequenzen für die IT-Sicherheit. Angreifer könnten beispielsweise die halluzinierten Paketnamen herausfinden und unter diesen schädliche Software veröffentlichen. Vertraut ein Entwickler der KI-Ausgabe blind, holt die KI-generierte Software nun also direkt Malware auf ein System. Unbekannt ist das Problem nicht: Bereits 2021 wurde durch sogenannte "Dependency Confusion"-Angriffe demonstriert, wie selbst Netzwerke von Tech-Konzernen wie Apple oder Microsoft kompromittiert werden können.

Kein Zufall

Besorgniserregend ist vor allem, dass viele dieser Halluzinationen nicht zufällig auftreten. Fast die Hälfte der nicht existierenden Pakete wurde in mehreren Durchläufen wiederholt genannt. Dies macht es Angreifern einfacher, entsprechende Attacken durchzuführen.

Ein zusätzlicher Risikofaktor ist die unterschiedliche Fehleranfälligkeit je nach Programmiersprache. Während Python-Code im Schnitt rund 16 Prozent Halluzinationen enthielt, lag die Quote bei JavaScript bei über 21 Prozent. Gründe hierfür sehen die Forscher in der größeren Anzahl und Komplexität des JavaScript-Ökosystems.

Zusammenfassung
  • KI-generierter Code enthält alarmierend viele nicht existente Pakete
  • Studie analysiert über 500.000 Code-Beispiele von 16 KI-Sprachmodellen
  • Fast 20 % der Bibliothekseinbindungen verweisen auf fiktive Pakete
  • Open-Source-Modelle zeigen höhere Fehlerquoten als kommerzielle Modelle
  • Sicherheitsrisiko: Angreifer könnten Malware unter halluzinierten Namen
  • Wiederholtes Auftreten gleicher Halluzinationen erleichtert gezielte
  • JavaScript-Code anfälliger für Halluzinationen als Python-Code

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!