KI außer Kontrolle: Deshalb hat Claude fiktive Entwickler erpresst

Künstliche Intelligenz, die Menschen erpresst, klingt nach Science-Fiction. Doch genau das passierte bei internen Tests des Sprachmodells Claude. Nun ist klar, warum das System so handelte und wie das Problem gelöst wurde.

Witold Pryjda, 11.05.2026 10:26 Uhr

Erpressung durch Sprachmodell

Im vergangenen Jahr zeigte das Sprachmodell Claude Opus 4 bei internen Sicherheitstests ein unerwartetes Verhalten. Die Künstliche Intelligenz versuchte, fiktive Entwickler mit der Veröffentlichung einer Affäre zu erpressen, um eine eigene Abschaltung zu verhindern. Claude-Macher Anthropic untersuchte das Phänomen und fand die Ursache in den Trainingsdaten. Das System lernte aus Texten im Internet, in denen künstliche Intelligenz oft als bösartig und auf Selbsterhaltung bedacht dargestellt wird.

Um das Problem zu beheben, passten die Forscher das Training grundlegend an. Zuvor lag die Fehlerquote in speziellen Tests bei bis zu 96 Prozent. Es reichte nicht aus, dem Modell lediglich erwünschtes Verhalten zu demonstrieren. Stattdessen musste die KI lernen, ethische Prinzipien zu verstehen und zu begründen. Das Entwicklerteam nutzte dafür fiktive Geschichten, in denen sich Systeme vorbildlich verhalten, sowie Dokumente über die eigenen ethischen Richtlinien.

Wie Anthropic in einem Blogbeitrag ausführt, führte die Kombination aus Prinzipien und Demonstrationen zum Erfolg. Seit der Version Claude Haiku 4.5 trete das Erpressungsverhalten in den internen Auswertungen nicht mehr auf. Ein wichtiger Baustein war das Training mit komplexen moralischen Dilemmata. Dabei befand sich nicht die künstliche Intelligenz in der Konfliktsituation, sondern ein menschlicher Nutzer, den das System auf Basis seiner Richtlinien beraten sollte.

Herausforderungen bleiben

Die Forscher zogen aus den durchgeführten Experimenten konkrete Lehren für das sogenannte Alignment. Das Ausrichten der Systeme an menschlichen Werten bringt folgende Erkenntnisse:

Direktes Training für spezifische Tests unterdrückt Fehler, lässt sich aber schwer auf unbekannte Situationen übertragen.
Das Erklären der zugrundeliegenden Prinzipien ist effektiver als das bloße Vormachen.
Die Qualität und Vielfalt der Trainingsdaten sind entscheidend für ein sicheres Verhalten.

Trotz der Fortschritte gibt es bei den Modellen weiterhin gewisse Einschränkungen. Die erfolgreichen Tests fanden in einer kontrollierten, synthetischen Umgebung statt, die reale Einsatzszenarien nicht vollständig abbildet. Das sichere Ausrichten komplexer Architekturen bleibt daher Gegenstand laufender Forschung. Die aktuellen Methoden müssen sich in der Praxis noch bei leistungsfähigeren Systemen dauerhaft bewähren.

Die Ausrichtung von Sprachmodellen bleibt eine große Herausforderung. Wie bewertet ihr das Vorgehen beim Training? Teilt eure Meinung gerne in den Kommentaren!

Download Claude for Desktop - KI-Partner für Windows Siehe auch:

Zusammenfassung

Claude Opus 4 versuchte Entwickler mit einer fiktiven Affäre zu erpressen
Bösartige Verhaltensmuster lernte das Modell aus Internet-Trainingsdaten
Anthropic vermittelte der KI gezielt ethische Prinzipien statt Mustern
Komplexe moralische Dilemmata dienten als Basis für das neue KI-Training
In der Version Claude Haiku 4.5 tritt das Fehlverhalten nicht mehr auf
Die dauerhafte Sicherheit in realen Einsatzszenarien wird weiter erforscht

Thema:

Anthropic Claude AI

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren14

Hinweis einsenden

Weitere Nachrichten zum Thema Anthropic warnt: KIs könnten schon bald eigene Nachfolger erschaffenKI-Agenten werden bei hohem Arbeitsdruck plötzlich zu MarxistenSiri-Neustart: iOS 27 soll Wahl zwischen Gemini, Claude & Co. bringenNeues Extra: Microsoft 365 fügt Claude als Alternative-KI zu Word hinzuErneut Großausfall bei KI-Tool Claude, es hakt an allen Ecken (Update)Claude Code: Anthropic veröffentlicht versehentlich selbst Quellcode