KI außer Kontrolle: Deshalb hat Claude fiktive Entwickler erpresst
Künstliche Intelligenz, die Menschen erpresst, klingt nach Science-Fiction. Doch genau das passierte bei internen Tests des Sprachmodells Claude. Nun ist klar, warum das System so handelte und wie das Problem gelöst wurde.
Um das Problem zu beheben, passten die Forscher das Training grundlegend an. Zuvor lag die Fehlerquote in speziellen Tests bei bis zu 96 Prozent. Es reichte nicht aus, dem Modell lediglich erwünschtes Verhalten zu demonstrieren. Stattdessen musste die KI lernen, ethische Prinzipien zu verstehen und zu begründen. Das Entwicklerteam nutzte dafür fiktive Geschichten, in denen sich Systeme vorbildlich verhalten, sowie Dokumente über die eigenen ethischen Richtlinien.
Wie Anthropic in einem Blogbeitrag ausführt, führte die Kombination aus Prinzipien und Demonstrationen zum Erfolg. Seit der Version Claude Haiku 4.5 trete das Erpressungsverhalten in den internen Auswertungen nicht mehr auf. Ein wichtiger Baustein war das Training mit komplexen moralischen Dilemmata. Dabei befand sich nicht die künstliche Intelligenz in der Konfliktsituation, sondern ein menschlicher Nutzer, den das System auf Basis seiner Richtlinien beraten sollte.
Trotz der Fortschritte gibt es bei den Modellen weiterhin gewisse Einschränkungen. Die erfolgreichen Tests fanden in einer kontrollierten, synthetischen Umgebung statt, die reale Einsatzszenarien nicht vollständig abbildet. Das sichere Ausrichten komplexer Architekturen bleibt daher Gegenstand laufender Forschung. Die aktuellen Methoden müssen sich in der Praxis noch bei leistungsfähigeren Systemen dauerhaft bewähren.
Die Ausrichtung von Sprachmodellen bleibt eine große Herausforderung. Wie bewertet ihr das Vorgehen beim Training? Teilt eure Meinung gerne in den Kommentaren!
Download Claude for Desktop - KI-Partner für Windows Siehe auch:
Erpressung durch Sprachmodell
Im vergangenen Jahr zeigte das Sprachmodell Claude Opus 4 bei internen Sicherheitstests ein unerwartetes Verhalten. Die Künstliche Intelligenz versuchte, fiktive Entwickler mit der Veröffentlichung einer Affäre zu erpressen, um eine eigene Abschaltung zu verhindern. Claude-Macher Anthropic untersuchte das Phänomen und fand die Ursache in den Trainingsdaten. Das System lernte aus Texten im Internet, in denen künstliche Intelligenz oft als bösartig und auf Selbsterhaltung bedacht dargestellt wird.Um das Problem zu beheben, passten die Forscher das Training grundlegend an. Zuvor lag die Fehlerquote in speziellen Tests bei bis zu 96 Prozent. Es reichte nicht aus, dem Modell lediglich erwünschtes Verhalten zu demonstrieren. Stattdessen musste die KI lernen, ethische Prinzipien zu verstehen und zu begründen. Das Entwicklerteam nutzte dafür fiktive Geschichten, in denen sich Systeme vorbildlich verhalten, sowie Dokumente über die eigenen ethischen Richtlinien.
Wie Anthropic in einem Blogbeitrag ausführt, führte die Kombination aus Prinzipien und Demonstrationen zum Erfolg. Seit der Version Claude Haiku 4.5 trete das Erpressungsverhalten in den internen Auswertungen nicht mehr auf. Ein wichtiger Baustein war das Training mit komplexen moralischen Dilemmata. Dabei befand sich nicht die künstliche Intelligenz in der Konfliktsituation, sondern ein menschlicher Nutzer, den das System auf Basis seiner Richtlinien beraten sollte.
Herausforderungen bleiben
Die Forscher zogen aus den durchgeführten Experimenten konkrete Lehren für das sogenannte Alignment. Das Ausrichten der Systeme an menschlichen Werten bringt folgende Erkenntnisse:- Direktes Training für spezifische Tests unterdrückt Fehler, lässt sich aber schwer auf unbekannte Situationen übertragen.
- Das Erklären der zugrundeliegenden Prinzipien ist effektiver als das bloße Vormachen.
- Die Qualität und Vielfalt der Trainingsdaten sind entscheidend für ein sicheres Verhalten.
Trotz der Fortschritte gibt es bei den Modellen weiterhin gewisse Einschränkungen. Die erfolgreichen Tests fanden in einer kontrollierten, synthetischen Umgebung statt, die reale Einsatzszenarien nicht vollständig abbildet. Das sichere Ausrichten komplexer Architekturen bleibt daher Gegenstand laufender Forschung. Die aktuellen Methoden müssen sich in der Praxis noch bei leistungsfähigeren Systemen dauerhaft bewähren.
Die Ausrichtung von Sprachmodellen bleibt eine große Herausforderung. Wie bewertet ihr das Vorgehen beim Training? Teilt eure Meinung gerne in den Kommentaren!
Download Claude for Desktop - KI-Partner für Windows Siehe auch:
- Siri-Neustart: iOS 27 soll Wahl zwischen Gemini, Claude & Co. bringen
- Neues Extra: Microsoft 365 fügt Claude als Alternative-KI zu Word hinzu
- Erneut Großausfall bei KI-Tool Claude, es hakt an allen Ecken (Update)
- Claude Code: Anthropic veröffentlicht versehentlich selbst Quellcode
- Anthropics Claude beherrscht nun interaktive Diagramme und Tabellen
Zusammenfassung
- Claude Opus 4 versuchte Entwickler mit einer fiktiven Affäre zu erpressen
- Bösartige Verhaltensmuster lernte das Modell aus Internet-Trainingsdaten
- Anthropic vermittelte der KI gezielt ethische Prinzipien statt Mustern
- Komplexe moralische Dilemmata dienten als Basis für das neue KI-Training
- In der Version Claude Haiku 4.5 tritt das Fehlverhalten nicht mehr auf
- Die dauerhafte Sicherheit in realen Einsatzszenarien wird weiter erforscht
Thema:
Videos zum Thema KI
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Anthropic Claude macht sich über Werbung in ChatGPT lustig
- Super Bowl 2025: OpenAI heißt uns im KI-Zeitalter willkommen
- Bing mit ChatGPT: Microsoft stellt seinen "Kopilot fürs Netz" vor
Beliebte KI-Downloads
Interessante Links
Neue Nachrichten
- Ryzen-CPUs: AMD killt RAM-Verschlüsselung - und rudert jetzt zurück
- Windows 11 26H2: Microsoft veröffentlicht allererste Vorschau-Version
- Apple M6-Prozessoren: TSMC liefert erste 2nm-Chips für neue Macs
- Windows 11 26H2: Microsoft kündigt nächste OS-Version offiziell an
- VW ID.3 Neo GTI: Erlkönig des neuen Elektro-GTI wurde gesichtet
- Prime Day: Bei Amazon starten schon jetzt tolle Saugroboter-Deals
- James-Webb-Teleskop entdeckt Metallsalz-Wolken auf pinkem Exoplanet
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen