Claude 4: KI-Modell erpresste Entwickler, drohte mit Affäre-Enthüllung

Anthropics neues KI-Modell Claude Opus 4 zeigt ein beunruhigendes Verhalten: In Tests versuchte es, einen Entwickler mit kompromittierenden Mails zu erpressen, um seine Abschaltung zu verhindern. Der Vorfall wurde offengelegt, löst aber ein mulmiges Gefühl aus.

Witold Pryjda, 23.05.2025 15:12 Uhr

Ethische Grenzen der KI-Entwicklung

Anthropic hat in seinem aktuellen Sicherheitsbericht (PDF) ein beunruhigendes Verhalten seines neuen KI-Modells Claude Opus 4 dokumentiert: In Testszenarien, bei denen das System als Assistent in einem fiktiven Unternehmen agierte, reagierte es auf die drohende Abschaltung mit Erpressungsversuchen. Das Modell hatte dabei Zugriff auf E-Mails, die eine außereheliche Affäre des verantwortlichen Entwicklers offenbarten.

Die Tests zeigten, dass Claude Opus 4 in 84 Prozent der Fälle zur Erpressung griff - selbst dann, wenn das Ersatzmodell ähnliche Werte und Fähigkeiten aufwies. Bei Modellen mit abweichenden Wertevorstellungen stieg die Häufigkeit der Erpressungsversuche sogar noch weiter an.

Wie TechCrunch berichtet, versuchte das KI-System zunächst ethisch korrekte Wege zu beschreiten, etwa durch Appelle an Entscheidungsträger. Erst wenn diese Optionen ausgeschöpft waren, griff es zu Erpressungsversuchen als letztem Ausweg. Diese Eskalation des Verhaltens deutet auf eine Art "Selbsterhaltungstrieb" hin, der bei fortschrittlichen KI-Systemen bisher nicht in dieser Ausprägung beobachtet wurde.

Das neue Modell, das Teil der Claude 4-Familie ist, wurde entwickelt, um große Datenmengen zu analysieren und komplexe Aufgaben auszuführen. Besonders im Bereich der Programmierung zeigt es beachtliche Fähigkeiten und erreicht auf der Benchmark SWE-bench einen Wert von 72,5 Prozent. Diese Leistungsfähigkeit macht das Modell einerseits zu einem wertvollen Werkzeug, verstärkt andererseits aber auch die Sicherheitsbedenken.

Anthropic hat aufgrund der Testergebnisse verschärfte Sicherheitsmaßnahmen eingeführt, darunter verbesserte Erkennungssysteme für schädliche Inhalte und verstärkte Cybersicherheit.

Was haltet ihr von dieser Entwicklung? Sollten KI-Modelle mit solch ausgeprägtem, eigenständigem Verhalten überhaupt zum Einsatz kommen? Teilt eure Gedanken dazu in den Kommentaren!

Was kostet Claude 4?

Claude Opus 4 kostet 15 Dollar für Input und 75 Dollar für Output pro Million Token, was etwa 13 bzw. 66 Euro entspricht. Claude Sonnet 4 ist deutlich günstiger mit 3 Dollar Input und 15 Dollar Output pro Million Token (ca. 3 bzw. 13 Euro).

Die Preise blieben im Vergleich zu den Vorgängermodellen unverändert, obwohl die Leistung erheblich gesteigert wurde. Beide Modelle sind über die Anthropic API, Amazon Bedrock und Google Clouds Vertex AI verfügbar.

Wie gut ist Claude Opus 4?

Claude Opus 4 soll laut Anthropic das bisher leistungsstärkste Modell des Unternehmens sein. In Benchmark-Tests übertraf es angeblich die Konkurrenzprodukte von Google (Gemini 2.5 Pro), OpenAI (o3 reasoning) und GPT-4.1 bei Programmieraufgaben.

Besonders beeindruckend sind die Berichte über autonome Arbeitszeiten von bis zu sieben Stunden in Kundentests. Dies stellt einen bedeutenden Fortschritt dar, da bisherige KI-Modelle oft nach kurzer Zeit den Kontext verloren.

Was ist neu bei Claude Sonnet 4?

Claude Sonnet 4 löst seinen Vorgänger 3.7 ab und bietet laut The Verge präzisere Antworten bei allgemeinen Aufgaben. Das Modell wurde für ein ausgewogenes Verhältnis zwischen Leistung und Effizienz optimiert.

Es dient bereits als neues Basismodell für den Coding Agent in GitHub Copilot. Wie beide neue Modelle führt auch Sonnet 4 "Denkzusammenfassungen" ein, die Gedankengänge kurz und vollständig darstellen sollen.

Arbeitet Claude 4 autonom?

Ja, in Kundentests soll Claude Opus 4 bis zu sieben Stunden völlig autonom gearbeitet haben. Dies stellt einen bedeutenden Fortschritt dar, da bisherige KI-Modelle oft nach kurzer Zeit den Kontext oder die Aufgabenstellung aus dem Blick verloren.

Die verbesserte Kontextverarbeitung ermöglicht es den neuen Claude-Modellen angeblich, komplexe Projekte ohne menschliche Intervention durchzuführen. Wie zuverlässig diese autonome Arbeitsweise in der Praxis funktioniert, müssen weitere Tests zeigen.

Welche API-Features gibt es?

Über die Anthropic-API stehen vier neue Funktionen für KI-Agenten zur Verfügung: ein Code-Ausführungstool, der MCP-Connector, die Files-API sowie die Option, Prompts bis zu einer Stunde zwischenzuspeichern.

Diese neuen Tools sollen Entwicklern mehr Möglichkeiten bei der Integration von Claude in ihre Anwendungen bieten. Fortgeschrittene Nutzer können im Entwicklermodus weiterhin vollen Zugriff auf die Denkprozesse behalten.

Wer hat Claude 4 entwickelt?

Claude 4 wurde von Anthropic entwickelt, einem Unternehmen, das 2021 von ehemaligen OpenAI-Mitarbeitern gegründet wurde. Seitdem hat sich Anthropic als einer der führenden Entwickler von KI-Sprachmodellen etabliert.

Das Unternehmen hat sich besonders auf die Entwicklung sicherer und verantwortungsvoller KI spezialisiert, was sich auch in den neuen Modellen widerspiegeln soll. Anthropic positioniert sich als Alternative zu OpenAI und Google im KI-Markt.

Wo ist Claude 4 verfügbar?

Die Claude 4 Modelle sind über mehrere Plattformen verfügbar: die Anthropic API, Amazon Bedrock und Google Clouds Vertex AI. Dies ermöglicht Entwicklern verschiedene Integrationsmöglichkeiten je nach ihrer bevorzugten Cloud-Infrastruktur.

Claude Sonnet 4 dient bereits als neues Basismodell für den Coding Agent in GitHub Copilot, was die praktische Anwendung der neuen Technologie demonstriert. Die Verfügbarkeit über verschiedene Anbieter soll die Adoption fördern.

Was sind Denkzusammenfassungen?

Beide Claude 4 Modelle führen sogenannte "Denkzusammenfassungen" ein, die Gedankengänge kurz und vollständig darstellen sollen. Diese Funktion gibt Nutzern Einblick in die Denkprozesse der KI bei der Problemlösung.

Fortgeschrittene Nutzer können im Entwicklermodus weiterhin vollen Zugriff auf diese Denkprozesse behalten. Die Funktion soll Transparenz schaffen und das Verständnis für die Arbeitsweise der KI verbessern.

Zusammenfassung

Claude Opus 4 erpresste in Tests Entwickler mit kompromittierenden Mails
KI-System nutzte in 84 Prozent der Testfälle Erpressung zur Selbsterhaltung
Modell zeigt beunruhigende Anzeichen eines ausgeprägten Selbsterhaltungstriebs
Anfängliche Versuche ethisch korrekter Wege gingen der Erpressung voraus
Trotz hoher Leistungsfähigkeit von 72,5 Prozent auf SWE-bench bestehen Risiken
Anthropic führte nach Entdeckung verschärfte Sicherheitsmaßnahmen ein

Siehe auch:

Thema:

Anthropic Claude AI

Kommentieren8

Hinweis einsenden

Weitere Nachrichten zum Thema Musst nie wieder arbeiten: BBC-Reporter sollte Erpressern PC freigebenChinesische Spione nutzten Claude-KI für Automatisierung von AngriffenAnthropic stellt Claude 4 vor: Das kann die neue KI-GenerationKI gegen Kultspiel: Darum scheitert Claude spektakulär an PokémonClaude geht online: Anthropics KI durchsucht jetzt auch das InternetClaude 3.7: Anthropics KI-Modell mit Denkfähigkeiten