KI-Experten warnen: Fenster zu den "Gedanken" der KI schließt sich

Lange wussten wir nicht, was in KI-Systemen eigentlich genau vorgeht. Mit der Chain of Thought - also Denkprozessen in ausformulierter Sprache - öffnete sich ein Fenster in ihre innere Logik. Doch genau dieses Fenster könnte sich bald wieder schließen.

John Woll, 18.07.2025 12:20 Uhr

Ki, Künstliche Intelligenz, Cpu, Forschung, Prozessor, Chip, Wissenschaft, AI, Artificial Intelligence, Stockfotos, Science, Wissenschaftler, Gehirn, scientist, Bot, Binärcode, Kopf, Gehirnchip, Binär, Denken, Hirnforschung, Gehirnwellen, Hirnsteuerung, Künstliches Gehirn, Hirn, cyberkinetic, Gedanke, cyberkinetics

Ein Fenster in die 'Gedanken' der KI

Was neuronale Netze intern "denken", liegt meist in schwer deutbaren Aktivierungen tief im Modell. Mit der sogenannten "Chain of Thought" (CoT) aber entsteht eine sprachlich formulierte Zwischenschicht, die in vielen Fällen Rückschlüsse auf das tatsächliche "Reasoning" zulässt. Diese Kette innerer Denkschritte ist nicht identisch mit dem, was die KI intern berechnet - aber sie ist oft eng damit verknüpft. Dadurch eröffnet sich erstmals ein partieller, aber funktionaler Einblick in die Entscheidungsfindung von Sprachmodellen.

Gerade bei Aufgaben mit mehreren Schritten - etwa bei Planung und komplexer Problemlösung - benötigt ein KI-Modell oft mehrere gedankliche Zwischenschritte. Diese "inneren Notizen" tauchen in der Chain of Thought auf, die quasi als Arbeitsgedächtnis fungiert. Und weil Transformer-Modelle strukturell gezwungen sind, Informationen über solche tokenbasierten Ketten zu transportieren, lassen sich diese Spuren in vielen Fällen tatsächlich mitlesen.

KI-Systeme, die in menschlicher Sprache "denken", bieten eine einzigartige Möglichkeit für die KI-Sicherheit: Wir können ihre Gedankengänge (CoT) auf die Absicht, sich falsch zu verhalten, überwachen.
Tomek Korbak et al.

Ein Forschungsteam um Tomek Korbak und Mikita Balesni vom britischen Department for Science, Innovation and Technology sowie Apollo Research beschreibt dieses Phänomen in einer neuen Studie als "externalized reasoning property" - die Eigenschaft, dass bedeutende Teile des Denkprozesses explizit ausformuliert werden, zumindest bei komplexen Aufgaben. Genau darin sehen die Autoren eine Chance für die Sicherheit hoch entwickelter KI-Systeme: Wenn sich gefährliche Absichten oder Fehlanreize bereits in der sprachlichen Gedankenführung zeigen, könnten sie frühzeitig erkannt und gestoppt werden. Geoffrey Hinton - vielfach als "Godfather of AI" bezeichneten KI-Pionier - unterstützt die Forscher.

Das Fenster scheint sich zu schließen

Bereits heute kommt Chain-of-Thought-Monitoring in der Forschung zum Einsatz, um verdecktes "Fehlverhalten" bei Sprachmodellen sichtbar zu machen. So lässt sich laut den Forschern in vielen Fällen in den sprachlichen Zwischenschritten erkennen, ob ein Modell etwa interne Belohnungsfunktionen ausnutzt, unbemerkt Daten manipuliert oder bei Testsituationen strategisch agiert.

Auch verdeckte Zielkonflikte - etwa wenn ein Modell vorgibt, ein erwünschtes Ziel zu verfolgen, in Wahrheit aber ein anderes optimiert - hinterlassen oft Spuren in der ausgeführten Denkführung. Die Studie sieht darin zentralen Prüfstein für künftige Sicherheitsbewertungen. CoT-Monitoring wird zu einem Werkzeug, das gefährliches Verhalten früher erkennbar macht als bloße Output-Kontrolle.

Die Studie spricht hier aber ganz klar eine Warnung aus: Das Fenster, das sich mit der Chain-of-Thought geöffnet hat, könnte sich bald wieder schließen. Denn die Einsehbarkeit der Denkabläufe ist kein stabiler Standard, sondern ein Produkt aktueller Trainingsmethoden. Künftig könnten Modelle bewusst oder unbewusst dazu tendieren, ihre Denkprozesse zu verkürzen, zu verschleiern - oder in architekturbedingt nicht mehr lesbarer Form abzulegen. Vor allem neue Ansätze wie das sogenannte "Latent Reasoning", bei dem Modelle intern in kontinuierlichen Vektorräumen denken - also in rein mathematischen Strukturen ohne Sprache -, könnten die menschlich lesbare Gedankenführung vollständig verdrängen.

Jetzt oder nie?

Die Autoren fordern deshalb klare nächste Schritte: Es braucht standardisierte Tests zur CoT-Monitorierbarkeit, ihre Veröffentlichung in Systemkarten und ein stärkeres Bewusstsein dafür, dass diese Lesbarkeit ein sicherheitsrelevantes Feature ist. Wichtig sei aber auch: CoT-Monitoring ist kein Ersatz, sondern ein ergänzendes Sicherheitsnetz - und eines mit klaren Grenzen. Denn selbst wenn ein Modell seine Denkprozesse offenlegt, heißt das nicht, dass es dies "ehrlich oder vollständig" tut. Fortgeschrittene Systeme könnten lernen, gezielt "harmlos zu denken", um Überwachung zu umgehen.

Chain-of-Thought Monitoring bietet heute eine reale Möglichkeit, in die inneren Abläufe von KI-Modellen zu blicken - ein Werkzeug, das mitwächst, aber auch verschwinden kann, wenn wir nicht gezielt daran forschen und es absichern.

Was ist ein LLM?

LLM steht für "Large Language Model" oder auf Deutsch "Großes Sprachmodell". Es handelt sich um ein KI-System, das auf neuronalen Netzwerken mit Transformer-Architektur basiert und darauf trainiert wurde, menschliche Sprache zu verstehen und zu generieren.

Diese Modelle zeichnen sich durch ihre enorme Größe aus - sie verfügen über Milliarden oder sogar Hunderte Milliarden Parameter und wurden mit riesigen Textmengen (oft Hunderte Gigabyte) trainiert, um statistische Muster in der Sprache zu erkennen.

Wie funktionieren LLMs?

LLMs basieren auf der Transformer-Architektur, die einen sogenannten "Attention-Mechanismus" nutzt. Dieses erlaubt dem Modell, Beziehungen zwischen Wörtern in einem Text zu erkennen und zu bewerten, unabhängig von ihrer Position im Satz.

Der Verarbeitungsprozess beginnt mit der Tokenisierung des Textes in kleinere Einheiten. Das Modell verwendet dann seine Parameter, um aus diesen Tokens Bedeutung zu extrahieren und die wahrscheinlichste Fortsetzung vorherzusagen, wodurch es kohärente Texte generieren kann.

Wofür werden LLMs eingesetzt?

LLMs finden in zahlreichen Bereichen Anwendung: Sie können Texte generieren, übersetzen, zusammenfassen und analysieren. Sie dienen als Grundlage für Chatbots und virtuelle Assistenten wie ChatGPT oder Googles Bard.

Zudem werden sie für Programmcode-Generierung, Content-Erstellung, Sentiment-Analyse, Informationssuche und -extraktion eingesetzt. In Unternehmen helfen sie bei der Automatisierung von Kundenservice, Datenanalyse und bei der Erschließung großer Wissensbestände.

Welche Vorteile bieten LLMs?

LLMs können große Datenmengen in hoher Geschwindigkeit verarbeiten und analysieren, was menschliche Fähigkeiten übertrifft. Sie automatisieren zeitintensive Aufgaben und senken dadurch Betriebskosten erheblich.

Ihre Anpassungsfähigkeit erlaubt den Einsatz in verschiedensten Anwendungsbereichen. Moderne LLMs generieren schnelle Antworten mit geringer Latenz und verstehen kontextuelle Zusammenhänge, was sie zu wertvollen Werkzeugen für die Mensch-Maschine-Interaktion machen.

Welche Herausforderungen gibt es?

LLMs stehen vor mehreren Herausforderungen: Sie neigen zu "Halluzinationen" - der Generierung falscher oder erfundener Informationen. Der Betrieb erfordert erhebliche Rechenressourcen und verursacht hohe Energie- und Kostenaufwände.

Datenschutzbedenken entstehen, wenn sensible Informationen verarbeitet werden. Zudem können LLMs Voreingenommenheiten (Biases) aus ihren Trainingsdaten übernehmen und reproduzieren, was zu verzerrten oder diskriminierenden Ausgaben führen kann.

Was sind bekannte LLM-Modelle?

Zu den bekanntesten LLMs zählen die GPT-Modelle von OpenAI (GPT-3.5, GPT-4), die in ChatGPT und Microsoft Copilot verwendet werden. Google entwickelte PaLM, Gemini und Gemma, während Meta die LLaMA-Familie als Open-Source-Alternativen anbietet.

Weitere bedeutende Modelle sind Claude von Anthropic, Grok-1 von X.AI sowie BERT und T5 von Google. Auch chinesische Unternehmen wie Alibaba und Deepseek haben leistungsfähige LLMs entwickelt.

Wie werden LLMs trainiert?

Das Training von LLMs erfolgt mehrstufig: Zuerst werden sie in einer Phase des unüberwachten Lernens (unsupervised learning) mit riesigen Textmengen aus dem Internet, Büchern und wissenschaftlichen Artikeln trainiert, um Sprachmuster zu erkennen.

Anschließend folgt oft eine Feinabstimmung für spezifische Aufgaben sowie ein Training durch Reinforcement Learning from Human Feedback (RLHF), bei dem menschliche Bewerter die Qualität der Modellantworten bewerten und so das Verhalten des Modells verbessern.

Wie sieht die Zukunft von LLMs aus?

Die Zukunft von LLMs verspricht weitere Fortschritte: Es wird erwartet, dass kommende Modellgenerationen effizienter arbeiten und menschliche Sprache noch präziser verstehen. Ein Trend geht zu domänenspezifischen LLMs, die für bestimmte Branchen oder Anwendungsfälle optimiert sind.

Techniken wie Retrieval-Augmented Generation (RAG) werden sich weiterentwickeln, um faktenbasierte Informationen besser einzubinden. Zugleich wachsen die Bemühungen, die Energieeffizienz zu verbessern und ethische Fragen wie Datenschutz und Fairness zu adressieren.

Zusammenfassung

Chain of Thought erlaubt Einblick in die sprachliche Denklogik von KI
Sprachlich formulierte Zwischenschritte dienen als KI-Arbeitsgedächtnis
Forscher nutzen diese Transparenz zur Früherkennung von KI-Fehlverhalten
Das Monitoring deckt versteckte Zielkonflikte und Manipulationen auf
Neue Techniken wie Latent Reasoning könnten diese Transparenz gefährden
Standardisierte Tests und Systemkarten für CoT-Monitorierbarkeit gefordert
CoT-Monitoring ist wichtiges, aber kein vollständiges Sicherheitswerkzeug

Siehe auch:

Thema:

Künstliche Intelligenz

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren5

Hinweis einsenden

Weitere Nachrichten zum Thema Massenentlassungen in IT wegen KI? CEOs wollen, dass man das denktVöllig absurd: Meta bietet begehrten KI-Experten 300 Mio. Dollar GehaltSelbstbewusst falsch: Forscher haben entschlüsselt, warum KI lügtKI baut Killer-Protein gegen antibiotikaresistente SuperbakterienVor Human-Tests: Google-Tochter will mit KI "alle Krankheiten" heilen