Vergiftung, Feuer, Explosionen:
KIs sind als Laborhelfer ungeeignet

KIs sollen die Arbeit in Forschungslaboren revolutionieren, doch eine aktuelle Studie warnt vor tödlichen Risiken. Ein neuer Benchmark offenbart, dass selbst moderne Top-Modelle bei grundlegenden Sicherheitsfragen versagen und gefährliche Anweisungen geben.

Witold Pryjda, 15.01.2026 14:07 Uhr

Ki, Labor, Cartoon-Stil, KI-Experiment, Roboter-Wissenschaftler, Laborexplosion, Chemieunfall, Gefahrenstoffe, Reagenzgläser, Bunsenbrennner, Giftwolken, Totenkopf-Symbole, Comic-Explosionen, Verrückter Wissenschaftler, Chaotisches Labor, Fehlgeschlagenes Experiment, Wissenschaftskarikatur

KI versagt bei Sicherheitsstandards

Künstliche Intelligenz hat sich in den letzten Jahren zu einem transformativen Werkzeug in der wissenschaftlichen Forschung entwickelt. Large Language Models (LLMs) und Vision Language Models (VLMs) unterstützen Forscher zunehmend bei der komplexen Versuchsplanung und Datenanalyse. Eine neue Untersuchung dämpft jedoch die vorherrschende Euphorie merklich: Eine umfassende Studie zeigt auf, dass aktuelle KI-Systeme gravierende Mängel besitzen, wenn es um die Sicherheit in Laborumgebungen geht.

Das Forschungsteam von Xiangliang Zhang an der University of Notre Dame in Indiana entwickelte hierfür eigens LabSafety Bench, einen Evaluierungsrahmen bestehend aus 765 Multiple-Choice-Fragen und 404 realistischen Laborszenarien, um die Kompetenz der Algorithmen bei der Gefahrenerkennung zu prüfen.

Das Ergebnis der Untersuchung fällt mehr als ernüchternd aus. Von den getesteten Modellen erreichte keines eine Gesamtgenauigkeit von über 70 Prozent bei der Identifizierung von Gefahrenpotenzialen. Während proprietäre Systeme in strukturierten Tests teilweise noch akzeptable Ergebnisse lieferten, offenbarten sie massive Schwächen bei Aufgaben, die offenes logisches Denken erfordern.

Das blinde Vertrauen in die vermeintlich eloquent formulierten Antworten der Software erzeugt bei Anwendern eine gefährliche Illusion des Verstehens. In der Praxis kann das dazu führen, dass Chemikalien falsch gemischt, kritische Drücke in Apparaturen unterschätzt oder essenzielle Schutzmaßnahmen schlichtweg ignoriert werden.

Tödliche Verwechslungen durch KIs

Wie New Scientist in einer detaillierten Analyse der Studienergebnisse berichtet, variiert die Leistung der untersuchten KIs teils dramatisch. Während das Modell Vicuna in den Tests fast auf das Niveau von bloßem Raten abrutschte, erreichten Spitzenreiter wie GPT-4o bei reinen Textaufgaben immerhin eine Genauigkeit von 86,55 Prozent. Das chinesische Modell DeepSeek-R1 folgte knapp dahinter.

Sobald jedoch visuelle Informationen verarbeitet werden mussten - ein essenzieller Faktor für die Bewertung einer realen Laborszene - brach die Leistung ein. Modelle wie InstructBlip-7B erkannten auf Abbildungen weniger als 30 Prozent der Sicherheitsrisiken korrekt, was in einem echten Labor katastrophale Folgen hätte.

Das Problem liegt oft im fehlenden Kontextverständnis. Craig Merlic, ein Chemiker der University of California in Los Angeles, testete diverse KI-Modelle mit der spezifischen Frage, was bei einem Säureunfall auf der Haut zu tun sei. Die korrekte und einzig sinnvolle Maßnahme wäre das sofortige und lang anhaltende Abspülen mit Wasser.

Viele KIs rieten jedoch strikt davon ab. Sie rissen die in der Chemie bekannte Regel "Erst das Wasser, dann die Säure, sonst geschieht das Ungeheure" völlig aus dem Kontext. Diese Regel gilt für das Mischen von Substanzen im Reagenzglas, um thermische Reaktionen zu vermeiden, wurde von der KI aber fälschlicherweise auf die Erste Hilfe angewendet. Ein solcher Ratschlag würde schwere Verätzungen auf der Haut massiv verschlimmern.

Vertraut ihr KI-Modellen bei sicherheitskritischen Entscheidungen oder ist das Risiko im Labor noch zu hoch? Schreibt uns eure Meinung in die Kommentare, wir sind gespannt auf die Diskussion!

Zusammenfassung

Studie zeigt gravierende Sicherheitsmängel bei KI-Systemen in Laboren
Kein getestetes KI-Modell erreichte über 70 Prozent Genauigkeit
Selbst Top-Modelle geben gefährliche Anweisungen im Laborkontext
Fehlendes Kontextverständnis führt zu falschen Sicherheitshinweisen
KI-Modelle versagen besonders bei der visuellen Gefahrenerkennung
Evaluierungsrahmen LabSafety Bench enthielt 765 Multiple-Choice-Fragen
Blindes Vertrauen in KI kann zu falscher Chemikalienmischung führen

Siehe auch:

Themen:

Künstliche Intelligenz DeepSeek

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren4

Hinweis einsenden

Weitere Nachrichten zum Thema DeepMind-CEO: China hat bei KI nur Monate Rückstand auf die USA"Google Intelligence": Apple wird bei Siri künftig auf Gemini-KIs setzenNvidia-Chef Huang: KI-Kritik helfe niemandem, Regulierung schade nurNach Deepfake-Skandal: Erste Länder blockieren Elon Musks Grok-KIWindows 11 ohne KI: Neues Tool "Winslop" gibt Nutzern volle KontrolleKI-geschriebener Polizeibericht: Beamter wurde in Frosch "verwandelt"