Microsoft: KI kann Code-Debugging einfach nicht so gut wie ein Mensch

Trotz zunehmender Nutzung von Künstlicher Intelligenz in der Softwareentwicklung zeigen aktuelle Studien, dass moderne KI-Modelle beim Debugging an klare Grenzen stoßen. Vor allem schneiden sie hierbei im Vergleich zum Menschen deutlich schlechter ab.

Christian Kahle, 11.04.2025 11:55 Uhr

Hacker, Security, Hack, Entwickler, Entwicklung, Cybersecurity, Exploit, Hacking, Code, Programmierung, Quellcode, Programmierer, Developer, Sdk, Programmieren, Sourcecode, Cyber, Dev, Coding, Coder, Development, Binärcode, Binär

Häufiges Scheitern

So zeigt eine neue Untersuchung von Microsoft Research auf, dass selbst fortschrittliche Systeme wie OpenAIs o3-mini oder Claude 3.7 Sonnet von Anthropic oft an Aufgaben scheitern, die für erfahrene Entwickler problemlos lösbar wären. Im Rahmen der Studie wurden neun verschiedene Sprachmodelle getestet, die als Grundlage für einen Debugging-Agenten dienten.

Dieser Agent erhielt Zugriff auf verschiedene Werkzeuge - darunter einen Python-Debugger - und sollte 300 Aufgaben aus dem Benchmark-Set SWE-bench Lite lösen, das typische Fehler in realer Softwareentwicklung simuliert. Die Ergebnisse sind ernüchternd: Kein Modell konnte mehr als die Hälfte der Aufgaben erfolgreich bewältigen. Claude 3.7 Sonnet schnitt mit einer Erfolgsquote von 48,4 Prozent am besten ab. OpenAIs Modelle erreichten deutlich niedrigere Werte - o1 kam auf 30,2 Prozent, o3-mini nur auf 22,1 Prozent.

Die Forschenden sehen die Hauptursache in einem Mangel an geeigneten Trainingsdaten. Insbesondere fehle es den Modellen an Einblicken in reale, sequenzielle Entscheidungsprozesse - also an Daten, die zeigen, wie Entwickler Schritt für Schritt Informationen sammeln und Fehler beheben. Auch die Fähigkeit der Modelle, Debugging-Werkzeuge effektiv zu nutzen, sei bislang unzureichend.

Investiert wird trotzdem

Trotz dieser Schwächen investieren viele Tech-Konzerne weiterhin massiv in KI-gestützte Programmierhilfen. Google-Chef Sundar Pichai erklärte im Oktober, dass bereits ein Viertel des neuen Codes bei Google von KI generiert werde. Auch Meta plant eine weitreichende Integration solcher Systeme.

Führende Köpfe der Branche warnen jedoch vor überzogenen Erwartungen. Microsoft-Mitgründer Bill Gates, Replit-Chef Amjad Masad und andere sehen in der KI ein unterstützendes Werkzeug - nicht aber den Ersatz für menschliche Entwickler. Die Microsoft-Studie liefert nun ein weiteres Argument dafür, den Hype um generative KI im Coding-Alltag mit Vorsicht zu betrachten.

Zusammenfassung

Microsoft-Studie: KI-Modelle scheitern oft beim Code-Debugging
Neun getestete Sprachmodelle lösten maximal 48,4 % der Aufgaben
Mangel an Trainingsdaten für reale Entscheidungsprozesse als Ursache
Tech-Konzerne investieren trotz Schwächen weiter in KI-Programmierhilfen
Experten warnen vor überzogenen Erwartungen an KI in der Entwicklung
KI wird als unterstützendes Werkzeug, nicht als Entwicklerersatz gesehen
Die Studie mahnt zur Vorsicht beim Einsatz generativer KI im Coding-Alltag

Siehe auch:

Themen:

Künstliche Intelligenz Microsoft Research Bill Gates

Kommentieren4

Hinweis einsenden

Weitere Nachrichten zum Thema KI-Halluzinationen bei Code-Entwicklung führen in Security-KatastropheProgrammierung: KI ist nicht unbedingt besser als altes Microsoft-ToolGoogle-Forschungschef: Programmierwissen bleibt trotz KI essenziellMicrosoft bezahlt KI-Programmierer wesentlich besser als andere