Microsoft: KI kann Code-Debugging einfach nicht so gut wie ein Mensch

Trotz zunehmender Nutzung von Künstlicher Intelligenz in der Softwareentwicklung zeigen aktuelle Studien, dass moderne KI-Modelle beim Debugging an klare Grenzen stoßen. Vor allem schneiden sie hierbei im Vergleich zum Menschen deutlich schlechter ab.
Hacker, Security, Hack, Entwickler, Entwicklung, Cybersecurity, Exploit, Hacking, Code, Programmierung, Quellcode, Programmierer, Developer, Sdk, Programmieren, Sourcecode, Cyber, Dev, Coding, Coder, Development, Binärcode, Binär

Häufiges Scheitern

So zeigt eine neue Untersuchung von Microsoft Research auf, dass selbst fortschrittliche Systeme wie OpenAIs o3-mini oder Claude 3.7 Sonnet von Anthropic oft an Aufgaben scheitern, die für erfahrene Entwickler problemlos lösbar wären. Im Rahmen der Studie wurden neun verschiedene Sprachmodelle getestet, die als Grundlage für einen Debugging-Agenten dienten.

Dieser Agent erhielt Zugriff auf verschiedene Werkzeuge - darunter einen Python-Debugger - und sollte 300 Aufgaben aus dem Benchmark-Set SWE-bench Lite lösen, das typische Fehler in realer Softwareentwicklung simuliert. Die Ergebnisse sind ernüchternd: Kein Modell konnte mehr als die Hälfte der Aufgaben erfolgreich bewältigen. Claude 3.7 Sonnet schnitt mit einer Erfolgsquote von 48,4 Prozent am besten ab. OpenAIs Modelle erreichten deutlich niedrigere Werte - o1 kam auf 30,2 Prozent, o3-mini nur auf 22,1 Prozent.


Die Forschenden sehen die Hauptursache in einem Mangel an geeigneten Trainingsdaten. Insbesondere fehle es den Modellen an Einblicken in reale, sequenzielle Entscheidungsprozesse - also an Daten, die zeigen, wie Entwickler Schritt für Schritt Informationen sammeln und Fehler beheben. Auch die Fähigkeit der Modelle, Debugging-Werkzeuge effektiv zu nutzen, sei bislang unzureichend.

Investiert wird trotzdem

Trotz dieser Schwächen investieren viele Tech-Konzerne weiterhin massiv in KI-gestützte Programmierhilfen. Google-Chef Sundar Pichai erklärte im Oktober, dass bereits ein Viertel des neuen Codes bei Google von KI generiert werde. Auch Meta plant eine weitreichende Integration solcher Systeme.

Führende Köpfe der Branche warnen jedoch vor überzogenen Erwartungen. Microsoft-Mitgründer Bill Gates, Replit-Chef Amjad Masad und andere sehen in der KI ein unterstützendes Werkzeug - nicht aber den Ersatz für menschliche Entwickler. Die Microsoft-Studie liefert nun ein weiteres Argument dafür, den Hype um generative KI im Coding-Alltag mit Vorsicht zu betrachten.

Zusammenfassung
  • Microsoft-Studie: KI-Modelle scheitern oft beim Code-Debugging
  • Neun getestete Sprachmodelle lösten maximal 48,4 % der Aufgaben
  • Mangel an Trainingsdaten für reale Entscheidungsprozesse als Ursache
  • Tech-Konzerne investieren trotz Schwächen weiter in KI-Programmierhilfen
  • Experten warnen vor überzogenen Erwartungen an KI in der Entwicklung
  • KI wird als unterstützendes Werkzeug, nicht als Entwicklerersatz gesehen
  • Die Studie mahnt zur Vorsicht beim Einsatz generativer KI im Coding-Alltag

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!