Microsoft: KI kann Code-Debugging einfach nicht so gut wie ein Mensch
Trotz zunehmender Nutzung von Künstlicher Intelligenz in der Softwareentwicklung zeigen aktuelle Studien, dass moderne KI-Modelle beim Debugging an klare Grenzen stoßen. Vor allem schneiden sie hierbei im Vergleich zum Menschen deutlich schlechter ab.
Dieser Agent erhielt Zugriff auf verschiedene Werkzeuge - darunter einen Python-Debugger - und sollte 300 Aufgaben aus dem Benchmark-Set SWE-bench Lite lösen, das typische Fehler in realer Softwareentwicklung simuliert. Die Ergebnisse sind ernüchternd: Kein Modell konnte mehr als die Hälfte der Aufgaben erfolgreich bewältigen. Claude 3.7 Sonnet schnitt mit einer Erfolgsquote von 48,4 Prozent am besten ab. OpenAIs Modelle erreichten deutlich niedrigere Werte - o1 kam auf 30,2 Prozent, o3-mini nur auf 22,1 Prozent.
Die Forschenden sehen die Hauptursache in einem Mangel an geeigneten Trainingsdaten. Insbesondere fehle es den Modellen an Einblicken in reale, sequenzielle Entscheidungsprozesse - also an Daten, die zeigen, wie Entwickler Schritt für Schritt Informationen sammeln und Fehler beheben. Auch die Fähigkeit der Modelle, Debugging-Werkzeuge effektiv zu nutzen, sei bislang unzureichend.
Führende Köpfe der Branche warnen jedoch vor überzogenen Erwartungen. Microsoft-Mitgründer Bill Gates, Replit-Chef Amjad Masad und andere sehen in der KI ein unterstützendes Werkzeug - nicht aber den Ersatz für menschliche Entwickler. Die Microsoft-Studie liefert nun ein weiteres Argument dafür, den Hype um generative KI im Coding-Alltag mit Vorsicht zu betrachten.
Siehe auch:
Häufiges Scheitern
So zeigt eine neue Untersuchung von Microsoft Research auf, dass selbst fortschrittliche Systeme wie OpenAIs o3-mini oder Claude 3.7 Sonnet von Anthropic oft an Aufgaben scheitern, die für erfahrene Entwickler problemlos lösbar wären. Im Rahmen der Studie wurden neun verschiedene Sprachmodelle getestet, die als Grundlage für einen Debugging-Agenten dienten.Dieser Agent erhielt Zugriff auf verschiedene Werkzeuge - darunter einen Python-Debugger - und sollte 300 Aufgaben aus dem Benchmark-Set SWE-bench Lite lösen, das typische Fehler in realer Softwareentwicklung simuliert. Die Ergebnisse sind ernüchternd: Kein Modell konnte mehr als die Hälfte der Aufgaben erfolgreich bewältigen. Claude 3.7 Sonnet schnitt mit einer Erfolgsquote von 48,4 Prozent am besten ab. OpenAIs Modelle erreichten deutlich niedrigere Werte - o1 kam auf 30,2 Prozent, o3-mini nur auf 22,1 Prozent.
Die Forschenden sehen die Hauptursache in einem Mangel an geeigneten Trainingsdaten. Insbesondere fehle es den Modellen an Einblicken in reale, sequenzielle Entscheidungsprozesse - also an Daten, die zeigen, wie Entwickler Schritt für Schritt Informationen sammeln und Fehler beheben. Auch die Fähigkeit der Modelle, Debugging-Werkzeuge effektiv zu nutzen, sei bislang unzureichend.
Investiert wird trotzdem
Trotz dieser Schwächen investieren viele Tech-Konzerne weiterhin massiv in KI-gestützte Programmierhilfen. Google-Chef Sundar Pichai erklärte im Oktober, dass bereits ein Viertel des neuen Codes bei Google von KI generiert werde. Auch Meta plant eine weitreichende Integration solcher Systeme.Führende Köpfe der Branche warnen jedoch vor überzogenen Erwartungen. Microsoft-Mitgründer Bill Gates, Replit-Chef Amjad Masad und andere sehen in der KI ein unterstützendes Werkzeug - nicht aber den Ersatz für menschliche Entwickler. Die Microsoft-Studie liefert nun ein weiteres Argument dafür, den Hype um generative KI im Coding-Alltag mit Vorsicht zu betrachten.
Zusammenfassung
- Microsoft-Studie: KI-Modelle scheitern oft beim Code-Debugging
- Neun getestete Sprachmodelle lösten maximal 48,4 % der Aufgaben
- Mangel an Trainingsdaten für reale Entscheidungsprozesse als Ursache
- Tech-Konzerne investieren trotz Schwächen weiter in KI-Programmierhilfen
- Experten warnen vor überzogenen Erwartungen an KI in der Entwicklung
- KI wird als unterstützendes Werkzeug, nicht als Entwicklerersatz gesehen
- Die Studie mahnt zur Vorsicht beim Einsatz generativer KI im Coding-Alltag
Siehe auch:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Wird Windows Version 27H2 das größte Update seit Langem?
- Kunde zahlt RTX 5070, doch Amazon liefert nur einen alten DVD-Brenner
- Disney+ europaweit eingeschränkt: Dolby-Vision-Streit geht weiter
- Nach Flugzeugabsturz: Spielebranche trauert um Ubisoft-Gründer
- Galaxy Watch 9 & Ultra 2: Leak enthüllt Design der neuen Smartwatches
- Neue Weekend-Deals sind da: Media Markt & Saturn senken die Preise
- Aktuelle Technik-Blitzangebote von Amazon im Überblick
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen