Alibabas KI-System: Intelligentes Pooling senkt GPU-Bedarf um 82%
Der chinesische Technologiekonzern Alibaba hat ein neues System vorgestellt, das den Einsatz von Nvidia-Grafikprozessoren (GPU) für große Sprachmodelle erheblich reduzieren soll. Die Rede ist von über 80 Prozent.
Im Gegensatz zu bisherigen Fortschritten beim Training von KI-Modellen konzentriert sich Aegaeon auf die Effizienz während der Inferenz, also der Phase, in der Modelle tatsächlich Anfragen beantworten. Das System fungiert als intelligenter Scheduler, der GPU-Ressourcen flexibel über viele verschiedene Modelle verteilt.
Anstatt jede GPU fest einem Modell zuzuweisen, virtualisiert Aegaeon den Zugriff auf Token-Ebene. Dadurch können selbst kleinste Rechenschritte dynamisch über einen gemeinsamen Pool verteilt werden, ein Ansatz, der es ermöglicht, mehrere Modelle gleichzeitig auf derselben GPU auszuführen. Nach Angaben der Forscher führte dieses Verfahren zu einer bis zu neunfachen Steigerung der effektiven Rechenleistung.
Während des mehrmonatigen Beta-Betriebs sank die Zahl der benötigten GPUs für Dutzende verschiedener Modelle, darunter Sprachmodelle mit bis zu 72 Milliarden Parametern, von 1192 auf nur noch 213. Zu den Autoren der Studie zählen Forscher der Peking-Universität sowie Mitglieder von Alibabas Infrastruktursparte, unter ihnen CTO Jingren Zhou.
Ob andere Cloud-Anbieter ähnliche Resultate erzielen können, bleibt offen. Alibaba nutzt eine eigene, hochoptimierte Infrastruktur mit eRDMA-Netzwerken und enger Hardware-Software-Integration, was den Vorsprung erklären könnte. Dennoch dürfte das Ergebnis international Aufmerksamkeit erregen - insbesondere bei Hyperscalern, die angesichts wachsender Nachfrage versuchen, ihre begrenzten GPU-Ressourcen maximal auszuschöpfen.
Siehe auch:
Erheblich bessere Lastverteilung
Laut eines wissenschaftlich begutachteten Berichts, der auf dem ACM Symposium on Operating Systems (SOSP) 2025 in Seoul präsentiert wurde, senkt das sogenannte "Aegaeon"-Pooling-System den GPU-Bedarf bei der Modellinferenz um bis zu 82 Prozent. Die Ergebnisse stammen aus einem mehrmonatigen Praxistest innerhalb von Alibabas Model Studio Marketplace.Im Gegensatz zu bisherigen Fortschritten beim Training von KI-Modellen konzentriert sich Aegaeon auf die Effizienz während der Inferenz, also der Phase, in der Modelle tatsächlich Anfragen beantworten. Das System fungiert als intelligenter Scheduler, der GPU-Ressourcen flexibel über viele verschiedene Modelle verteilt.
Anstatt jede GPU fest einem Modell zuzuweisen, virtualisiert Aegaeon den Zugriff auf Token-Ebene. Dadurch können selbst kleinste Rechenschritte dynamisch über einen gemeinsamen Pool verteilt werden, ein Ansatz, der es ermöglicht, mehrere Modelle gleichzeitig auf derselben GPU auszuführen. Nach Angaben der Forscher führte dieses Verfahren zu einer bis zu neunfachen Steigerung der effektiven Rechenleistung.
Während des mehrmonatigen Beta-Betriebs sank die Zahl der benötigten GPUs für Dutzende verschiedener Modelle, darunter Sprachmodelle mit bis zu 72 Milliarden Parametern, von 1192 auf nur noch 213. Zu den Autoren der Studie zählen Forscher der Peking-Universität sowie Mitglieder von Alibabas Infrastruktursparte, unter ihnen CTO Jingren Zhou.
Idlen verboten
Laut eines Berichts der South China Morning Post kamen in den Tests Nvidias H20-GPUs zum Einsatz - eine der wenigen Grafikkarten, die aufgrund der US-Exportbeschränkungen weiterhin in China erhältlich sind. Die Effizienzgewinne basieren vor allem auf zwei Mechanismen: Dem gleichzeitigen "Packing" mehrerer Modelle pro GPU und einer dynamischen Ressourcenvergabe auf Token-Ebene, die Rechenleistung nur dann bereitstellt, wenn tatsächlich Ausgaben generiert werden.Ob andere Cloud-Anbieter ähnliche Resultate erzielen können, bleibt offen. Alibaba nutzt eine eigene, hochoptimierte Infrastruktur mit eRDMA-Netzwerken und enger Hardware-Software-Integration, was den Vorsprung erklären könnte. Dennoch dürfte das Ergebnis international Aufmerksamkeit erregen - insbesondere bei Hyperscalern, die angesichts wachsender Nachfrage versuchen, ihre begrenzten GPU-Ressourcen maximal auszuschöpfen.
Zusammenfassung
- Alibabas neues Aegaeon-System reduziert GPU-Bedarf bei KI-Inferenz um 82 %
- Intelligentes Pooling ermöglicht dynamische Ressourcenverteilung auf Token-Ebene
- GPU-Anzahl sank von 1192 auf 213 während mehrmonatiger Testphase
- System erreicht neunfache Steigerung der effektiven Rechenleistung
- Effizienzgewinne durch Mehrfachnutzung von GPUs und bedarfsgerechte Vergabe
- Technologie wurde auf dem ACM Symposium in Seoul wissenschaftlich vorgestellt
- Einsatz erfolgte mit Nvidias H20-GPUs, die trotz US-Exportbeschränkungen verfügbar sind
Siehe auch:
Thema:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Kunde zahlt RTX 5070, doch Amazon liefert nur einen alten DVD-Brenner
- Disney+ europaweit eingeschränkt: Dolby-Vision-Streit geht weiter
- Nach Flugzeugabsturz: Spielebranche trauert um Ubisoft-Gründer
- Galaxy Watch 9 & Ultra 2: Leak enthüllt Design der neuen Smartwatches
- Neue Weekend-Deals sind da: Media Markt & Saturn senken die Preise
- Aktuelle Technik-Blitzangebote von Amazon im Überblick
- Ryzen-CPUs: AMD killt RAM-Verschlüsselung - und rudert jetzt zurück
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen