Alibabas KI-System: Intelligentes Pooling senkt GPU-Bedarf um 82%

Der chinesische Technologiekonzern Alibaba hat ein neues System vorgestellt, das den Einsatz von Nvidia-Grafikprozessoren (GPU) für große Sprachmodelle erheblich reduzieren soll. Die Rede ist von über 80 Prozent.

Christian Kahle, 22.10.2025 10:51 Uhr

Ki, Künstliche Intelligenz, Cpu, Prozessor, Chip, Hardware, SoC, Gpu, Cloud, AI, Artificial Intelligence, Prozessoren, Chips, Quantencomputer, Nanometer, System On Chip

Erheblich bessere Lastverteilung

Laut eines wissenschaftlich begutachteten Berichts, der auf dem ACM Symposium on Operating Systems (SOSP) 2025 in Seoul präsentiert wurde, senkt das sogenannte "Aegaeon"-Pooling-System den GPU-Bedarf bei der Modellinferenz um bis zu 82 Prozent. Die Ergebnisse stammen aus einem mehrmonatigen Praxistest innerhalb von Alibabas Model Studio Marketplace.

Im Gegensatz zu bisherigen Fortschritten beim Training von KI-Modellen konzentriert sich Aegaeon auf die Effizienz während der Inferenz, also der Phase, in der Modelle tatsächlich Anfragen beantworten. Das System fungiert als intelligenter Scheduler, der GPU-Ressourcen flexibel über viele verschiedene Modelle verteilt.

Anstatt jede GPU fest einem Modell zuzuweisen, virtualisiert Aegaeon den Zugriff auf Token-Ebene. Dadurch können selbst kleinste Rechenschritte dynamisch über einen gemeinsamen Pool verteilt werden, ein Ansatz, der es ermöglicht, mehrere Modelle gleichzeitig auf derselben GPU auszuführen. Nach Angaben der Forscher führte dieses Verfahren zu einer bis zu neunfachen Steigerung der effektiven Rechenleistung.

Während des mehrmonatigen Beta-Betriebs sank die Zahl der benötigten GPUs für Dutzende verschiedener Modelle, darunter Sprachmodelle mit bis zu 72 Milliarden Parametern, von 1192 auf nur noch 213. Zu den Autoren der Studie zählen Forscher der Peking-Universität sowie Mitglieder von Alibabas Infrastruktursparte, unter ihnen CTO Jingren Zhou.

Idlen verboten

Laut eines Berichts der South China Morning Post kamen in den Tests Nvidias H20-GPUs zum Einsatz - eine der wenigen Grafikkarten, die aufgrund der US-Exportbeschränkungen weiterhin in China erhältlich sind. Die Effizienzgewinne basieren vor allem auf zwei Mechanismen: Dem gleichzeitigen "Packing" mehrerer Modelle pro GPU und einer dynamischen Ressourcenvergabe auf Token-Ebene, die Rechenleistung nur dann bereitstellt, wenn tatsächlich Ausgaben generiert werden.

Ob andere Cloud-Anbieter ähnliche Resultate erzielen können, bleibt offen. Alibaba nutzt eine eigene, hochoptimierte Infrastruktur mit eRDMA-Netzwerken und enger Hardware-Software-Integration, was den Vorsprung erklären könnte. Dennoch dürfte das Ergebnis international Aufmerksamkeit erregen - insbesondere bei Hyperscalern, die angesichts wachsender Nachfrage versuchen, ihre begrenzten GPU-Ressourcen maximal auszuschöpfen.

Zusammenfassung

Alibabas neues Aegaeon-System reduziert GPU-Bedarf bei KI-Inferenz um 82 %
Intelligentes Pooling ermöglicht dynamische Ressourcenverteilung auf Token-Ebene
GPU-Anzahl sank von 1192 auf 213 während mehrmonatiger Testphase
System erreicht neunfache Steigerung der effektiven Rechenleistung
Effizienzgewinne durch Mehrfachnutzung von GPUs und bedarfsgerechte Vergabe
Technologie wurde auf dem ACM Symposium in Seoul wissenschaftlich vorgestellt
Einsatz erfolgte mit Nvidias H20-GPUs, die trotz US-Exportbeschränkungen verfügbar sind

Siehe auch:

Thema:

Künstliche Intelligenz

Kommentieren3

Hinweis einsenden

Weitere Nachrichten zum Thema Irre: Entwickler staubt 70.000-€-Server zu lächerlichem Spottpreis abKampfansage an Nvidia: AMDs RDNA 5-GPU wird zum RTX 5090-KillerUSA vs. DeepSeek: Nvidia KI-GPUs illegal nach China geschmuggelt?KI ohne Nvidia: Huawei will eigenen schnellen Speicher für GPUs bauen