EN CZ DE PL HU SK

Alibaba Cloud tvrdí, že dokáže snížit využití GPU o 82 % pomocí poolingového systému

Čínská cloudová společnost Alibaba Cloud představila optimalizační systém pro využití GPU, který podle jejích tvrzení dokáže snížit potřebu čipů až o 82 procent.

Společnost sdílela recenzovanou studii na sympoziu ACM o operačních systémech (SOSP) 2025 v Soulu, kde vysvětlila, jak její poolingový systém GPU s názvem Aegaeon dokáže snížit množství potřebných GPU při zpracování „sporadických a nepředvídatelných požadavků v souběžných inferenčních úlohách s dedikovanými GPU instancemi“.

Studie uvádí, že zatímco stávající řešení pro obsluhu více modelů používají „pooling GPU a serverless computing ke zlepšení efektivity zdrojů“, jsou účinná pouze pro dva až tři modely na GPU.

Aegaeon je však popsán jako „systém pro obsluhu více modelů, který provádí automatické škálování modelů na úrovni tokenů, aby dosáhl efektivního poolingu GPU“. Podle studie, kterou provedla Alibaba Group a Škola informatiky Pekingské univerzity, dokáže Aegaeon plánovat požadavky na více modelů a rozhodovat o automatickém škálování na základě jednotlivých tokenů.

Nasazení v praxi

Alibaba Cloud beta-nasadila řešení na svém tržišti modelů, kde obsluhuje desítky modelů. Společnost tvrdí, že dokázala snížit počet potřebných GPU z 1 192 na 213, což představuje 82procentní snížení.

Studie poznamenává, že její modelové studio má v současnosti dlouhý seznam modelů, které jsou zřídka vyvolávány (více než 90 procent), a rezervace instancí pro tyto modely znamená, že drží 17,7 procenta svých GPU pro obsluhu pouze 1,35 procenta požadavků.

Token-level autoscaling

Aegaeon místo toho používá přístup automatického škálování na úrovni tokenů. „V podstatě preventivním snižováním aktivních modelů a zvyšováním čekajících modelů pro nově příchozí požadavky způsobem respektujícím SLO Aegaeon zmírňuje HOL blokování a dosahuje skutečně efektivního poolingu GPU, podporujícího až sedm modelů na GPU,“ uvádí studie.

Podle studie byl systém testován po dobu několika měsíců na modelech s až 72 miliardami parametrů. Zlepšení se pohybovalo mezi 1,5násobkem až devítinásobkem lepšího výstupu.

Testovací prostředí se skládalo ze dvou uzlů s celkem 16 GPU, kde každý uzel měl osm Nvidia H800 80GB GPU připojených přes NVLink, 2TB DDR5 paměti a 192 Intel Xeon Platinum 8469C CPU.

Ačkoli jde o zajímavý průzkum v optimalizaci využití GPU, studie nezpůsobila v odvětví takový rozruch jako tvrzení DeepSeek na začátku roku, že jeho model V3 byl postaven na tréninkovém běhu, který stál pouhých 5,6 milionu dolarů.

Jak poznamenává zpráva z The Register, američtí hyperscaleři obvykle nesdílejí „tajnou omáčku“ používanou k optimalizaci vlastních flotil GPU a mohou mít podobná řešení již nasazená.

Zdroj: datacenterdynamics.com

Zdroj: CLOUD & BACKUP NETWORK NEWS 

Napsat komentář