Alibaba Cloud tvrdí, že dokáže snížit využití GPU o 82 % pomocí poolingového systému

27 října, 2025

Čínská cloudová společnost Alibaba Cloud představila optimalizační systém pro využití GPU, který podle jejích tvrzení dokáže snížit potřebu čipů až o 82 procent.

Společnost sdílela recenzovanou studii na sympoziu ACM o operačních systémech (SOSP) 2025 v Soulu, kde vysvětlila, jak její poolingový systém GPU s názvem Aegaeon dokáže snížit množství potřebných GPU při zpracování „sporadických a nepředvídatelných požadavků v souběžných inferenčních úlohách s dedikovanými GPU instancemi“.

Studie uvádí, že zatímco stávající řešení pro obsluhu více modelů používají „pooling GPU a serverless computing ke zlepšení efektivity zdrojů“, jsou účinná pouze pro dva až tři modely na GPU.

Aegaeon je však popsán jako „systém pro obsluhu více modelů, který provádí automatické škálování modelů na úrovni tokenů, aby dosáhl efektivního poolingu GPU“. Podle studie, kterou provedla Alibaba Group a Škola informatiky Pekingské univerzity, dokáže Aegaeon plánovat požadavky na více modelů a rozhodovat o automatickém škálování na základě jednotlivých tokenů.

Nasazení v praxi

Alibaba Cloud beta-nasadila řešení na svém tržišti modelů, kde obsluhuje desítky modelů. Společnost tvrdí, že dokázala snížit počet potřebných GPU z 1 192 na 213, což představuje 82procentní snížení.

Studie poznamenává, že její modelové studio má v současnosti dlouhý seznam modelů, které jsou zřídka vyvolávány (více než 90 procent), a rezervace instancí pro tyto modely znamená, že drží 17,7 procenta svých GPU pro obsluhu pouze 1,35 procenta požadavků.

Token-level autoscaling

Aegaeon místo toho používá přístup automatického škálování na úrovni tokenů. „V podstatě preventivním snižováním aktivních modelů a zvyšováním čekajících modelů pro nově příchozí požadavky způsobem respektujícím SLO Aegaeon zmírňuje HOL blokování a dosahuje skutečně efektivního poolingu GPU, podporujícího až sedm modelů na GPU,“ uvádí studie.

Podle studie byl systém testován po dobu několika měsíců na modelech s až 72 miliardami parametrů. Zlepšení se pohybovalo mezi 1,5násobkem až devítinásobkem lepšího výstupu.

Testovací prostředí se skládalo ze dvou uzlů s celkem 16 GPU, kde každý uzel měl osm Nvidia H800 80GB GPU připojených přes NVLink, 2TB DDR5 paměti a 192 Intel Xeon Platinum 8469C CPU.

Ačkoli jde o zajímavý průzkum v optimalizaci využití GPU, studie nezpůsobila v odvětví takový rozruch jako tvrzení DeepSeek na začátku roku, že jeho model V3 byl postaven na tréninkovém běhu, který stál pouhých 5,6 milionu dolarů.

Jak poznamenává zpráva z The Register, američtí hyperscaleři obvykle nesdílejí „tajnou omáčku“ používanou k optimalizaci vlastních flotil GPU a mohou mít podobná řešení již nasazená.

Zdroj: datacenterdynamics.com

Zdroj: CLOUD & BACKUP NETWORK NEWS

CLOUD & BACKUP

Napsat komentář Zrušit odpověď na komentář

Pro přidávání komentářů se musíte nejdříve přihlásit.

OBJEDNAT ČASOPIS
ICT NETWORK NEWS

OBJEDNAT ČASOPIS
eGOVERNMENT.NEWS

DATOVÁ CENTRA

Mistral AI získal 830 milionů dolarů pro datové centrum v Paříži

Francouzská laboratoř umělé inteligence Mistral AI získala 830 milionů dolarů v dluhovém financování na nákup GPU pro plánované datové centrum nedaleko Paříže. Získané prostředky budou

Číst dále »

3 dubna, 2026

Nové brýle Meta Ray-Ban budou podporovat dioptrické čočky

Meta uvedla dva nové styly svých brýlí Meta Ray-Ban s umělou inteligencí, které budou podporovat téměř všechny typy dioptrických čoček, takže je lidé budou moci

Číst dále »

7 dubna, 2026

IOT & SMART CITY

MISUMI a Oishii spojují síly v oblasti automatizace vertikálních farem

Japonská skupina MISUMI Group Inc. oznámila strategické partnerství se společností Oishii Farm Corp. Cílem spolupráce je zásobovat americké vertikální farmy Oishii mechanickými komponenty prostřednictvím své

Číst dále »

30 března, 2026