Nvidia stanovila nové rekordy ve srovnávání výkonu MLPerf na svém GPU H200 Tensor Core a softwaru TensorRT-LLM.
MLPerf Inference je srovnávací sada, která měří inferenční výkon napříč případy použití hloubkového učení.
Do nejnovější verze sady benchmarkingu – MLPerf v4 – byly přidány dvě nové pracovní zátěže, které představují případy použití generativní umělé inteligence: benchmark velkého jazykového modelu (LLM) založený na Meta’s Llama 2 70B a test založený na převodu textu na obrázek na Stable Diffusion XL.
Nvidia nastavila výkonové rekordy u obou nových pracovních zátěží a poskytuje nejvyšší výkon napříč všemi pracovními zátěžemi MLPerf Inference v kategorii datových center.
TensorRT-LLM společnosti je softwarová knihovna s otevřeným zdrojovým kódem vyvinutá pro zdvojnásobení rychlosti vyvozování LLM na GPU H100. V testu MLPerf v4 GPT-J GPU H100 využívající TensorRT-LLM dosáhly zrychlení 2,4x a 2,9x v offline a serverovém scénáři ve srovnání s výkonem poskytovaným GPU o šest měsíců dříve během testu v3.1.
Pro srovnávací test MLPerf Llama 2 70B poskytl Nvidia TensorRT-LLM běžící na firemních GPU H200 až o 43 procent a o 45 procent vyšší výkon ve srovnání s H100 v serverovém a offline scénáři, pokud je konfigurován na 1 000 W TDP.
Nový benchmark využívá největší verzi Llama 2, která má 70 miliard parametrů a je více než desetkrát větší než model GPT-J LLM, který byl použit v předchozích srovnávacích testech.
Pokud jde o srovnávací test Stable Diffusion XL text-to-image, 8-GPU systém Nvidia HGX H200 s GPU konfigurovanými na 700W TDP dosáhl výkonu 13,8 dotazů za sekundu a 13,7 vzorků za sekundu v serverovém a offline scénáři.
Když byl stejný test spuštěn pomocí systému obsahujícího osm GPU Nvidia L40S, systém prokázal výkon 4,9 dotazů za sekundu a 5 vzorků za sekundu v serverovém a offline scénáři.
Nvidia uvedla, že to byl nejlepší výkon dosažený jakýmkoli hardwarovým řešením během testu Stable Diffusion XL.
Před zveřejněním výsledků Dave Salvator, ředitel produktového marketingu skupiny, uvedl, že odvození se stalo velkou součástí aktivit a podnikání Nvidie v oblasti datových center, a poznamenal, že v roce 2023 tvořilo asi 40 procent výnosů skupiny datových center společnosti.
Poznamenal však, že to není jen ve dvou nových testech MLPerf, kde Nvidia zveřejnila rekordní výsledky.
„Nvidia se podřizuje při každém pracovním zatížení, protože nejenže je důležité být schopen podávat skvělý výkon při jediném pracovním zatížení, ale je důležité podávat skvělý výkon v co největším počtu pracovních zatížení,“ řekl. „V devíti testech MLPerf nadále poskytujeme špičkové výsledky ve všech těchto pracovních zátěžích a ve všech těchto případech použití.“
„To je něco, co je opravdu důležité, protože to znamená nejen to, že naše platforma je velmi, velmi výkonná, ale je také velmi všestranná, a to je něco, co naši zákazníci opravdu oceňují,“ řekl Salvator.
Zdroj: datacenterdynamics.com
Obrázek: Nvidia H200 Tensor GPU
Zdroj: DATACENTER NETWORK NEWS