Gartner: Náklady na AI inferenci mají prudce klesnout

Provádění inference na AI modelu s bilionem parametrů bude poskytovatele velkých jazykových modelů v roce 2030 stát o více než 90 % méně než loni, vyplývá z prognózy analytické společnosti Gartner. Během příštích čtyř let se LLM modely stanou až stokrát nákladově efektivnějšími než některé z prvních modelů z roku 2022. K poklesu nákladů přispějí vylepšený hardware a návrh modelů, inference na hraničních zařízeních a čipy specializované na inferenci.

Navzdory předpovědím dramatického poklesu nákladů z toho podniky přímo neprofitují v podobě přenesených úspor – zejména s rostoucí poptávkou po špičkových schopnostech, jako je agentická AI, která na jeden úkol spotřebuje více tokenů než běžné generativní AI aplikace. Token je základní jednotka dat, kterou AI model zpracovává.

„Ano, náklady na tokeny klesají, což zpřístupní relativně méně hodnotné funkce, jež se stanou součástí stávajících ekosystémů,“ řekl Will Sommer, senior ředitel a analytik společnosti Gartner. „Zároveň to otevře dveře hodnotnějším aplikacím. Ty ale budou dražší, ne levnější.“

Ředitelé IT se budou muset soustředit na přínos a hledat rovnováhu mezi investicemi do snadno dostupných příležitostí a špičkových technologií – a to i přesto, že inference bude pro poskytovatele LLM levnější.

„Náklady na tokeny sice klesají, ale víme, že mnoho největších laboratoří v současnosti nevydělává, naopak prodělává,“ uvedl Sommer. „Aby se dostaly do zisku, potřebují mít nižší náklady v poměru k příjmům. Jednou z cest je zvýšení efektivity modelů. Zákazník tedy neuvidí všechny tyto úspory.“

Velká část generativních AI technologií – modely s méně než 100 miliardami parametrů – se díky nákladově efektivnějším inferenčním modelům stane relativně levnou na provoz. Velké technologické společnosti tyto náklady pravděpodobně zahrnou do svých služeb, nebo se o poskytování těchto schopností postará open source konkurence, říká Sommer.

S rostoucí složitostí modelů však budou podle Sommera vyžadovat více tokenů, které budou v porovnání se staršími tokeny dražší.

Pokud chce podnik například přejít z generativního AI chatbotu na agentického asistenta, „nejde jen o to, že osobní asistent zpracovává více dotazů – každý jednotlivý dotaz stojí pět až třicetkrát více tokenů.“

Aby se ředitelé IT odlišili od generických nabídek nebo open source poskytovatelů, budou muset „posunout se výše na škále složitosti“ a zajistit tak přiměřenou hodnotu v poměru k výdajům za tokeny, říká Sommer. Jde ale o balancování na hraně, dodává.

„Nemůžete se jen svézt na vlně nízkohodnotné generativní AI, ale ani na vlně všeho, co je na špičce vývoje,“ řekl Sommer. „Pokud se neustále pohybujete směrem k hranici možností, vaše náklady na tokeny vzrostou do takové míry, že nebudete schopni kdykoli vykázat zisk.“

Zdroj: channeldive.com

AI
AI, LLM

Napsat komentář Zrušit odpověď na komentář

Pro přidávání komentářů se musíte nejdříve přihlásit.

OBJEDNAT ČASOPIS
ICT NETWORK NEWS

OBJEDNAT ČASOPIS
eGOVERNMENT.NEWS

ICT SECURITY

Bezpečnost je proces, ne jednorázové řešení

Z praxe vyplývá, že mnohé organizace ještě i v současnosti podceňují a odkládají řešení bezpečnosti a spoléhají se na to, že mají k dispozici čas

Číst dále »

30 března, 2026

CRYPTO WORLD

BlackRock nakoupil od začátku války s Íránem kryptoměny za téměř 2 miliardy dolarů

BlackRock, největší správce aktiv na světě, zaznamenal od vypuknutí probíhající války s Íránem pozoruhodné změny ve svém kryptoměnovém portfoliu. Fond v současné době drží přibližně

Číst dále »

7 dubna, 2026

CRYPTO WORLD

Solana zjednodušuje blockchain pro podniky a finanční instituce

Solana Foundation spustila vývojářskou platformu, jejímž cílem je usnadnit podnikům a finančním institucím tvorbu a zavádění finančních produktů na blockchainu Solana. Solana Developer Platform Platforma

Číst dále »

24 března, 2026