Provádění inference na AI modelu s bilionem parametrů bude poskytovatele velkých jazykových modelů v roce 2030 stát o více než 90 % méně než loni, vyplývá z prognózy analytické společnosti Gartner. Během příštích čtyř let se LLM modely stanou až stokrát nákladově efektivnějšími než některé z prvních modelů z roku 2022. K poklesu nákladů přispějí vylepšený hardware a návrh modelů, inference na hraničních zařízeních a čipy specializované na inferenci.
Navzdory předpovědím dramatického poklesu nákladů z toho podniky přímo neprofitují v podobě přenesených úspor – zejména s rostoucí poptávkou po špičkových schopnostech, jako je agentická AI, která na jeden úkol spotřebuje více tokenů než běžné generativní AI aplikace. Token je základní jednotka dat, kterou AI model zpracovává.
„Ano, náklady na tokeny klesají, což zpřístupní relativně méně hodnotné funkce, jež se stanou součástí stávajících ekosystémů,“ řekl Will Sommer, senior ředitel a analytik společnosti Gartner. „Zároveň to otevře dveře hodnotnějším aplikacím. Ty ale budou dražší, ne levnější.“
Ředitelé IT se budou muset soustředit na přínos a hledat rovnováhu mezi investicemi do snadno dostupných příležitostí a špičkových technologií – a to i přesto, že inference bude pro poskytovatele LLM levnější.
„Náklady na tokeny sice klesají, ale víme, že mnoho největších laboratoří v současnosti nevydělává, naopak prodělává,“ uvedl Sommer. „Aby se dostaly do zisku, potřebují mít nižší náklady v poměru k příjmům. Jednou z cest je zvýšení efektivity modelů. Zákazník tedy neuvidí všechny tyto úspory.“
Velká část generativních AI technologií – modely s méně než 100 miliardami parametrů – se díky nákladově efektivnějším inferenčním modelům stane relativně levnou na provoz. Velké technologické společnosti tyto náklady pravděpodobně zahrnou do svých služeb, nebo se o poskytování těchto schopností postará open source konkurence, říká Sommer.
S rostoucí složitostí modelů však budou podle Sommera vyžadovat více tokenů, které budou v porovnání se staršími tokeny dražší.
Pokud chce podnik například přejít z generativního AI chatbotu na agentického asistenta, „nejde jen o to, že osobní asistent zpracovává více dotazů – každý jednotlivý dotaz stojí pět až třicetkrát více tokenů.“
Aby se ředitelé IT odlišili od generických nabídek nebo open source poskytovatelů, budou muset „posunout se výše na škále složitosti“ a zajistit tak přiměřenou hodnotu v poměru k výdajům za tokeny, říká Sommer. Jde ale o balancování na hraně, dodává.
„Nemůžete se jen svézt na vlně nízkohodnotné generativní AI, ale ani na vlně všeho, co je na špičce vývoje,“ řekl Sommer. „Pokud se neustále pohybujete směrem k hranici možností, vaše náklady na tokeny vzrostou do takové míry, že nebudete schopni kdykoli vykázat zisk.“
Zdroj: channeldive.com


