OECD: Identifikace a měření vývoje umělé inteligence

Identifikace a měření vývoje umělé inteligence

Organizace pro hospodářskou spolupráci a rozvoj (OECD) vydala v květnu 2020 studii „Identifikace a měření vývoje umělé inteligence“. Příspěvek hodnotí globální softwarový pokrok v oblasti umělé inteligence (AI) měřením počtu příspěvků do AI open source softwaru na GitHubu.

Cílem dokumentu OECD „Identifikace a měření vývoje v oblasti umělé inteligence“ je prozkoumat umělou inteligenci a dosáhnout společného porozumění technologickému vývoji. Příspěvek dále zkoumá potenciální aplikace, které pomáhají podporovat praktický rozvoj umělé inteligence. Studie navrhuje operační definici umělé inteligence na základě jejího měření ve třech různých informačních zdrojích:

  • Vědecký vývoj prostřednictvím publikovaných výzkumných prací;
  • Technologický rozvoj prostřednictvím patentů; a
  • Vývoj softwaru pomocí softwaru s otevřeným zdrojovým kódem.

Cílem této třístranné metodiky je poskytnout co nejúplnější přehled o stávajícím vývoji AI. Je doplněn přístupem experimentálního strojového učení (ML), který je přizpůsoben třem výše uvedeným informačním zdrojům, analyzovat shromážděná data a shromažďovat poznatky o vývoji umělé inteligence, ke kterému došlo až do května 2020.

OECD se zaměřuje na výzkum vývoje softwaru a spoléhá na data poskytovaná prostřednictvím příspěvků k softwaru s otevřeným zdrojovým kódem na GitHubu ke sledování vývoje softwaru a aplikací souvisejících s AI. Studie se zaměřuje na informace dostupné v softwaru s otevřeným zdrojovým kódem, protože údaje o proprietárním softwaru jsou zřídka dostupné. OECD však předkládá kvalitativní důkazy, které svědčí o tom, že proprietární software je často postaven a kombinuje komponenty s otevřeným zdrojovým kódem. Například TensorFlow od společnosti Google je software s otevřeným zdrojovým kódem vyvinutý na GitHubu, který byl použit k programování mnoha neuronových sítí, jako jsou sítě Google Translate nebo Twitter. Použití softwaru s otevřeným zdrojovým kódem jako proxy pro globální vývoj softwaru umožňuje studii pochopit globální technologický pokrok v oblasti AI.

Porozumění umělé inteligenci prostřednictvím otevřených zdrojových dat

S cílem lépe porozumět vývoji souvisejícímu s AI se OECD zaměřuje na úložiště GitHub označená algoritmem ML jako potenciálně související s AI. Pomocí této techniky bylo klasifikováno přibližně 11 500 úložišť jako „jednoznačně“ související s AI. Pomocí dostupných souborů Readme, které poskytují další informace o daném řešení, byla úložiště analyzována, aby se dále porozumělo vývoji souvisejícímu s umělou inteligencí. Při porovnání tohoto vzorku s celkovým fondem úložišť GitHub bylo zjištěno, že AI obsahují více iterací slov jako „učení“, „algoritmus“ a „školení“.

Studie OECD ukazuje, že příspěvky do úložišť souvisejících s umělou inteligencí tvořily 0,26% celosvětových příspěvků na GitHub v roce 2010 a 0,74% do roku 2017. Většina z tohoto růstu nastala v letech 2014 až 2017, kdy počet otevřených zdrojů souvisejících s umělou inteligencí rostl přibližně třikrát rychleji než jiné repozitáře.

Pomocí algoritmu Latent Dirichlet Allocation, techniky modelování témat se schopností skenovat sadu dokumentů a detekovat vzory formulací, byla analyzována shromážděná softwarová dokumentace (soubory Readme) k identifikaci širokých témat zahrnutých ve vývoji AI. Mezi často nalezenými výslednými tématy jsou významná témata související s ML (několik technik, kurzů, hluboké učení atd.) a výpočetními metodami (včetně matematiky a statistiky). Mezi další opakující se témata patří AI aplikace, jako je rozpoznávání obrázků, biologie, těžba textu a simulace.