EN CZ DE PL HU SK

Multimodální AI ERNIE od Baidu poráží GPT a Gemini v benchmarcích

Multimodální AI ERNIE od Baidu poráží GPT a Gemini v benchmarcích

Nejnovější model ERNIE od společnosti Baidu, superefektivní multimodální AI, poráží GPT a Gemini v klíčových benchmarcích a zaměřuje se na podniková data, která textově orientované modely často ignorují.

Pro mnoho firem jsou cenné poznatky uzamčeny v technických schématech, video záznamech z výrobních hal, lékařských snímcích a logistických přehledech. Nový model od Baidu, ERNIE-4.5-VL-28B-A3B-Thinking, je navržen tak, aby tuto mezeru zaplnil.

Co je zajímavé pro podnikové architekty, není jen jeho multimodální schopnost, ale jeho architektura. Je popisován jako „lehký“ model, který během provozu aktivuje pouze tři miliardy parametrů. Tento přístup cílí na vysoké náklady na inferenci, které často brzdí projekty škálování AI. Baidu sází na efektivitu jako cestu k adopci a trénuje systém jako základ pro „multimodální agenty“, kteří mohou uvažovat a jednat, nejen vnímat.

Schopnosti analýzy komplexních vizuálních dat

Multimodální AI model ERNIE od Baidu vyniká ve zpracování hustých, netextových dat. Například dokáže interpretovat graf „Připomínka doby špičky“ k nalezení optimálních hodin návštěvy, což je úkol odrážející výzvy plánování zdrojů v logistice nebo maloobchodě.

ERNIE 4.5 také prokazuje schopnosti v technických oblastech, jako je řešení schématu můstkového obvodu aplikací Ohmova a Kirchhoffova zákona. Pro výzkumné a vývojové oddělení by budoucí asistent mohl validovat návrhy nebo vysvětlovat komplexní schémata novým zaměstnancům.

Tuto schopnost podporují benchmarky Baidu, které ukazují, že ERNIE-4.5-VL-28B-A3B-Thinking překonává konkurenty jako GPT-5-High a Gemini 2.5 Pro v některých klíčových testech:

MathVista: ERNIE (82,5) vs Gemini (82,3) a GPT (81,3)

ChartQA: ERNIE (87,1) vs Gemini (76,3) a GPT (78,2)

VLMs Are Blind: ERNIE (77,3) vs Gemini (76,5) a GPT (69,6)

Stojí za zmínku, že AI benchmarky poskytují vodítko, ale mohou být chybné. Před nasazením jakéhokoli AI modelu pro kritické aplikace vždy proveďte interní testy pro vaše potřeby.

Baidu přechází od vnímání k automatizaci

Primární překážkou pro podnikovou AI je přechod od vnímání („co to je?“) k automatizaci („co teď?“). ERNIE 4.5 tvrdí, že toto řeší integrací vizuálního ukotvení s používáním nástrojů.

Požádání multimodální AI o nalezení všech lidí v oblecích na obrázku a vrácení jejich souřadnic ve formátu JSON funguje. Model generuje strukturovaná data, funkci snadno přenositelnou na výrobní linku pro vizuální inspekci nebo do systému auditujícího snímky místa pro dodržování bezpečnosti.

Model také spravuje externí nástroje a může autonomně přiblížit fotografii pro přečtení malého textu. Pokud narazí na neznámý objekt, může spustit vyhledávání obrázků k jeho identifikaci. To představuje méně pasivní formu AI, která by mohla pohánět agenta nejen k označení chyby datového centra, ale také k přiblížení kódu, prohledání interní znalostní báze a návrhu opravy.

Business intelligence s multimodální AI

Nejnovější AI model ERNIE od Baidu také cílí na firemní video archivy od školicích sezení a schůzek po bezpečnostní záznamy. Dokáže extrahovat všechny titulky na obrazovce a namapovat je na jejich přesné časové značky.

Také demonstruje časové povědomí, nachází konkrétní scény (jako ty „natočené na mostě“) analýzou vizuálních podnětů. Jasným konečným cílem je učinit rozsáhlé video knihovny prohledávatelné, což umožní zaměstnanci najít přesný okamžik, kdy bylo konkrétní téma diskutováno ve dvouhodinovém webináři, během kterého možná párkrát usnul.

Nasazení a hardwarové požadavky

Baidu poskytuje pokyny pro nasazení pro několik cest, včetně transformers, vLLM a FastDeploy. Hardwarové požadavky jsou však hlavní překážkou. Nasazení na jedné kartě potřebuje 80 GB GPU paměti. Toto není nástroj pro příležitostné experimentování, ale pro organizace s existující a vysoce výkonnou AI infrastrukturou.

Pro ty s hardwarem umožňuje nástroj ERNIEKit od Baidu doladění na proprietárních datech; nezbytnost pro většinu případů použití s vysokou hodnotou. Baidu poskytuje svůj nejnovější AI model ERNIE s licencí Apache 2.0, která povoluje komerční použití, což je zásadní pro adopci.

Trh se konečně posouvá směrem k multimodální AI, která dokáže vidět, číst a jednat v konkrétním obchodním kontextu, a benchmarky naznačují, že tak činí s působivou schopností. Okamžitým úkolem je identifikovat vysoce hodnotné úlohy vizuálního uvažování v rámci vaší vlastní operace a zvážit je proti podstatným hardwarovým a správním nákladům.

Zdroj: ainews.co.uk

Napsat komentář

Google představil TurboQuant
HARDWARE

Google představil TurboQuant

Výzkumníci ze společnosti Google představili novou metodu nazvanou TurboQuant, která slibuje revoluci v efektivitě provozu velkých jazykových modelů (LLM). Tato technika umožňuje komprimovat takzvanou KV

Číst dále »