Reddit žaluje Perplexity v šokujícím skandálu s těžbou dat pro AI

Reddit se nyní nachází ve velkém právním sporu týkajícím se umělé inteligence, který by mohl vytvořit precedens. Podal federální žalobu proti Perplexity AI a třem dalším subjektům za údajné získávání rozsáhlého úložiště konverzací sociální platformy bez výslovného svolení Redditu. Tato diskusní stránka navíc již dříve tvrdila, že její obsah je těžen a přebalován pro systémy umělé inteligence v dohodách, které nikdy neschválila. Tento krok Redditu jasně ukazuje, jak explodovala hodnota dat generovaných uživateli, zatímco modely AI závodí v trénování na lidských hlasech a interakcích z reálného světa.

Co podle Redditu se stalo

V žalobě podané u Okresního soudu Spojených států pro jižní obvod New Yorku Reddit údajně obviňuje Perplexity spolu s Oxylabs UAB, AWMProxy a SerpApi z orchestrovaného úsilí o těžbu dat z jeho platformy, čímž šokoval celý svět AI. Podle žaloby tyto tři společnosti zabývající se těžbou údajně shromažďovaly obsah Redditu prostřednictvím výsledků vyhledávání Google a poté prodávaly zkompilovaná data společnosti Perplexity. Reddit navíc tvrdí, že Perplexity zakoupila tento materiál bez jakékoli licenční smlouvy se samotným Redditem.

Reddit již dříve zdůrazňoval, že jeho obsah řízený komunitou je jedinečný, rozsáhlý a stále více žádaný mezi vývojáři AI, kteří dychtivě hledají přirozené lidské konverzace pro své modely. Finanční ředitel Redditu nazývá tento druh neoprávněného shromažďování „ekosystémem praní dat v průmyslovém měřítku“, v němž jsou surové příspěvky uživatelů směrovány do komerčního trénování AI bez souhlasu uživatelů nebo transparentních dohod, jak Reddit údajně žaloval Anthropic z podobných důvodů již dříve letos před touto žalobou na Perplexity.

Proč je to důležité a co je v sázce

Toto je velmi kontroverzní téma ve světě technologií a AI, protože žaloba představuje mnohem více než spor mezi dvěma společnostmi. Přináší zásadní problém éry AI, kterým je otázka, kdo vlastní práva k veřejně dostupným konverzacím a jak by měly platformy chránit hlasy svých uživatelů, když externí subjekty tyto hlasy přetvářejí pro strojové učení? Reddit údajně dříve uvedl, že jeho obsah je „hlavním cílem, protože je to jedna z největších a nejdynamičtějších sbírek lidské konverzace, jaká kdy byla vytvořena.“

Obecně je důležité pochopit, jak to funguje. Firmy zabývající se těžbou dat fungují tak, že systematicky shromažďují obrovské množství informací z internetu prostřednictvím automatizovaných nástrojů známých jako webové crawlery nebo scrapery. Tyto programy jsou v podstatě navrženy tak, aby navštěvovaly webové stránky, extrahovaly text, obrázky a metadata a poté organizovaly shromážděný materiál do masivních datových sad. Společnosti zabývající se AI se často spoléhají na tato data pro trénování svých modelů, které se učí vzorce lidského jazyka a chování z textu, který zpracovávají. Proto v legitimních případech dochází ke shromažďování dat prostřednictvím licenčních smluv nebo veřejných API, které stanovují hranice použití. Když však dochází k těžbě bez souhlasu nebo dohody, může obejít ochranu platformy, zachytit soukromý nebo chráněný materiál a vyvolat otázky ohledně soukromí uživatelů, duševního vlastnictví a etického vývoje AI.

V tomto kontextu však Reddit umožňuje modelům AI přístup legálně. Na obchodní frontě má Reddit již licenční dohody s hlavními hráči, jako jsou OpenAI a Google LLC, které umožňují legitimní přístup k jeho datům pro trénování AI. Žaloba proti Perplexity tedy naznačuje, že Reddit má v úmyslu zajistit, aby jakékoli použití jeho obsahu bylo řádně licencováno nebo napadeno. Pro Perplexity a obviněné firmy tedy tato právní akce otevírá otázky ohledně hranic přípustného shromažďování dat v oblasti AI. Výsledek by mohl vytvořit precedens pro to, jak platformy chrání svůj původní uživatelský obsah a jak společnosti zabývající se AI vyjednávají nebo odůvodňují přístup k velkým konverzačním datovým sadám.

Zdroj: ibtimes.co.uk

AI
Perplexity, Reddit

Napsat komentář Zrušit odpověď na komentář

Pro přidávání komentářů se musíte nejdříve přihlásit.

OBJEDNAT ČASOPIS
ICT NETWORK NEWS

OBJEDNAT ČASOPIS
eGOVERNMENT.NEWS

Meta spouští AI model Muse Spark

Tým Meta Superintelligence představil Muse Spark, první model z počáteční řady velkých jazykových modelů. Meta uvádí, že Muse Spark představuje zásadní přebudování celého jejího vývojového zásobníku

Číst dále »

9 dubna, 2026

NETGURU

Růst širokopásmového připojení v Indii nabírá tempo díky optickým vláknům a FWA

Indický trh pevných komunikačních služeb čeká v příštích pěti letech stabilní rozvoj, přičemž růst bude stále více záviset na rozšíření širokopásmového připojení, cenovém nastavení a

Číst dále »

16 dubna, 2026

ICT NETWORK NEWS

Většina obyvatel EU nedůvěřuje firmám z USA ani z Číny se svými daty

Nový průzkum ukázal, že naprostá většina evropských uživatelů internetu důvěřuje technologickým společnostem z vlastního regionu výrazně více. Přestože vyskakovací okna s žádostí o souhlas s

Číst dále »

15 dubna, 2026