UMJETNA INTELIGENCIJA

Kakvo zaobilaženje: AI kompanije nastavljaju kopati po internetu unatoč zabranama

24.06.2024 u 13:28

Bionic
Reading

Velik broj AI tvrtki zaobilazi upute u datoteci robots.txt, zaobilazeći zabrane koje su tamo upisane. Internetskim stranicama pristupaju kako bi njihov sadržaj koristili za treniranje LLM-ova

Perplexity, tvrtka koja svoj proizvod opisuje kao 'besplatnu tražilicu s umjetnom inteligencijom', na meti je sve većeg broja kritika. Ubrzo nakon što ga je Forbes optužio da je ukrao njegovu priču i ponovno je objavio na više platformi, Wired je izvijestio da je Perplexity ignorirao Robots Exclusion Protocol ili robots.txt te da je skrapirao (prikupio podatke za treniranje LLM-a) njihovu web stranicu i druge Condé Nast publikacije.

Tehnološka web stranica The Shortcut također je optužila kompaniju za krađu njezinih članaka. Reuters je izvijestio da Perplexity nije jedina AI tvrtka koja zaobilazi datoteke robots.txt i skrapira web stranice kako bi dobila sadržaj koji se zatim koristi za obuku njihovih tehnologija.

Reuters izvještava o pismu upućenom izdavačima iz TollBita, startupa koji ih spaja s AI tvrtkama kako bi mogli postići ugovore o licenciranju, upozoravajući ih da 'AI agenti iz više izvora (ne samo jedne tvrtke) odlučuju zaobići robots.txt protokol za dohvaćanje sadržaja s web-mjesta'.

Datoteka robots.txt sadrži upute za web pretraživače o tome kojim stranicama mogu, a kojim ne mogu pristupiti. Web programeri koriste protokol od 1994. godine, ali usklađenost je u cijelosti dobrovoljna, objašnjava Engadget.

TollBitovo pismo ne imenuje nijednu tvrtku, ali Business Insider navodi da je saznao kako OpenAI i Anthropic - kreatori chatbota ChatGPT, odnosno Claude - također zaobilaze signale robots.txt. Obje tvrtke prethodno su objavile da poštuju upute 'ne indeksiraj' koje web stranice stavljaju u svoje datoteke robots.txt.

Tijekom svoje istrage, Wired je otkrio da je stroj na Amazonovom poslužitelju 'kojim sigurno upravlja Perplexity' zaobilazio upute robots.txt njegove web stranice. Kako bi potvrdio je li Perplexity skrapirao svoj sadržaj, Wired je tvrtkinom alatu dao naslove iz svojih članaka ili kratke upite koji opisuju njegove priče. Alat je navodno došao do rezultata koji su usko parafrazirali njegove članke 's minimalnim pripisivanjem'. A ponekad je čak generirao netočne sažetke za svoje priče - Wired kaže da je chatbot lažno tvrdio da je izvijestio o određenom kalifornijskom policajcu koji je u jednom slučaju počinio zločin.

U intervjuu za Fast Company, izvršni direktor Perplexityja Aravind Srinivas rekao je publikaciji da njegova tvrtka 'ne ignorira Robot Exclusions Protocol i onda laže o tome.' Međutim, to ne znači da nema koristi od alata za indeksiranje koji ignoriraju protokol. Srinivas je objasnio da tvrtka osim vlastitih koristi alate za indeksiranje trećih strana i da je alat za indeksiranje kojeg je identificirao Wired jedan od njih. Kada je Fast Company pitao je li Perplexity rekao pružatelju alata za indeksiranje da prestane skrapirati Wiredovu web stranicu, on je samo odgovorio da je 'to komplicirano'.

Srinivas je branio praksu svoje tvrtke, rekavši publikaciji da Protokol o isključivanju robota 'nije pravni okvir' sugerirajući da bi izdavači i tvrtke poput njegove možda morali uspostaviti novu vrstu odnosa. Također je navodno insinuirao da je Wired namjerno koristio upite kako bi natjerao Perplexityjev chatbot da se ponaša onako kako se ponašao, tako da obični korisnici neće dobiti iste rezultate. Što se tiče netočnih sažetaka koje je alat generirao, Srinivas je rekao: 'Nikada nismo rekli da naš AI ne halucinira.'