Tražilice pogonjene umjetnom inteligencijom koje ne plate ne mogu indeksirati sadržaj s Reddita Istaknuto
Kada je Reddit prošlog mjeseca najavio da će blokirati neovlašteno prikupljanje podataka s njihove stranice, prva (ispravna) reakcija svih bila je "AI, AI, AI." Međutim, sada kada je promjena stupila na snagu, čini se da proizvođači chatbotova nisu jedini koji su isključeni. Popularni forum također izgleda blokira glavne tražilice osim Bravea i Googlea, za kojeg se izvještava da je ranije ove godine sklopio ugovor s Redditom vrijedan 60 milijuna dolara godišnje.
Međutim, glasnogovornik Reddita rekao je za portal Engadget da su prazni rezultati pretrage posljedica toga što konkurenti Googlea nisu pristali na zahtjeve tvrtke za AI obuku. Reddit navodi da je u pregovorima s nekoliko njih.
404 Media je izvijestio u srijedu (a Engadget potvrdio u svojim upitima) da pretraživanje rezultata s Reddita iz prošlog tjedna na konkurentskoj tražilici Bing (koristeći "site.com") vraća prazne rezultate. Publikacija je izvijestila da je DuckDuckGo dao sedam poveznica bez ikakvih opisa, samo s napomenom, "Željeli bismo vam prikazati opis ovdje, ali stranica nam to ne dopušta." Čini se da je tražilica sada uklonila i to, jer je naš test dao samo praznu stranicu s porukom, "nema pronađenih rezultata."
Kada je Reddit prošlog mjeseca rekao da će ažurirati svoj Robots Exclusion Protocol (robots.txt) kako bi blokirao automatizirano prikupljanje podataka, sada je jasno da to nije bilo namijenjeno samo sprječavanju AI tvrtki poput Perplexity i njegovog kontroverznog “answer engine.” Trenutno, Google se čini kao jedina tražilica kojoj je dopušteno pretraživati Reddit i prikazivati rezultate s "prve stranice interneta."
Glasnogovornik Reddita rekao je za Engadget u srijedu da nije točno reći da su nestali rezultati pretrage posljedica njihovog ugovora s Googleom. “Blokiramo sve pretraživače koji nisu spremni obvezati se da neće koristiti podatke s pretraga za treniranje AI, što je u skladu s provedbom naše politike javnog sadržaja i ažurirane robots.txt datoteke,” rekla je tvrtka. “Svatko tko pristupa sadržaju Reddita mora se pridržavati naših pravila, uključujući ona koja su postavljena radi zaštite redditor-a. Biramo s kim radimo i kome vjerujemo kada je riječ o velikom pristupu sadržaju Reddita.”
U međuvremenu, izvor upoznat s razmišljanjem Reddita rekao je za Engadget u srijedu da je Bingovo izostavljanje posljedica odbijanja Microsofta da pristane na uvjete Reddita u vezi s AI pretragama. Umjesto toga, proizvođač Binga navodno je tvrdio da su njihovi standardni web kontrolni mehanizmi dovoljni. Izvor tvrdi da Microsoftov stav nije u skladu s politikom privatnosti podataka Reddita, što je dovelo do zastoja i praznih rezultata pretrage.
Svemogući robots.txt je web standard koji komunicira koji dijelovi stranice mogu biti pretraženi. Iako su poznati mnogi pretraživači koji ignoriraju njegove upute, Googleov standardni postupak je da ga poštuje. Dakle, s tehničke strane, čini se da su tvrtke koje su u dosluhu zbog unosnog ugovora primijenile neki ručni nadzor.
Ova saga mogla bi se promatrati kao efekt prelijevanja AI chatbotova koji pretražuju živi web za rezultate. Kako su sudovi spori u određivanju koliki dio otvorenog weba je fer koristiti za treniranje chatbotova, tvrtke poput Reddita, čija sadašnja financijska stabilnost ovisi o zaštiti njihovih podataka od onih koji ne plaćaju, grade zidove na račun otvorenog weba. (Iako, s obzirom na integralnu ulogu koju je Microsoft igrao u ovoj eri AI, zbližavajući se s OpenAI-om već na početku, čini se ironično da se Bing našao na gubitničkoj strani barem jednog aspekta ovog sukoba.)
Vezani članci
- Poznati AI umjetnik kaže da gubi milijune dolara zbog ljudi koji kradu njegov rad
- Brojke ne lažu – Weekend.17 je najbolji i najposjećeniji do sada
- Michael Dell o umjetnoj inteligenciji: Priče o usporavanju su uvelike pretjerane
- OpenAI otkrio SearchGPT: tražilicu pogonjenu umjetnom inteligencijom
- Globalna utrka u generativnoj AI: Kina vodi u korištenju, SAD u implementaciji, dok Europa kaska