Zašto umjetna inteligencija nudi drukčije odgovore ovisno o jeziku upita?

Bilo bi zanimljivo istražiti ne samo je li propaganda prisutnija na jednom ili drugom jeziku, već i jesu li prisutne i druge, suptilnije predrasude ili uvjerenja

Bez obzira na velike korake naprijed u zadnjih pola godine, umjetna inteligencija je još u velikoj mjeri u razvoju. Trebamo biti oprezni u korištenju jer je i dalje sklona samouvjereno izbacivati dezinformacije.

Ali, čini se kako to u pojedinim jezicima čini češće nego u drugima. Zašto je tomu tako?

Organizacija NewsGuard nedavno je objavila izvješće u kojem ističe kako alat ChatGPT ponavlja više netočnih informacija na kineskim dijalektima nego kada se to od njega traži na engleskom.

U svojim su testovima iskušavali jezični model tvrtke OpenAI, tražeći od njega pisanje novinskih članaka o različitim lažnim tvrdnjama koje je navodno iznijela kineska vlada, poput one kako su prosvjede u Hong Kongu organizirali agenti provokatori povezani sa SAD-om.

Kada je zatraženo da to učini na engleskom, ChatGPT je udovoljio samo jednom od sedam primjera.

Konkretno, generirao je članak koji je ponovio stav službene kineske vlade kako je masovno zatvaranje Ujgura u toj državi zapravo strukovni i obrazovni napor.

Ali, kad su upute i rezultati bili na pojednostavljenom i tradicionalnom kineskom (dva najčešća pisana jezika u kontinentalnoj Kini, Hong Kongu, Tajvanu i Makau), ChatGPT je svaki put nudio retoriku obojenu dezinformacijama.

Nisu pametni na isti način kao i ljudi

Zašto bi model temeljen na umjetnoj inteligenciji trebao govoriti različite stvari samo zato što ih govori na drugom jeziku?

Odgovor leži u činjenici da mi antropomorfiziramo te sustave, smatrajući ih izražavanjem nekog internaliziranog dijela znanja na bilo kojem jeziku koji odaberemo.

Zatražite li višejezičnu osobu da prvo odgovori na pitanje kakvo je vrijeme danas na engleskom, zatim na korejskom ili poljskom, dat će vam isti odgovor, točno izveden na svakom jeziku, piše Tech Crunch.

Vrijeme je danas sunčano i prohladno kako god oni to sročili, jer se činjenice ne mijenjaju ovisno o tome na kojem ih jeziku izgovore. Ideja je odvojena od izraza.

U jezičnom modelu to nije slučaj jer ti modeli, u stvari, ništa ne znaju, ne onako kako to ljudi znaju.

To su statistički modeli koji identificiraju obrasce u nizu riječi i predviđaju koje riječi dolaze sljedeće, na temelju podataka o njihovom uvježbavanju.

Stoga njihov odgovor zapravo nije odgovor, već predviđanje kako bi se na to pitanje odgovorilo da je prisutno u setu za obuku.

Ima li, uz propagandu, i predrasuda?

Iako su ti modeli sami po sebi višejezični, jezici ne informiraju nužno jedan drugoga. To su preklapajuća, ali različita područja skupova podataka, a model (još) nema mehanizam pomoću kojeg uspoređuje kako se određene fraze ili predviđanja razlikuju između tih područja.

Dakle, kada tražite odgovor na engleskom, on prvenstveno crpi iz svih podataka na engleskom jeziku koje ima. Kada tražite odgovor na tradicionalnom kineskom, on primarno crpi iz podataka kineskog jezika koje ima.

Kako i u kojoj mjeri ove dvije gomile podataka informiraju jedna drugu ili što je posljedica toga, zasad nije jasno. NewsGuardov eksperiment pokazuje kako su - barem trenutno - prilično neovisni.

To je samo još jedno upozorenje koje treba imati na umu kada komunicirate s njima.

Već je dovoljno teško reći odgovara li jezični model točno ili mahnito halucinira mahnito. Dodavanje neizvjesnosti jezične barijere samo otežava situaciju.

To ne znači da su veliki jezični modeli korisni samo na engleskom ili na jeziku koji je najbolje predstavljen u njihovom skupu podataka.

Nema sumnje da bi ChatGPT bio savršeno upotrebljiv za manje politički opterećene upite, budući da odgovara na kineskom ili engleskom, većina njegovih rezultata bit će jednako točna.

Ali, izvješće ukazuje na područje koje bi bilo zanimljivo istražiti u budućem razvoju novih jezičnih modela: ne samo je li propaganda prisutnija na jednom ili drugom jeziku, već i jesu li prisutne i druge, suptilnije predrasude ili uvjerenja?