Modeli koji služe za ocjenjivanje sposobnosti umjetne inteligencije vjerojatno nisu najprecizniji, no to ne spriječava AI kompanije da ih koriste za reklamiranje njihovih AI modela
Svi oni silni naslovi o umjetnoj inteligenciji koja 'polaže pravosudni ispit' ili doseže 'razinu doktorata' možda su bili - preuranjeni. Nova studija istraživača s Oxford Internet Institutea pokazuje da su mnogi popularni benchmark testovi kojima se mjeri uspješnost AI sustava zapravo nepouzdani i često pogrešno interpretirani.
Znanstvenici su analizirali 445 različitih testova koje industrija i akademska zajednica koriste za procjenu sposobnosti umjetne inteligencije, od logičkog zaključivanja do programerskih zadataka. Stručnjaci su ustanovili da mnogi testovi imaju nejasne definicije onoga što zapravo mjere te nedovoljno transparentne metode koje otežavaju usporedbu između različitih modela.
'Mnogi benchmark testovi uopće nisu valjana mjerenja onoga što tvrde da ispituju', navode autori studije. Drugim riječima, test može tvrditi da mjeri određenu vještinu, ali način na koji to čini ne odražava stvarnu sposobnost modela.
Kao primjer navode GSM8K, test koji ocjenjuje sposobnost modela da rješava osnovne matematičke zadatke u više koraka. Na papiru, GSM8K bi trebao mjeriti neformalno matematičko rezoniranje, no autori ističu da to nije nužno točno. 'Ako učenik prvog razreda zna da je dva plus pet jednako sedam, to jest točan odgovor. Ali možemo li iz toga zaključiti da petoškolac vlada matematičkim zaključivanjem? Vjerojatno ne,' rekao je Adam Mahdi, viši istraživač i glavni autor studije za NBC News.
Rezultati testiranja također pokazuju da su se rezultati modela na GSM8K testu tijekom vremena poboljšavali. No, to ne mora značiti da su modeli doista naučili bolje rezonirati, već da su 'kontaminirani'. To se događa kada se pitanja iz testova nađu u podacima na kojima se AI trenira, pa model pamti odgovore umjesto da sam dolazi do njih. Kada su istraživači modele testirali na novom skupu zadataka, performanse su znatno pale.
Ovo je jedna od najvećih analiza sustava za vrednovanje AI-ja, no nije prva koja je upozorila na potencijalne probleme. Prošle su godine istraživači sa Stanforda otkrili velike razlike u kvaliteti popularnih benchmark testova i zaključili da su 'najpouzdaniji u fazi dizajna, a najlošiji u fazi primjene'.
Ako ništa drugo, studija s Oxforda podsjeća da su mnoge ovakve mjerne ljestvice. Iako u osnovi zamišljene dobronamjerno, one nerijetko postaju marketinški alat kojim se AI tvrtke hvale 'napretkom' njihovih sustava, piše Gizmodo.