U IBM-u će umjetnu inteligenciju podučavati na bazi podataka s milijun lica

Sustav Diversity in Faces osmišljen je kako bi smanjio mogućnost pogreški pri prepoznavanju lica ljudi raznih nacionalnosti i rasa

Na tehnologije prepoznavanja lica oslanjamo se u brojnim situacijama, od otključavanja mobitela i kućnih vrata do procjene raspoloženja i izgleda za počinjenje kriminalnog djela. Čak i vrlo dobre aplikacije koje ih koriste često padnu na jednostavnom testu, kad treba prepoznati određene boje kože ili dobi.

Problem je višeslojan, ali se u većem dijelu može pripisati tome što razvojni programeri i tvorci softvera ne razmišljaju o tome jesu li svi segmenti stanovništva odgovarajuće zastupljeni. Istina, trebali bi se više potruditi, ali nije nevažno ni s kakvim podacima rade.

MALO DISKRECIJE

Mislite da vas prate? Evo kako možete privatno surfati u Chromeu i Firefoxu

Pogledaj galeriju

Svaki set podataka nužno će biti ograničen na ovaj ili onaj način. U IBM-u su se poduhvatili izgradnje seta s dovoljno materijala tako da nitko nije sustavno isključen. Nazvali su ga Diversity in Faces (DiF) i sadrži milijun ljudskih lica koje su preuzeli s Flickra.

Točnije, sustav za strojno učenje pročešljao je Flickr Creative Commons, bazu od sto milijuna slika, i iz nje izvukao koliko je god fotografija lica mogao. Izdvojene su i izrezane, pa prepuštene novom sustavu za strojno učenje na obradu. Setovi podataka koje trebaju obrađivati razni algoritmi strojnog učenja trebaju biti raznovrsni i točno označeni.

DiF je uz svako od milijun lica pridodao metapodatke koji opisuju pojedinosti poput udaljenosti između očiju, veličine čela... Sve te mjere tvore otisak lica kojeg sustav koristi za, recimo, usporedbu dvije fotografije iste osobe.

CYBER SIGURNOST

Ovo su najčešće prevare koje vrebaju Hrvate na internetu

Pogledaj galeriju

Ali bilo koji set tih mjera može i ne mora dobro poslužiti za prepoznavanje ljudi ili biti točan za određenu etničku skupinu. Zato su u IBM-u izradili set koji uključuje i podatke kako se te mjere odnose jedna prema drugoj - primjerice, u kakvom je odnosu područje iznad očiju prema onome ispod nosa.

Boja kože, kao i kontrast te tipovi bojanja također su uključeni, a spol je prikazan u spektru od ženstvenog do muževnog umjesto binarno. Sustav automatski procjenjuje dob, iako je to podložno svojevrsnoj naknadnoj provjeri, skupa sa spolom.

U set nisu uključene kategorije rase i nacionalnosti, zato što granice između njih nije uvijek jednostavno precizno odrediti i točno označiti. U IBM-u će se možda njima pozabaviti kasnije, ali zasad su ih ostavili po strani.

Čak i s milijun lica nema jamstva kako će baza podataka biti odgovarajuće reprezentativna kako bi spriječila ili barem smanjila predrasude. U IBM-u ju namjeravaju nastaviti poboljšavati, a pozvali su i druge da im se priključe, piše Tech Crunch.