nevjerojatan lip sync

Ovaj video Obame ne postoji!

14.07.2017 u 12:22

Bionic
Reading

Može li algoritam rekreirati ne samo nečiji izgled, već i mikromimike lica, ponašanje i sve ostalo što nas čini ljudima? Rezultati ovog eksperimenta je upravo zastrašujući

Uz pomoć Photoshopa, kao i brojnih drugih programa, možemo rekonstruirati lice neke osobe. Uz pomoć 3D programa, tom licu dajemo život. No troje entuzijasta iz Washingtona su napravili nemoguće - rekonstrukciju, animaciju i lip sync Obaminog govora.

Troje ljudi, jedno pitanje

Jednostavni audio clip iz videa koji već postoji korišten je za ovaj projekt. Supasorn Suwajanakorn, jedan od stručnjaka koji su radili na ovom videu napravio je algoritme koji stvaraju 'pokretne' i realistične 3D modele lica. Sve što mu treba su stvarne fotografije i video snimke te osobe.

Supasorn i sam kaže kako je jedno od glavnih pitanja koje ga je potaknulo: 'Možeš li napraviti model nečije persone?' Jedno je napraviti model koji izgleda kao ta osoba, no kakvim drugo je uhvatiti njihove mimike lica, pomašanje, pauze u govoru i sve one sitnice koje nekoga čine ljudskim.

Osim njega na projektu su radili i profesori Steven Seitz i Ira Kemelmacher-Shlizerman. Oboje rade u području računalnog inžinjeringa u Washingtonu, te su čak i predavali Supasornu.

Još više ljudskosti?

Projekt nije savršen (u samom radu navode neke od grešaka), no ono što sugeriraju za razvoj ovog algoritma je zastrašujuće. U zaključku stoji da bi 'bilo zanimljivo vidjeti može li ova neuronska mreža naučiti predvidjeti emocije iz audio snimke i to implementirati u video'. Suštinski: može li ova neuronska mreža naučiti imitirati emocije?

Ova pretpostavka otvara vrata jednom poprilično bitnom, ali i zabrinjavajućem pitanju: U koje svrhe bi se ti takav uradak koristio? Lažne vijesti i 'alternativne činjenice' dio su naše svakodnevnice, ali samo malo zdravog razuma i mogu se razlikovati od stvarnih događaja. No uz ovaj softver, pitanje je koliko dugo će lažne vijesti ostati prepoznatljive.

Za Obamin video algoritmu su trebali sati i sati foto i video materijala kako bi pravilno analizirao i napravio model i animaciju, a video traje tek nešto više od minute... Zamislite neuronsku mrežu koja uz samo par video klipova može napraviti do par minuta materijala neke osobe. Možda najstrašniji detalj cijelog istraživanja stoji u zadnjem odlomku:

'Kada bismo išli korak dalje, možda bi jedna univerzalna mreža mogla naučiti raditi video snimke različitih ljudi, na primjer, kad bi dobio samo jedan kratak video da napravi precizne pokrete usta te osobe'

A upravo precizni pokreti usta i animacije govora tijela dovoljni su da se napravi još ovakvih videa. Ako do toga dođe, teško je zamisliti gdje bi takvoj neuronskoj mreži bio kraj.