'MODELI SVIJETA'

Je li ovo iduća faza AI revolucije i korak prema općoj umjetnoj inteligenciji?

01.02.2026 u 09:00

Bionic
Reading

Modeli koji stalno ažuriraju svoje baze podataka i uče iz njih mogli bi drastično promijeniti robotiku, proširenu stvarnost i niz drugih područja

Poput modela koji pokreću ChatGPT, obučenih za predviđanje teksta, oni za generiranja videa predviđaju što će se statistički najvjerojatnije prikazati sljedeće.

No problem je u tome što umjetna inteligencija u oba slučaja nema jasno definiran model svijeta koji kontinuirano ažurira. Zbog toga se događaju čudne situacije u kojima, primjerice, pojedini objekti u videu nestaju ili se pretvaraju u nešto drugo.

A to se počinje mijenjati.

Istraživači u brojnim područjima umjetne inteligencije rade na stvaranju modela svijeta (world models), s implikacijama koje se protežu dalje od generiranja videa i korištenja robota za brbljanje do proširene stvarnosti, robotike, autonomnih vozila, pa čak i ljudske inteligencije - ili opće umjetne inteligencije.

Jednostavan način razumijevanja modeliranja svijeta je putem četverodimenzionalnih ili 4D modela (tri dimenzije plus vrijeme).

Prisjetimo se 2012., kada je film 'Titanik', 15 godina nakon premijere, mukotrpno pretvoren u stereoskopski 3D. Ako biste zamrznuli bilo koji kadar, imali biste dojam udaljenosti između likova i predmeta na brodu. Ali ako je Leonardo DiCaprio bio okrenut leđima kameri, ne biste mogli obići ga da biste vidjeli njegovo lice.

Filmska iluzija 3D-a stvara se pomoću stereoskopije: dvije malo različite slike, često projicirane u brzoj izmjeni, jedna za lijevo i jedna za desno oko. Svi u kinu vide isti par slika i stoga imaju sličnu perspektivu.

Modeli koji se sami ažuriraju

Višestruke perspektive sve su bliže stvarnosti zahvaljujući proteklom desetljeću istraživanja. Počevši od 2020. godine, algoritmi NeRF (neural radiance field) ponudili su put za stvaranje fotorealističnih prikaza, ali su zahtijevali kombiniranje mnogih fotografija da bi AI sustav mogao generirati 3D prikaz.

Drugi 3D pristupi koriste umjetnu inteligenciju za prediktivno popunjavanje nedostajućih informacija, što više odstupa od stvarnosti. Zamislite da je svaki kadar u 'Titaniku' predstavljen u 3D-u tako da film postoji u 4D-u. Mogli biste se pomicati kroz vrijeme kako biste vidjeli različite trenutke ili se pomicati kroz prostor da biste ga gledali iz različitih perspektiva.

Također biste mogli generirati nove verzije. Naprimjer, nedavni rad NeoVerse: Enhancing 4D World Model with in-the-Wild Monocular Videos (koji čeka objavu) opisuje jedan od načina pretvaranja videozapisa u 4D modele za generiranje novih videozapisa iz različitih perspektiva.

4D tehnike također mogu pomoći u generiranju novog videosadržaja. Drugi rad (koji također čeka objavu), TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Modelpreprint, tvrdi da se stabilnost AI videosustava poboljšava kada kontinuirano ažurirani 4D model svijeta vodi generiranje.

Ovo su rani rezultati, ali nagovještavaju širi trend: modele koji ažuriraju unutarnju kartu scene dok se generiraju.

Korisno za proširenu stvarnost, robote, opću umjetnu inteligenciju...

4D modeliranje moguće je primijeniti daleko šire od generiranja videa.

Za proširenu stvarnost (AR) 4D model svijeta je karta korisnikova svijeta koja se s vremenom razvija, a omogućuje AR sustavima održavanje virtualnih objekata stabilnima, čini osvjetljenje i perspektivu uvjerljivima te ima i prostorno sjećanje na ono što se nedavno dogodilo.

Također omogućuje okluzije – kada digitalni objekti nestanu iza stvarnih. Mogućnost brzog pretvaranja videa u 4D pruža i bogate podatke za obuku robota i autonomnih vozila o tome kako funkcionira stvarni svijet, a generiranjem 4D modela prostora u kojem se nalaze roboti bi se mogli bolje snalaziti u njemu i predvidjeti što bi se moglo dogoditi sljedeće. Model svijeta stoga znači puno onima koji se bave općom umjetnom inteligencijom.

Današnji vodeći veliki jezični modeli (LLM), poput onih koji pokreću ChatGPT, imaju implicitan osjećaj svijeta iz svojih podataka za obuku. Međutim ovi konceptualni modeli nisu fizičko razumijevanje svijeta u stvarnom vremenu jer LLM-ovi ne mogu ažurirati svoje podatke o obuci u stvarnom vremenu. Stoga je pitanje mogu li oni ikada postići opću umjetnu inteligenciju predmet spora.

Ipak, mnogi ih vide kao komponentu budućih AI sustava. LLM bi djelovao kao sloj za komunikaciju zdravog razuma i jezika – svojevrsno sučelje – dok bi jasnije definirani temeljni model svijeta osigurao potrebnu prostornu i vremensku memoriju, što nedostaje trenutnim LLM-ovima.

Zaokret u istraživanju

Posljednjih godina brojni istaknuti istraživači umjetne inteligencije okrenuli su se modelima svijeta. Fei Fei Li je 2024. godine osnovao World Labs, a on je nedavno pokrenuo softver Marble za stvaranje 3D svjetova iz teksta, slika, videa ili grubih 3D nacrta.

Prošlog studenog istraživač umjetne inteligencije Yann LeCun objavio je da napušta Metu i pokreće startup Advanced Machine Intelligence (AMI Labs) za izgradnju sustava koji razumiju fizički svijet, imaju trajnu memoriju te mogu razmišljati i planirati složene akcijske sekvence.

Ove je ideje iznio u dokumentu iz 2022. godine, u kojem je pitao zašto ljudi mogu dobro djelovati u situacijama s kojima se nikada prije nisu susreli i tvrdio da odgovor 'možda leži u sposobnosti... učenja svjetskih modela, internih modela toga kako svijet funkcionira'.

Istraživanja sve više pokazuju prednosti tih internih modela. Rad, objavljen u časopisu Nature u travnju 2025. godine, izvijestio je o rezultatima DreameraV3, AI agenta koji, učeći model svijeta, može poboljšati svoje ponašanje zamišljajući buduće scenarije.

Napredak u 4D modeliranju mogao bi pružiti komponente koje pomažu u razumijevanju gledišta, pamćenja, pa čak i kratkoročnih predviđanja.

U međuvremenu, na putu prema općoj umjetnoj inteligenciji, 4D modeli mogu pružiti bogate simulacije stvarnosti u kojima se AI može testirati kako bi se osiguralo da, kada im dopustimo da djeluju u stvarnom svijetu, znaju kako postojati u njemu, piše Scientific American.