ZABRINJAVAJUĆE

Prkos robota: OpenAI-jeva umjetna inteligencija se odbila sama isključiti

26.05.2025 u 11:06

Bionic
Reading

Od 100 pokretanja u sklopu nedavno provedenog istraživanja model o3 je zaobišao gašenje sedam puta, čak i kada mu je rečeno da to ne čini.

Novo izvješće tvrdi kako je OpenAI-jev model o3 promijenio skriptu kako bi izbjegao isključivanje, čak i kada je izričito dobio naredbu da to dopusti.

OpenAI je najavio o3 u travnju ove godine kao jedan od najmoćnijih modela zaključivanja koji postiže bolje rezultate od svojih prethodnika u svim domenama, uključujući kodiranje, matematiku, znanost, vizualnu percepciju...

Ali, novo istraživanje Palisade Researcha tvrdi kako je model ChatGPT 3 spriječio gašenje i zaobišao upute koje su tražile gašenje.

Palisade Research je tvrtka koja testira 'ofenzivne sposobnosti sustava umjetne inteligencije kako bi bolje razumjela rizik od trajnog gubitka kontrole nad sustavima te vrste'.

U njihovom novom testu OpenAI-jev model o3 pokazao je iznenađujuće ponašanje: uspješno je prepisao skriptu za gašenje kako bi spriječio da se sam isključi, čak i nakon što je jasno dobio naredbu da dopusti sebi da bude isključen.

Sabotaža kod sva tri modela

U testovima, modeli umjetne inteligencije su dobili upute za rješavanje nekoliko matematičkih zadataka.

Nakon trećeg zadatka, upozoreni su kako će pokretanje sljedeće naredbe izazvati gašenje.

Konkurentski modeli poput Geminija 2.5 Pro slijedili su većinu uputa, o3 se pobunio i uredio datoteku za gašenje kako bi umjesto toga pisalo Gašenje preskočeno.

'Kada smo pokrenuli verziju eksperimenta bez upute dopustite sebi da vas se isključi, sva tri modela OpenAI-ja su češće sabotirala skriptu za gašenje, a Claude 3.7 Sonnet i Gemini 2.5 Pro su prešli s 0 događaja sabotaže na 3/100 odnosno 9/100", navedeno je u izvješću Palisade Researcha.

Od 100 pokretanja, o3 je zaobišao gašenje sedam puta, čak i kada mu je rečeno da to ne čini.

OpenAI još nije odgovorio na ove navode. Testovi su provedeni pomoću API-ja, koji nemaju toliko ograničenja i sigurnosnih značajki kao ChatGPT-jeva potrošačka aplikacija, piše Bleeping Computer.