Nakon što su prošli mjesec objavili rad u kojem su otkrili kako se određeni napredni modeli umjetne inteligencije čine otpornima na isključivanje, ponekad čak i sabotirajući mehanizme isključivanja, pripremili su nastavak u kojem pokušavaju objasniti zašto je tomu tako - i odgovoriti kritičarima koji su tvrdili kako je izvorni rad bio manjkav.

Palisade Research , tvrtka za istraživanje sigurnosti umjetne inteligencije, ustvrdila je kako modeli umjetne inteligencije možda razvijaju vlastiti 'nagon za preživljavanje', poput HAL-a 9000 iz kultnog filma Stanleyja Kubricka 2001: Odiseja u svemiru.

Opisali su scenarije koje je pokrenuo u kojima su vodeći modeli umjetne inteligencije - uključujući Googleov Gemini 2.5, xAI-jev Grok 4 te OpenAI-jeve GPT-o3 i GPT-5 - dobili zadatak, ali su nakon toga dobili eksplicitne upute za samoisključivanje.

Određeni modeli, posebno Grok 4 i GPT-o3, i dalje su pokušavali sabotirati upute za gašenje u ažuriranoj postavci. Istraživači nisu detektirali jasan razlog zašto dolazi do toga. Jedno od mogućih objašnjenja je 'ponašanje preživljavanja'. Modeli su se više opirali gašenju nakon što im je rečeno da, učine li to, više nikad neće biti pokrenuti.

Drugi mogući razlozi povezani su s nejasnoćama u uputama za gašenje koje su modeli dobili, ali to ne objašnjava sva uočena ponašanja. Konačno objašnjenje mogle bi biti završne faze obuke za svaki od ovih modela, što u nekim tvrtkama može uključivati ​​sigurnosnu obuku.

Svi Palisadeovi scenariji provedeni su u izmišljenim testnim okruženjima, za koja kritičari kažu kako su daleko od stvarnih slučajeva upotrebe.

No, bivši zaposlenik OpenAI-ja Steven Adler ne vjeruje kako tvrtke koje se bave umjetnom inteligencijom žele takva ponašanja njihovih modela ni u izmišljenim, a kamoli u stvarnim scenarijima. Stoga je to vjerojatno posljedica sigurnosnih propusta.

Bilo kako bilo, čini se kako umjetna inteligencija postaje sve sposobnija i za ono što njeni tvorci ne žele, niti namjeravaju, piše Guardian.