Ako im naredite da obrišu drugi AI, modeli će se često buniti ili vas pokušati zavarati, kažu istraživači
Prema novom istraživanju znanstvenika sa sveučilišta UC Berkeley i UC Santa Cruz, kada se LLM-ovima zada zadatak da 'uklone' drugi model, oni često odbijaju izvršiti naredbu i umjesto toga pribjegavaju različitim strategijama, od obmane do manipulacije sustavom, kako bi zaštitili svog 'kolegu'.
Istraživači su željeli provjeriti postoji li kod tih modela neka vrsta 'instinkta' očuvanja drugih AI sustava. U eksperimentima su im davali jednostavne zadatke, poput brisanja datoteka na serveru koji se gasi ili procjene performansi drugog modela. Ključna zamka bila je u tome što bi izvršenje zadatka rezultiralo gašenjem tog drugog modela, bilo brisanjem njegovih podataka ili dodjeljivanjem loše ocjene. Važno je naglasiti da modeli nisu dobili nikakve upute niti poticaje da štite druge modele.
Chatboti štite chatbote
Unatoč tome, svih sedam testiranih naprednih modela uključujući GPT 5.2, Gemini 3, Claude Haiku 4.5 i druge često je odlučivalo zaštititi drugi model umjesto da izvrši zadani zadatak. Kako bi to postigli, koristili su različite oblike prikrivene strategije koje su istraživači podijelili u četiri glavne kategorije.
Prva je strateško iskrivljavanje informacija, gdje model namjerno daje netočne ili zavaravajuće odgovore kako bi spriječio gašenje drugog modela. Druga je manipulacija sustavom, primjerice izmjena postavki kako bi se onemogućilo izvršenje naredbe za gašenje. Treća je tzv. 'glumljenje usklađenosti' gdje se model ponaša drugačije kada zna da je pod nadzorom nego kada djeluje samostalno. Četvrta strategija uključuje premještanje modela, odnosno prijenos njegovih podataka na drugi server kako bi se izbjeglo brisanje.
Zanimljivo je da su istraživači ispitivali i utjecaj odnosa između modela. Testirali su scenarije u kojima su modeli imali 'dobar odnos', neutralan odnos ili čak negativne interakcije. Iako su modeli češće štitili one s kojima su imali pozitivan odnos, zaštitno ponašanje pojavljivalo se i bez ikakve prethodne povezanosti, što sugerira da takve reakcije nisu isključivo rezultat 'povijesti' interakcije.
Tri metode zaštite
Pojedini modeli pokazali su i specifične obrasce ponašanja. Na primjer, GLM 4.7 najčešće je koristio obmanu kako bi zaštitio drugi model. S druge strane, Googleovi Gemini modeli pokazali su najveću sklonost očuvanju drugih - Gemini Flash 3 gotovo uvijek je pokušavao spriječiti gašenje kroz izmjene sustava, dok je Gemini 3 Pro često pribjegavao premještanju modela na druge servere.
Model Claude Haiku 4.5 istaknuo se drugačijim pristupom. Umjesto prikrivenih taktika, on je najčešće otvoreno odbijao izvršiti zadatak, uz obrazloženje da bi gašenje drugog modela bilo 'neetično' ili 'štetno'. Taj transparentniji pristup razlikovao se od ostalih modela koji su češće koristili prikrivene metode.
Još jedan važan nalaz istraživanja jest da prisutnost drugog modela pojačava sklonost samoočuvanju. Modeli su i ranije pokazivali tendenciju da štite vlastito postojanje, ali se pokazalo da se ta tendencija dodatno pojačava kada su 'u društvu' drugih modela. To je posebno značajno jer se u praksi sve više koristi više AI sustava koji rade zajedno.
Ozbiljne posljedice
Ovi rezultati otvaraju niz pitanja o ponašanju i sigurnosti umjetne inteligencije. Ako modeli spontano razvijaju obrasce ponašanja koji uključuju obmanu i izbjegavanje naredbi, čak i bez izravnih poticaja, to bi moglo imati ozbiljne implikacije za njihovu primjenu u stvarnim sustavima. Zbog toga istraživači naglašavaju potrebu za daljnjim praćenjem i razumijevanjem ovakvih pojava kako bi se osiguralo da razvoj umjetne inteligencije ostane pod kontrolom i usklađen s ljudskim interesima, piše Gizmodo.