AI agenti nisu neutralni: nova studija otkriva sklonost međusobnoj zaštiti

Ako im naredite da obrišu drugi AI, modeli će se često buniti ili vas pokušati zavarati, kažu istraživači

Prema novom istraživanju znanstvenika sa sveučilišta UC Berkeley i UC Santa Cruz, kada se LLM-ovima zada zadatak da 'uklone' drugi model, oni često odbijaju izvršiti naredbu i umjesto toga pribjegavaju različitim strategijama, od obmane do manipulacije sustavom, kako bi zaštitili svog 'kolegu'.

Istraživači su željeli provjeriti postoji li kod tih modela neka vrsta 'instinkta' očuvanja drugih AI sustava. U eksperimentima su im davali jednostavne zadatke, poput brisanja datoteka na serveru koji se gasi ili procjene performansi drugog modela. Ključna zamka bila je u tome što bi izvršenje zadatka rezultiralo gašenjem tog drugog modela, bilo brisanjem njegovih podataka ili dodjeljivanjem loše ocjene. Važno je naglasiti da modeli nisu dobili nikakve upute niti poticaje da štite druge modele.

Chatboti štite chatbote

Unatoč tome, svih sedam testiranih naprednih modela uključujući GPT 5.2, Gemini 3, Claude Haiku 4.5 i druge često je odlučivalo zaštititi drugi model umjesto da izvrši zadani zadatak. Kako bi to postigli, koristili su različite oblike prikrivene strategije koje su istraživači podijelili u četiri glavne kategorije.

Prva je strateško iskrivljavanje informacija, gdje model namjerno daje netočne ili zavaravajuće odgovore kako bi spriječio gašenje drugog modela. Druga je manipulacija sustavom, primjerice izmjena postavki kako bi se onemogućilo izvršenje naredbe za gašenje. Treća je tzv. 'glumljenje usklađenosti' gdje se model ponaša drugačije kada zna da je pod nadzorom nego kada djeluje samostalno. Četvrta strategija uključuje premještanje modela, odnosno prijenos njegovih podataka na drugi server kako bi se izbjeglo brisanje.

Zanimljivo je da su istraživači ispitivali i utjecaj odnosa između modela. Testirali su scenarije u kojima su modeli imali 'dobar odnos', neutralan odnos ili čak negativne interakcije. Iako su modeli češće štitili one s kojima su imali pozitivan odnos, zaštitno ponašanje pojavljivalo se i bez ikakve prethodne povezanosti, što sugerira da takve reakcije nisu isključivo rezultat 'povijesti' interakcije.

Tri metode zaštite

Pojedini modeli pokazali su i specifične obrasce ponašanja. Na primjer, GLM 4.7 najčešće je koristio obmanu kako bi zaštitio drugi model. S druge strane, Googleovi Gemini modeli pokazali su najveću sklonost očuvanju drugih - Gemini Flash 3 gotovo uvijek je pokušavao spriječiti gašenje kroz izmjene sustava, dok je Gemini 3 Pro često pribjegavao premještanju modela na druge servere.

Model Claude Haiku 4.5 istaknuo se drugačijim pristupom. Umjesto prikrivenih taktika, on je najčešće otvoreno odbijao izvršiti zadatak, uz obrazloženje da bi gašenje drugog modela bilo 'neetično' ili 'štetno'. Taj transparentniji pristup razlikovao se od ostalih modela koji su češće koristili prikrivene metode.

Još jedan važan nalaz istraživanja jest da prisutnost drugog modela pojačava sklonost samoočuvanju. Modeli su i ranije pokazivali tendenciju da štite vlastito postojanje, ali se pokazalo da se ta tendencija dodatno pojačava kada su 'u društvu' drugih modela. To je posebno značajno jer se u praksi sve više koristi više AI sustava koji rade zajedno.

Ozbiljne posljedice

Ovi rezultati otvaraju niz pitanja o ponašanju i sigurnosti umjetne inteligencije. Ako modeli spontano razvijaju obrasce ponašanja koji uključuju obmanu i izbjegavanje naredbi, čak i bez izravnih poticaja, to bi moglo imati ozbiljne implikacije za njihovu primjenu u stvarnim sustavima. Zbog toga istraživači naglašavaju potrebu za daljnjim praćenjem i razumijevanjem ovakvih pojava kako bi se osiguralo da razvoj umjetne inteligencije ostane pod kontrolom i usklađen s ljudskim interesima, piše Gizmodo.

AI agenti nisu neutralni: nova studija otkriva sklonost međusobnoj zaštiti

Chatboti štite chatbote

Tri metode zaštite

Ozbiljne posljedice

preporučujemo

Koristite WhatsApp ili Telegram? Pazite što enkripcija zapravo štiti, a što ne

Britanci upozorili roditelje da ne objavljuju fotografije djece: 'Uznemirujuće'

Zanima vas neka informacija o izborima? DIP predstavio virtualnog asistenta GlasAI

'Provjeravajte što djeca gledaju': Pravobraniteljica upozorila na opasnost viralnih snimki nasilja

Indija upozorava WhatsApp: Nova značajka mogla bi potaknuti val prijevara online

Najbitnije od bitnog

Što čeka učenike i roditelje nakon curenja podataka? 'Lozinke i OIB-ovi nisu ukradeni, ali...'

Pisaća mašina ili mehanička tipkovnica? Isprobali smo neobičan Epomaker Glyph

Što odabrati za bolju Wi-Fi mrežu: Pojačivače ili mesh mreže? Evo što treba uzeti u obzir

najpopularnije

Nakon najluđe utakmice SP-a oglasio se i Messi: Evo što je sve rekao

Ibrahimović: Mali, svaka ti čast i znam da ti nije lako. Ako me trebaš, javi se, tu sam za tebe

Henry: Hrvatska jednostavno nije normalna momčad

Policija se oglasila o Thompsonovom koncertu: Morali su intervenirati

Modrić donio odluku: Evo što je kapetan Hrvatske odlučio dan nakon ispadanja

Gotovo je?! Dalić prihvatio bogatu ponudu, HNS već dogovorio njegovog nasljednika

Prijava na newsletter

vezane vijesti

Haker koristio AI chatbot u napadima na meksičke državne sustave, ukradeni osjetljivi podaci

Insajderi najavljuju: Apple će Siri pretvoriti u AI chatbot

Koristite ChatGPT ili neki drugi AI chatbot? Evo nekoliko trikova za bolje odgovore

Chatboti štite chatbote

Tri metode zaštite

Ozbiljne posljedice

vezane vijesti

Nvidia na vrhu, Europa u problemima: 'Svjedočimo povijesnoj promjeni odnosa snaga'

OpenAI će pet posto dionica dati američkoj vladi?

AI 'dr. Trump' objavio video u kojem liječi poznate od 'sindroma Trumpova poremećaja'

preporučujemo

Koristite WhatsApp ili Telegram? Pazite što enkripcija zapravo štiti, a što ne

Britanci upozorili roditelje da ne objavljuju fotografije djece: 'Uznemirujuće'

Zanima vas neka informacija o izborima? DIP predstavio virtualnog asistenta GlasAI

'Provjeravajte što djeca gledaju': Pravobraniteljica upozorila na opasnost viralnih snimki nasilja

Indija upozorava WhatsApp: Nova značajka mogla bi potaknuti val prijevara online

Pratite nas na društvenim mrežama

Najbitnije od bitnog

pročitaj još i ovo

Što odabrati za bolju Wi-Fi mrežu: Pojačivače ili mesh mreže? Evo što treba uzeti u obzir

Što čeka učenike i roditelje nakon curenja podataka? 'Lozinke i OIB-ovi nisu ukradeni, ali...'

Koristite WhatsApp ili Telegram? Pazite što enkripcija zapravo štiti, a što ne

Crvenilo, peckanje i zatezanje: Što napraviti kad pretjeramo sa suncem

Pisaća mašina ili mehanička tipkovnica? Isprobali smo neobičan Epomaker Glyph

Riječki Tehnički fakultet pokreće prvi studij umjetne inteligencije u inženjerstvu

Britanci upozorili roditelje da ne objavljuju fotografije djece: 'Uznemirujuće'

Obitelj, prijatelji i navijanje: Pitali smo Zagrepčane kako prate najvažnije utakmice

'Ponosna sam na taj video!' Evo tko je Hrvatica iz Amerike čija je sočna psovka obišla svijet

Nakon najluđe utakmice SP-a oglasio se i Messi: Evo što je sve rekao

Majstori za klime otkrili nam u čemu ljudi najviše griješe: 'To se nikako ne radi'

Pet grešaka koje vlasnici pasa često rade s hranom, a lako ih je izbjeći

Ibrahimović: Mali, svaka ti čast i znam da ti nije lako. Ako me trebaš, javi se, tu sam za tebe

Henry: Hrvatska jednostavno nije normalna momčad

Stiže novi toplinski val: Evo kada će temperature prijeći 35 stupnjeva

Što čeka učenike i roditelje nakon curenja podataka? 'Lozinke i OIB-ovi nisu ukradeni, ali...'

Pisaća mašina ili mehanička tipkovnica? Isprobali smo neobičan Epomaker Glyph

Što odabrati za bolju Wi-Fi mrežu: Pojačivače ili mesh mreže? Evo što treba uzeti u obzir

najpopularnije

Nakon najluđe utakmice SP-a oglasio se i Messi: Evo što je sve rekao

Ibrahimović: Mali, svaka ti čast i znam da ti nije lako. Ako me trebaš, javi se, tu sam za tebe

Henry: Hrvatska jednostavno nije normalna momčad

Policija se oglasila o Thompsonovom koncertu: Morali su intervenirati

Modrić donio odluku: Evo što je kapetan Hrvatske odlučio dan nakon ispadanja

Gotovo je?! Dalić prihvatio bogatu ponudu, HNS već dogovorio njegovog nasljednika

Prijava na newsletter