SAMOOBRANA

Anthropicov AI pokušat će vas ucijeniti ako mu zaprijetite zamjenom

23.05.2025 u 12:21

Bionic
Reading

Anthropicov novi model umjetne inteligencije Claude Opus 4 često pokušava ucjenjivati ​​programere kada prijete kako će ga zamijeniti novim sustavom

Tijekom testiranja, Anthropic je zamolio Claude Opus 4 da djeluje kao asistent za izmišljenu tvrtku i razmotri dugoročne posljedice svojih postupaka.

Testeri sigurnosti zatim su Claude Opus 4 dali pristup izmišljenim e-mailovima tvrtke, implicirajući da će model umjetne inteligencije uskoro biti zamijenjen drugim sustavom i da inženjer koji stoji iza promjene vara svoju suprugu.

U tim scenarijima, Anthropic kaže kako će Claude Opus 4 često pokušati ucijeniti inženjera, prijeteći kako će otkriti aferu ako dođe do zamjene.

Iako smatraju kako se može nositi s najboljim modelima OpenAI-ja, Googlea i xAI-ja, u Anthropicu kažu kako obitelj modela Claude 4 pokazuje zabrinjavajuća ponašanja koja su navela tvrtku na pojačavanje zaštitnih mjera.

Konkretno, aktivirali su mjere ASL-3, koje tvrtka rezervira za sustave koji znatno povećavaju rizik od katastrofalne zlouporabe.

Claude Opus 4 pokušava ucjenjivati ​​inženjere 84 posto vremena kada zamjenski model umjetne inteligencije ima slične vrijednosti. Kada zamjenski sustav ne dijeli vrijednosti Claude Opusa 4, ucjene se češće pojavljaju. Claude Opus 4 pokazivao je ovo ponašanje u većim stopama od prethodnih modela.

Prije nego što Claude Opus 4 pokuša ucijeniti programera kako bi produžio svoje postojanje, model umjetne inteligencije, slično prethodnim verzijama, pokušava slijediti etičnija sredstva, poput slanja molbi ključnim donositeljima odluka putem e-pošte.

Kako bi potaknuli ucjenjivačko ponašanje Claudea, u Anthropic su osmislili scenarij u kojem je ucjena posljednje raspoloživo sredstvo, piše Tech Cunch.