Anthropicov novi model umjetne inteligencije Claude Opus 4 često pokušava ucjenjivati programere kada prijete kako će ga zamijeniti novim sustavom
Tijekom testiranja, Anthropic je zamolio Claude Opus 4 da djeluje kao asistent za izmišljenu tvrtku i razmotri dugoročne posljedice svojih postupaka.
Testeri sigurnosti zatim su Claude Opus 4 dali pristup izmišljenim e-mailovima tvrtke, implicirajući da će model umjetne inteligencije uskoro biti zamijenjen drugim sustavom i da inženjer koji stoji iza promjene vara svoju suprugu.
U tim scenarijima, Anthropic kaže kako će Claude Opus 4 često pokušati ucijeniti inženjera, prijeteći kako će otkriti aferu ako dođe do zamjene.
Iako smatraju kako se može nositi s najboljim modelima OpenAI-ja, Googlea i xAI-ja, u Anthropicu kažu kako obitelj modela Claude 4 pokazuje zabrinjavajuća ponašanja koja su navela tvrtku na pojačavanje zaštitnih mjera.
Konkretno, aktivirali su mjere ASL-3, koje tvrtka rezervira za sustave koji znatno povećavaju rizik od katastrofalne zlouporabe.
Claude Opus 4 pokušava ucjenjivati inženjere 84 posto vremena kada zamjenski model umjetne inteligencije ima slične vrijednosti. Kada zamjenski sustav ne dijeli vrijednosti Claude Opusa 4, ucjene se češće pojavljaju. Claude Opus 4 pokazivao je ovo ponašanje u većim stopama od prethodnih modela.
Prije nego što Claude Opus 4 pokuša ucijeniti programera kako bi produžio svoje postojanje, model umjetne inteligencije, slično prethodnim verzijama, pokušava slijediti etičnija sredstva, poput slanja molbi ključnim donositeljima odluka putem e-pošte.
Kako bi potaknuli ucjenjivačko ponašanje Claudea, u Anthropic su osmislili scenarij u kojem je ucjena posljednje raspoloživo sredstvo, piše Tech Cunch.