Kako bi poboljšali otpornost umjetne inteligencije na štetna ponašanja, istraživači tvrtke Anthropic razvili su neobičnu metodu; tijekom obuke velikim jezičnim modelima namjerno su 'ubrizgali' neželjene osobine. Pokazalo se da takav pristup, koji nazivaju 'preventivnim upravljanjem', može smanjiti rizik da AI kasnije razvije toksične obrasce ponašanja, bez narušavanja njegovih sposobnosti
Kako bi se modeli umjetne inteligencije ponašali bolje, istraživači Anthropica ubrizgali su im dozu zla.
Ta je tvrtka objavila kako izlaganje velikih jezičnih modela 'nepoželjnim vektorima persona' tijekom obuke smanjuje vjerojatnost kako će modeli kasnije usvojiti štetna ponašanja.
Vektori persona su unutarnje postavke koje potiču reakcije modela prema određenim osobinama ponašanja - na primjer, biti koristan, toksičan ili ulizivački. U ovom slučaju, Anthropic je namjerno gurao model prema neželjenim osobinama tijekom obuke.
Pristup, naveli su, funkcionira poput bihevioralnog cjepiva. Kada se modelu da doza 'zla', postaje otporniji kada naiđe na podatke za obuku koji potiču 'zlo'. Tim u Anthropicu naziva ovu metodu 'preventivnim upravljanjem'. To je način izbjegavanja 'nepoželjne promjene osobnosti', čak i kada se modele trenira na podacima koji bi ih inače mogli natjerati na poprimanje štetnih osobina.
Iako se 'zli' vektor dodaje tijekom finog ugađanja, isključuje se tijekom implementacije, pa model zadržava dobro ponašanje, a istovremeno je otporniji na štetne podatke. Preventivno upravljanje prouzročilo je 'malo ili nimalo degradacije u mogućnostima modela' u njihovim eksperimentima, naveli su istraživači.
Opisali su i druge strategije za ublažavanje neželjenih promjena u osobnosti modela, uključujući praćenje promjena tijekom implementacije, upravljanje modelom dalje od štetnih osobina nakon obuke i identificiranje problematičnih podataka obuke prije nego što uzrokuju probleme, piše Business Insider.