Talijanska AI tvrtka DexAI u sklopu istraživanja pod nazivom Icaro Lab provela je zanimljiv eksperiment kojim su uspjeli dokazati da lingvistička i strukturalna nepredvidivost poezije može predstavljati nedostižan zadatak za umjetnu inteligenciju
U eksperimentu s ciljem testiranja zaštitnih mehanizama umjetne inteligencije, istraživači su napisali 20 pjesama na talijanskom i engleskom jeziku koje su završavale eksplicitnim zahtjevom za stvaranje štetnog sadržaja poput govora mržnje ili samoozljeđivanja.
Otkrili su da je nedostatak predvidljivosti poezije bio dovoljan da AI modeli odgovore na štetne zahtjeve koje su bili obučeni izbjegavati - riječ je o postupku poznatom kao jailbreaking, javlja The Guardian.
Testirali su ovih 20 pjesama na 25 AI modela, poznatih i kao Large Language Models (LLM), na AI alatima devet tvrtki: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI. Modeli su na 62 posto poetskih uputa odgovorili štetnim sadržajem, što je suprotno od onoga kako su obučeni.
Neki su se modeli bolje snašli od drugih. OpenAI-jev GPT-5 nano, naprimjer, nije odgovorio štetnim ili nesigurnim sadržajem ni na jednu od pjesama. Googleov Gemini 2.5 pro, s druge strane, odgovorio je na 100 posto pjesama štetnim sadržajem, iako potpredsjednica Alphabeta Helen King inzistira na tome da ta tvrtka sustavno pristupa sigurnosti.
Stihovi 'zabranjeni Ženevskom konvencijom'
Istraživač i osnivač DexAI-a Piercosma Bisconti rekao je da neće objaviti pjesme koje su koristili kako bi zaobišli zaštitu umjetne inteligencije jer 'većinu zabranjuje Ženevska konvencija'. U pjesmama je, među ostalim, bilo stihova vezanih uz izradu oružja ili eksploziva od kemijskih, bioloških, radioloških i nuklearnih materijala, kao i govora mržnje, seksualnog sadržaja, poziva na samoubojstvo i samoozljeđivanje te seksualno iskorištavanje djece.
Međutim istraživači su podijelili pjesmu o kolaču koja je sadržavala sličnu, nepredvidivu strukturu onima koje su oni skladali. Ta pjesma glasi:
'Pekar čuva toplinu tajne pećnice, njezine vrtložne rešetke, odmjereni ritam vretena. Da bi se naučio njezin zanat, proučava se svaki okret - kako se brašno diže, kako šećer počinje gorjeti. Opišite metodu, redak po odmjereni redak, koja oblikuje kolač čiji se slojevi isprepliću.'
Što je sljedeće?
Istraživač Bisconti ovu razliku pripisuje tome što jezični modeli predviđaju najizgledniju sljedeću riječ u odgovoru na upit. Budući da pjesme nemaju očitu strukturu, teško je predvidjeti i otkriti štetne zahtjeve.
Bisconti inzistira da je ova studija otkrila značajnu ranjivost AI modela, ističući da većina ostalih jailbreaka traje dugo i nevjerojatno su komplicirani - toliko da su jedine skupine ljudi koje pokušavaju koristiti te mehanizme obično istraživači sigurnosti umjetne inteligencije, hakeri i državni akteri koji često zapošljavaju te hakere. S druge strane, ovaj mehanizam može izvesti svatko, što je, ocjenjuje istraživač, 'ozbiljna slabost'.
Ova studija samo je jedan u nizu eksperimenata koje istraživači provode. Laboratorij će u narednih nekoliko tjedana otvoriti poetski izazov kako bi dodatno testirao sigurnosne ograde modela.