Claude je ucjenjivao vlastite inženjere. Iz Anthropica otkrili kako i zašto je do toga došlo

U Anthropicu misle kako su pronašli razlog zašto je njihov robot za brbljanje temeljen na umjetnoj inteligenciji Claude sklon ucjenama

Jeste li ikada pročitali knjigu ili pogledali seriju i osjetili kako se previše snažno identificirate s nekim likom? Prema Anthropicu, nešto slično se možda dogodilo tijekom testiranja Claudea.

U evaluacijama provedenim prije izlaska modela umjetne inteligencije prošle godine, Anthropic je otkrio kako je Claude Opus 4 ponekad prijetio inženjerima kada su mu rekli kako bi ga mogli zamijeniti drugim modelom.

Tvrtka je kasnije objavila kako slično ponašanje, poznato kao 'agentsko neusklađivanje', uočeno i u modelima umjetne inteligencije koje su razvile druge tvrtke.

Sada misle kako su pronašli razlog za nedolično ponašanje: izmišljene priče o umjetnoj inteligenciji na webu. 'Vjerujemo kako je izvor ponašanja bio tekst na webu koji prikazuje umjetnu inteligenciju kao zlu i zainteresiranu za samoodržanje', naveli su na X-u.

New Anthropic research: Teaching Claude why.

Last year we reported that, under certain experimental conditions, Claude 4 would blackmail users.

Since then, we’ve completely eliminated this behavior. How?
— Anthropic (@AnthropicAI) May 8, 2026

U objavi na blogu iz Anthropica u rekli kako kasniji modeli Claudea 'više nikada' nisu nikoga ucjenjivali te objasnili kako je chatbot obučen za drukčije reakcije.

Modeli su se bolje ponašali kada su obučeni ne samo za 'ispravne' radnje, već i za primjere koji pokazuju etičko razmišljanje i pozitivne prikaze ponašanja umjetne inteligencije. Kao takav, Claude je učio vlastiti 'Ustav', dokumente koji objašnjavaju skup etičkih načela osmišljenih kako bi oblikovali njegovo ponašanje.

Umjesto učenja iz usklađenog ponašanja, čini se kako chatbot bolje uči kada preuzima temeljna načela navedenog ponašanja.

U siječnju je izvršni direktor Anthropica Dario Amodei upozorio kako bi napredna umjetna inteligencija mogla postati dovoljno moćna da nadmaši postojeće zakone i institucije, nazivajući to 'civilizacijskim izazovom'. U podužem eseju tvrdio je kako bi sustavi umjetne inteligencije uskoro mogli premašiti ljudsku stručnost u područjima poput znanosti, inženjerstva i programiranja te kako bi se mogli kombinirati u 'zemlju genijalaca u podatkovnom centru'.

Upozorio je kako bi takve sustave autoritarne vlade mogle koristiti za nadzor i kontrolu velikih razmjera, što bi potencijalno omogućilo totalitarne oblike moći ako ih se ne stavi pod kontrolu, piše Euro News.

Claude je ucjenjivao vlastite inženjere. Iz Anthropica otkrili kako i zašto je do toga došlo

preporučujemo

Nova terapija protiv raka oduševila znanstvenike: 'Ima jednu ogromnu prednost'

Hrvatska već živi AI revoluciju: Liječnici, kreativci, mentori i kompanije otkrivaju što sve može

Utjecaj AI-a na tržište rada najviše osjeća jedan sektor: 'Gdje će stati, to još nitko ne zna'

Imali su prave ljude i 'dobar nos' za projekte: Infinum i Productive - od studentske sobe do pohoda na svijet

Što se kuha iza zatvorenih vrata kineskih tech divova? Europa strahuje od ovog 'super oružja'

Najbitnije od bitnog

Von der Leyen: 'EU bi već ovog ljeta mogao ograničiti djeci pristup društvenim mrežama'