SKREĆE S TRAČNICA

Koristite ChatGPT? Istraživanje pokazalo da postaje sve pametniji, ali i da sve više izmišlja

09.05.2025 u 08:34

Bionic
Reading

Prema jednoj od teorija koje kruže u istraživačkoj zajednici umjetne inteligencije, što više zaključivanja model pokušava izvesti, to je veća vjerojatnost kako će skrenuti s tračnica

Najnoviji vodeći modeli OpenAI-a, GPT o3 i o4-mini, namijenjeni su oponašanju ljudske logike. Za razliku od prethodnika, koji su se uglavnom fokusirali na generiranje tečnog teksta, OpenAI je izgradio GPT o3 i o4-mini kako bi stvari promišljali korak po korak.

OpenAI se pohvalio kako o1 može dostići ili nadmašiti performanse doktoranda iz kemije, biologije i matematike. No, izvješće OpenAI-ja ističe neke uznemirujuće rezultate za svakoga tko uzima odgovore ChatGPT-ja zdravo za gotovo.

OpenAI je otkrio kako je model GPT o3 uključio halucinacije u trećinu referentnog testa vezanog uz javne osobe. To je dvostruko veća stopa pogreške od ranijeg modela o1 iz prošle godine. Kompaktniji model o4-mini pokazao se još lošijim, halucinirajući na 48 posto sličnih zadataka.

Prilikom testiranja na pitanjima općenitijeg znanja za SimpleQA benchmark, halucinacije su se povećale na 51 posto odgovora za o3 i 79 posto za o4-mini. Prema jednoj od teorija koje kruže u istraživačkoj zajednici umjetne inteligencije, što više zaključivanja model pokušava izvesti, to je veća vjerojatnost kako će skrenuti s tračnica.

Opširniji odgovori, više kreativnosti

Za razliku od jednostavnijih modela, koji se drže predviđanja visoke pouzdanosti, modeli zaključivanja upuštaju se u područje gdje moraju procijeniti više mogućih putova, povezati različite činjenice i, u biti, improvizirati. A improvizacija oko činjenica poznata je i kao - izmišljanje.

OpenAI smatra kako je moguće da do porasta halucinacija nije došlo zato što su modeli zaključivanja inherentno lošiji, već radi toga što su opširniji i avanturističkiji u svojim odgovorima. Budući novi modeli ne samo ponavljaju predvidljive činjenice, već nagađaju o mogućnostima, granica između teorije i izmišljenih činjenica može postati nejasna za umjetnu inteligenciju.

Ipak, više halucinacija suprotno je onome što OpenAI i njegovi konkurenti poput Googlea i Anthropica žele od svojih najnaprednijih modela. Odvjetnici su već upali u nevolje jer su koristili ChatGPT i nisu primijetili izmišljene sudske citate. Puno ozbiljniji problemi mogli bi nastati počne li ih se koristiti u učionicama, uredima, bolnicama, vladinim agencija...

Dok se te probleme ne riješi, svaki odgovor modela umjetne inteligencje trebali biste uzeti s dozom opreza i rezerve, piše Tech Radar.