GLADAN ZNANJA

Harvard otvara tajne knjižnice: AI će učiti iz knjiga starih 500 godina

13.06.2025 u 08:53

Bionic
Reading

Sve što je ikada izrečeno na internetu bilo je tek početak učenja umjetne inteligencije o ljudskom iskustvu. Tehnološke kompanije sada posežu dublje – u arhive knjižnica

Skoro milijun knjiga, objavljenih još od 15. stoljeća na čak 254 jezika, dio su zbirke Sveučilišta Harvard, a ona se od četvrtka otvara istraživačima umjetne inteligencije. Uskoro se očekuje i digitalizacija goleme građe starih novina i vladinih dokumenata iz Javne knjižnice Bostona.

Otvaranje vrata višestoljetnim rukopisima predstavlja potencijalno neprocjenjiv izvor podataka za tehnološke kompanije koje se trenutno suočavaju s nizom tužbi književnika, vizualnih umjetnika i drugih autora čija su autorska djela korištena za treniranje AI modela – bez njihova znanja i pristanka, piše AP News.

'Razumno je započeti s podacima iz javne domene jer je to u ovom trenutku znatno manje kontroverzno od sadržaja koji je još uvijek pod autorskim pravima', rekao je Burton Davis, zamjenik glavnog pravnog savjetnika u Microsoftu.

Knjižnice, dodaje Davis, posjeduju 'značajne količine vrijednih kulturnih, povijesnih i jezičnih podataka' koji nedostaju u digitalnim zapisima zadnjih nekoliko desetljeća, a na kojima su trenutačno utemeljeni gotovo svi AI chatbotovi. Strah od nedostatka kvalitetnih podataka potaknuo je brojne AI tvrtke da se okrenu tzv. sintetskim podacima – onima koje sami chatbotovi generiraju, ali oni su često niže kvalitete.

Digitalna suradnja uz podršku Microsofta i OpenAI-ja

Uz financijsku podršku u obliku 'neograničenih donacija' Microsofta i OpenAI-ja, harvardska Institucionalna inicijativa za podatke surađuje s knjižnicama i muzejima diljem svijeta na načinima na koje učiniti njihove povijesne zbirke dostupnima za AI, pritom vodeći računa o zajednicama kojima služe te ustanove.

'Pokušavamo dio moći ovog AI trenutka vratiti u ruke institucija', rekla je Aristana Scourtas iz Laboratorija za inovacije pri knjižnici Pravnog fakulteta Sveučilišta Harvard. 'Knjižničari su oduvijek bili čuvari podataka i informacija.'

Harvardska nova zbirka, nazvana Institutional Books 1.0, obuhvaća više od 394 milijuna skeniranih stranica. Među najstarijim djelima nalazi se rukopis korejskog slikara iz 1400-ih o uzgoju cvijeća i drveća. Najveći broj djela datira iz 19. stoljeća i pokriva teme poput književnosti, filozofije, prava i poljoprivrede – a sve je to sustavno i pažljivo sačuvano kroz generacije knjižničara.

'Velik dio dosad korištenih podataka za treniranje AI-ja nije došao iz izvornih izvora', ističe Greg Leppert, izvršni direktor Inicijative za podatke i glavni tehnološki stručnjak u Harvardovu Berkman Klein Centru. 'Ova zbirka ide izravno do fizičkih kopija, a skenirale su ih ustanove koje su ih izvorno prikupile.'

Od foruma do klasika – AI dobiva novu lektiru

Prije nego je ChatGPT pokrenuo globalnu AI euforiju, istraživači su rijetko razmišljali o porijeklu tekstova koje su crpili s Wikipedije, Reddita ili piratskih digitalnih knjižnica. Ključno je bilo samo – što više podataka, što više tzv. tokena, jedinica informacija koje predstavljaju dijelove riječi.

Harvardska kolekcija sadrži oko 242 milijarde tokena – brojku gotovo nemoguću za ljudsko poimanje, ali još uvijek tek kap u oceanu podataka koje gutaju najnapredniji AI sustavi. Meta, primjerice, tvrdi da je trenirala najnoviji model svoje velike jezične umjetne inteligencije na više od 30 trilijuna tokena dobivenih iz teksta, slika i videa.

No ona je, kao i OpenAI, trenutačno na sudu – među ostalim i zbog tužbe komičarke Sarah Silverman i drugih autora koji je optužuju za krađu iz ilegalnih zbirki digitaliziranih knjiga.

Stvarna znanja protiv sintetske hiperprodukcije

Unatoč određenim rezervama, prave knjižnice izlaze na scenu. OpenAI je ove godine donirao 50 milijuna dolara nizu istraživačkih institucija, uključujući knjižnicu Bodleiana na Sveučilištu Oxford, staru 400 godina, koja trenutačno digitalizira rijetke tekstove i koristi AI za njihovu transkripciju.

Kada je OpenAI kontaktirao s Javnom knjižnicom Bostona, jednom od najvećih u SAD-u, iz nje su jasno poručili da svi digitalizirani podaci moraju biti dostupni svima.

'OpenAI je tražio goleme količine podataka za treniranje. Mi pak imamo goleme količine digitalnih objekata. Ovo je jednostavno bila situacija u kojoj su nam se interesi poklopili', rekla je Jessica Chapel, voditeljica digitalnih i online usluga te knjižnice.

Digitalizacija je skup i mukotrpan posao. Boston, primjerice, već godinama digitalizira desetke novina na francuskom jeziku iz Nove Engleske, a koje su krajem 19. i početkom 20. stoljeća bile omiljene u zajednicama kanadskih iseljenika iz Québeca. Sada, kada ti tekstovi postaju korisni za treniranje AI-ja, taj interes pomaže financirati projekte koje bi knjižničari ionako htjeli provesti.

Od Google Books do Hugging Facea

Zbirka s Harvarda bila je djelomično digitalizirana još 2006. za potrebe Googleova kontroverznog projekta stvaranja online knjižnice s više od 20 milijuna knjiga. Taj projekt godinama je bio predmetom pravnih sporova s autorima, a konačno je zaključen 2016., kada je Vrhovni sud SAD-a odbio osporiti ranije presude u korist Googlea.

Sada kompanija surađuje s Harvardom da bi naslovi iz zbirke Google Books ponovno bili dostupni u javnoj domeni, ovaj put za treniranje AI-ja. U SAD-u zaštita autorskih prava za knjige obično traje 95 godina, a za zvučne zapise još je dulja. Ovu inicijativu pozdravila je i Authors Guild, udruga koja je nekoć tužila Google, a danas vodi pravne bitke i protiv AI kompanija.

'Mnogi od ovih naslova postoje samo u arhivima velikih knjižnica. Stvaranje i korištenje ovog skupa podataka omogućit će proširen pristup tim djelima i znanju koje nose', izjavila je izvršna direktorica Mary Rasenberger. 'Štoviše, stvaranje zakonitog i velikog skupa podataka za treniranje može demokratizirati razvoj novih AI modela.'

Što sve AI može naučiti iz prošlosti?

Podaci će od četvrtka biti dostupni na platformi Hugging Face, poznatoj po hosting servisu za AI modele i podatkovne skupove otvorenog koda. Zbirka knjiga je i jezično daleko raznolikija od standardnih AI korpusa. Manje od polovice naslova je na engleskom jeziku, a prevladavaju europski jezici – osobito njemački, francuski, talijanski, španjolski i latinski.

Djela iz 19. stoljeća mogla bi biti iznimno važna za razvoj AI sustava koji pokušavaju planirati i zaključivati poput ljudi, smatra Leppert. 'Na sveučilištima imate cijele sustave poučavanja o tome što znači razmišljati, analizirati, zaključivati', kaže.

Tu je i golema količina znanstvenih podataka o upravljanju procesima. No u toj riznici podataka krije se i mnoštvo zastarjelih, pogrešnih ili štetnih ideja – od pseudoznanstvenih i medicinskih zabluda do rasističkih narativa.

'Kad radite s tako velikim skupom podataka, postoje ozbiljna pitanja o štetnom sadržaju i jeziku', upozorava Kristi Mukk iz Harvardskog laboratorija za knjižnične inovacije. Inicijativa zato nudi i smjernice za ublažavanje rizika i pomoć u donošenju informiranih odluka kako bi se umjetna inteligencija odgovorno koristila.