IZLOŽBA 'KORPUS'

Što o nama govori najučestalija psovka?

14.03.2013 u 11:18

Bionic
Reading

Što danas predstavlja jednu zemlju, čak i kad sama ne zna što bi željela predstavljati? Što predstavlja sve njezine građane, bez obzira na spol, dob, materijalni status, ideologiju. Kojih '10 NAJ' – imenica, glagola, psovki, prezimena – koristimo svaki dan? Odgovore nude autori izložbe 'Korpus', Vlatka Kolarović i Marko Tadić, s kojima smo razgovarali o projektu koji spaja pop kulturu i ozbiljno dugogodišnje istraživanje

Izložba 'Korpus' otvara se u Galeriji VN u četvrtak, 14. ožujka, u 20 sati. U njoj su izložene i arheologija istraživanja jezičnoga korpusa (koja datira s kraja šezdesetih godina prošlog stoljeća) i suvremene spoznaje o jeziku analizirane iz naše komunikacije u digitalnom prostoru. Izložba će obilježiti 15 godina znanstvenoga rada na Hrvatskom nacionalnom korpusu, predstaviti njegovu novu inačicu HNK v3.0 i – učiniti korak prema EU-u.

'Što nas predstavlja posve i u potpunosti? Što smo u odnosu na druge? Koje zemlje imaju najbolje obrađene jezične korpuse? Naš je svijet doista, i to nije metafora, sazdan od riječi!' - stoji u najavi izložbe za čiji su postav zaslužni Dejan Dragosavac Ruta i Marko Matošić

S autoricom izložbe Vlatkom Kolarović, urednicom i voditeljicom emisije 'Drugi format' i urednicom Programa za kulturu HTV-a, te s jezikoslovcem Markom Tadićem, profesorom na Odsjeku za lingvistiku Filozofskoga fakulteta u Zagrebu, razgovarali smo o ovom zanimljivom projektu.

Kako ste došli do ideje za izložbu?

Vlatka Kolarović:
Pitanje od kojeg sam krenula glasilo je: kako bih voljela ući u Europu? Nisam tu mislila na sebe osobno, jer mi se čini da u Europi živim cijeli svoj život, ali sama pomisao o tome što danas predstavlja zemlju u kojoj živim činila mi se zanimljivom. Vidjeli ste i sami još prošle godine u Francuskoj, od Apoksiomena do Damira Očka, naša se kultura ne može svesti na zajednički nazivnik. Što nas uopće kao zemlju predstavlja? Je li to Marin Držić ili Ivana Sajko? Je li to Baščanska ploča ili Tom Gotovac/Antonio Lauer? Ivica Kostelić ili Zoran Milanović? Tako se rodila ideja o tome da nas danas sve i u potpunosti predstavlja jezik, i to jezik kojim komuniciramo u današnjem, digitalnom vremenu (i prostoru). Ali moja romantična predodžba o 'paviljonu riječi' koji sam željela projektirati ipak je naišla na konkretne znanstvene podatke, lišene emocija i paušalnih ocjena. A oni su sadržani u Hrvatskom nacionalnom korpusu. Tako je suradnja s dr. Markom Tadićem dovela do izložbe koja u sebi spaja pop kulturu i ozbiljno dugogodišnje istraživanje.

Korpus jest, kako kažete u najavi, 'izložba riječi koja prikazuje suvremene spoznaje o jeziku analizirane iz naše komunikacije u digitalnom prostoru i arheologiju istraživanja hrvatskih jezičnih korpusa'. Najprije, što je zapravo – Korpus riječi?

Vlatka Kolarović: Korpus je pisani ili govorni jezični resurs, koji je prikupljen i obilježen u cilju analize jezika. Postoje nacionalni korpusi koji obuhvaćaju stotine milijuna riječi, ali i korpusi sastavljeni za određene svrhe, obično manjega opsega.

Marko Tadić: Danas pod nazivom 'korpus' svi stručnjaci i laici već u potpunosti podrazumijevaju 'računalni korpus' tj. računalno pohranjenu i pretraživu zbirku tekstnih odsječaka koji predstavljaju istraživački uzorak nekoga jezika. Tu smo već u paradigmi e-humanistike i računalna je lingvistika na jedan način postala rodonačelnikom te paradigme u humanističkim znanostima. Računalni nam korpusi omogućuju uvid u one jezične odnose koje ne možemo dohvatiti introspekcijom – nerijetko se nekih niti ne možemo dosjetiti, a još više jer je ljudsko poimanje jezičnih činjenica kao što je čestota neke jedinice u jeziku potpuno izobličeno. U tome smislu nismo kadri niti približno točno ocijeniti koliko čega u jeziku ima. To dobivamo samo strogim, empirijskim uvidom u jezične korpuse.

Je li riječ o izložbi riječi ili izložbi našeg nepoznavanja 'o čemu govorimo kad govorimo o govorenju i pisanju'?

VK: Ova izložba u stvari postavlja pitanja i otvara neslućene slojeve za razmišljanje. Tako je to s jezikom. Uvijek vas može iznenaditi, a riječi nikada nisu 'samo' riječi, to najbolje znamo mi novinari. Ipak, ovaj znanstveni pristup jeziku možda će naići na zanimanje sociologa ili društveno-političkih analitičara jer činjenica da je najučestalija psovka 'kurvo' ipak možda govori ponešto više o društvu nego bi se na prvu očekivalo. Ali ponovit ću, za lingviste ta je riječ ravnopravna bilo kojoj drugoj.

MT: Jezikoslovci moraju svakom jeziku kao i svakoj njegovoj riječi pristupati neutralno, znanstveno objektivno i nepristrano. To vrijedi za sve riječi, pa i one koje se nerijetko izostavljaju premda i one pridonose npr. leksičkome bogatstvu nekoga jezika, govore o kreativnim postupcima u jeziku, daju nam potvrde za pojedine tvorbene ili sintaktičke obrasce. Jezikoslovci moraju biti 'profesionalci od riječi' isto onako kako liječnice moraju biti profesionalci kad pregledavaju svoje muške pacijente ili obrnuto.To, međutim, ne isključuje da jezikoslovci kao znanstvenici s područja humanističkih znanosti, ne smiju sagledavati ulogu jezika u izgradnji nacionalnoga i individualnoga identiteta. Dapače, oni su uz ostale humanističke i društvene znanstvenike itekako pozvani da tome pridonesu. Naš je jezik – društveni fenomen u svojoj biti – nezaobilazan gradbeni element kolektivnoga i individualnoga identiteta, pa je utoliko i hrvatski jezik gradbeni element hrvatskoga identiteta i svojom sveobuhvatnošću i sveprisutnošću nas možda i ponajbolje identificira i legitimira pred ostatkom Europe i svijeta.


Vlatka Kolarović
Vaša analiza otkriva neke 'tajne' koje rukovode našom upotrebom jezika. Jesu li otkrića tih tajni iznenađujuća u temeljnom smislu ili su ponajprije zabavna?

VK: To u stvari nisu tajne. One se tako čine nama, običnim korisnicima jezika. Uvijek nas iznenadi statistika bilo da je riječ o jeziku ili nečemu drugome. Tako nam se učine i zabavnima, ali mogle bi biti i tragične, recimo činjenica da je glagol znati tek na desetom mjestu po učestalosti pojavljivanja u korpusu, daleko iza moći, htjeti ili imati. Ali to je opet moje emotivno gledanje na stvari. Marko Tadić i lingvisti imaju posve drugačiji pristup. Riječi su, kada ih istražujemo, sve ravnopravne!

MT: Začudnost rezultata postoji ako niste upoznati s mehanizmima koji stoje iza njih. Valja znati kako se korpusi skupljaju, koji tekstovi u njih ulaze, koliko su stvarno reprezentativni za neki jezik (nikad u potpunosti, ali to mora biti cilj kojem se želimo približiti najviše moguće). Kako sam jezik nije konzervirana, nepromjenljiva i fiksna pojava, već se kontinuirano mijenja i prilagođuje kulturi kojoj služi, koju oblikuje i kojom je oblikovan, onda ni korpus ne smije biti okamenjeni instrument, već jezikoslovno pomagalo koje prati jezik. Utoliko će rezultati pretrage jedne verzije korpusa, u nekoj novijoj verziji biti različiti od prethodne.



Kako ste došli do svih tih otkrića, kojom ste se metodologijom i procedurom koristili?

Marko Tadić: Korpusna lingvistika u Hrvatskoj ima svoju tradiciju od 1967. kad je Željko Bujas napravio prvi hrvatski računalni korpus tj. računalno – konkordancijski – obradio GundulićevaOsmana i upravo će se elementi te tradicije moći vidjeti i na izložbi. Metodologija je manje-više poznata, ali ju valja ponoviti za svaki pojedinačni korpus svakoga jezika. Riječ je o postupcima uzorkovanja tekstova koji bi morali predstaviti ukupnost tekstne cirkulacije u nekom društvu i u nekom razdoblju, potom digitalizacije tih tekstova, pohrane s pomoću specijaliziranih programa i potom davanje pristupa tim korpusima online kako bi im razni jezikoslovni i nejezikoslovni korisnici mogli slobodno pristupati i pretraživati ih. Korpusi nam daju osnovne podatke o nekome jeziku i danas je teško zamisliti neki 'ozbiljniji' ili kultiviraniji jezik bez velikoga reprezentativnoga korpusa. Bez takvih korpusa nema niti razvoja jezičnih tehnologija, ključnih tehnologija za uspostavu informacijskoga društva kojemu teži čitav EU do 2020.

Komunikacija na internetu sve je bogatija raznim kraticama, simbolima, emotikonima itd. Jesu li ti 'hijeroglifi' dio Korpusa? Usput, postoji li, osim ekonomičnosti, još neki razlog epidemije takvih simbola? Je li riječ o svojevrsnoj artificijelnosti koja je u modi? Ili možda i o snobizmu?

Marko Tadić: E-tekst je medij koji bismo mogli promatrati kao ravnopravan dvjema tradicionalnim medijima u kojima se jezik pojavljuje: pisani tekst i govoreni tekst. E-tekstovi se svojim osobinama smještaju negdje između pisanoga i govorenoga teksta, ali imaju i neke svoje osobitosti. Intenzivna uporaba pokrata i emotikona je jedna od njih. To ne treba čuditi jer u takvom komunikacijskome kanalu u kojem je brzina komunikacije jedno od ključnih očekivanja, uporaba pokrata je sasvim očekivana. To postaje moda ako se koristi izvan toga kanala, ali zašto se ne bismo s jezikom i igrali? Zašto nam jezik uvijek mora služiti samo za prenošenje obavijesti. Pogledajte što se dogodilo u ovoj poplavi racionalizacije i ekonomizacije života: potpuno smo zaboravili na poeziju. Koliko se danas dvadesetogodišnjaka uopće želi baviti poezijom i igrati riječima?


Marko Tadić
Najavljujete otkriće '10 NAJ' - imenica, glagola, psovki, prezimena itd. – kojima se koristimo svaki dan? Možete li nam ih otkriti, ili ipak moramo doći na izložbu?

Marko Tadić: Dođite na izložbu!

Jesu li mumljanja/zatezanja i slični neartikulirani zvukovi dio Korpusa? Poznata nam je upotreba riječi 'hm', no koliko još ima takvih pisanih izraza i koliko bi nam ih još trebalo za sve ono što u svakodnevnom govoru zaista čujemo? U kolikoj mjeri ti 'zvukovi' koji nikad ne prijeđu u pisani tekst čine naš govor?

Marko Tadić: Dio su samo ako su ih autori zabilježili pismom. HNK je korpus pisanih tekstova.

Što znači služiti se nekim jezikom? Koliko je riječi potrebno znati i koliko osnovnih pravila poznavati? Postoji li jasno ustanovljiv 'prag' koji treba prijeći ili smo uvijek u sivoj zoni? Postoji li itko tko zaista govori hrvatski?

Marko Tadić: Korpusnolingvistički tj. čestotni kriterij se u grubo može postaviti na sljedeći način: oko 4.000 najčešćih riječi u nekom jeziku pokriva 80 posto svih tekstova na tom jeziku; najčešćih 8.000 pokriva gotovo 90 posto svih tekstova, na sve ostale otpada preostalih 10 posto. Tome nas uči Zipfov zakon koji je također prikazan na izložbi. Međutim, definicija jezika nije samo sastav leksika,već i pravila kombiniranja jezičnih jedinica koja se usvajaju učenjem kao prvoga, drugoga, trećega itd. jezika. Svatko tko se u javnoj komunikaciji služi standardnim hrvatskim jezikom, zaista govori hrvatski. Svatko tko se u privatnoj komunikaciji služi nekim od hrvatskih mjesnih govora, zaista govori hrvatski. I tu nema nikakvih dilema – svoga se jezika ne treba niti bojati niti stidjeti.

Postoji li limit riječi kojima se čovjek može služiti? Je li problem u njihovu memoriranju, razumijevanju ili možda u pukom limitu pohranjivanja u mozgu?

Marko Tadić: Svakako postoji ograničenje, ali ono ovisi o IQ – naši to psiholozi znaju bolje od lingvista – ali s leksičkim fondom je isto kao i sa svakom drugom ljudskom aktivnošću: trening čini čuda. Što se služite s više riječi svakodnevno, to ćete ih više znati i lakše usvajati nove.

Koju riječ najviše volite?

Marko Tadić: Sve.

Otvorenju izložbe u Galeriji VN u četvrtak, 14. ožujka, prethodit će razgovor Vlatke Kolarović i Marka Tadića naslovljen 'Corpus delicti' u 19 sati, a izložbu možete pogledati do 29. ožujka.