Corpus of Contemporary Serbian Language

Korpus savremenog srpskog jezika na Matematičkom fakultetu Univerziteta u Beogradu

-- Kratka istorija --

Ideja o formiranju korpusa savremenog srpskog/srpskohrvatskog jezika potiče iz 1978. godine. Ovu godinu je obeležila 1. jugoslovenska konferencija o kompjuterskoj obradi lingvističkih podataka (kasnije: ROJP), održana zahvaljujući entuzijazmu Milana Šipke [1]. Kao prvi korak u razvoju korpusa bio je konstruisan sistem AURORA [2] koji je generisao konkordance i različite vrste indeksa za zadati tekst, a čije su performanse bile uporedive sa vodećim sistemom toga doba, sistemom COCOA. U Matematičkom institutu je 1981. godine formiran projekat pod nazivom Matematička i računarska lingvistika čiji je jedan od ciljeva bio formiranje korpusa savremenog srpskog jezika. Ovaj projekat je u periodu 1981. - 1985. finansiralo Ministarstvo za nauku Republike Srbije. Skromni rezultati ovog projekta, kako zbog tehnoloških ograničenja, tako i zbog nejasne koncepcije formiranja korpusa, su ipak omogućili prve rezultate koji su obeležili osamdesete godine [3], [4], [5], [6]. Neki od rezultata iz ovog perioda su:

prva kolekcija testova u digitalnom obliku koja se sastojala prvenstveno od literarnih tekstova, udžbenika i stručne literature;
prvi eksperimenti u morfološkom generisanju srpskohrvatskog;
prva istraživanja na području korpusne lingvistike (analize jezika udžbenika, jezika zakona, itd);
uspostavljanje kontakata sa vodećim evropskim istraživačima sa područja korpusne lingvistike, posebno sa Volfgangom Tojbertom (Wolfgang Teubert, tada IdS, Mannheim) i grupom profesora Petera Sgala sa Karlovog univerziteta u Pragu, kao i istraživačima iz Zagreba (SRCE, Filozofski fakultet) i Ljubljane (Institut "Jožef Stefan").

Zanimljivo je da su u ovom periodu, koristeći sistem AURORA, sastavljeni i obrađeni prvi paralelni korpusi (srpsko-slovenački podjezika uputstava za lekove, srpsko-hrvatsko-slovenački na uzorku saveznih zakona, englesko-srpski sa područja informatike). Takođe, već 1989. je bio pripremljen srpski prevod standarda o SGML-u.

Uključivanjem u projekat Evropskog saveta Jezičke industrije proširen je krug evropskih laboratorija sa kojima je sarađivala Grupa za jezičke tehnologije sa Matematičkog fakulteta Univerziteta u Beogradu. Posebno bliski kontakti su uspostavljeni sa laboratorijom LADL profesora Morisa Grosa u oblasti razvoja leksičkih resursa u obliku sistema elektronskih rečnika [7]. Razvoj metoda izgradnje i obrade korpusa je, pak, bio pomognut kroz projekat TELRI I/II Evropske unije kojim je rukovodio prof. Volfgang Tojbert. Zahvaljujući ovoj saradnji, uprkos odsustvu finansijskih sredstava, formirani su resursi koji su omogućili stvaranje ovih korpusa.

Postavljanje korpusa na veb je konačno omogućeno formiranjem projekta Interakcija teksta i rečnika koji finansira Ministarstvo za nauku, tehnologiju i razvoj Republike Srbije počev od 2002. godine.

Kontakt: jerteh.rs @ gmail com

[Glavna strana]