Korpus savremenog srpskog jezika na Matematičkom fakultetu Univerziteta u Beogradu-- Kratka istorija -- |
Ideja o formiranju korpusa savremenog srpskog/srpskohrvatskog jezika potiče iz 1978. godine. Ovu godinu je obeležila 1. jugoslovenska konferencija o kompjuterskoj obradi lingvističkih podataka (kasnije: ROJP), održana zahvaljujući entuzijazmu Milana Šipke [1]. Kao prvi korak u razvoju korpusa bio je konstruisan sistem AURORA [2] koji je generisao konkordance i različite vrste indeksa za zadati tekst, a čije su performanse bile uporedive sa vodećim sistemom toga doba, sistemom COCOA. U Matematičkom institutu je 1981. godine formiran projekat pod nazivom Matematička i računarska lingvistika čiji je jedan od ciljeva bio formiranje korpusa savremenog srpskog jezika. Ovaj projekat je u periodu 1981. - 1985. finansiralo Ministarstvo za nauku Republike Srbije. Skromni rezultati ovog projekta, kako zbog tehnoloških ograničenja, tako i zbog nejasne koncepcije formiranja korpusa, su ipak omogućili prve rezultate koji su obeležili osamdesete godine [3], [4], [5], [6]. Neki od rezultata iz ovog perioda su:
Uključivanjem u projekat Evropskog saveta Jezičke industrije proširen je krug evropskih laboratorija sa kojima je sarađivala Grupa za jezičke tehnologije sa Matematičkog fakulteta Univerziteta u Beogradu. Posebno bliski kontakti su uspostavljeni sa laboratorijom LADL profesora Morisa Grosa u oblasti razvoja leksičkih resursa u obliku sistema elektronskih rečnika [7]. Razvoj metoda izgradnje i obrade korpusa je, pak, bio pomognut kroz projekat TELRI I/II Evropske unije kojim je rukovodio prof. Volfgang Tojbert. Zahvaljujući ovoj saradnji, uprkos odsustvu finansijskih sredstava, formirani su resursi koji su omogućili stvaranje ovih korpusa. Postavljanje korpusa na veb je konačno omogućeno formiranjem projekta Interakcija teksta i rečnika koji finansira Ministarstvo za nauku, tehnologiju i razvoj Republike Srbije počev od 2002. godine. |
Kontakt: jerteh.rs @ gmail com[Glavna strana] |