Korpus savremenog srpskog jezika na Matematičkom fakultetu Univerziteta u Beogradu

-- Tehnički detalji --

Za upravljanje korpusima srpskog/srpskohrvatskog jezika je upotrebljen sistem IMS Corpus Workbench, čiji su autori Oliver Christ i Bruno Maximilian Schulze iz Instituta za obradu prirodnih jezika (IMS) Univerziteta u Štutgartu. Sastavni deo ovog sistema je CQP (Corpus Query Processor), koji omogućava široku lepezu upita nad korpusom korišćenjem kako proširenih regularnih izraza, tako i strukturnih obeležja u obeleženom (etiketiranom) korpusu. Detalji o CQP-u -- korisnički priručnik i FAQ -- dati su detaljno na strani UsersCorner.

IMS Corpus Workbench i CQP su podignuti pod sistemom Linux razvijenim u okviru projekta Slackware (verzija 7.1).

Polaznu instalaciju sistema su izvršili Ivona Marić i Duško Višić. Web-interfejs prema CQP-u i sistem za administriranje rada sa korisnicima je razvio Željko Pajkić koristeći php/MySQL. Podsistem za vertikalizaciju teksta i statistike korpusa razvio je Miloš Utvić, koji vodi i poslove oko administracije korpusa.

Dodavanje morfoloških etiketa pojedinim korpusima je izvršeno pomoću programa za statističko etiketiranje TnT (Statistical Part-of-Speech Tagging) čiji je autor Thorsten Brants. Adaptaciju TnT-a za srpski skup etiketa obavio je Miloš Utvić, polazeći od etiketirane verzije srpskog izdanja 1984 Dž. Orvela. Ovo izdanje su pripremili Cvetana Krstev i Duško Vitas u saradnji sa Katarinom Todorović, a prema preporukama MULTEXT-East.

Kontakt: korpus @ matf bg ac rs


[Glavna strana]