Dostupni korpusi srpskog/srpskohrvatskog jezika
na Matematičkom fakultetu Univerziteta u Beogradu

-- Stanje u decembru 2003. --


Preko web-a je dostupno za pretraživanje više korpusa. Ovi korpusi su formirani za posebne namene i samo se delimično preklapaju. Korpusi su dostupni preko opcije Korpus koji se pretražuje na panelu za pretraživanje.

A. Neetiketirani korpus savremenog srpskog jezika

Korpus se sastoji od tekstova kodiranih u ASCII-karakterskom skupu bez strukturnih obeležja.

B. Henning-ov korpus srpskohrvatskog

Korpus koji je sastavio Henning Moerk sa Univerziteta u Aarhus-u. Korpus se sastoji od proznih tekstova (spisak tekstova) na srpskohrvatskom objavljenih između 1955. i 1990. godine. Programe za konverziju polaznih tekstova na format koji se interno koristi pod CQP-om i njihovo etiketiranje obavio je Saša Stevanović.

C. Izborna kriza 2000. godine

Korpus se sastoji od kompletnih web-izdanja dnevnog lista Politika u periodu od 10. septembra do 20. oktobra 2000. godine.

D. Etiketirani korpus srpskog jezika

Korpus se sastoji od tekstova sa minimalnim skupom strukturnih etiketa (<div>, <head>, <p>, <seg>). Pretraga po strukturnim etiketama je za sada moguća samo iz komandne linije CQP-a.

E. Netiketirani korpus Vukovih poslovica

Osnovu ovog korpusa predstavlja elektronsko izdanje knjige Vukove narodne poslovice s registrom ključnih reči, biblioteka "Odrednice", urednik Slobodan Đorđević, Nolit, Beograd, 1996. Tekst se sastoji od poslovica i Vukovih komentara uz poslovice. Iz teksta su uklonjene SGML-etikete. Prezentacija ovog projekta se nalazi na strani Cvetane Krstev.

Kontakt: korpus @ matf bg ac rs


[Glavna strana]