Preko web-a je dostupno za pretraživanje više korpusa. Ovi korpusi su formirani za
posebne namene i samo se delimično preklapaju. Korpusi su dostupni preko opcije
Korpus koji se pretražuje na panelu za pretraživanje.
|
A. Neetiketirani korpus savremenog srpskog jezika Korpus se sastoji od tekstova kodiranih u ASCII-karakterskom skupu bez strukturnih obeležja. |
B. Henning-ov korpus srpskohrvatskog Korpus koji je sastavio Henning Moerk sa Univerziteta u Aarhus-u. Korpus se sastoji od proznih tekstova
(spisak tekstova)
na srpskohrvatskom objavljenih između 1955. i 1990. godine.
Programe za konverziju polaznih tekstova na format koji se interno koristi pod CQP-om i njihovo etiketiranje obavio je Saša Stevanović.
|
C. Izborna kriza 2000. godine Korpus se sastoji od kompletnih web-izdanja
dnevnog lista Politika u periodu od 10. septembra
do 20. oktobra 2000. godine. |
D. Etiketirani korpus srpskog jezika Korpus se sastoji od tekstova sa minimalnim skupom strukturnih etiketa (<div>, <head>, <p>, <seg>). Pretraga po strukturnim etiketama je za sada moguća samo iz komandne linije CQP-a.
|
E. Netiketirani korpus Vukovih poslovica
Osnovu ovog korpusa predstavlja elektronsko izdanje knjige Vukove narodne poslovice s
registrom ključnih reči, biblioteka "Odrednice", urednik Slobodan Đorđević, Nolit, Beograd, 1996. Tekst se sastoji od poslovica i Vukovih komentara uz poslovice. Iz teksta su uklonjene SGML-etikete. Prezentacija ovog projekta se nalazi na strani Cvetane Krstev.
|