Dostupni korpusi srpskog/srpskohrvatskog jezika
na Matematičkom fakultetu Univerziteta u Beogradu

-- Stanje u novembru 2017. godine --

Preko veba je dostupno za pretraživanje više korpusa. Ovi korpusi su formirani za posebne namene i samo se delimično preklapaju. Korpusi su dostupni preko opcije Korpus koji se pretražuje na panelu za pretraživanje.

Neetiketirani korpus savremenog srpskog jezika (NETK) / Korpus savremenog srpskog jezika SrpKor2003

Oba korpusa predstavljaju istovetnu kolekciju tekstova veličine 22 miliona korpusnih reči. Korpusni tekstovi su kodirani korišćenjem karakterskog skupa ASCII, odnosno kodnom shemom aurora. SrpKor2003 je bibliografski anotiran, tj. svakom korpusnom tekstu je pridružen odgovarajući bibliografski opis. Ostali tipovi anotacije (strukturni, morfološki, itd.) nisu zastupljeni u korpusima NETK i SrpKor2003.

Detaljniji opis ovih korpusa se može naći u:

Cvetana Krstev, Duško Vitas, "Corpus and Lexicon - Mutual Incompletness", in Proceedings of the Corpus Linguistics Conference, 14-17 July 2005, Birmingham, eds. Pernilla Danielsson and Martijn Wagenmakers, ISSN 1747-9398, http://www.corpus.bham.ac.uk/PCLC/, 2005. PDF

Korpus savremenog srpskog jezika SrpKor2013

SrpKor2013 je korpus veličine 122 miliona korpusnih reči. Korpusni tekstovi su kodirani korišćenjem karakterskog skupa ISO-8859-1, odnosno kodnom shemom aurora.

SrpKor2013 sadrži književnoumentničke tekstove srpskih pisaca u XX i XXI veku, kao i naučne i naučno-popularne tekstove iz različitih domena (prirodne i društvene nauke), administrativne tekstove i opšte tekstove. Opšti tekstovi predstavljaju članke dnevnih novina "Politika" iz perioda 2000-2002. i 2005-2010. godine, tekstove iz časopisa i magazina objavljene u periodu 1991-2002. godine ("Danica", "Ebit", "Ekonomist", "Glasnik", "NIN", "Ilustrovana politika", "Kalibar", "Moje srce", "Mostovi", "Pravoslavlje", "Svet", "Teološki pogledi", "Trn", "Viva", "Republika"), tekstove sa internet portala objavljene tokom 2011. i 2012. godine (Peščanik), vesti agencije TANJUG tokom 1995 i 1996. godine, feljtone objavljene u novinama "Politika" (2001-2003), "Večernje novosti" (2008-2011) i "Danas" (2002-2006). Jedan deo tekstova predstavljaju prevodi čiju većinu čine književnoumetnički tekstovi, dok manji deo predstavljaju prevodi opštih tekstova.

Korpusni tekstovi su anotirani bibliografski i morfološki.

Bibliografska anotacija korpusnog teksta, pored uobičajenog bibliografskog opisa, sadrži i informacije o funkcionalnom stilu kojem pripada tekst, kao i informacije o statusu teksta u odnosu na jezik izvorne verzije teksta (da li je tekst napisan na srpskom jeziku ili je u pitanju prevod).

Morfološka anotacija nije potpuna, tj. korpusnim rečima nisu pridružene sve vrednosti morfoloških kategorija, već samo informacija o odgovarajućoj lemi i vrsti reči. Detalji o načinu na koji je obavljena morfološka anotacija korpusa SrpKor2013 se mogu naći u:

  1. Милош Утвић, „Анотација Корпуса савременог српског језика“. ИНФОтека 12, бр.2 (децембар 2011): 39-51. PDF
  2. Зоран Поповић, „Програми за етикетирање текста на српском језику“. ИНФОтека 11, бр.2 (децембар 2010): 19-36. PDF

odnosno (verzija na engleskom jeziku) u:

  1. Miloš Utvić, "Annotating the Corpus of Contemporary Serbian" in INFOtheca 12, no. 2 (December 2011), 36a-47a. PDF
  2. Zoran Popović, "Taggers Applied on Texts IN Serbian", INFOtheca 11, no. 2 (December 2010), 21a-38a. PDF

Lematizirani korpus savremenog srpskog jezika (SrpLemKor)

SrpLemKor je podskup korpusa SrpKor2013 veličine 3,7 miliona korpusnih reči koji se može preuzeti i distribuirati u skladu sa licencom CC_BY-NC . Detaljan opis korpusa SrpLemKor se može naći na zvaničnoj prezentaciji korpusa.

Henning-ov korpus srpskohrvatskog

Korpus koji je sastavio Henning Moerk sa Univerziteta u Aarhus-u. Korpus se sastoji od proznih tekstova (spisak tekstova) na srpskohrvatskom objavljenih između 1955. i 1990. godine. Programe za konverziju polaznih tekstova na format koji se interno koristi pod CQP-om i njihovo etiketiranje obavio je Saša Stevanović.

Izborna kriza 2000. godine

Korpus se sastoji od kompletnih veb-izdanja dnevnog lista Politika u periodu od 10. septembra do 20. oktobra 2000. godine.

Etiketirani korpus srpskog jezika

Korpus se sastoji od tekstova sa minimalnim skupom strukturnih etiketa (<div>, <head>, <p>, <seg>). Pretraga po strukturnim etiketama je za sada moguća samo iz komandne linije CQP-a.

Netiketirani korpus Vukovih poslovica

Osnovu ovog korpusa predstavlja elektronsko izdanje knjige Vukove narodne poslovice s registrom ključnih reči, biblioteka "Odrednice", urednik Slobodan Đorđević, Nolit, Beograd, 1996. Tekst se sastoji od poslovica i Vukovih komentara uz poslovice. Iz teksta su uklonjene SGML-etikete. Prezentacija ovog projekta se nalazi na strani Cvetane Krstev.

Kontakt: korpus @ matf bg ac rs


[Glavna strana]