Standardi


Iako postoji više standarda za kodiranje (elektronskih) korpusa, danas većina njih sledi preporuke projekta TEI (Text Encoding Initiative).

TEI smernice za kodiranje i razmenu elektronskog teksta

U okviru projekta TEI razvija se i održava standard za predstavljanje teksta u digitalnom obliku. U tu svrhu je nastao skup preporuka ili smernica za kodiranje i razmenu elektronskog teksta (TEI Guidelines for Electronic Text Encoding and Interchange). Između ostalog, smernice se odnose i na kodiranje elektronskih korpusa. Trenutna verzija TEI smernica, P5 (html/ pdf), zvanično je izdata 1. novembra 2007. godine.

CES

CES je standard za kodiranje korpusa (Corpus Encoding Standard) koji predstavlja deo smernica koje je razvio EAGLES (Expert Advisory Group on Language Engineering Standards).

"CES je razvijen tako da bude što pogodniji za korišćenje u istraživanjima i primenama jezičkog inženjerstva, da služi kao široko prihvaćen skup standarda u programima za obradu prirodnog jezika radi kodiranja rada zasnovanog na korpusu".

CES je zasnovan na SGML-u (ISO 8879:1986, Information Processing - Text and Office Systems - Standard Generalized Markup Language) i u skladu je sa smernicama projekta TEI.

"CES određuje minimalni nivo kodiranja koji korpusi moraju dostići da bi se smatrali standardizovanim u smislu opisne reprezentacije (obeležavanje strukturnih i tipografskih informacija) …"

Literatura

[1] Ide, N. (1998). Corpus Encoding Standard: SGML Guidelines for Encoding Linguistic Corpora. Proceedings of the First International Language Resources and Evaluation Conference,Granada, Spain, 463-70.
http://www.cs.vassar.edu/~ide/papers/CES.granada.pdf

XCES

Na osnovu CES-a i XML-a, Department of Computer Science,Vassar College, i Equipe Langue et Dialogue, LORIA/CNRS. razvijaju standard za kodiranje korpusa pomoću XML-a (Corpus Encoding Standard for XML, XCES). Dokumentacija, kao i sam XCES, su još uvek u procesu izrade, ali se može konsultovati i postojeća dokumentacija za CES. XCES se razvija tako da bude u skladu sa smernicama projekta TEI.

Literatura

[1] Ide, N., Bonhomme, P., Romary, L. (2000). XCES: An XML-based Standard for Linguistic Corpora. Proceedings of the Second Language Resources and Evaluation Conference (LREC), Athens, Greece, 825-30.
http://www.cs.vassar.edu/~ide/papers/xces-lrec00.pdf

Kontakt: korpus @ matf bg ac rs


[Glavna strana]