SrpFSD: Opis morfoloških svojstava srpskog jezika |
Opis morfoloških svojstava srpskog jezika je preduslov za mnoge NLP
primene. Nivo detaljnosti opisa morfoloških svojstava zavisi od jezika, ali i od
namene tog opisa. Iako su uloženi značajni napori na polju standardizacije takvog
opisa, mnoge aplikacije ih ignorišu, jer im one često ne odgovaraju.
Najznačajniji standardizovani opis morfoloških svojstava srpskog jezika je
MULTEXT-East.
Srpski morfološki rečnici prostih i složenih reči su razvijeni u LADL formatu i
koriste drugačiji morfološki opis
(Krstev, 2008), ali se informacije među ovim formatima mogu razmenjivati (Krstev et al., 2004). Razvoj sistema za automatsko otkrivanje flektivnih svojstava složenih reči i fraza
(Krstev & Vitas, 2009) je zahtevao još jednu, nešto sveobuhvatniju formalizaciju morfiloških svojstava, tako da se započelo sa razvojem sveobuhvatnog opisa koji bi bio standardizovan i koji bi mogao da se jednostavno transformiše u bilo koji drugi oblik za različite primene.
Na primer, deklaracija za gramatički rod je: Da bi se eksplicitno formulisale relacije između kategorija i njihovih vrednosti kao i specifičnosti njihovog korišćenja kreirana su ograničenja struktura (feature structure constraints) sa uslovnim i dvo-uslovnim (bi-conditional) proverama. Na primer struktura svojstava za imenice se sastoji od devet svojstava, od kojih se pet pojavljuju kao atributi i u opisu MULTEXT-East: tip, gramatički rod, gramatički broj, padež i animatnost. Dodata su sledeća svojstva: binarno svojstvo ‘složena reč’ (multi-word) koje se primenjuje kod svih vrsta reči, prirodni rod, prirodni broj i promenljivost broja. Za imenice su definisana dva ograničenja: paukal broj postoji samo u genitivu i akuzativu, a drugim ograničenjem se daju mogući parovi gramatičkog broja u jednini i množini. Prvo ograničenje ima oblik: Opisi drugih vrsta reči sadrže više ograničenja, na primer brojevi sadrže osam ograničenja, a zamenice šest. TEI preporuke (TEI: P5) odgovaraju ISO 24610 standardu što je omogućilo validaciju SrpFSD. Koristeći Web interfejs alata Roma je kreirana šema koja kombinuje više modula: core tei, header, textstructure, sa iso-fs modulom koji obuhvata strukture svojstava. Pridruživanje kreirane šeme dokumentu SrpFSD je omogućilo stalnu validaciju i pomoć u radu. U softveru WS4LR (sada Leximir) se SrpFSD koristi za automatsko otkrivanje flektivnih svojstava složenih reči i fraza. Zajedno sa sistemom morfoloških rečnika prostih reči u LADL formatu i sistemom pravila struktura složenih reči uspešno se koristi za generisanje odrednica u DELAC formatu na osnovu zadate liste složenih reči. |
Kontakt: cvetana @ matf bg ac rs[Glavna strana] |