SrpFSD: Opis morfoloških svojstava srpskog jezika

Opis morfoloških svojstava srpskog jezika je preduslov za mnoge NLP primene. Nivo detaljnosti opisa morfoloških svojstava zavisi od jezika, ali i od namene tog opisa. Iako su uloženi značajni napori na polju standardizacije takvog opisa, mnoge aplikacije ih ignorišu, jer im one često ne odgovaraju. Najznačajniji standardizovani opis morfoloških svojstava srpskog jezika je MULTEXT-East. Srpski morfološki rečnici prostih i složenih reči su razvijeni u LADL formatu i koriste drugačiji morfološki opis (Krstev, 2008), ali se informacije među ovim formatima mogu razmenjivati (Krstev et al., 2004). Razvoj sistema za automatsko otkrivanje flektivnih svojstava složenih reči i fraza (Krstev & Vitas, 2009) je zahtevao još jednu, nešto sveobuhvatniju formalizaciju morfiloških svojstava, tako da se započelo sa razvojem sveobuhvatnog opisa koji bi bio standardizovan i koji bi mogao da se jednostavno transformiše u bilo koji drugi oblik za različite primene.

Osnovni cilj razvoja ovakvog resursa je bio da se proizvede sistematičan opis srpskog:

  • koji se neće mnogo razlikovati od tradicionalnog opisa,
  • koji će biti kompatabilan sa razvijenim morfološkim rečnicima,
  • koji treba da bude kompatabilan sa MULTEX-East opisom i
  • koji će omogućavati ponovno korišćenje za dalje primene.
Tako je nastao opis SprFSD kao struktura svojstava (feature structure) definisana standardom ISO 24610 (ISO, 2007). Strukture svojstava u ovom opisu su vrste reči u srpskom. Da bi se izbeglo nepotrebno ponavljanje uvedeni su, kao supertipovi, gramatička svojstva i njihove vrednosti koje se koriste kod više vrsta reči. Opisi ovih gramatičkih svojstava su povezane sa odgovarajućim morfo-sintaksičkim kategorijama datim u Data Category Registry (ISO, 2009).
Na primer, deklaracija za gramatički rod je:

Deklaracija gramatičkog roda

Da bi se eksplicitno formulisale relacije između kategorija i njihovih vrednosti kao i specifičnosti njihovog korišćenja kreirana su ograničenja struktura (feature structure constraints) sa uslovnim i dvo-uslovnim (bi-conditional) proverama. Na primer struktura svojstava za imenice se sastoji od devet svojstava, od kojih se pet pojavljuju kao atributi i u opisu MULTEXT-East: tip, gramatički rod, gramatički broj, padež i animatnost. Dodata su sledeća svojstva: binarno svojstvo ‘složena reč’ (multi-word) koje se primenjuje kod svih vrsta reči, prirodni rod, prirodni broj i promenljivost broja. Za imenice su definisana dva ograničenja: paukal broj postoji samo u genitivu i akuzativu, a drugim ograničenjem se daju mogući parovi gramatičkog broja u jednini i množini. Prvo ograničenje ima oblik:

FSD primer ograničenja

Opisi drugih vrsta reči sadrže više ograničenja, na primer brojevi sadrže osam ograničenja, a zamenice šest. TEI preporuke (TEI: P5) odgovaraju ISO 24610 standardu što je omogućilo validaciju SrpFSD. Koristeći Web interfejs alata Roma je kreirana šema koja kombinuje više modula: core tei, header, textstructure, sa iso-fs modulom koji obuhvata strukture svojstava. Pridruživanje kreirane šeme dokumentu SrpFSD je omogućilo stalnu validaciju i pomoć u radu.

U softveru WS4LR (sada Leximir) se SrpFSD koristi za automatsko otkrivanje flektivnih svojstava složenih reči i fraza. Zajedno sa sistemom morfoloških rečnika prostih reči u LADL formatu i sistemom pravila struktura složenih reči uspešno se koristi za generisanje odrednica u DELAC formatu na osnovu zadate liste složenih reči.

Izvod iz SrpFSD

Kontakt: cvetana @ matf bg ac rs


[Glavna strana]