LeXimir

Softverski alat za rukovanje leksičkim resursima i za ekspanziju upita

Tool for lexical resources management and query expansion

Razvoj različitih tipova resursa, kroz dugi niz godina i kroz različite projekte, pa samim tim i unutar različitih metodoloških okvira, motivisao je članove Grupe da pristupe razvoju softverskih sistema, odnosno softverskih alata, koji će sa jedne strane olakšati njihov dalji razvoj i održavanje, a sa druge njihovu integraciju, čime se omogućava znatno lakše obavljanje niza zadataka vezanih za obradu tekstova u e-obliku. Jedan od njih, koji je dobio naziv LeXimir omogućava sihronizovano korišćenje raznorodnih resursa, i već se uspešno koristi za različite vrste poslova i zadataka u Grupi. Prethodna verzija ovog alata je imala akronim WS4LR[1], od engleskog Workstation for Lexical Resources(Radna stanica za leksičke resurse). Kao nadgradnja ovog alata u Grupi za jezičke tehnologije je razvijena web aplikacija VebRanka a proširivanje upita, čiji je cilj da omogući razvoj i korišćenje jezičkih resursa za srpski jezik i na web-u. Razvijeni su i odgovarajući web servis (wsQueryExpand), koji su posebno interesantni, jer se, kao zasebna komponenta, u principu, mogu i nezavisno koristiti.

The Human Language Technology (HLT) group has produced an integrated and easily adjustable tool, a workstation for language resources, labeled LeXimir, which greatly enhances the potential of manipulating each particular resource as well as several resources simultaneously. This tool has already been successfully used for various language processing related tasks including query expansion. A part of the LeXimir system is the web application VebRanka - a workstation for query expansion - with accompanying web services, aimed at management of this complex task on the web. Namely, lexical resources developed within the HLT group enable semantic and morphological expansion of queries, the latter being very important in highly inflective languages, such as Serbian. The web application receives the user query, and subsequently uses the local web service wsQueryExpand to expand the query and forward it to the Google search engine using the Google AJAX Search API. The web service returns the required information in XML format, which is then converted to appropriate application structures.

LeXimir sadrži nekoliko komponenti koje izvršavaju različite funkcije:

  • Konverzija omogućavaju različite vrste transformacija resursa (jedne datoteke ili skupa datoteka) koje mogu sagržati tekst, lokalne gramatike, elektronske rečnike formata DELAS i DELAF, i sl. Konverzije između različitih formata resursa se uglavnom odnose na konvertovanje iz Intex ili Unitex formata u NooJ format rečnika, grafova i regularnih izraza.
  • Podsistem za održavanje sistema morfoloških rečnika omogućava upravljanje skupom odabranih rečnika u DELA formatu koji sadrže proste ili složene reči. Odabrani rečnici mogu da budu distribuirani u više datoteka. Glavna snaga alata je mogućnost efikasnog pretraživanja i izdvajanja podskupa lema na osnovu uslova poređenja lema, vrste reči, koda flektivne klase, i sintaksičkih i semantičkih oznaka. Podsistem obezbeđuje vezu sa regularnim izrazima i sa FSA grafovima koji opisuju flektivna svojstva izabrane leme, tako da se oni mogu pregledati i korigovati ako je potrebno. Editor lema omućava formiranje leme iz početka, ili kopiranje neke postojeće slične leme koja se zatim modifikuje. Veza sa flektivnim regularnim izrazima i FSA grafovima omogućava da se odmah generišu svi flektivni oblici nove leme i tako proveri ispravnost odabranog koda flektivne klase.
  • Razvoj i unapređenje wordneta je komponenta koja podržava rad sa pojedinačnim wordnetom ali i sinhronizovan rad dva wordnet-a koji se ostvaruje preko jedinstvenog identifikatora ILI. Osim toga, sinsetovi se mogu selektovati korišćenjem različitih metoda, koja idu od jednostavnog sravnjivanja niski do kompleksnih XPath izraza za koje su pripremljeni obrasci koji odgovaraju često postavljanim zahtevima. Novi sinsetovi se mogu dodavati wordnetu korišćenjem predefinisanih formi. Nestruktuirane, dvojezične liste pružaju pomoć i preporuka za moguće kandidate za literale novog sinseta, posebno u slučaju kada se jedan wordnet razvija sinhronizovano sa nekim već razvijenim (PWN). U ovaj modul su takođe ugrađene različite opcije za proveru konzistentnosti podataka.
  • Podsistem za interakcije sistema elektronskih rečnika i ontologija omogućava razmenu informacija između wordneta i morfoloških rečnika, naime, morfo-sintaksičke informacije iz morfoloških rečnika se mogu pridružiti literalima u sinsetu, a semantičke informacije iz sinsetova se mogu pridružiti lemama u rečnicima. Ovim modulom se mogu kreirati Intex/Unitex grafovi koji pronalaze u tekstu sve forme svih literala iz izabranog sinseta, kome se mogu dodati odabrani literala iz sinsetiva koji su nadređeni izabranom.
  • Okruženje za izgradnju i eksploataciju paralelizovanih tekstova i konverziju TEI-formata ka drugim standardima, aposebno ka TMX-u. Paralelizovani tekstovi u TMX formatu se mogu vizuelizovati na različite načine korišćenjem unapred pripremljenih XSLT skriptova. Integracija resursa u WS4LR se najbolje ilustruje kroz pretragu paralelizovanih tekstova. Korisnik kao upitni obrazac može da zada jednu nisku, lemu, što znači da se pretraživanje obavlja svim flektivnim oblicima ili koncept, što znači da se pretraživanje obavlja svim literalima iz izabranih sinsetova i njihovih nadređenih pojmova, a zadovoljavanje ovih upita zahteva uključivanje praktično svih raspoloživih resursa. U izdvojenim paralelizovanim segmentima, pojavljivanja koja odgovaraju kriterijumima pretrage su osvetljena drugom bojom. Na osnovu veze između sinsetova u sinhronizovanim wordnetima koja se ostvaruje preko jedinstvenog identifikatora ILI, moguća je i paralelna višejezična pretraga i označavanje nađenih reči u odgovarajućim tekstovima.
  • Podsistem za generisanje klasa složenih reči na osnovu rezultata morfološke analize, sistem produkcionih pravila i opisa morfoloških svojstava srpskog jezika koristeći FSD.
  • Veb aplikacija za jezičke resurse VebRanka koristi veb servis wsQueryExpand koji pruža različite mogućnosti proširenja upita, i omogućava ekspanziju upita na vebu koristeći Google AJAX Search API. Najveći skup predviđenih korisničkih funkcija vezan je za ekspanziju upita, bolje reći za raznovrsne mogućnosti podešavanja upita (jer sem proširivanja, omogućava i njegovo sužavanje). VebRanka kao i LeXimir, daje korisniku mogućnost da upit proširi morfološki, semantički ali i na još jedan jezik (a koji zavisi od raspoloživih resursa).
Mada se LeXimir uglavnom koristi za srpski jezik, njegovo korišćenje nije zavisno od jezika. Jedina predpostavka je da za neki jezik resursi postoje ili da se razvijaju prema opisanim formatima i metodologijama. Efikasnost u radu je obezbeđuje mogućnost podešavanja parametara radnog okruženja, kojim se definišu resursi jezika kojima se rukuje. Sistem može paralelno da radi sa dva jezika, kombinujući bilo koja dva jezika izabrana iz predefinisanih parametara raspoloživih resursa.

[1]WS4LR je razvijen tokom rada na doktorskoj disertaciji Ranke Stanković pod nazivom "Modeli ekspanzije upita nad tekstuelnim resursima" čiji je mentor bio prof. dr Duško Vitas. Softversko rešenje je nastalo pod rukovodstvom prof. dr Cvetane Krstev. Značajan doprinos razvoju WS4LR su dali i prof. dr Ivan Obradović i mr Miloš Utvić. Dalji razvoj alata je nastavljen pod nazivom LeXimir u okviru Grupe.

Kontakt: korpus @ matf bg ac rs


[Glavna strana]