Razvoj različitih tipova resursa, kroz dugi niz godina i kroz različite projekte,
pa samim tim i unutar različitih metodoloških okvira, motivisao je članove Grupe
da pristupe razvoju softverskih sistema, odnosno softverskih alata, koji će sa
jedne strane olakšati njihov dalji razvoj i održavanje, a sa druge njihovu integraciju,
čime se omogućava znatno lakše obavljanje niza zadataka vezanih za obradu tekstova u e-obliku.
Jedan od njih, koji je dobio naziv LeXimir omogućava sihronizovano korišćenje raznorodnih resursa,
i već se uspešno koristi za različite vrste poslova i zadataka u Grupi. Prethodna verzija ovog alata
je imala akronim WS4LR[1], od engleskog Workstation for Lexical Resources(Radna stanica za leksičke resurse).
Kao nadgradnja ovog alata u Grupi za jezičke tehnologije je razvijena web aplikacija VebRanka
a proširivanje upita, čiji je cilj da omogući razvoj i korišćenje jezičkih resursa za srpski jezik i na web-u.
Razvijeni su i odgovarajući web servis (wsQueryExpand), koji su posebno interesantni,
jer se, kao zasebna komponenta, u principu, mogu i nezavisno koristiti.
|
The Human Language Technology (HLT) group has produced an integrated and easily adjustable tool, a workstation for language resources,
labeled LeXimir, which greatly enhances the potential of manipulating each particular resource as well as several resources simultaneously.
This tool has already been successfully used for various language processing related tasks including query expansion.
A part of the LeXimir system is the web application VebRanka - a workstation for query expansion - with accompanying web services,
aimed at management of this complex task on the web. Namely, lexical resources developed within the HLT group enable semantic and
morphological expansion of queries, the latter being very important in highly inflective languages, such as Serbian. The web application
receives the user query, and subsequently uses the local web service wsQueryExpand to expand the query and forward it to the Google search
engine using the Google AJAX Search API. The web service returns the required information in XML format, which is then converted
to appropriate application structures.
|
LeXimir sadrži nekoliko komponenti koje izvršavaju različite funkcije:
- Konverzija omogućavaju različite vrste transformacija resursa (jedne datoteke ili skupa datoteka)
koje mogu sagržati tekst, lokalne gramatike, elektronske rečnike formata DELAS i DELAF, i sl.
Konverzije između različitih formata resursa se uglavnom odnose na konvertovanje iz Intex ili
Unitex formata u NooJ
format rečnika, grafova i regularnih izraza.
- Podsistem za održavanje sistema morfoloških rečnika omogućava upravljanje skupom odabranih rečnika u DELA
formatu koji sadrže proste ili složene reči. Odabrani rečnici mogu da budu distribuirani u više datoteka.
Glavna snaga alata je mogućnost efikasnog pretraživanja i izdvajanja podskupa lema na osnovu uslova
poređenja lema, vrste reči, koda flektivne klase, i sintaksičkih i semantičkih oznaka. Podsistem obezbeđuje
vezu sa regularnim izrazima i sa FSA grafovima koji opisuju flektivna svojstva izabrane
leme, tako da se oni mogu pregledati i korigovati ako je potrebno. Editor lema omućava formiranje leme
iz početka, ili kopiranje neke postojeće slične leme koja se zatim modifikuje. Veza sa flektivnim regularnim izrazima
i FSA grafovima omogućava da se odmah generišu svi flektivni oblici nove leme i tako proveri ispravnost
odabranog koda flektivne klase.
- Razvoj i unapređenje wordneta je komponenta koja podržava rad sa pojedinačnim wordnetom ali
i sinhronizovan rad dva wordnet-a koji se ostvaruje preko jedinstvenog identifikatora ILI.
Osim toga, sinsetovi se mogu selektovati korišćenjem različitih metoda, koja idu od jednostavnog sravnjivanja
niski do kompleksnih XPath izraza za koje su pripremljeni obrasci koji odgovaraju često postavljanim zahtevima.
Novi sinsetovi se mogu dodavati wordnetu korišćenjem predefinisanih formi. Nestruktuirane, dvojezične liste pružaju pomoć i
preporuka za moguće kandidate za literale novog sinseta, posebno u slučaju kada se jedan wordnet razvija
sinhronizovano sa nekim već razvijenim (PWN). U ovaj modul su takođe ugrađene različite opcije za proveru
konzistentnosti podataka.
- Podsistem za interakcije sistema elektronskih rečnika i ontologija omogućava razmenu informacija
između wordneta i morfoloških rečnika, naime, morfo-sintaksičke informacije iz morfoloških
rečnika se mogu pridružiti literalima u sinsetu, a semantičke informacije iz sinsetova se mogu pridružiti
lemama u rečnicima. Ovim modulom se mogu kreirati Intex/Unitex grafovi koji pronalaze u tekstu sve forme
svih literala iz izabranog sinseta, kome se mogu dodati odabrani literala iz sinsetiva koji su nadređeni izabranom.
- Okruženje za izgradnju i eksploataciju paralelizovanih tekstova i konverziju TEI-formata
ka drugim standardima, aposebno ka TMX-u. Paralelizovani tekstovi u TMX formatu se mogu vizuelizovati
na različite načine korišćenjem unapred pripremljenih XSLT skriptova. Integracija resursa u WS4LR se najbolje
ilustruje kroz pretragu paralelizovanih tekstova.
Korisnik kao upitni obrazac može da zada jednu nisku, lemu, što znači da se pretraživanje obavlja svim
flektivnim oblicima ili koncept, što znači da se pretraživanje obavlja svim literalima iz izabranih
sinsetova i njihovih nadređenih pojmova, a zadovoljavanje ovih upita zahteva uključivanje praktično
svih raspoloživih resursa. U izdvojenim paralelizovanim segmentima, pojavljivanja koja odgovaraju
kriterijumima pretrage su osvetljena drugom bojom. Na osnovu veze između sinsetova u sinhronizovanim
wordnetima koja se ostvaruje preko jedinstvenog identifikatora ILI, moguća je i paralelna višejezična
pretraga i označavanje nađenih reči u odgovarajućim tekstovima.
- Podsistem za generisanje klasa složenih reči na osnovu rezultata morfološke analize,
sistem produkcionih pravila i opisa morfoloških svojstava srpskog jezika koristeći FSD.
- Veb aplikacija za jezičke resurse VebRanka
koristi veb servis wsQueryExpand
koji pruža različite mogućnosti proširenja upita, i omogućava ekspanziju upita na vebu koristeći
Google AJAX Search API. Najveći skup predviđenih korisničkih funkcija vezan je za ekspanziju upita,
bolje reći za raznovrsne mogućnosti podešavanja upita (jer sem proširivanja, omogućava i njegovo sužavanje).
VebRanka kao i LeXimir, daje korisniku mogućnost da upit proširi morfološki, semantički
ali i na još jedan jezik (a koji zavisi od raspoloživih resursa).
Mada se LeXimir uglavnom koristi za srpski jezik, njegovo korišćenje nije zavisno od jezika.
Jedina predpostavka je da za neki jezik resursi postoje ili da se razvijaju prema opisanim formatima
i metodologijama. Efikasnost u radu je obezbeđuje mogućnost podešavanja parametara radnog okruženja,
kojim se definišu resursi jezika kojima se rukuje. Sistem može paralelno da radi sa dva jezika,
kombinujući bilo koja dva jezika izabrana iz predefinisanih parametara raspoloživih resursa.
[1]WS4LR je razvijen tokom rada na doktorskoj disertaciji Ranke Stanković
pod nazivom "Modeli ekspanzije upita nad tekstuelnim resursima" čiji je mentor bio
prof. dr Duško Vitas. Softversko rešenje je nastalo pod rukovodstvom prof. dr Cvetane Krstev.
Značajan doprinos razvoju WS4LR su dali i prof. dr Ivan Obradović i mr Miloš Utvić.
Dalji razvoj alata je nastavljen pod nazivom LeXimir u okviru Grupe.
|