Prispevek predstavlja razvoj, širitev in čiščenje slovenskega wordneta z uporabo obstoječih jezikovnih virov. Začetno uvajanje serije sinonimov in nadaljnje širjenje sloWNeta temelji na večjezičnih virih in je bilo opravljeno avtomatsko. Čiščenje razvitega leksikona pa temelji na enojezičnem referenčnem korpusu in zahteva ročno potrjevanje. Ročno delo se opravlja v orodju sloWTool, novem brskalniku, urejevalniku in vizualizatorju vsebine wordnet. Razviti wordnet in urejevalnik sta prosto dostopna v skladu z licenco Creative Commons.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 47786850Luščenje definicij je vzhajajoče področje raziskav računalniške obdelave naravnega jezika. Prispevek predstavlja inovativno metodo luščenja podatkov s ciljem luščenja definicijskih kandidatov v domensko specifičnih korpusih z uporabo oblikoskladensjkih vzorcev, avtomatskega prepoznavanja terminologije in semantičnega označevanja z wordnet pomeni. Metoda, implementirana v okolju ClowdFlows, je bila aplicirana za nalogo luščenja definicij iz dveh korpusov akademskih člankov v domeni računalniškega jezikoslovja, slovenskega in angleškega. Metoda luščenja definicij je dostopna na spletu in se tako lahko ponovno uporabi za luščenje definicij iz drugih korpusov. Pod pogojem, da so potrebne jezikovne komponente za metodo dostopne kot javne storitve na spletu, je postopek lahko prilagodljiv za druge jezike.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 26151975Prispevek predstavlja pristop k samodejnemu luščenju in poravnanju večbesednih terminov iz primerljivega angleško-slovensko zdravstvenega korpusa. Najprej so termini iz korpusa izluščeni za vsak jezik posebej z uporabo seznama uporabniku prilagojenih oblikoskladenjskih vzorcev in tehtanja pomembnosti termina. Sledi poravnava izluščenih terminov na način zbirke ustreznic z izvornim dvojezičnim leksikonom. V podaljšku pristopa prikažemo tudi, da je majhen izvorni leksikon mogoče obogatiti z domensko specifičnim besediščem s pomočjo neposrednega luščenja iz primerljivega korpusa, kar pomembno izboljša rezultate določevanja večbesednih terminov. Medtem ko se je večina prejšnjih študij luščenja dvojezičnih leksikonov iz primerljivih korpusov osredotočala na določevanje posameznih besed, je predlagana tehnika uspešno izboljšana v tem, da se je možno ukvarjati tudi z večbesednimi termini. Glede na to, da predlagani pristop zahteva minimalne vire znanja, je lahko prilagodljiv za nove jezikovne pare ali domene, kar je ena njegovih največjih prednosti.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 49683298Prispevek poroča o seriji poskusov s ciljem izboljšati strojno prevajanje večpomenskih leksikalnih parov z uporabo nenadzorovanega razdvoumljanja na podlagi wordneta in s primerjavo teh rezultatov za tri sisteme strojnega prevajanja. Naši poskusi so izvedeni za angleško-slovenski jezikovni par s pomočjo UKB-ja, prosto dostopnega grafičnega sistema za razreševanje večpomenskosti besed. Rezultati so ocenjeni na tri načine: ročno ocenjevanje razdvoumljanja iz vidika strojnega prevajanja, analiza ujemanja med ustreznicami, predlagani z razdvoumljanjem in predlaganimi s strani treh sistemov, in končno z izračunom točk BLEU, NIST in METEOR za vse prevodne različice. Rezultati kažejo, da razdvoumljanje deluje s strojnoprevodno relevantno natančnostjo 71 % in da bi 21 % pomenskih napak strojnega prevajanja lahko preprečili z uporabo nenadzorovanega razdvoumljanja.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 49734242Predavanje na mednarodni doktorski prevodoslovni šoli EMUNI (http://www.prevajalstvo.net/emuni-doctoral-summer-school, ki je skupni projekt 6 univerz: Univerze v Ljubljani, Boğaziçi Univerze (Turčija), Univerze v Turkuju in Univerze vzhodne Finske (Finska), Univerze v Granadi (Španija) in Univerze EMUNI (Slovenija). Predavanje v okviru metodološkega sklopa o omejitvah kvantitativnih metod v prevodoslovnih raziskavah.
B.05 Gostujoči profesor na inštitutu/univerzi
COBISS.SI-ID: 49469282