Prispevek predstavlja pristop k samodejnemu luščenju in poravnanju večbesednih terminov iz primerljivega angleškoslovensko zdravstvenega korpusa. Najprej so termini iz korpusa izluščeni za vsak jezik posebej z uporabo seznama uporabniku prilagojenih oblikoskladenjskih vzorcev in tehtanja pomembnosti termina. Sledi poravnava izluščenih terminov na način zbirke ustreznic z izvornim dvojezičnim leksikonom. V podaljšku pristopa prikažemo tudi, da je majhen izvorni leksikon mogoče obogatiti z domensko specifičnim besediščem s pomočjo neposrednega luščenja iz primerljivega korpusa, kar pomembno izboljša rezultate določevanja večbesednih terminov. Medtem ko se je večina prejšnjih študij luščenja dvojezičnih leksikonov iz primerljivih korpusov osredotočala na določevanje posameznih besed, je predlagana tehnika uspešno izboljšana v tem, da se je možno ukvarjati tudi z večbesednimi termini. Glede na to, da predlagani pristop zahteva minimalne vire znanja, je lahko prilagodljiv za nove jezikovne pare ali domene, kar je ena njegovih največjih prednosti.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 49683298Predstavljen je pristop avtomatskega luščenja definicij iz nestrukturiranega besedila. Pristop zajema fazo luščenja definicijskih kontekstov na podlagi oblikoskladenjskih vzorcev, avtomatsko izluščenih terminov ter na podlagi semantičnih oznak iz slovenskega Wordneta. Nato izmed definicijskih kandidatov izluščijo dobro oblikovane definicije z uporabo klasifikacijskega modela. Klasifikacijski model je bil avtomatsko naučen na podlagi definicijskih in nedefinicijskih stavkov v slovenski Wikipediji.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 43122530Članek predstavlja izgradnjo ročno označenega učnega korpusa slvenskega jezika na ravni večbesednih izrazov, in sicer v okviru dela na projektu PARSEME, ki vključuje osemnajst jezikov iz različnih jezikovnih družin. Med delom so bila oblikovana navodila za označevanje, natančno predstavljen obseg in način označevanja ter oblikovan predlog za kategorizacijo glagoslih večbesednih izrazov v oviru večjezičnega modela označevanja. V članku je predstavljena tudi metoda identifikacije, možnost označevanja in jezikoslovni test za določanje tovrstnih struktur, prav tako pa tudi leksikalne značilnosti glagoslkih večbesednih enot kot kandidatk za večbesedne galgoske zveze.
B.03 Referat na mednarodni znanstveni konferenci
COBISS.SI-ID: 65967458sloWTool je celovito orodje za pregledovanje, urejanje in vizualizacijo wordnetov s pomočjo hiperboličnih grafov in slik. Orodje je prosto dostopno pod licenco CC-BY-SA in je zasnovano na tehnologijah MySQL in PHP, zaradi česar je popolnoma prilagodljivo in prenosljivo. Združljivo je z vsemi spletnimi brskalniki in omogoča hitre poizvedbe po wordnetu. Orodju so priložene programske skripte za avtomatsko prevedbo v in iz različnih standardnih vhodnih in izhodnih formatov, kot sta DEBVisDic XML in LMF, kar močno poenostavi uvažanje in izvažanje wordneta za kateri koli jezik. Spletni brskalnik je preprost za uporabo za nestrokovnjake, napredni iskalnik pa omogoča tudi oblikovanje kompleksnejših iskalnih pogojev in nastavitev za način prikaza rezultatov ter preklapljanje med eno- in večjezičnim načinom.
F.15 Razvoj novega informacijskega sistema/podatkovnih baz
COBISS.SI-ID: 25364007Predavanje na Univerzi Cornell je predstavilo razvoj korpusov slovenskega jezika in paralelno s tem tudi razvoj korpusnega jezikoslovja v slovenskem prostoru. Izpostavilo je pomen interdisciplinarnega sodelovanja v tem okviru, kot perspektivo delovanja v prihodnje pa prikazalo sodelovanja na Univerzi v Ljubljani med različnimi fakultetami. Sodobno digitalno jezikoslovje namreč vse bolj briše mejo med vedami, kar prinaša popolnoma nov način dela na področje humanističnega raziskovanja, posledično jezikovni opisi niso več samo delo jezikoslovcev, ampak vseh udeležencev v procesu: od priprave jezikovnih virov, njihove analize do predstavitve v digitalnem okolju.
B.05 Gostujoči profesor na inštitutu/univerzi
COBISS.SI-ID: 62246242