Nalaganje ...
Projekti / Programi vir: ARIS

Jezikovno-neodvisne metode za avtomatsko gradnjo semantičnih leksikonov s pomočjo primerljivih korpusov

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
6.05.00  Humanistika  Jezikoslovje   

Koda Veda Področje
H350  Humanistične vede  Jezikoslovje 

Koda Veda Področje
6.02  Humanistične vede  Jeziki in književnost 
Ključne besede
semantični leksikoni, wordnet, korpusi, jezikovni viri za slovenščino, leksikalna semantika, avtomatske metode
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (1)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  26294  dr. Darja Fišer  Jezikoslovje  Vodja  2010 - 2012  412 
Organizacije (1)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  0581  Univerza v Ljubljani, Filozofska fakulteta  Ljubljana  1627058  97.831 
Povzetek
V času, ko količina in pomen dokumentov v elektronski obliki vse bolj naraščata, postaja učinkovito delo z njimi brez računalniške podpore praktično nemogoče. Zato so se pojavile številne računalniške aplikacije, ki dokumente glede na njihovo vsebino razvrščajo v skupine, po obsežnih zbirkah iščejo informacije, ki jih uporabniki potrebujejo, izdelujejo povzetke daljših besedil, prevajajo besedila iz enega jezika v drugega in podobno. Za tovrstne rešitve je koristna določena stopnja razumevanja besedil, kar računalnikom omogočimo z zbirkami, v katerih je človeško znanje urejeno tako, da jim nudi dostop do pomena posameznih besed in besednih zvez ter odnosov med njimi. Eden najpopularnejših pojmovno zasnovanih leksikonov, ki temelji na povezavi pojmov z leksikalnimi in semantičnimi razmerji, je wordnet (Fellbaum 1998), ki je bil najprej razvit za angleški jezik, danes pa wordneti obstajajo že za več kot 50 različnih jezikov, med katerimi je tudi prva različica wordneta za slovenščino, ki sem jo s kombinacijo treh različnih pristopov izdelala v okviru doktorske disertacije. Z razvojem slovenskega semantičnega leksikona želim nadaljevati tudi v okviru podoktorske raziskave, v središču katere je razvoj metode za gradnjo wordneta iz primerljivih korpusov. Le-ti v zadnjem času postajajo vse bolj popularno orodje na področju računalniškega, korpusnega in kontrastivnega jezikoslovja, pa tudi prevodoslovja, saj je vzporednih korpusov na voljo zelo malo, v omejenem obsegu in za majhen nabor jezikovnih parov ter strokovnih področij (McEnery in Xiao 2006). V podoktorski raziskavi bi kot primerljivi korpus uporabila Wikipedijo, ki že obstaja za številne jezike, članki na isto temo pa so v njih med seboj povezani z medjezikovnimi povezavami. Pod predpostavko, da članki, ki razlagajo isti pojem, uporabljajo tudi zelo podobno besedišče, je mogoče na podlagi standardizirane strukture enciklopedičnega članka, ključnosti besedišča, medjezikovne podobnosti prevodnih kandidatov in nekaterih drugih statističnih mer ugotavljati prevodno ustreznost med besedami v različnih jezikih in tako iz korpusa izluščiti večjezični leksikon (Sharoff 2008). S pristopom je mogoče zajeti tako eno- kot večpomensko besedišče, prav tako pa tudi številne večbesedne termine in lastna imena, ki v tradicionalnih slovarjih in glosarjih zaradi hitrega razvoja strokovnega izrazja niso zajeti. Predlagana podoktorska raziskava je sestavljena iz več faz. V prvem delu projekta bi poskrbela za preoblikovanje Wikipedije v primerljivi korpus, kar vključuje lematizacijo in oblikoskladenjsko označevanje za vse vključene jezike. Druga faza vključuje luščenje večjezičnega leksikona iz primerljivega korpusa, nato pa še pripisovanje pomena leksikonskim iztočnicam in generiranje slovenskih sinsetov. V tretjem delu raziskave opravljeno delo ovrednotim znotraj aplikacije za avtomatsko razreševanje večpomenskosti in tako tudi preverim uporabno vrednost razvitega semantičnega vira za slovenščino. Kolikor mi je znano, raziskav na primerljivih korpusih na področju slovenske leksikalne semantiče še ni opravljenih, zato predlagan projekt predstavlja pomemben mejnik v slovenskih korpusnih in jezikovnotehnoloških raziskavah. Rezultat projekta bo utemeljena, preizkušena in jezikovno neodvisna metodologija luščenja prevodnih ustreznic iz primerljivih korpusov, predlagani projekt pa bo prinesel tudi oprijemljive rezultate v obliki semantičnega leksikona, ki je poravnan z wordneti za številne druge jezike in tako uporaben za eno- in večjezične računalniške aplikacije. Izdelani wordnet s tem zapolnjuje vrzel v jezikovnih virih za slovenščino in postavlja temelje za širšo, semantično obogateno izrabo slovenskih korpusnih virov.
Pomen za razvoj znanosti
Glede na to, da na primerljivih korpusih na področju slovenske leksikalne semantike še ni bila opravljena nobena raziskava, pričujoči projekt nedvomno predstavlja pomemben mejnik v slovenskih korpusnih, pa tudi jezikovnotehnoloških raziskavah. Pomen projekta za razvoj znanosti oziroma stroke je dvojen: (1) projekt je prinesel utemeljeno, preizkušeno in jezikovno-neodvisno metodologijo za luščenje prevodnih ustreznic iz primerljivih korpusov; (2) zelo oprijemljiv rezultat projekta pa je tudi težko pričakovan semantični leksikon za slovenščino. Ker je izdelan wordnet poravnan z wordneti za številne druge jezike, je tako uporaben tako za eno- kot tudi za večjezične računalniške aplikacije. Izdelan wordnet je s tem zapolnil vrzel v jezikovnih virih za slovenščino in postavil temelje za širšo, semantično obogateno izrabo slovenskih korpusnih virov. Najpomembnejše ugotovitve opravljene raziskave so: - za uspešno luščenje prevodnih ustreznic ne potrebujemo primerljivih korpusov, ki so posebej za to nalogo izdelani po strogih kriterijih primerljivosti, temveč zadoščajo obsežni spletni korpusi, ki so za številne jezike že zgrajeni oz. je njihova gradnja precej enostavnejša; - za uspešno luščenje prevodnih ustreznic ne potrebujemo enake količine podatkov za oba jezika, kar je v praksi razen za nekaj svetovnih jezikov težko doseči, temveč je s pazljivo izbiro statističnih mer za primerjavo kontekstnih vektorjev izvedljiv tudi scenarij, ko imamo za en jezik (npr. angleščino) na voljo bistveno večjo količino jezikovnih podatkov kot za drugega (npr. slovenščino). - za uspešno luščenje prevodnih ustreznic med sorodnimi jeziki ne potrebujemo izhodiščnega slovarja, nedostopnost katerega je pogost problem, temveč ga lahko z upoštevanjem leksikalnega prekrivanja in drugih podobnosti med jezikoma izluščimo neposredno iz korpusa; - z upoštevanjem osnovne predpostavke distribucijske semantike, ki se glasi, da se besede s podobnim pomenom v različnih jezikih pojavljajo v podobnih kontekstih, ni mogoče avtomatsko identificirati zgolj prevodnih ustreznic, temveč tudi lažne prijatelje, ki so si na videz sicer zelo podobni, vendar so njihove korpusne frekvence in kontekstni vektorji zelo različni. V skladu s to predpostavko smo razvili učinkovito metodo za avtomatsko prepoznavanje lažnih prijateljev, ki je zelo koristna za jezikovnotehnološke aplikacije, pa tudi v leksikografiji in pri poučevanju tujih jezikov. Vsi leksikalni viri in orodja, razviti v okviru podoktorske raziskave, so pod licenco Creative Commons prosto dostopni v raziskovalne namene in bodo nedvomno zanimivi tudi za raziskovalce zunaj domače ustanove.
Pomen za razvoj Slovenije
Semantične leksikone tipa wordnet so doslej uporabili v številne namene in se z njihovo pomočjo lotili reševanja zelo različnih nalog tako raziskovalci kot tudi industrijski uporabniki. Med industrijskimi uporabniki, ki wordnet s pridom izkoriščajo za spletno iskanje in ciljno oglaševanje, je najvidnejši predstavnik Google. Njihovemu zgledu bi lahko sledilo tudi katero slovensko podjetje, ki se ukvarja s ponujanjem spletnih storitev. Neposredna možnost uporabe wordneta, razvitega v okviru predlaganega projekta, bi bila ponudba aplikacije za avtomatsko razreševanje večpomenskosti in pojmovno zasnovanih spletnih storitev, kot so (medjezično) iskanje informacij, odgovarjanje na vprašanja in strojno prevajanje. Tovrstne storitve bi v družbi, temelječi na znanju, ki ima visoko razvito informacijsko tehnologijo, bile zelo dobrodošle, saj slovenščina v primerjavi z drugimi evropskimi jeziki, na tem področju še precej zaostaja.
Najpomembnejši znanstveni rezultati Letno poročilo 2010, 2011, zaključno poročilo, celotno poročilo na dLib.si
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Letno poročilo 2010, 2011, zaključno poročilo, celotno poročilo na dLib.si
Zgodovina ogledov
Priljubljeno