Nalaganje ...
Projekti / Programi vir: ARIS

Jezikoslovno označevanje slovenskega jezika: metode in viri

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
2.07.07  Tehnika  Računalništvo in informatika  Inteligentni sistemi - programska oprema 

Koda Veda Področje
P176  Naravoslovno-matematične vede  Umetna inteligenca 
Ključne besede
jezikovne tehnologije, slovenski jezik, jezikovni viri
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (5)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  05023  dr. Tomaž Erjavec  Jezikoslovje  Vodja  2007 - 2009  651 
2.  17137  Marko Grobelnik  Računalništvo in informatika  Tehnični sodelavec  2007 - 2009  445 
3.  18947  dr. Nataša Hirci  Jezikoslovje  Raziskovalec  2009  147 
4.  26166  dr. Simon Krek  Jezikoslovje  Raziskovalec  2007 - 2009  383 
5.  12570  dr. Dunja Mladenić  Računalništvo in informatika  Raziskovalec  2007 - 2009  668 
Organizacije (2)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  0106  Institut "Jožef Stefan"  Ljubljana  5051606000  91.961 
2.  0581  Univerza v Ljubljani, Filozofska fakulteta  Ljubljana  1627058  98.910 
Povzetek
Projekt bo razvil avtomatske induktivne metode za označevanje oblikoslovja, skladnje in semantike in te metode uporabil pri izdelavi prosto dostopnih jezikovnih virov slovenskega jezika. Označeni korpusi in leksikoni bodo dodatno ročno pregledani, s čimer bo zagotovljena prepotrebna infrastruktura za nadaljnji razvoj jezikovnih tehnologij za slovenski jezik. Ta bo dostopna ne samo prijaviteljem, pač pa tudi vsem ostalim slovenskim in evropskim raziskovalnim skupinam in bo tako služila kot katalizator raziskav in razvoja na tem področju, izredno pomembnem za nadaljnjo informatizacijo slovenščine. Projekt je sestavljen iz štirih sklopov. Prvi, horizontalni sklop obravnava tehnična in pravna vprašanja dostopnosti, da lahko izdelane vire uporabljajo tako razvijalci, katerim služijo kot podatkovne množice za učenje in testiranje razvitih tehnologij, kot tudi jezikoslovci. Ostali sklopi obravnavajo tri ravni jezikoslovne analize. Oblikoslovje in s tem povezana lematizacija predstavljata osnovni nivo označevanja, potreben pri skoraj vsaki jezikovno usmerjeni aplikaciji; projekt bo nadgradil do sedaj razvite metode in pripravil ročno popravljeni korpus. Avtomatska obravnava skladnje je ključnega pomena za poglobljene analize besedil, saj razkriva medsebojne odvisnosti stavčnih členov. Projekt bo zagotovil ročno skladenjsko označeni korpus, izdelal valenčni leksikon in razvil skladenjski razčlenjevalnik za slovenski jezik. Zadnji sklop obravnava leksikalno semantiko slovenskega jezika, ki je potrebna npr. pri strojnem prevajanju in iskanju informacij. Projekt bo bistveno dogradil obstoječi slovenski semantični leksikon (ontologijo), označil korpus s koncepti iz tega leksikona ter razvil metode za avtomatsko gradnjo ontologij in razdvoumljanje večpomenskih leksemov. Projekt bo gradil na obilici dosedanjih izkušenj s področja strojnega učenja in izdelave jezikovnih virov slovenskega jezika, kjer bodo kot glavno izhodišče služili oblikoslovno označeni referenčni korpus Fida PLUS, skladenjsko označeni prototipni korpus SDT in prototipni semantični leksikon sloWNet. Delo na projekt bo izrazito vezano na sočasne slovenske in EU projekte s področja uporabe strojnega učenja za prevajanje in gradnjo ontologij.
Pomen za razvoj znanosti
Moduli in tehnologije, razviti v projektu, postavljajo slovenski jezik v razred jezikov z razvito osnovno računalniškojezikovno infrastrukturo, kar bo omogočilo nadaljnje raziskave z besedili v slovenskem jeziku v Sloveniji in zunaj nje. Projekt spada v znanstveno področje računalniškega jezikoslovja, kjer je prispeval k naslednjim področjem: Razvoj metod za strojno učenje jezikoslovnih modelov: za razvoj tehnologij, ki služil izdelavi modulov znotraj projekta, smo uporabili nekatere najsodobnejše metode za analizo nestrukturiranih in delno strukturiranih podatkov – te metode zajemamo predvsem s področja strojnega učenja, ki je v zadnjih letih naredilo pomembne korake v tej smeri. Zaradi specifik slovenskega jezika mnogo že razvitih metod ni uporabnih brez ustreznih adaptacij – v projektu smo te adaptacije izvajali, evalvirali in uporabljali za končni izdelek. Projekt je tako do sedaj zagotovil napredek pri razvoju stohastičnih metod razdvoumljanja oblikoslovja in induktivnega logičnega programiranja in drugih metod strojnega učenja za namene lematizacije. Dodaten napredek smo dosegli pri kombinaciji raznih metod za doseganje boljše točnosti in pokritja razvitih označevalnikov. Razvoj empirično osnovanih analiz slovenski jezika: jezikoslovje v Sloveniji je v veliki meri še vedno vpeto v strukturalistično/generativno paradigmo, ki temelji na introspekciji in »umetnih« primerih in njihovi analizi. Projekt ponuja sodobnejše alternative, kjer so analizirani primeri vzeti iz dejanskega jezika, s čimer bo pomagal pri razvoju sodobnega, empirično podprtega jezikoslovja. Razvoj na področju zapisa in standardizacije jezikoslovnih podatkov: glede na vse večjo kompleksnost dodanih analitičnih oznak v korpuse postaja področje besedišča, zapisa in kombiniranja oznak v svetu aktivno raziskovalno področje. Projekt v izdelanih virih kombinira več ravni oznak in mora omogočiti orodjem, da s temi oznakami operirajo in ponuditi korpuse, ki jih vsebujejo. Zato smo pri projektu upoštevali in nadgradili obstoječe standarde in priporočila (predvsem TEI P5 in MULTEXT-East), kar predstavlja znanstveno zanimive rezultate.
Pomen za razvoj Slovenije
Tako kot je bilo nekoč pomembno imeti lastno knjigo, kasneje lastne časopise, še kasneje lastne elektronske medije, kot so radio, televizija in internet, je dandanes nujno imeti računalniško podprt lastni jezik. Zaradi specifik jezika in kulture tako nalogo lahko izvedejo le pripadniki naroda samega. Razvoj ustrezne računalniške jezikovne infrastrukture je predpogoj za pripadnost jezika družini jezikov, ki že razvijajo poglobljene ravni obravnave onstran leksikalnih in skladenjskih nivojev. Lahko bi rekli, da eden od možnih pogledov na pomen jezika v globalnem smislu postaja njegova dostopnost in povezljivost z drugimi jeziki. Brez široko dostopnih rezultatov, kot smo jih zagotovili v okviru projekta, bi slovenski jezik tako povezljivost težko dosegel. Izdelani viri bodo tudi pripomogli k ohranjanju kulturne dediščine, saj s pomočjo tovrstne računalniške jezikovne tehnologije postajajo materiali, ki opredeljujejo jezikovno dediščino precej bližji in dostopnejši, kot bi bili sicer. Ključni del projekta je bilo maksimizirati odmevnost rezultatov s tem, da so vsi izdelani viri slovenskega jezika prosto dostopni. Predvideni uporabniki teh virov so: • neposredno slovenisti in drugi jezikoslovci, ki so dobili možnost označevanje svojih besedil, internetnega pregledovanja in analize izdelanih virov, pa tudi prenosa celotnih zbirk in obdelave z lastnimi analitičnimi orodji, • neposredno razvijalci jezikovnih tehnologij, ki lahko obdelujejo besedila v slovenskem jeziku na podobnem tehnološkem nivoju, kot je to mogoče za besedila v angleškem in drugih »velikih« jezikih; uporaba razvitih tehnologij tako omogoča slovenskim akademskim in komercialnim uporabnikom vključevanje v projekte in sodelovanja na globalnem nivoju z lastnimi prispevki, ki podpirajo delo s slovenskim jezikom, • posredno vsi »uporabniki« slovenskega jezika, saj bodo rezultati projekta spodbudili napredek jezikovnih tehnologij in s tem povezanih aplikativnih programov, kot so iskanje informacij, strojno prevajanje, sinteza in analiza govora itd.
Najpomembnejši znanstveni rezultati Letno poročilo 2008, zaključno poročilo, celotno poročilo na dLib.si
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Letno poročilo 2008, zaključno poročilo, celotno poročilo na dLib.si
Zgodovina ogledov
Priljubljeno