Jezikoslovno označevanje slovenskega jezika: metode in viri

Evidenčna št.

J2-9180 (C) - iz evidence ARIS

Vodja

dr. Tomaž Erjavec

Obdobje

1.1.2007 - 31.12.2009

Obseg v 2009

0.62 FTE

Veda

Tehnika (2)
Humanistika (3)

Status raziskovalca

Raziskovalec (4)
Strokovni ali tehnični sodelavec (1)

Izobrazba

Doktorat znanosti (4)
Drugi (1)

Spol

Ženski (2)
Moški (3)

Status

Zaposlen v RO+RRD (5)

Število publikacij

100–999 (5)

Projekti / Programi vir: ARIS

Jezikoslovno označevanje slovenskega jezika: metode in viri

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
2.07.07	Tehnika	Računalništvo in informatika	Inteligentni sistemi - programska oprema

Koda	Veda	Področje
P176	Naravoslovno-matematične vede	Umetna inteligenca

Ključne besede

jezikovne tehnologije, slovenski jezik, jezikovni viri

Vrednotenje (metodologija)

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

Organizacije (2) , Raziskovalci (6)

0106 Institut "Jožef Stefan"

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	05023	dr. Tomaž Erjavec	Jezikoslovje	Vodja	2007 - 2009	710
2.	17137	Marko Grobelnik	Računalništvo in informatika	Tehnični sodelavec	2007 - 2009	502
3.	26166	dr. Simon Krek	Jezikoslovje	Raziskovalec	2007 - 2009	433
4.	12570	dr. Dunja Mladenić	Računalništvo in informatika	Raziskovalec	2007 - 2009	720

0581 Univerza v Ljubljani, Filozofska fakulteta

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	18947	dr. Nataša Hirci	Jezikoslovje	Raziskovalec	2009	160
2.	26166	dr. Simon Krek	Jezikoslovje	Raziskovalec	2007 - 2009	433

Povzetek

Projekt bo razvil avtomatske induktivne metode za označevanje oblikoslovja, skladnje in semantike in te metode uporabil pri izdelavi prosto dostopnih jezikovnih virov slovenskega jezika. Označeni korpusi in leksikoni bodo dodatno ročno pregledani, s čimer bo zagotovljena prepotrebna infrastruktura za nadaljnji razvoj jezikovnih tehnologij za slovenski jezik. Ta bo dostopna ne samo prijaviteljem, pač pa tudi vsem ostalim slovenskim in evropskim raziskovalnim skupinam in bo tako služila kot katalizator raziskav in razvoja na tem področju, izredno pomembnem za nadaljnjo informatizacijo slovenščine. Projekt je sestavljen iz štirih sklopov. Prvi, horizontalni sklop obravnava tehnična in pravna vprašanja dostopnosti, da lahko izdelane vire uporabljajo tako razvijalci, katerim služijo kot podatkovne množice za učenje in testiranje razvitih tehnologij, kot tudi jezikoslovci. Ostali sklopi obravnavajo tri ravni jezikoslovne analize. Oblikoslovje in s tem povezana lematizacija predstavljata osnovni nivo označevanja, potreben pri skoraj vsaki jezikovno usmerjeni aplikaciji; projekt bo nadgradil do sedaj razvite metode in pripravil ročno popravljeni korpus. Avtomatska obravnava skladnje je ključnega pomena za poglobljene analize besedil, saj razkriva medsebojne odvisnosti stavčnih členov. Projekt bo zagotovil ročno skladenjsko označeni korpus, izdelal valenčni leksikon in razvil skladenjski razčlenjevalnik za slovenski jezik. Zadnji sklop obravnava leksikalno semantiko slovenskega jezika, ki je potrebna npr. pri strojnem prevajanju in iskanju informacij. Projekt bo bistveno dogradil obstoječi slovenski semantični leksikon (ontologijo), označil korpus s koncepti iz tega leksikona ter razvil metode za avtomatsko gradnjo ontologij in razdvoumljanje večpomenskih leksemov. Projekt bo gradil na obilici dosedanjih izkušenj s področja strojnega učenja in izdelave jezikovnih virov slovenskega jezika, kjer bodo kot glavno izhodišče služili oblikoslovno označeni referenčni korpus Fida PLUS, skladenjsko označeni prototipni korpus SDT in prototipni semantični leksikon sloWNet. Delo na projekt bo izrazito vezano na sočasne slovenske in EU projekte s področja uporabe strojnega učenja za prevajanje in gradnjo ontologij.

Pomen za razvoj znanosti

Moduli in tehnologije, razviti v projektu, postavljajo slovenski jezik v razred jezikov z razvito osnovno računalniškojezikovno infrastrukturo, kar bo omogočilo nadaljnje raziskave z besedili v slovenskem jeziku v Sloveniji in zunaj nje. Projekt spada v znanstveno področje računalniškega jezikoslovja, kjer je prispeval k naslednjim področjem:

Razvoj metod za strojno učenje jezikoslovnih modelov:  za razvoj tehnologij, ki služil izdelavi modulov znotraj projekta, smo uporabili nekatere najsodobnejše metode za analizo nestrukturiranih in delno strukturiranih podatkov – te metode zajemamo predvsem s področja strojnega učenja, ki je v zadnjih letih naredilo pomembne korake v tej smeri. Zaradi specifik slovenskega jezika mnogo že razvitih metod ni uporabnih brez ustreznih adaptacij – v projektu smo te adaptacije izvajali, evalvirali in uporabljali za končni izdelek. Projekt je tako do sedaj zagotovil napredek pri razvoju stohastičnih metod razdvoumljanja oblikoslovja in induktivnega logičnega programiranja in drugih metod strojnega učenja za namene lematizacije. Dodaten napredek smo dosegli pri kombinaciji raznih metod za doseganje boljše točnosti in pokritja razvitih označevalnikov.

Razvoj empirično osnovanih analiz slovenski jezika: jezikoslovje v Sloveniji je v veliki meri še vedno vpeto v strukturalistično/generativno paradigmo, ki temelji na introspekciji in »umetnih« primerih in njihovi analizi. Projekt ponuja sodobnejše alternative, kjer so analizirani primeri vzeti iz dejanskega jezika, s čimer bo pomagal pri razvoju sodobnega, empirično podprtega jezikoslovja.

Razvoj na področju zapisa in standardizacije jezikoslovnih podatkov: glede na vse večjo kompleksnost dodanih analitičnih oznak v korpuse postaja področje besedišča, zapisa in kombiniranja oznak v svetu aktivno raziskovalno področje. Projekt v izdelanih virih kombinira več ravni oznak in mora omogočiti orodjem, da s temi oznakami operirajo in ponuditi korpuse, ki jih vsebujejo. Zato smo pri projektu upoštevali in nadgradili obstoječe standarde in priporočila (predvsem TEI P5 in MULTEXT-East), kar predstavlja znanstveno zanimive rezultate.

Pomen za razvoj Slovenije

Tako kot je bilo nekoč pomembno imeti lastno knjigo, kasneje lastne časopise, še kasneje lastne elektronske medije, kot so radio, televizija in internet, je dandanes nujno imeti računalniško podprt lastni jezik. Zaradi specifik jezika in kulture tako nalogo lahko izvedejo le pripadniki naroda samega. Razvoj ustrezne računalniške jezikovne infrastrukture je predpogoj za pripadnost jezika družini jezikov, ki že razvijajo poglobljene ravni obravnave onstran leksikalnih in skladenjskih nivojev. Lahko bi rekli, da eden od možnih pogledov na pomen jezika v globalnem smislu postaja njegova dostopnost in povezljivost z drugimi jeziki. Brez široko dostopnih rezultatov, kot smo jih zagotovili v okviru projekta, bi slovenski jezik tako povezljivost težko dosegel. 
Izdelani viri bodo tudi pripomogli k ohranjanju kulturne dediščine, saj s pomočjo tovrstne računalniške jezikovne tehnologije postajajo materiali, ki opredeljujejo jezikovno dediščino precej bližji in dostopnejši, kot bi bili sicer.

Ključni del projekta je bilo maksimizirati odmevnost rezultatov s tem, da so vsi izdelani viri slovenskega jezika prosto dostopni. Predvideni uporabniki teh virov so:
• neposredno slovenisti in drugi jezikoslovci, ki so dobili možnost označevanje svojih besedil, internetnega pregledovanja in analize izdelanih virov, pa tudi prenosa celotnih zbirk in obdelave z lastnimi analitičnimi orodji,
• neposredno razvijalci jezikovnih tehnologij, ki lahko obdelujejo besedila v slovenskem jeziku  na podobnem tehnološkem nivoju, kot je to mogoče za besedila v angleškem in drugih »velikih« jezikih; uporaba razvitih tehnologij tako omogoča slovenskim akademskim in komercialnim uporabnikom vključevanje v projekte in sodelovanja na globalnem nivoju z lastnimi prispevki, ki podpirajo delo s slovenskim jezikom,
• posredno vsi »uporabniki« slovenskega jezika, saj bodo rezultati projekta spodbudili napredek jezikovnih tehnologij in s tem povezanih aplikativnih programov, kot so iskanje informacij, strojno prevajanje, sinteza in analiza govora itd.

Najpomembnejši znanstveni rezultati

Letno poročilo 2008, zaključno poročilo, celotno poročilo na dLib.si

Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati

Letno poročilo 2008, zaključno poročilo, celotno poročilo na dLib.si

Jezikoslovno označevanje slovenskega jezika: metode in viri

Zgodovina ogledov

Priljubljeno

Jezikoslovno označevanje slovenskega jezika: metode in viri

Klasifikacija ARIS

Klasifikacija CERIF

Zahtevana je potrditev

Zgodovina ogledov

Priljubljeno