Nalaganje ...
Projekti / Programi vir: ARIS

Jezikovni viri in tehnologije za slovenski jezik

Obdobja
01. januar 2019 - 31. december 2024
Raziskovalna dejavnost

Koda Veda Področje Podpodročje
6.05.00  Humanistika  Jezikoslovje   
2.07.00  Tehnika  Računalništvo in informatika   

Koda Veda Področje
H350  Humanistične vede  Jezikoslovje 

Koda Veda Področje
6.02  Humanistične vede  Jeziki in književnost 
1.02  Naravoslovne vede  Računalništvo in informatika 
Ključne besede
slovenščina, računalniško jezikoslovje, korpusno jezikoslovje, jezikovne tehnologije, jezikovni viri, bralna pismenost, strojno učenje, podatkovno rudarjenje
Vrednotenje (pravilnik)
vir: COBISS
Upoš. tč.
7.146,72
A''
1.099,39
A'
2.440,73
A1/2
3.406,19
CI10
4.340
CImax
1.942
h10
23
A1
23,7
A3
12,58
Podatki za zadnjih 5 let (citati za zadnjih 10 let) na dan 21. februar 2024; A3 za obdobje 2018-2022
Podatki za razpise ARIS ( 04.04.2019 - Programski razpis , arhiv )
Baza Povezani zapisi Citati Čisti citati Povprečje čistih citatov
WoS  131  3.572  3.407  26,01 
Scopus  192  5.258  4.952  25,79 
Raziskovalci (14)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  27674  dr. Špela Arhar Holdt  Jezikoslovje  Raziskovalec  2019 - 2024  227 
2.  36914  dr. Jaka Čibej  Jezikoslovje  Raziskovalec  2019 - 2024  151 
3.  36491  dr. Kaja Dobrovoljc  Jezikoslovje  Raziskovalec  2019 - 2024  142 
4.  53628  Magdalena Gapsa  Jezikoslovje  Mladi raziskovalec  2019 - 2024  12 
5.  55352  Matic Kavaš    Tehnični sodelavec  2021 
6.  55754  Matej Klemen  Računalništvo in informatika  Mladi raziskovalec  2021 - 2024  14 
7.  33796  dr. Iztok Kosem  Jezikoslovje  Raziskovalec  2019 - 2024  296 
8.  26166  dr. Simon Krek  Jezikoslovje  Vodja  2019 - 2024  358 
9.  37653  dr. Cyprian Adam Laskowski  Jezikoslovje  Raziskovalec  2019 - 2024  35 
10.  36871  dr. Nikola Ljubešić  Jezikoslovje  Raziskovalec  2019 - 2024  392 
11.  21612  dr. Karmen Pižorn  Jezikoslovje  Raziskovalec  2019 - 2024  333 
12.  15295  dr. Marko Robnik Šikonja  Računalništvo in informatika  Raziskovalec  2019 - 2024  416 
13.  58381  Domen Vreš  Računalništvo in informatika  Tehnični sodelavec  2023 - 2024 
14.  56007  Aleš Žagar  Računalništvo in informatika  Tehnični sodelavec  2021 - 2024  26 
Organizacije (3)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  0581  Univerza v Ljubljani, Filozofska fakulteta  Ljubljana  1627058  96.932 
2.  0588  Univerza v Ljubljani, Pedagoška fakulteta  Ljubljana  1627082  30.707 
3.  1539  Univerza v Ljubljani, Fakulteta za računalništvo in informatiko  Ljubljana  1627023  15.995 
Povzetek
Novi program je namenjen raziskovanju sodobnega slovenskega jezika predvsem s stališča potreb in možnosti, ki jih prinaša pospešena digitalizacija jezikov in hiter razvoj informacijsko-komunikacijskih tehnologij. Možnost enakopravnega vključevanja slovenščine v novo digitalno stvarnost bo v prihodnosti realno ogrožena brez načrtnega razvoja jezikovnih virov in tehnologij za slovenski jezik, ki jih v drugih jezikovnih okoljih razvijajo za svoje jezike. Cilj programa je omogočiti razvoj primerljivih virov in tehnologij z raziskovanjem specifik slovenščine in vključevanjem raziskovalnih rezultatov v dolgoročno opremljanje slovenščine s temeljnimi viri za namen razvoja jezikovnih tehnologij po eni strani, in po drugi strani z raziskovanjem jezikovnih potreb govorcev in govork slovenščine, predvsem z namenom izboljšanja bralne pismenosti v digitalnem okolju. Program je interdisciplinaren in zajema jezikoslovje kot primarno področje, poleg tega še računalništvo in informatiko (jezikovne in govorne tehnologije) ter vzgojo in izobraževanje (bralna pismenost). Širši okvir programa predstavlja Center za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT UL). Ta vključuje vse tri fakultete, ki bodo izvajale raziskovalni program, na njih pa se izvajajo tudi ustrezni pedagoški programi, kar zagotavlja prenos raziskovalnih rezultatov programa v pedagoško prakso. Program je povezan z infrastrukturno dejavnostjo CJVT v okviru Mreže raziskovalnih infrastrukturnih centrov UL, kar mu zagotavlja infrastrukturne pogoje za raziskovanje. Program izvaja izkušena raziskovalna skupina, ki se raziskovalno že več kot 10 let ukvarja z omenjenimi temami in z mednarodno vpetostjo dokazuje odličnost na svojem področju. Raziskave potekajo po petih krovnih temah, ki z med seboj povezanimi viri in tehnologijami tvorijo smiselno celoto: jezikovni opis, standardizacija, jezikovne tehnologije, terminologija in večjezičnost. Zajemajo vse jezikovne ravnine (besediloslovje, semantika, skladnja, oblikoslovje, glasoslovje), s fokusom na celostni obravnavi jezikovnih pojavov. Izhodišče je empirično, raziskave temeljijo na podatkih o realni rabi sodobne slovenščine, ki so zbrani v besedilnih korpusih in podobnih virih. Na področjih terminologije in večjezičnosti program vključuje tudi raziskave stika slovenščine z drugimi jeziki za potrebe izdelave večjezičnih virov in tehnologij (npr. za strojno prevajanje). Raziskovalna metodologija izhaja iz sodobnih metod strojnega učenja in podatkovnega rudarjenja, ki se za druge jezike uporabljajo v teoretskem okviru računalniškega in korpusnega jezikoslovja. Na področju bralne pismenosti poleg korpusne analize uporabljamo tudi druge metode raziskovanja produktivne in receptivne jezikovne rabe (testiranja jezikovne produkcije ciljnih uporabniških skupin, vprašalniki). Program z raziskovalnimi temami sledi veljavni Resoluciji o Nacionalnem programu za jezikovno politiko in Akcijskemu načrtu za jezikovno opremljenost ter Akcijskemu načrtu za izobraževanje (2015).
Pomen za razvoj znanosti
Rezultati predlaganega programa bodo novi izvirni pristopi h korpusnojezikoslovnim in jezikovnotehnološkim izzivom slovenskega jezika (v kombinaciji z drugimi jeziki) in bodo samostojni izvirni prispevki tudi na področju rudarjenja omrežij in strojnega učenja. Postopki strojnega luščenja podatkov iz korpusov za leksikografske namene (Gantar, Kosem in Krek 2015) so novost na evropski oz. svetovni ravni in deležni precejšnjega zanimanja v okviru Evropske mreže za e-leksikografijo. Enako velja za postopke vključevanja množičenja (ang. crowdsourcing) v leksikografski proces. Iz opisanih postopkov izhajajoč predlog evropskega raziskovalnega projekta, ki predvideva vzpostavitev evropske  leksikografske infrastrukture, je trenutno v procesu evalvacije pri Evropski komisiji. Vodijo ga člani raziskovalne skupine, pri predlogu sodeluje 14 partnerjev iz 13 držav. Predlagani program se s temi dejavnostmi vključuje v najnovejše trende uporabe naprednih računalniških in jezikovnih tehnologij (Big Data, Sematic Web) za gradnjo povezanih jezikovnih virov (Linked Open Data), kar bo slovenščini omogočilo enakovredno opremljenost za rabo v digitalnem okolju. Izvirnost rezultatov za slovenski jezik izhaja iz preteklega dela članov raziskovalne skupine, saj se ukvarjajo s korpusnim jezikoslovjem in korpusno analizo od gradnje prvega korpusa slovenščine (FIDA 1997-2000). Z evropsko vpetostjo skupina dokazuje tudi mednarodno relevantnost raziskovalnega dela. Napovedane analize, smernice in metode za izboljšanje pismenosti temeljijo na razvojnem korpusu pisne produkcije mladih maternih govorcev, ki vsebuje tudi učiteljske popravke jezikovnih napak (Rozman idr. 2013). Tovrstni jezikovni viri so redki ne le v nacionalnem, ampak tudi evropskem oz. svetovnem merilu. V programu jih bomo zaradi interdisciplinarnosti skupine lahko analizirali s povsem novimi pristopi, ki izhajajo iz podatkovnih znanosti, in smo jih razvili v okviru skupine. Vse navedene aktivnosti bodo posledično ponudile povsem izvirne izsledke in možnost za nadaljnji razvoj korpusnojezikoslovne metodologije za potrebe jezikovne didaktike, posredno pa tudi omogočile razvoj novih vrst opismenjevalne infrastrukture, npr. ciljno prilagojenih e-gradiv, priročnikov, jezikovnotehnoloških izdelkov in digitalnih učnih okolij. V vsebinskem smislu bodo rezultati izvirni in neposredno uporabni na nacionalni ravni, v metodološkem pa tudi mednarodno, kot prispevek k izboljševanju opismenjevalnih strategij oz. pismenosti v prvem jeziku govorcev. Na področju tekstovnega rudarjenja bomo s pomočjo analize heterogenih omrežij, s katerimi lahko predstavimo jezikovne relacije in semantično informacijo, ki je vsebovana v jeziku, v analizo uvedli nove intuitivne načine za izračun podobnosti in pomembnosti dokumentov (Lan idr. 2009; Martineau in Finin 2009) in nove načine za ocenjevanje statistične gostote verjetnosti (Aryal idr. 2014). Takšni alternativni načini za izračun podobnosti in pomembnosti še niso bili uporabljeni na področju analize omrežij. Naša preliminarna raziskava teh pristopov (Kralj idr. 2015) na področju kaže, da je možna prilagoditev metod s področja tekstovnega rudarjenja za uporabo v analizi omrežij. Na področju obvladovanja visokodimenzionalnih podatkov bomo za nenadzorovano učenje, ki je v jezikovni analizi zelo pomembno, prilagodili naš algoritem ReliefF (Robnik-Šikonja in Kononenko 2003), ki se na tem področju zaradi svojih lastnosti mnogokrat uporablja in nadgrajuje. Razširitev prilagojena tekstovnim podatkom in visoko dimenzionalnim podatkom, ki izhajajo iz informacijskih omrežij, še ne obstaja, mi pa jo bomo omogočili z ansambelskim pristopom. Pristopi z globokimi nevronskimi mrežami so zelo perspektivni na področju jezikovnih tehnologij (Zhang idr. 2015, Lai idr. 2015). Za njihovo uspešno rabo je potrebno nasloviti še številna odprta vprašanja, ki so na trenutni stopnji razvoja te tehnologije, mnogokrat odvisna od specifičnih problemov, ki jih rešujemo. Za probleme jezikovne ana
Pomen za razvoj Slovenije
Jezikovne tehnologije v informacijski družbi predstavljajo eno od pomembnejših omogočitvenih tehnologij, ki so prisotne v vseh aplikacijah, ki zahtevajo bodisi interakcijo med ljudmi in stroji ali pridobivanje znanja iz obsežnih virov podatkov v slovenskem jeziku. Program bo s svojimi raziskovalnimi rezultati pomembno prispeval k vključenosti slovenščine v produkte, ki te tehnologije uporabljajo, npr. tiste, ki so predvideni v Strategiji pametne specializacije (pametna mesta). Interes gospodarstva je izkazan tudi z vključenostjo slovenskih jezikovnotehnoloških podjetij v Konzorcij za jezikovne vire in tehnologije v okviru CJVT. Opremljenost slovenščine z jezikovnimi viri in tehnologijami je kot pomanjkljivost omenjena tudi v številnih strateških državnih dokumentih: Nacionalni program za kulturo (str. 98-103), Strategija razvoja informacijske družbe do leta 2020 (str. 20), Partnerski sporazum med Slovenijo in Evropsko komisijo 2014-2020 (str. 84), Resolucija o nacionalnem programu za jezikovno politiko itd. in program bo prispeval k njihovemu odpravljanju. Predlagani program je usmerjen k enemu od ključnih izzivov v viziji informacijske družbe: na zmožnost uporabe distribuiranih, heterogenih virov informacij in znanja, ki bo znanstvenikom in drugim uporabnikom omogočala interaktivno odkrivanje in interpretacijo novega znanja. Poleg ciljev, relevantnih v svetovnem merilu, je poseben pomen programa tudi omogočanje jezikovnotehnološke zrelosti slovenščine, s katero bo ta ostala znanstveno in  ekonomsko enakopravna.
Najpomembnejši znanstveni rezultati Vmesno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Vmesno poročilo
Zgodovina ogledov
Priljubljeno