Jezikovni viri in tehnologije za slovenski jezik

Evidenčna št.

P6-0411 (A) - iz evidence ARIS

Vodja

dr. Simon Krek

Veda

Tehnika (5)
Humanistika (10)
Drugi (1)

Status raziskovalca

Raziskovalec (15)
Strokovni ali tehnični sodelavec (1)

Izobrazba

Doktorat znanosti (9)
Drugi (7)

Spol

Ženski (5)
Moški (11)

Status

Zaposlen v RO+RRD (14)
Ni podatka o zaposlitvi v RO (2)

Število publikacij

0 (2)
10–99 (6)
100–999 (8)

Projekti / Programi vir: ARIS

Jezikovni viri in tehnologije za slovenski jezik

Obdobja

1. januar 2019 - 31. december 2027

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
6.05.00	Humanistika	Jezikoslovje
2.07.00	Tehnika	Računalništvo in informatika

Koda	Veda	Področje
H350	Humanistične vede	Jezikoslovje

Koda	Veda	Področje
6.02	Humanistične vede	Jeziki in književnost
1.02	Naravoslovne vede	Računalništvo in informatika

Ključne besede

slovenščina, računalniško jezikoslovje, korpusno jezikoslovje, jezikovne tehnologije, jezikovni viri, bralna pismenost, strojno učenje, podatkovno rudarjenje

Vrednotenje (metodologija)

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Upoš. tč.

9.159,59

A''

2.069,41

3.638,17

A1/2

4.787,6

CI10

5.665

CImax

2.127

h10

31,23

10,15

Podatki za zadnjih 5 let (citati za zadnjih 10 let) na dan 11. maj 2026; Podatki za izračun ocene A3 se nanašajo na obdobje 2020-2024

Podatki za razpise ARIS ( 04.04.2019 - Programski razpis , arhiv )

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

Baza	Povezani zapisi	Citati	Čisti citati	Povprečje čistih citatov
WoS	163	4.844	4.632	28,42
Scopus	247	6.986	6.577	26,63

Organizacije (3) , Raziskovalci (16)

0581 Univerza v Ljubljani, Filozofska fakulteta

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	27674	dr. Špela Arhar Holdt	Jezikoslovje	Raziskovalec	2019 - 2026	310
2.	36914	dr. Jaka Čibej	Jezikoslovje	Raziskovalec	2019 - 2026	227
3.	36491	dr. Kaja Dobrovoljc	Jezikoslovje	Raziskovalec	2019 - 2026	215
4.	53628	Magdalena Gapsa	Jezikoslovje	Raziskovalec	2019 - 2024	23
5.	33796	dr. Iztok Kosem	Jezikoslovje	Raziskovalec	2019 - 2026	370
6.	26166	dr. Simon Krek	Jezikoslovje	Vodja	2019 - 2026	433
7.	37653	dr. Cyprian Adam Laskowski	Jezikoslovje	Raziskovalec	2019 - 2026	43
8.	58009	Luka Terčon	Jezikoslovje	Mladi raziskovalec	2023 - 2026	61

0588 Univerza v Ljubljani, Pedagoška fakulteta

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	21612	dr. Karmen Pižorn	Jezikoslovje	Raziskovalec	2019 - 2026	386

1539 Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	55352	Matic Kavaš		Tehnični sodelavec	2021	0
2.	55754	Matej Klemen	Računalništvo in informatika	Mladi raziskovalec	2021 - 2026	23
3.	36871	dr. Nikola Ljubešić	Jezikoslovje	Raziskovalec	2019 - 2026	491
4.	15295	dr. Marko Robnik Šikonja	Računalništvo in informatika	Raziskovalec	2019 - 2026	507
5.	61230	Živa Štebljaj	Računalništvo in informatika	Mladi raziskovalec	2025 - 2026	0
6.	58381	Domen Vreš	Računalništvo in informatika	Tehnični sodelavec	2023 - 2026	18
7.	56007	Aleš Žagar	Računalništvo in informatika	Tehnični sodelavec	2021 - 2026	39

Povzetek

Novi program je namenjen raziskovanju sodobnega slovenskega jezika predvsem s stališča potreb in možnosti, ki jih prinaša pospešena digitalizacija jezikov in hiter razvoj informacijsko-komunikacijskih tehnologij. Možnost enakopravnega vključevanja slovenščine v novo digitalno stvarnost bo v prihodnosti realno ogrožena brez načrtnega razvoja jezikovnih virov in tehnologij za slovenski jezik, ki jih v drugih jezikovnih okoljih razvijajo za svoje jezike. Cilj programa je omogočiti razvoj primerljivih virov in tehnologij z raziskovanjem specifik slovenščine in vključevanjem raziskovalnih rezultatov v dolgoročno opremljanje slovenščine s temeljnimi viri za namen razvoja jezikovnih tehnologij po eni strani, in po drugi strani z raziskovanjem jezikovnih potreb govorcev in govork slovenščine, predvsem z namenom izboljšanja bralne pismenosti v digitalnem okolju. Program je interdisciplinaren in zajema jezikoslovje kot primarno področje, poleg tega še računalništvo in informatiko (jezikovne in govorne tehnologije) ter vzgojo in izobraževanje (bralna pismenost). Širši okvir programa predstavlja Center za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT UL). Ta vključuje vse tri fakultete, ki bodo izvajale raziskovalni program, na njih pa se izvajajo tudi ustrezni pedagoški programi, kar zagotavlja prenos raziskovalnih rezultatov programa v pedagoško prakso. Program je povezan z infrastrukturno dejavnostjo CJVT v okviru Mreže raziskovalnih infrastrukturnih centrov UL, kar mu zagotavlja infrastrukturne pogoje za raziskovanje. Program izvaja izkušena raziskovalna skupina, ki se raziskovalno že več kot 10 let ukvarja z omenjenimi temami in z mednarodno vpetostjo dokazuje odličnost na svojem področju. Raziskave potekajo po petih krovnih temah, ki z med seboj povezanimi viri in tehnologijami tvorijo smiselno celoto: jezikovni opis, standardizacija, jezikovne tehnologije, terminologija in večjezičnost. Zajemajo vse jezikovne ravnine (besediloslovje, semantika, skladnja, oblikoslovje, glasoslovje), s fokusom na celostni obravnavi jezikovnih pojavov. Izhodišče je empirično, raziskave temeljijo na podatkih o realni rabi sodobne slovenščine, ki so zbrani v besedilnih korpusih in podobnih virih. Na področjih terminologije in večjezičnosti program vključuje tudi raziskave stika slovenščine z drugimi jeziki za potrebe izdelave večjezičnih virov in tehnologij (npr. za strojno prevajanje). Raziskovalna metodologija izhaja iz sodobnih metod strojnega učenja in podatkovnega rudarjenja, ki se za druge jezike uporabljajo v teoretskem okviru računalniškega in korpusnega jezikoslovja. Na področju bralne pismenosti poleg korpusne analize uporabljamo tudi druge metode raziskovanja produktivne in receptivne jezikovne rabe (testiranja jezikovne produkcije ciljnih uporabniških skupin, vprašalniki). Program z raziskovalnimi temami sledi veljavni Resoluciji o Nacionalnem programu za jezikovno politiko in Akcijskemu načrtu za jezikovno opremljenost ter Akcijskemu načrtu za izobraževanje (2015).

Pomen za razvoj znanosti

Rezultati predlaganega programa bodo novi izvirni pristopi h korpusnojezikoslovnim in jezikovnotehnološkim izzivom slovenskega jezika (v kombinaciji z drugimi jeziki) in bodo samostojni izvirni prispevki tudi na področju rudarjenja omrežij in strojnega učenja. Postopki strojnega luščenja podatkov iz korpusov za leksikografske namene (Gantar, Kosem in Krek 2015) so novost na evropski oz. svetovni ravni in deležni precejšnjega zanimanja v okviru Evropske mreže za e-leksikografijo. Enako velja za postopke vključevanja množičenja (ang. crowdsourcing) v leksikografski proces. Iz opisanih postopkov izhajajoč predlog evropskega raziskovalnega projekta, ki predvideva vzpostavitev evropske  leksikografske infrastrukture, je trenutno v procesu evalvacije pri Evropski komisiji. Vodijo ga člani raziskovalne skupine, pri predlogu sodeluje 14 partnerjev iz 13 držav. Predlagani program se s temi dejavnostmi vključuje v najnovejše trende uporabe naprednih računalniških in jezikovnih tehnologij (Big Data, Sematic Web) za gradnjo povezanih jezikovnih virov (Linked Open Data), kar bo slovenščini omogočilo enakovredno opremljenost za rabo v digitalnem okolju. Izvirnost rezultatov za slovenski jezik izhaja iz preteklega dela članov raziskovalne skupine, saj se ukvarjajo s korpusnim jezikoslovjem in korpusno analizo od gradnje prvega korpusa slovenščine (FIDA 1997-2000). Z evropsko vpetostjo skupina dokazuje tudi mednarodno relevantnost raziskovalnega dela.

Napovedane analize, smernice in metode za izboljšanje pismenosti temeljijo na razvojnem korpusu pisne produkcije mladih maternih govorcev, ki vsebuje tudi učiteljske popravke jezikovnih napak (Rozman idr. 2013). Tovrstni jezikovni viri so redki ne le v nacionalnem, ampak tudi evropskem oz. svetovnem merilu. V programu jih bomo zaradi interdisciplinarnosti skupine lahko analizirali s povsem novimi pristopi, ki izhajajo iz podatkovnih znanosti, in smo jih razvili v okviru skupine. Vse navedene aktivnosti bodo posledično ponudile povsem izvirne izsledke in možnost za nadaljnji razvoj korpusnojezikoslovne metodologije za potrebe jezikovne didaktike, posredno pa tudi omogočile razvoj novih vrst opismenjevalne infrastrukture, npr. ciljno prilagojenih e-gradiv, priročnikov, jezikovnotehnoloških izdelkov in digitalnih učnih okolij. V vsebinskem smislu bodo rezultati izvirni in neposredno uporabni na nacionalni ravni, v metodološkem pa tudi mednarodno, kot prispevek k izboljševanju opismenjevalnih strategij oz. pismenosti v prvem jeziku govorcev.

Na področju tekstovnega rudarjenja bomo s pomočjo analize heterogenih omrežij, s katerimi lahko predstavimo jezikovne relacije in semantično informacijo, ki je vsebovana v jeziku, v analizo uvedli nove intuitivne načine za izračun podobnosti in pomembnosti dokumentov (Lan idr. 2009; Martineau in Finin 2009) in nove načine za ocenjevanje statistične gostote verjetnosti (Aryal idr. 2014). Takšni alternativni načini za izračun podobnosti in pomembnosti še niso bili uporabljeni na področju analize omrežij. Naša preliminarna raziskava teh pristopov (Kralj idr. 2015) na področju kaže, da je možna prilagoditev metod s področja tekstovnega rudarjenja za uporabo v analizi omrežij. Na področju obvladovanja visokodimenzionalnih podatkov bomo za nenadzorovano učenje, ki je v jezikovni analizi zelo pomembno, prilagodili naš algoritem ReliefF (Robnik-Šikonja in Kononenko 2003), ki se na tem področju zaradi svojih lastnosti mnogokrat uporablja in nadgrajuje. Razširitev prilagojena tekstovnim podatkom in visoko dimenzionalnim podatkom, ki izhajajo iz informacijskih omrežij, še ne obstaja, mi pa jo bomo omogočili z ansambelskim pristopom. Pristopi z globokimi nevronskimi mrežami so zelo perspektivni na področju jezikovnih tehnologij (Zhang idr. 2015, Lai idr. 2015). Za njihovo uspešno rabo je potrebno nasloviti še številna odprta vprašanja, ki so na trenutni stopnji razvoja te tehnologije, mnogokrat odvisna od specifičnih problemov, ki jih rešujemo. Za probleme jezikovne ana

Pomen za razvoj Slovenije

Jezikovne tehnologije v informacijski družbi predstavljajo eno od pomembnejših omogočitvenih tehnologij, ki so prisotne v vseh aplikacijah, ki zahtevajo bodisi interakcijo med ljudmi in stroji ali pridobivanje znanja iz obsežnih virov podatkov v slovenskem jeziku. Program bo s svojimi raziskovalnimi rezultati pomembno prispeval k vključenosti slovenščine v produkte, ki te tehnologije uporabljajo, npr. tiste, ki so predvideni v Strategiji pametne specializacije (pametna mesta). Interes gospodarstva je izkazan tudi z vključenostjo slovenskih jezikovnotehnoloških podjetij v Konzorcij za jezikovne vire in tehnologije v okviru CJVT. Opremljenost slovenščine z jezikovnimi viri in tehnologijami je kot pomanjkljivost omenjena tudi v številnih strateških državnih dokumentih: Nacionalni program za kulturo (str. 98-103), Strategija razvoja informacijske družbe do leta 2020 (str. 20), Partnerski sporazum med Slovenijo in Evropsko komisijo 2014-2020 (str. 84), Resolucija o nacionalnem programu za jezikovno politiko itd. in program bo prispeval k njihovemu odpravljanju. Predlagani program je usmerjen k enemu od ključnih izzivov v viziji informacijske družbe: na zmožnost uporabe distribuiranih, heterogenih virov informacij in znanja, ki bo znanstvenikom in drugim uporabnikom omogočala interaktivno odkrivanje in interpretacijo novega znanja. Poleg ciljev, relevantnih v svetovnem merilu, je poseben pomen programa tudi omogočanje jezikovnotehnološke zrelosti slovenščine, s katero bo ta ostala znanstveno in  ekonomsko enakopravna.

Najpomembnejši znanstveni rezultati

Vmesno poročilo

Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati

Vmesno poročilo

Jezikovni viri in tehnologije za slovenski jezik

Zgodovina ogledov

Priljubljeno

Jezikovni viri in tehnologije za slovenski jezik

Klasifikacija ARIS

Klasifikacija CERIF

Klasifikacija FORD

Zahtevana je potrditev

Zgodovina ogledov

Priljubljeno