Nalaganje ...
Projekti / Programi vir: ARIS

Nova slovnica sodobne standardne slovenščine: viri in metode

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
6.05.00  Humanistika  Jezikoslovje   

Koda Veda Področje
H352  Humanistične vede  Slovnica, semantika, semiotika, sintaksa 

Koda Veda Področje
6.02  Humanistične vede  Jeziki in književnost 
Ključne besede
slovnica, korpusno jezikoslovje, računalniško jezikoslovje, vezljivost, stalne besedne zveze, kolokacije
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (13)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  27674  dr. Špela Arhar Holdt  Jezikoslovje  Raziskovalec  2017 - 2020  236 
2.  22278  dr. Janez Brank  Računalništvo in informatika  Raziskovalec  2017 - 2020  95 
3.  36914  dr. Jaka Čibej  Jezikoslovje  Raziskovalec  2018 - 2020  152 
4.  36491  dr. Kaja Dobrovoljc  Jezikoslovje  Raziskovalec  2018 - 2020  147 
5.  16313  dr. Apolonija Gantar  Jezikoslovje  Raziskovalec  2017 - 2020  223 
6.  52176  Teja Goli    Tehnični sodelavec  2019 - 2020  13 
7.  14681  dr. Vojko Gorjanc  Jezikoslovje  Raziskovalec  2017 - 2020  479 
8.  32887  mag. Bojan Klemenc  Računalništvo in informatika  Tehnični sodelavec  2017 - 2020  56 
9.  33796  dr. Iztok Kosem  Jezikoslovje  Raziskovalec  2017 - 2020  304 
10.  26166  dr. Simon Krek  Jezikoslovje  Vodja  2017 - 2020  373 
11.  37653  dr. Cyprian Adam Laskowski  Jezikoslovje  Raziskovalec  2017 - 2020  35 
12.  15295  dr. Marko Robnik Šikonja  Računalništvo in informatika  Raziskovalec  2017 - 2020  421 
13.  37487  Katja Zupan  Jezikoslovje  Mladi raziskovalec  2017 - 2020  22 
Organizacije (3)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  0106  Institut "Jožef Stefan"  Ljubljana  5051606000  90.753 
2.  0581  Univerza v Ljubljani, Filozofska fakulteta  Ljubljana  1627058  98.000 
3.  1539  Univerza v Ljubljani, Fakulteta za računalništvo in informatiko  Ljubljana  1627023  16.247 
Povzetek
V projektu želimo raziskati jezikoslovne metodološke temelje celostne računalniške analize sodobne pisne in govorjene slovenščine, kakršna je zajeta v novih korpusih slovenskega jezika, kar bo zagotovilo empirično osnovo za izdelavo novih empirično zasnovanih slovničnih opisov slovenskega jezika. Na podlagi te metodologije nameravamo izdelati obsežne prosto dostopne korpusne baze podatkov, ki bodo neposredno uporabne pri izdelavi bodočih jezikovnotehnoloških orodij in aplikacij za slovenski jezik. Pridobljene korpusne podatke bomo uporabili tudi za jezikoslovno analizo realnega jezika, kar predstavlja prvi korak na poti do nove empirično zasnovane korpusne slovnice slovenskega jezika. Predlog projekta temelji na dejstvu, da je v zadnjih treh desetletjih pri opisu jezika opazen premik znanstvene paradigme iz izoliranega raziskovanja jezikovnega sistema, predvsem na ravni fonetike in (morfo)sintakse, v empirično obravnavo, ki ponuja celosten pogled na delovanje jezika v realnih okoliščinah, v povezavi s področji, kot so psihologija, nevrobiologija, umetna inteligenca itd. Za uspešno raziskovanje znotraj novejših jezikoslovnih pristopov so potrebni zanesljivi empirični podatki o različnih jezikovnih pojavih, ki jih lahko zagotovi sodobno računalniško oz. korpusno jezikoslovje s strojno analizo obsežnih zbirk tako pisnega kot govorjenega jezika, ki so za slovenski jezik postale dostopne v zadnjem času. Delo na projektu bo razdeljeno na več vsebinskih delovnih sklopov, katerih naslovi nakazujejo tipe predlaganih korpusnih analiz: Oblikoslovje in besedotvorje, Kolokacije, Stalne besedne zveze, Vezljivost in Besedni nizi. Izhodišče analize pisnega jezika bo uravnoteženi referenčni korpus Kres, skupaj s potrebnimi primerjalnimi podatki iz korpusa Gigafida in ročno preverjenega učnega korpusa ssj500k. Izhodišče analize govorjenega jezika bosta korpus GOS ter učni korpus govorjenega jezika SST. Vse izluščene zbirke, programska oprema in drugi projektni rezultati bodo prosto dostopni pod odprtimi ali prostokodnimi licencami in organizirani na način, da bodo neposredno uporabni za namen izdelave jezikovnotehnoloških aplikacij.
Pomen za razvoj znanosti
Projekt zagotavlja osnovo za izdelavo nove slovenske slovnice in različnih temeljnih del (kolokacijski, vezljivostni, besedotvorni slovar). Hkrati zagotavlja gradivo za različne raziskave sodobnega slovenskega standardnega jezika, od morfematike do stilistike. Komunikacijski opis slovenščine bo zbližal vedno večji prepad med diskurzivno realnostjo jezika in njegovim trenutnim (slovničnim) opisom, kar pomeni, da bodo rezultati pomembni za jezikoslovje in za poučevanje slovenskega jezika na vseh stopnjah izobraževanja. Rezultat projekta bodo prosto dostopne baze podatkov v ustreznem formatu (XML, tabela) pod odprto licenco Creative Commons. S stališča jezikovnih tehnologij za slovenščino bo projekt omogočil analizo in izkoriščanje informacij, ki jih organizacije hranijo v obliki nestrukturiranih besedil. Odpirajo se možnosti za uporabo v novih produktih (npr. priporočilni sistemi, virtualni asistenti, razpoznavalniki in sintetizatorji govora) ter za aplikacije na številnih področjih (npr. medicina, varnost, transport), kar postaja strateško pomembno za uspešnost in konkurenčnost tako podjetij kot javnega sektorja, nenazadnje tudi v okviru Strategije pametne specializacije, predvsem na prednostnem področju pametnih mest in skupnosti ter pametnih zgradb in domov. Pomanjkanje sodobnega slovničnega opisa slovenščine med drugim omenja tudi nova Resolucija o nacionalnem programu za jezikovno politiko 2014–2018: "v obdobju, ki ga pokriva resolucija, je treba začeti načrtovanje izdelave znanstvene slovnice slovenskega jezika, ki bo prikazovala današnji slovnični ustroj slovenskega knjižnega/standardnega jezika kot povezovalnega jezika vseh Slovencev". Kot enega od pomembnejših ciljev opredeljuje tudi "spodbujanje razvoja jezikovnih tehnologij za slovenski jezik, ki vključuje vzpostavitev potrebne infrastrukture ter izdelavo čim bolj prosto dostopnih virov in orodij."
Pomen za razvoj Slovenije
Jezikovne tehnologije v informacijski družbi predstavljajo eno od pomembnejših omogočitvenih tehnologij, ki so prisotne v vseh aplikacijah, ki zahtevajo bodisi interakcijo med ljudmi in stroji ali pridobivanje znanja iz obsežnih virov podatkov v slovenskem jeziku. Projekt bo s svojimi raziskovalnimi rezultati pomembno prispeval k vključenosti slovenščine v produkte, ki te tehnologije uporabljajo, npr. tudi tiste, ki so predvideni v Strategiji pametne specializacije (pametna mesta).  Vpliv rezultatov raziskovalnega dela bo posredno in neposredno viden predvsem na širšem področju opremljenosti slovenščine z relevantnimi viri in tehnologijami. Pričakovano je, da bo program omogočil bistveno uspešnejšo vključenost slovenskega jezika v sodobne tehnološke trende, ki zahtevajo računalniško obvladovanje naravnih jezikov za najrazličnejše aplikacije, od virtualnih asistentov (npr. Siri, Cortana, Alexa), strojnih prevajalnikov, do umetne inteligence. Slovenščina bo v teh aplikacijah morala delovati enakovredno z jeziki z mnogo večjim številom govorcev, tega pa ni mogoče doseči brez raziskav, ki so usmerjene v specifike slovenščine s stališča jezikovnotehnoloških potreb. Glede na vpetost članov projektne skupine v mednarodne raziskave, predvsem na področju leksikografije in strojnega učenja, pričakujemo, da bodo rezultati mednarodno odmevni in uporabni tudi za druge jezike.
Najpomembnejši znanstveni rezultati Vmesno poročilo, zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Zaključno poročilo
Zgodovina ogledov
Priljubljeno