Projekti / Programi
Nova slovnica sodobne standardne slovenščine: viri in metode
Koda |
Veda |
Področje |
Podpodročje |
6.05.00 |
Humanistika |
Jezikoslovje |
|
Koda |
Veda |
Področje |
H352 |
Humanistične vede |
Slovnica, semantika, semiotika, sintaksa |
Koda |
Veda |
Področje |
6.02 |
Humanistične vede |
Jeziki in književnost |
slovnica, korpusno jezikoslovje, računalniško jezikoslovje, vezljivost, stalne besedne zveze, kolokacije
Raziskovalci (13)
Organizacije (3)
Povzetek
V projektu želimo raziskati jezikoslovne metodološke temelje celostne računalniške analize sodobne pisne in govorjene slovenščine, kakršna je zajeta v novih korpusih slovenskega jezika, kar bo zagotovilo empirično osnovo za izdelavo novih empirično zasnovanih slovničnih opisov slovenskega jezika. Na podlagi te metodologije nameravamo izdelati obsežne prosto dostopne korpusne baze podatkov, ki bodo neposredno uporabne pri izdelavi bodočih jezikovnotehnoloških orodij in aplikacij za slovenski jezik. Pridobljene korpusne podatke bomo uporabili tudi za jezikoslovno analizo realnega jezika, kar predstavlja prvi korak na poti do nove empirično zasnovane korpusne slovnice slovenskega jezika.
Predlog projekta temelji na dejstvu, da je v zadnjih treh desetletjih pri opisu jezika opazen premik znanstvene paradigme iz izoliranega raziskovanja jezikovnega sistema, predvsem na ravni fonetike in (morfo)sintakse, v empirično obravnavo, ki ponuja celosten pogled na delovanje jezika v realnih okoliščinah, v povezavi s področji, kot so psihologija, nevrobiologija, umetna inteligenca itd. Za uspešno raziskovanje znotraj novejših jezikoslovnih pristopov so potrebni zanesljivi empirični podatki o različnih jezikovnih pojavih, ki jih lahko zagotovi sodobno računalniško oz. korpusno jezikoslovje s strojno analizo obsežnih zbirk tako pisnega kot govorjenega jezika, ki so za slovenski jezik postale dostopne v zadnjem času.
Delo na projektu bo razdeljeno na več vsebinskih delovnih sklopov, katerih naslovi nakazujejo tipe predlaganih korpusnih analiz: Oblikoslovje in besedotvorje, Kolokacije, Stalne besedne zveze, Vezljivost in Besedni nizi. Izhodišče analize pisnega jezika bo uravnoteženi referenčni korpus Kres, skupaj s potrebnimi primerjalnimi podatki iz korpusa Gigafida in ročno preverjenega učnega korpusa ssj500k. Izhodišče analize govorjenega jezika bosta korpus GOS ter učni korpus govorjenega jezika SST. Vse izluščene zbirke, programska oprema in drugi projektni rezultati bodo prosto dostopni pod odprtimi ali prostokodnimi licencami in organizirani na način, da bodo neposredno uporabni za namen izdelave jezikovnotehnoloških aplikacij.
Pomen za razvoj znanosti
Projekt zagotavlja osnovo za izdelavo nove slovenske slovnice in različnih temeljnih del (kolokacijski, vezljivostni, besedotvorni slovar). Hkrati zagotavlja gradivo za različne raziskave sodobnega slovenskega standardnega jezika, od morfematike do stilistike. Komunikacijski opis slovenščine bo zbližal vedno večji prepad med diskurzivno realnostjo jezika in njegovim trenutnim (slovničnim) opisom, kar pomeni, da bodo rezultati pomembni za jezikoslovje in za poučevanje slovenskega jezika na vseh stopnjah izobraževanja. Rezultat projekta bodo prosto dostopne baze podatkov v ustreznem formatu (XML, tabela) pod odprto licenco Creative Commons. S stališča jezikovnih tehnologij za slovenščino bo projekt omogočil analizo in izkoriščanje informacij, ki jih organizacije hranijo v obliki nestrukturiranih besedil. Odpirajo se možnosti za uporabo v novih produktih (npr. priporočilni sistemi, virtualni asistenti, razpoznavalniki in sintetizatorji govora) ter za aplikacije na številnih področjih (npr. medicina, varnost, transport), kar postaja strateško pomembno za uspešnost in konkurenčnost tako podjetij kot javnega sektorja, nenazadnje tudi v okviru Strategije pametne specializacije, predvsem na prednostnem področju pametnih mest in skupnosti ter pametnih zgradb in domov.
Pomanjkanje sodobnega slovničnega opisa slovenščine med drugim omenja tudi nova Resolucija o nacionalnem programu za jezikovno politiko 2014–2018: "v obdobju, ki ga pokriva resolucija, je treba začeti načrtovanje izdelave znanstvene slovnice slovenskega jezika, ki bo prikazovala današnji slovnični ustroj slovenskega knjižnega/standardnega jezika kot povezovalnega jezika vseh Slovencev". Kot enega od pomembnejših ciljev opredeljuje tudi "spodbujanje razvoja jezikovnih tehnologij za slovenski jezik, ki vključuje vzpostavitev potrebne infrastrukture ter izdelavo čim bolj prosto dostopnih virov in orodij."
Pomen za razvoj Slovenije
Jezikovne tehnologije v informacijski družbi predstavljajo eno od pomembnejših omogočitvenih tehnologij, ki so prisotne v vseh aplikacijah, ki zahtevajo bodisi interakcijo med ljudmi in stroji ali pridobivanje znanja iz obsežnih virov podatkov v slovenskem jeziku. Projekt bo s svojimi raziskovalnimi rezultati pomembno prispeval k vključenosti slovenščine v produkte, ki te tehnologije uporabljajo, npr. tudi tiste, ki so predvideni v Strategiji pametne specializacije (pametna mesta).
Vpliv rezultatov raziskovalnega dela bo posredno in neposredno viden predvsem na širšem področju opremljenosti slovenščine z relevantnimi viri in tehnologijami. Pričakovano je, da bo program omogočil bistveno uspešnejšo vključenost slovenskega jezika v sodobne tehnološke trende, ki zahtevajo računalniško obvladovanje naravnih jezikov za najrazličnejše aplikacije, od virtualnih asistentov (npr. Siri, Cortana, Alexa), strojnih prevajalnikov, do umetne inteligence. Slovenščina bo v teh aplikacijah morala delovati enakovredno z jeziki z mnogo večjim številom govorcev, tega pa ni mogoče doseči brez raziskav, ki so usmerjene v specifike slovenščine s stališča jezikovnotehnoloških potreb. Glede na vpetost članov projektne skupine v mednarodne raziskave, predvsem na področju leksikografije in strojnega učenja, pričakujemo, da bodo rezultati mednarodno odmevni in uporabni tudi za druge jezike.
Najpomembnejši znanstveni rezultati
Vmesno poročilo,
zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati
Zaključno poročilo