Loading...
Projekti / Programi vir: ARRS

Viri, orodja in metode za raziskovanje nestandardne spletne slovenščine

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
6.05.00  Humanistika  Jezikoslovje   

Koda Veda Področje
H350  Humanistične vede  Jezikoslovje 

Koda Veda Področje
6.02  Humanistične vede  Jeziki in književnost 
Ključne besede
- korpusno jezikoslovje - jezikovne tehnologije - vsebine, ustvarjene s strani uporabnikov - jezikoslovno označevanje korpusov
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (12)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacij
1.  27674  dr. Špela Arhar Holdt  Jezikoslovje  Raziskovalec  2016 - 2017  194 
2.  36914  dr. Jaka Čibej  Jezikoslovje  Raziskovalec  2015 - 2017  130 
3.  05023  dr. Tomaž Erjavec  Jezikoslovje  Raziskovalec  2014 - 2017  591 
4.  26294  dr. Darja Fišer  Jezikoslovje  Vodja projekta  2014 - 2017  386 
5.  16313  dr. Apolonija Gantar  Jezikoslovje  Raziskovalec  2016 - 2017  201 
6.  14681  dr. Vojko Gorjanc  Jezikoslovje  Raziskovalec  2017  466 
7.  08949  dr. Nada Lavrač  Računalništvo in informatika  Raziskovalec  2014 - 2017  847 
8.  36871  dr. Nikola Ljubešić  Jezikoslovje  Raziskovalec  2014 - 2017  294 
9.  31844  dr. Senja Pollak  Jezikoslovje  Raziskovalec  2014 - 2017  218 
10.  33783  dr. Damjan Popič  Jezikoslovje  Raziskovalec  2015 - 2017  76 
11.  20453  dr. Špela Vintar  Jezikoslovje  Raziskovalec  2014 - 2015  251 
12.  24440  dr. Ana Zwitter Vitez  Jezikoslovje  Raziskovalec  2014 - 2017  114 
Organizacije (2)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacij
1.  0106  Institut "Jožef Stefan"  Ljubljana  5051606000  84.932 
2.  0581  Univerza v Ljubljani, Filozofska fakulteta  Ljubljana  1627058  94.374 
Povzetek
Z razmahom svetovnega spleta so skokovito narasle tudi spletne vsebine, kot so blogi, forumi in družbena omrežja, ki so v zadnjih dveh desetletjih postale pomemben vir človeškega znanja za najrazličnejša področja, kot so računalništvo, ekonomija in sociologija, tako v raziskovalne kot poslovne namene. Pri obravnavi teh vsebin pa se je treba spoprijeti z jezikom spletne komunikacije, ki se zaradi družbenih in tehničnih okoliščin precej razlikuje od standardnega. Zanj je značilna raba pogovornih in tujejezičnih izrazov, nestandardne ortografije in skladnje, specifičnih okrajšav in hiter dotok novega besedišča. Medtem ko je slovenščina z viri, metodologijo in priročniki za standardni jezik razmeroma dobro opremljena, na področju nestandardnega jezika zeva globoka vrzel, saj nimamo niti reprezentativnih korpusov za študije tega segmenta jezika, ne orodij za njihovo analizo in obdelavo, prvine nestandardne slovenščine pa so prav tako komajda vključene v jezikovne opise, priročnike in pedagoško prakso. Predlagani projekt zapolnjuje to vrzel in je v slovenskem jezikoslovju že dolgo težko pričakovan, saj bo zagotovil infrastrukturo in metodologijo za analizo nestandardne slovenščine. Ti sta nujni za izdelavo sodobnih leksikografskih, normativnih in pedagoških priročnikov, ki brez podatkov o dejanski jezikovni rabi ni mogoča. Jezikovne modele, ki so dovolj robustni za obdelavo nestandardne slovenščine, potrebujemo tudi za procesiranje spletnih besedil. Predlagana raziskava s kombinacijo najsodobnejših korpusnih metod in metod s področja računalniškega jezikoslovja prva omogoča celovit vpogled v segment jezika, ki se hitro spreminja, dobiva vse pomembnejšo vlogo na vseh področjih našega udejstvovanja ter je bil doslej iz različnih razlogov zanemarjan. V projektu bomo zgradili obsežen korpus internetne slovenščine, zgradili slovar nestandardnih besednih oblik in na podlagi obsežne jezikoslovne analize razvili metode za izboljšanje avtomatskega procesiranja nestandardne slovenščine. Korpus bo vseboval tvite, bloge, forume in komentarje na novice in članke v Wikipediji, torej najpomembnejše zvrsti besedil, ki jih uporabniki ustvarjajo na spletu. Korpus bo jezikoslovno označen na več ravneh in prosto dostopen preko zmogljivih konkordančnikov, zato bo dobrodošel za teoretično in uporabno jezikoslovje. Na osnovi korpusa bomo izvedli vrsto jezikoslovnih raziskav, in sicer primerjavo nestandardne slovenščine s pisnim standardom in govorom, študijo žaljivega govora na spletu, poglobljeni analizi večbesednih zvez in terminologije v spletnih besedilih ter identifikacije pomenskih premikov besed. Rezultat projekta bosta tudi dve podatkovni množici (manjši ročno označen korpus in leksikalna baza nestandardnih besednih oblik), s pomočjo katerih bomo razvili metode za izboljšanje avtomatskega procesiranja nestandardne slovenščine in spletni slovar nestandardne slovenščine, ki bo namenjen učiteljem, učencem, jezikoslovcem, leksikografom in širši zainteresirani javnosti. Ob zaključku projekta bodo razviti jezikovni viri ponujeni v odprt dostop pod licenco Creative Commons, razvita orodja za označevanje bomo vključili v spletne delotoke, razvili pa bomo tudi prototipni sistem za kontinuirano gradnjo spremljevalnega korpusa. Viri, delotoki in platforma spremljevalnega korpusa se bodo po zaključku projekta predvidoma prenesli in vzdrževali v okviru slovenske raziskovalne infrastrukture CLARIN. Razviti viri, orodja in metode bodo tako omogočili prenos znanj na vsa področja, ki uporabljajo spletne vsebine, ki jih ustvarjajo uporabniki. S tem bomo pomagali zmanjšati e-izključenost govorcev, ki so pogosto priklenjeni na tujejezične aplikacije, slovenščini pa omogočili boljšo funkcionalnost in razvoj v digitalni dobi. Glede na to, da bo metodologija izgradnje virov in orodij jezikovno neodvisna, bodo pristopi uporabni tudi za sorodne jezike, ki tovrstnih virov in orodij še nimajo, kar bo rezultatom dalo pomembno večjezično razsežnost.
Pomen za razvoj znanosti
Boljsˇe poznavanje znacˇilnosti nestandardne slovensˇcˇine, ki z razmahom informacijskih tehnologij postaja vse pomembnejsˇi in pogost nacˇin pisne komunikacije. Vrsta raziskav, ki smo jih izvedli v projektu, je kontrastivno, tako kvalitativno kot kvantitativno, osvetlila razlicˇne ravni takega jezika, kar je uporabno v nadaljnjih raziskavah in aplikacijah na podrocˇju leksikologije in sociolingvistike ter usvajanja in poucˇevanja jezika. Poleg tega smo v projektu intenzivno uporabljali in razvijali insˇtrumentarij korpusnega jezikoslovja (korpusnoprimerjalne sˇtudije, metode za lusˇcˇenje kolokacij, pomenskih premikov, itd.), kar bo koristilo vsem nadaljnjim korpusnim raziskavam slovenskega jezika. Razvoj racˇunalnisˇki metod za oznacˇevanje nestandardnega jezika, ki so pomembne ne samo za slovensˇcˇino, temvecˇ so izredno aktualne tudi mednarodno, saj se s podobnimi izzivi spopadajo tudi drugi jeziki. Pri razvoju smo uporabili nekatere najmodernejsˇe metode za analizo besedil, kot je statisticˇno strojno prevajanje in druge vrste strojnega ucˇenja. Projekt je zagotovil napredek pri razvoju metod za identifikacijo in lusˇcˇenje ciljnih besedil s spleta, normalizacijo besed, oblikoskladenjsko oznacˇevanje in lematizacijo ter profiliranje avtorjev in identifikacijo pomenskih premikov. Izdelava kvalitetnih virov nestandardnega jezika, kar je najbolj oprijemljiv rezultat projekta in vkljucˇuje obsezˇen, sodoben in jezikoslovno oznacˇen korpus, serijo ročno označenih učnih množic oz. zlatih standardov za jezikoslovne in jezikovnotehnološke raziskave in razvoj ter leksikalno bazo oz. spletni slovarček nestandardne slovensˇcˇine. Vsi ti izdelani viri prvicˇ omogočajo celovit vpogled v znacˇilnosti in razvoj spletnega jezika odpirajo mozˇnosti za sˇtevilne nove raziskave s podrocˇja jezikoslovja in jezikovnih tehnologij za slovensˇcˇino in to ne samo projektnim partnerjem, temvecˇ vsem slovenskim in tujim raziskovalcem. Implementacija in promocija dobrih znanstvenih praks, ki jih v slovenskem prostoru, posebej na podrocˇju jezikoslovja, sˇe zelo manjka. Projekt je za razliko od introspektivnega jezikoslovja ali jezikoslovnih analiz na napaberkovanih primerih uporabe promoviral empiricˇno podprto korpusno jezikoslovje, jeziko(slo)vne podatke strukturiral po mednarodnih priporocˇilih in ne v nedokumentiranih ad-hoc formatih, najbolj pomembno pa je, da so viri, izdelani v okviru projekta, dostopni pod licenco CC, kar omogocˇa odprto diseminacijo izdelanih podatkov in s tem njihovo maksimalno izkorisˇcˇenost, saj mdr. omogocˇa preverljivost rezultatov, preprecˇuje dvojno financiranje raziskav in spodbuja gospodarski napredek. S tem smo bistveno pripomogli k preseganju prevladujocˇega stanja v Sloveniji, kot ga opisujejo Sˇtebe in dr. (2013): “Kljub nekaterim zametkom [omogocˇanja dostopa do raziskovalnih podatkov] je to podrocˇje kriticˇno podhranjeno zaradi prevladujocˇe kulture zapiranja in monopoliziranja podatkov.”
Pomen za razvoj Slovenije
Razviti viri, orodja in metode omogočajo prenos znanj na vsa podrocˇja, ki uporabljajo spletne vsebine, ki jih ustvarjajo uporabniki. S tem je projekt JANES pomembno prisoeval k zmanjševanju e-izkljucˇenosti govorcev, ki so pogosto priklenjeni na tujejezicˇne aplikacije, slovensˇcˇini pa omogocˇili boljsˇo funkcionalnost in razvoj v digitalni dobi. Glede na to, da je metodologija izgradnje virov in orodij jezikovno neodvisna, so pristopi uporabni, in tudi že bili uspešno uporabljeni, za sorodne jezike (hrvaščina, srbščina), ki tovrstnih virov in orodij sˇe nimajo, kar rezultatom daje tudi pomembno vecˇjezicˇno razsezˇnost. Resolucija o nacionalnem programu za jezikovno politiko 2014-2018 ugotavlja: “Razvoj informacijskih in komunikacijskih tehnologij v zadnjih 10 letih ustvarja digitalno vrzel, zaradi katere bodo jeziki, ki bodo pri tem razvoju zaostajali, postali manj privlacˇni in konkurencˇni v globalno povezanem svetu. Digitalna vrzel locˇuje jezike, ki so dovolj prisotni na svetovnem spletu, za katere obstajajo sodobni digitalni viri in so jezikovnotehnolosˇko razviti, od tistih, pri katerih se zaostanek s skokovitim razvojem IKT tehnologij povecˇuje.” Zaradi tega je kot eden od ciljev Programa izpostavljeno “Spodbujanje razvoja jezikovnih tehnologij za slovenski jezik, ki vkljucˇuje vzpostavitev potrebne infrastrukture ter izdelavo cˇim bolj prosto dostopnih virov in orodij”, kar je bil obenem eden od temeljnih ciljev projekta JANES, saj smo v njem razvili prosto dostopne vire in orodja za eno od pomembnih, a doslej sˇe neraziskanih jezikovnih zvrsti slovensˇcˇine. Projektni partner IJS je tudi nosilec slovenske raziskovalne infrastrukture CLARIN za podrocˇje jezikovnih virov in orodij, razviti viri in orodja pa so po zaključku projekta trajno dostopni v okviru te infrastrukture. Slovenska podjetja, ki se ukvarjajo z IKT, npr. v povezavi s semanticˇnim spletom, poizvedovanjem po informacijah, rudarjenjem po besedilih, ali povzemanjem besedil, bodo vedno pogosteje v svoje produkte zˇelela vkljucˇevati tudi obdelavo slovenskega jezika, pri cˇemer se bodo morala spopadati tudi ali celo predvsem z nestandardnim jezikom, saj kolicˇina takih besedil bliskovito narasˇcˇa. Pri dostopnosti razvitih virov in orodij ne mislimo prepovedati komercialne uporabe, zato bodi ti viri oz. orodja neposredno uporabni tudi za podjetja, kar bo koristilo njihovi konkurencˇnosti. Jezik se pogosto dojema v kontrastu knjizˇni in pravilni proti pogovorni in napacˇni. Seveda je, odvisno od zvrsti komunikacije vcˇasih primerno le izrazˇanje v normi, vendar obstaja tudi veliko situacij, ko lahko pisˇemo ali pa moramo razumeti tudi nestandardno slovensˇcˇino. Predlagani projekt je ponudil tako kontrastivne raziskave kot konkretne in dostopne vire nestandardne slovensˇcˇine, ki jih bodo lahko uporabljali pri pouku oz. nacˇrtovanju pouka slovensˇcˇine na osnovni in srednjesˇolski ravni, pa tudi pri ucˇenju slovensˇcˇine kot tujega jezika. S tem je obogateno razumevanje registrov slovenskega jezika ucˇencev in komunikacijske sposobnosti tujcev. Zaradi odprtosti in zapisa leksikalne baze je ta tako avtorskopravno kot tehnicˇno primerna za vkljucˇitev v druge leksikalne vire, kot npr. v nacˇrtovani novi slovar sodobnega slovenskega jezika, s cˇimer bo integrirana v sˇirsˇi slovarski projekt, od katerega bodo imeli korist vsi govorci slovenskega jezika. Ob neposredni koristi za IKT podjetja, ki bodo lahko bolje procesirala slovenski jezik, bodo sledile tudi koristi za druzˇbo, saj bo govorcem slovensˇcˇine omogocˇen dostop do produktov, ki bolje podpirajo slovenski jezik.
Najpomembnejši znanstveni rezultati Letno poročilo 2014, 2015, zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Letno poročilo 2014, 2015, zaključno poročilo
Zgodovina ogledov
Priljubljeno