Nalaganje ...
Projekti / Programi vir: ARRS

Slovenska znanstvena besedila: viri in opis

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
6.05.02  Humanistika  Jezikoslovje  Teoretično in uporabno jezikoslovje 

Koda Veda Področje
H350  Humanistične vede  Jezikoslovje 

Koda Veda Področje
6.02  Humanistične vede  Jeziki in književnost 
Ključne besede
jezik znanosti korpus terminologija jezikovne tehnologije
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (11)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacij
1.  27674  dr. Špela Arhar Holdt  Jezikoslovje  Raziskovalec  2016 - 2018  194 
2.  30672  dr. Maja Bitenc  Jezikoslovje  Raziskovalec  2017 - 2018  56 
3.  23982  dr. Borko Bošković  Računalništvo in informatika  Raziskovalec  2016 - 2018  209 
4.  36914  dr. Jaka Čibej  Jezikoslovje  Raziskovalec  2016  130 
5.  05023  dr. Tomaž Erjavec  Jezikoslovje  Vodja projekta  2016 - 2018  592 
6.  36341  Marko Ferme  Računalništvo in informatika  Raziskovalec  2016 - 2018  70 
7.  26294  dr. Darja Fišer  Jezikoslovje  Raziskovalec  2016 - 2018  386 
8.  26166  dr. Simon Krek  Jezikoslovje  Raziskovalec  2016 - 2018  308 
9.  36871  dr. Nikola Ljubešić  Jezikoslovje  Raziskovalec  2016 - 2018  295 
10.  20482  dr. Nataša Logar  Jezikoslovje  Raziskovalec  2016 - 2018  343 
11.  06823  dr. Milan Ojsteršek  Računalništvo in informatika  Raziskovalec  2016 - 2018  522 
Organizacije (4)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacij
1.  0106  Institut "Jožef Stefan"  Ljubljana  5051606000  85.052 
2.  0581  Univerza v Ljubljani, Filozofska fakulteta  Ljubljana  1627058  94.472 
3.  0582  Univerza v Ljubljani, Fakulteta za družbene vede  Ljubljana  1626957  39.024 
4.  0796  Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko  Maribor  5089638003  26.908 
Povzetek
Razvoj in uporaba slovenskega znanstvenega jezika v visokem šolstvu ter znanosti je zadnja leta eno osrednjih vprašanj slovenske jezikovne politike. Problem je izpostavljen tudi v Resoluciji o Nacionalnem programu za jezikovno politiko 2014–2018, na vpliv, ki ga imata znanje in razvoj znanstvenega jezika na vitalnost posameznega jezika, pa opozarja tudi več evropskih študij. Zaradi tega je nujno izdelati sodobne referenčne jezikovne vire, ki bodo pomagali opolnomočiti slovenski znanstveni jezik, in na njih izvesti celovite raziskave tega segmenta slovenščine.   V zadnjem času so slovenske univerze začele vzpostavljati repozitorije svojih publikacij, ki vsebujejo raznorodna besedila, od doktorskih del do znanstvenih in strokovnih prispevkov. Pomemben mejnik je leta 2013 vzpostavljeni Nacionalni portal odprte znanosti, ki agregira vsebine iz repozitorijev slovenskih univerz. Portal že ponuja dostop do prek 123.000 slovenskih objav s širokega nabora strokovnih področij. Ta dela so izjemno dragocen, a zaenkrat še popolnoma neizkoriščen vir podatkov o znanstveni slovenščini, kot tudi bogat vir terminoloških podatkov.   Cilj projekta je preseči omenjene pomanjkljivosti ter omejitve, in to z več vidikov. V projektu bomo izdelali obsežen korpus slovenske znanstvene slovenščine, ki bo vseboval besedila, prevzeta s portala odprte znanosti. Besedila bodo zajeta iz izvornega formata (večinoma PDF), kar bo zahtevalo razvoj metod za čiščenje besedil, luščenje strukture dokumentov ter pretvorbo v enovit in standardiziran zapis XML. Korpus bo jezikoslovno označen z na novo razvitimi orodji, ki bodo še izboljšala kakovost označevanja jezikovnih virov slovenščine. Razvili bomo tudi metode za klasifikacijo besedil in luščenje ključnih besednih zvez, ki bodo izboljšale uporabnost portala odprte znanosti s tem, da bo z njimi omogočeno bolj kompleksno iskanje po vsebinah, s priporočili ključnih besednih zvez pa bo nadgrajen tudi vmesnik za knjižničarje, ki v univerzitetne repozitorije vnašajo nova besedila.   Korpus bo služil kot osnova za nove metode avtomatiziranega luščenja slovenske terminologije. Izluščeni terminološki kandidati bodo objavljeni prek prosto dostopnega spletnega slovarskega vmesnika, ki bo omogočal tako pregledovanje kot urejanje zbirk, kar bo slovenskim znanstvenim skupnostim z najrazličnejših področij omogočilo vključitev v upravljanje s terminologijo svojega področja. S strani treh izmed teh skupnosti bomo pridobili tudi odziv na terminološko zbirko, ki jo bomo zanje pripravili v projektu. Pomemben segment projekta je tudi prva empirično zasnovana raziskava slovenskega znanstvenega jezika, ki bo temeljila na reprezentativnem korpusu. Opis znanstvene slovenščine bomo dopolnili z izvedbo anket in poglobljenih intervjujev, s katerimi bomo pridobili podatke o tistih delih znanstvenega pisanja v slovenščini, s katerimi imajo pisci (zlasti doktorski študenti in mlajši doktorji znanosti) največ težav. Na podlagi ugotovitev bomo pripravili priročnik za dobro znanstveno pisanje v slovenščini.   Rezultati projekta bodo dostopni v največji možni meri: izdelani viri in orodja bodo prosto in javno dostopni širši raziskovalni skupnosti, s čimer bodo pripomogli k napredku korpusnega jezikoslovja, digitalne humanistike in jezikovnih tehnologij za slovenščino. Viri bodo arhivirani v repozitoriju raziskovalne infrastrukture CLARIN.SI, ki bo prevzela tudi vzdrževanje korpusa po zaključku projekta. Projekt bo v svoje aktivnosti prek dveh delavnic in konference vpel tudi širšo slovensko znanstveno skupnost in druge zainteresirane javnosti. Pri projektu bo sodelovalo deset raziskovalcev s štirih znanstvenoraziskovalnih ustanov, ki si bodo za uresničitev zastavljenih ciljev prizadevali z različnimi, a komplementarnimi znanji. Cilji, ki jih bomo v projektu dosegli, so: okrepitev slovenskega znanstvenega jezika, boljša opremljenost slovenskega jezika za delovanje v informacijski družbi in zagotavljanje večje odprtosti znanstvenih rezultatov.
Pomen za razvoj znanosti
Jezikoslovje: Slovensko jezikoslovje slovenskega znanstvenega jezika do sedaj še ni temeljito opisalo, zato bomo z raziskavo zapolnili veliko vrzel na tem področju. Raziskava bo prinesla nova spoznanja, pristope in aktivnosti v slovensko terminologijo in terminografijo. Z možnostjo udeležbe široke znanstvene in druge zainteresirane skupnosti pri samoorganizaciji in upravljanju poimenovanj lastnega strokovnega področja na enotnem terminološkem portalu se bo okrepila priprava terminoloških slovarjev in podatkovnih zbirk, na pomanjkanje katerih skupaj z jezikoslovci že leta opozarjajo področni strokovnjaki, študenti, prevajalci in lektorji. Na novo razvite jezikovne tehnologije bodo poleg tega olajšale tradicionalno terminografsko delo in omogočile nove, interdisciplinarne analize strokovne poimenovalnosti. Za vse znanosti je raziskava z jezikoslovnega vidika pomembna zato, ker bo pomagala razvijati jezikovne kompetence visokošolskih diplomantov vseh stopenj in jim ponudila vire, s katerimi bo njihovo strokovno ter znanstveno pisanje v slovenščini lažje ter bolj uspešno.   Digitalna humanistika: Področje, ki združuje humanistiko, sodobno računalniško tehnologijo in digitalne vire, je precej novo, a v mednarodnem obsegu zelo aktivno. V Sloveniji je še v zametkih, saj je raziskovalcev in univerzitetnih predmetov s tega področja malo, univerzitetnih programov pa še toliko manj. Rezultati projekta, zlasti korpus, ki bo dostopen prek konkordančnika in prenosljiv na lokalni računalnik, spletna storitev za luščenje terminologije, nova orodja za obdelavo besedil in spletna kolaborativna terminografija, bodo to področje še okrepili, zlasti v povezavi s predvidenimi diseminacijskimi dejavnostmi.   Jezikovne tehnologije: Projekt bo prinesel znanstvene rezultate na tem področju zlasti zaradi uporabe novih metod strojnega učenja na problemih, ki se jih je tradicionalno reševalo z metodami na podlagi pravil (npr. luščenje terminologije) ali s specializiranimi statističnimi metodami (npr. HMM). Doprinose k znanosti pričakujemo pri novih metododah oblikoskladenjskega označevanja in lematizacije, na področju čiščenja šumnih besedil s statističnim strojnim prevajanjem na ravni znakov, ki bo upošteval tudi kontekst, ter pri luščenju strukture iz datotek PDF. Na področju računalniško podprte terminologije bomo dosegli napredek pri identifikaciji, luščenju, strukturiranju in predstavljanju večjezičnega terminološkega znanja iz polstrukturiranih virov. Pričakujemo tudi znanstvene prispevke na področju kodiranja jezikovnih podatkov, še posebno v povezavi z aplikacijami TEI. Poleg tega, da bomo postregli z novostmi v mednarodnem okviru, pričakujemo še opaznejši znanstveni napredek na področju obdelave slovenščine: novo temeljno verigo orodij za jezikoslovno označevanje, razvrščanje besedil, luščenje strukture, bogatitev metapodatkov, povezovanje izluščene terminologije in identifikacijo ključnih besednih zvez.
Pomen za razvoj Slovenije
Najvidnejši rezultat projekta v tem segmentu bo namestitev zgrajenih terminoloških zbirk na javni spletni portal, ki bodo znanstvenikom, še posebej pa doktorskim študentom ter raziskovalcem, ki pišejo znanstvene in strokovne prispevke ali disertacije v slovenščini, nudile močno potreben spletni dostop do področnih terminov za širok nabor disciplin. Ker bo portal omogočal tudi urejanje terminologije, bo spodbujal kolaborativno leksikografijo, pri kateri lahko uporabniki sami izboljšujejo in dodajajo vnose v glosarje. Glede na hiter razvoj znanstvenih disciplin je to predpogoj za dolgoročno živost slovenskih terminoloških slovarjev.   Pomembna neposredna posledica projekta bo tudi izboljšana uporabnost Nacionalnega portala odprte znanosti zaradi naprednejšega razvrščanja agregiranih besedil in avtomatskega generiranja ključnih besed, ki ju bomo razvili v projektu. To bo omogočilo učinkovitejši sistem priporočanja za knjižnično osebje, ki bo vnašalo klasifikacijo novih prispevkov in ključne besede v digitalne knjižnice (ali jih tam popravljalo), obenem pa bo znatno izboljšalo iskanje po besedilih na portalu.   Projekt bo razvil verigo orodij za pretvarjanje datotek PDF v čisto, strukturirano in označeno besedilo. To funkcionalnost bo mogoče implementirati neposredno na portalu odprte znanosti, ki bi tako lahko nudil iskanje po celotnem besedilu, podprto z označevanjem, kot npr. lematizacija in identifikacije terminov. Na tej osnovi si lahko zamislimo še dodatne storitve, ki so ponekod že na voljo za angleščino, npr. identifikacija, izvoz in povezovanje bibliografije, predlogi podobnih besedil, navzkrižno povezovanje besedil ipd. Ker bo v Sloveniji kmalu obvezna predložitev datoteke PDF za vse objavljene znanstvene prispevke, bodo takšne funkcionalnosti postajale vse pomembnejše.   Prosto dostopen spletni konkordančnik, ki bo gostil zgrajeni korpus, bo omogočal bogat nabor iskalnih možnosti ter prikazovanja terminov in splošnega jezika, uporabljenega v znanstvenih besedilih. To bo olajšalo ne samo nadaljnje jezikoslovne raziskave znanstvenega jezika, temveč tudi iskanje dejstev v znanstvenih besedilih. Dokler z iskanjem po polnem besedilu ne bo opremljen portal odprte znanosti, lahko temu namenu začasno služi korpus.   V projektu bomo izdelali tudi številna odprtokodna jezikovnotehnološka orodja in vire za slovenščino, ki bodo bodisi boljša od že obstoječih (popravljanje besedil, luščenje strukture, označevanje, lematizacija) bodisi bodo omogočala do zdaj povsem odsotne funkcionalnosti (luščenje terminov in ključnih besednih zvez, razvrščanje besedil). Poleg tega bomo izdelali referenčne označene podatkovne množice za slovenščino, ki so ključni viri za učenje orodij za analizo jezika. Ta orodja in viri bodo neposredno dostopni drugim raziskovalcem, če bo le mogoče pa tudi za komercialno rabo. To bo znatno olajšalo nadaljnji razvoj jezikovnih tehnologij za slovenščino.
Najpomembnejši znanstveni rezultati Vmesno poročilo, zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Vmesno poročilo, zaključno poročilo
Zgodovina ogledov
Priljubljeno