Projekti / Programi
Slovenska znanstvena besedila: viri in opis
Koda |
Veda |
Področje |
Podpodročje |
6.05.02 |
Humanistika |
Jezikoslovje |
Teoretično in uporabno jezikoslovje |
Koda |
Veda |
Področje |
H350 |
Humanistične vede |
Jezikoslovje |
Koda |
Veda |
Področje |
6.02 |
Humanistične vede |
Jeziki in književnost |
jezik znanosti
korpus
terminologija
jezikovne tehnologije
Raziskovalci (11)
Organizacije (4)
Povzetek
Razvoj in uporaba slovenskega znanstvenega jezika v visokem šolstvu ter znanosti je zadnja leta eno osrednjih vprašanj slovenske jezikovne politike. Problem je izpostavljen tudi v Resoluciji o Nacionalnem programu za jezikovno politiko 2014–2018, na vpliv, ki ga imata znanje in razvoj znanstvenega jezika na vitalnost posameznega jezika, pa opozarja tudi več evropskih študij. Zaradi tega je nujno izdelati sodobne referenčne jezikovne vire, ki bodo pomagali opolnomočiti slovenski znanstveni jezik, in na njih izvesti celovite raziskave tega segmenta slovenščine.
V zadnjem času so slovenske univerze začele vzpostavljati repozitorije svojih publikacij, ki vsebujejo raznorodna besedila, od doktorskih del do znanstvenih in strokovnih prispevkov. Pomemben mejnik je leta 2013 vzpostavljeni Nacionalni portal odprte znanosti, ki agregira vsebine iz repozitorijev slovenskih univerz. Portal že ponuja dostop do prek 123.000 slovenskih objav s širokega nabora strokovnih področij. Ta dela so izjemno dragocen, a zaenkrat še popolnoma neizkoriščen vir podatkov o znanstveni slovenščini, kot tudi bogat vir terminoloških podatkov.
Cilj projekta je preseči omenjene pomanjkljivosti ter omejitve, in to z več vidikov. V projektu bomo izdelali obsežen korpus slovenske znanstvene slovenščine, ki bo vseboval besedila, prevzeta s portala odprte znanosti. Besedila bodo zajeta iz izvornega formata (večinoma PDF), kar bo zahtevalo razvoj metod za čiščenje besedil, luščenje strukture dokumentov ter pretvorbo v enovit in standardiziran zapis XML. Korpus bo jezikoslovno označen z na novo razvitimi orodji, ki bodo še izboljšala kakovost označevanja jezikovnih virov slovenščine. Razvili bomo tudi metode za klasifikacijo besedil in luščenje ključnih besednih zvez, ki bodo izboljšale uporabnost portala odprte znanosti s tem, da bo z njimi omogočeno bolj kompleksno iskanje po vsebinah, s priporočili ključnih besednih zvez pa bo nadgrajen tudi vmesnik za knjižničarje, ki v univerzitetne repozitorije vnašajo nova besedila.
Korpus bo služil kot osnova za nove metode avtomatiziranega luščenja slovenske terminologije. Izluščeni terminološki kandidati bodo objavljeni prek prosto dostopnega spletnega slovarskega vmesnika, ki bo omogočal tako pregledovanje kot urejanje zbirk, kar bo slovenskim znanstvenim skupnostim z najrazličnejših področij omogočilo vključitev v upravljanje s terminologijo svojega področja. S strani treh izmed teh skupnosti bomo pridobili tudi odziv na terminološko zbirko, ki jo bomo zanje pripravili v projektu. Pomemben segment projekta je tudi prva empirično zasnovana raziskava slovenskega znanstvenega jezika, ki bo temeljila na reprezentativnem korpusu. Opis znanstvene slovenščine bomo dopolnili z izvedbo anket in poglobljenih intervjujev, s katerimi bomo pridobili podatke o tistih delih znanstvenega pisanja v slovenščini, s katerimi imajo pisci (zlasti doktorski študenti in mlajši doktorji znanosti) največ težav. Na podlagi ugotovitev bomo pripravili priročnik za dobro znanstveno pisanje v slovenščini.
Rezultati projekta bodo dostopni v največji možni meri: izdelani viri in orodja bodo prosto in javno dostopni širši raziskovalni skupnosti, s čimer bodo pripomogli k napredku korpusnega jezikoslovja, digitalne humanistike in jezikovnih tehnologij za slovenščino. Viri bodo arhivirani v repozitoriju raziskovalne infrastrukture CLARIN.SI, ki bo prevzela tudi vzdrževanje korpusa po zaključku projekta. Projekt bo v svoje aktivnosti prek dveh delavnic in konference vpel tudi širšo slovensko znanstveno skupnost in druge zainteresirane javnosti.
Pri projektu bo sodelovalo deset raziskovalcev s štirih znanstvenoraziskovalnih ustanov, ki si bodo za uresničitev zastavljenih ciljev prizadevali z različnimi, a komplementarnimi znanji. Cilji, ki jih bomo v projektu dosegli, so: okrepitev slovenskega znanstvenega jezika, boljša opremljenost slovenskega jezika za delovanje v informacijski družbi in zagotavljanje večje odprtosti znanstvenih rezultatov.
Pomen za razvoj znanosti
Jezikoslovje: Slovensko jezikoslovje slovenskega znanstvenega jezika do sedaj še ni temeljito opisalo, zato bomo z raziskavo zapolnili veliko vrzel na tem področju. Raziskava bo prinesla nova spoznanja, pristope in aktivnosti v slovensko terminologijo in terminografijo. Z možnostjo udeležbe široke znanstvene in druge zainteresirane skupnosti pri samoorganizaciji in upravljanju poimenovanj lastnega strokovnega področja na enotnem terminološkem portalu se bo okrepila priprava terminoloških slovarjev in podatkovnih zbirk, na pomanjkanje katerih skupaj z jezikoslovci že leta opozarjajo področni strokovnjaki, študenti, prevajalci in lektorji. Na novo razvite jezikovne tehnologije bodo poleg tega olajšale tradicionalno terminografsko delo in omogočile nove, interdisciplinarne analize strokovne poimenovalnosti.
Za vse znanosti je raziskava z jezikoslovnega vidika pomembna zato, ker bo pomagala razvijati jezikovne kompetence visokošolskih diplomantov vseh stopenj in jim ponudila vire, s katerimi bo njihovo strokovno ter znanstveno pisanje v slovenščini lažje ter bolj uspešno.
Digitalna humanistika: Področje, ki združuje humanistiko, sodobno računalniško tehnologijo in digitalne vire, je precej novo, a v mednarodnem obsegu zelo aktivno. V Sloveniji je še v zametkih, saj je raziskovalcev in univerzitetnih predmetov s tega področja malo, univerzitetnih programov pa še toliko manj. Rezultati projekta, zlasti korpus, ki bo dostopen prek konkordančnika in prenosljiv na lokalni računalnik, spletna storitev za luščenje terminologije, nova orodja za obdelavo besedil in spletna kolaborativna terminografija, bodo to področje še okrepili, zlasti v povezavi s predvidenimi diseminacijskimi dejavnostmi.
Jezikovne tehnologije: Projekt bo prinesel znanstvene rezultate na tem področju zlasti zaradi uporabe novih metod strojnega učenja na problemih, ki se jih je tradicionalno reševalo z metodami na podlagi pravil (npr. luščenje terminologije) ali s specializiranimi statističnimi metodami (npr. HMM). Doprinose k znanosti pričakujemo pri novih metododah oblikoskladenjskega označevanja in lematizacije, na področju čiščenja šumnih besedil s statističnim strojnim prevajanjem na ravni znakov, ki bo upošteval tudi kontekst, ter pri luščenju strukture iz datotek PDF.
Na področju računalniško podprte terminologije bomo dosegli napredek pri identifikaciji, luščenju, strukturiranju in predstavljanju večjezičnega terminološkega znanja iz polstrukturiranih virov. Pričakujemo tudi znanstvene prispevke na področju kodiranja jezikovnih podatkov, še posebno v povezavi z aplikacijami TEI. Poleg tega, da bomo postregli z novostmi v mednarodnem okviru, pričakujemo še opaznejši znanstveni napredek na področju obdelave slovenščine: novo temeljno verigo orodij za jezikoslovno označevanje, razvrščanje besedil, luščenje strukture, bogatitev metapodatkov, povezovanje izluščene terminologije in identifikacijo ključnih besednih zvez.
Pomen za razvoj Slovenije
Najvidnejši rezultat projekta v tem segmentu bo namestitev zgrajenih terminoloških zbirk na javni spletni portal, ki bodo znanstvenikom, še posebej pa doktorskim študentom ter raziskovalcem, ki pišejo znanstvene in strokovne prispevke ali disertacije v slovenščini, nudile močno potreben spletni dostop do področnih terminov za širok nabor disciplin. Ker bo portal omogočal tudi urejanje terminologije, bo spodbujal kolaborativno leksikografijo, pri kateri lahko uporabniki sami izboljšujejo in dodajajo vnose v glosarje. Glede na hiter razvoj znanstvenih disciplin je to predpogoj za dolgoročno živost slovenskih terminoloških slovarjev.
Pomembna neposredna posledica projekta bo tudi izboljšana uporabnost Nacionalnega portala odprte znanosti zaradi naprednejšega razvrščanja agregiranih besedil in avtomatskega generiranja ključnih besed, ki ju bomo razvili v projektu. To bo omogočilo učinkovitejši sistem priporočanja za knjižnično osebje, ki bo vnašalo klasifikacijo novih prispevkov in ključne besede v digitalne knjižnice (ali jih tam popravljalo), obenem pa bo znatno izboljšalo iskanje po besedilih na portalu.
Projekt bo razvil verigo orodij za pretvarjanje datotek PDF v čisto, strukturirano in označeno besedilo. To funkcionalnost bo mogoče implementirati neposredno na portalu odprte znanosti, ki bi tako lahko nudil iskanje po celotnem besedilu, podprto z označevanjem, kot npr. lematizacija in identifikacije terminov. Na tej osnovi si lahko zamislimo še dodatne storitve, ki so ponekod že na voljo za angleščino, npr. identifikacija, izvoz in povezovanje bibliografije, predlogi podobnih besedil, navzkrižno povezovanje besedil ipd. Ker bo v Sloveniji kmalu obvezna predložitev datoteke PDF za vse objavljene znanstvene prispevke, bodo takšne funkcionalnosti postajale vse pomembnejše.
Prosto dostopen spletni konkordančnik, ki bo gostil zgrajeni korpus, bo omogočal bogat nabor iskalnih možnosti ter prikazovanja terminov in splošnega jezika, uporabljenega v znanstvenih besedilih. To bo olajšalo ne samo nadaljnje jezikoslovne raziskave znanstvenega jezika, temveč tudi iskanje dejstev v znanstvenih besedilih. Dokler z iskanjem po polnem besedilu ne bo opremljen portal odprte znanosti, lahko temu namenu začasno služi korpus.
V projektu bomo izdelali tudi številna odprtokodna jezikovnotehnološka orodja in vire za slovenščino, ki bodo bodisi boljša od že obstoječih (popravljanje besedil, luščenje strukture, označevanje, lematizacija) bodisi bodo omogočala do zdaj povsem odsotne funkcionalnosti (luščenje terminov in ključnih besednih zvez, razvrščanje besedil). Poleg tega bomo izdelali referenčne označene podatkovne množice za slovenščino, ki so ključni viri za učenje orodij za analizo jezika. Ta orodja in viri bodo neposredno dostopni drugim raziskovalcem, če bo le mogoče pa tudi za komercialno rabo. To bo znatno olajšalo nadaljnji razvoj jezikovnih tehnologij za slovenščino.
Najpomembnejši znanstveni rezultati
Vmesno poročilo,
zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati
Vmesno poročilo,
zaključno poročilo