Nalaganje ...
Projekti / Programi vir: ARIS

Jezikovnotehnološke analize za ugotavljanje osebnega profila avtorja besedila

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
7.00.00  Interdisciplinarne raziskave     

Koda Veda Področje
H350  Humanistične vede  Jezikoslovje 

Koda Veda Področje
6.02  Humanistične vede  Jeziki in književnost 
Ključne besede
author profiling, forensic linguistics, corpus linguistics, data mining
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (1)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  24440  dr. Ana Zwitter Vitez  Jezikoslovje  Vodja  2011 - 2014  118 
Organizacije (1)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  2923  Trojina, zavod za uporabno slovenistiko  Škofja Loka  1914642  56 
Povzetek
Področje ugotavljanja avtorstva besedil v zadnjih dveh desetletjih doživlja silovit razmah predvsem zaradi dejstva, da se javne in nejavne osebnosti pogosto srečujejo s pojavom internetnih groženj in grozilnih pisem v tradicionalni obliki (v zadnjih nekaj letih G. Bush, J. Janša, K. Kresal idr.). Poleg tega je zaradi lahke dostopnosti besedil na spletu vse bolj prisoten pojav plagiarizma (doktorat nemškega obrambnega ministra K.-T. Guttenberga).   Zaradi aktualnosti potrebe po poznavanju avtorjevih jezikovnih sledi v besedilu je ugotavljanje avtorstva danes še posebej razvito na področjih prava in avtorskih pravic (Grant, 2007), literarnih ved (Hoover, 2004), pri kriminalističnih preiskavah (Coulthard, 2005) in pri profiliranju strank v komercialne namene (Shaw et al., 2001).   Kljub izredno razvitim študijam v mednarodnem merilu to pomembno področje za v Sloveniji ostaja relativno neraziskano, saj sta bili izvedeni le dve statistični študiji (Dović, 2002; Limbek, 2008). Vendar pa se kažejo dobre možnosti za kakovostne raziskave zaradi dobro razvitih jezikovnih orodij in virov za slovenščino.   Zato je cilj projekta Jezikovnotehnološke analize za ugotavljanje osebnega profila avtorja besedila pridobiti znanje, prek katerega je mogoče odgovoriti na naslednje vprašanje: -      kakšen je osebni profil neznanega avtorja besedila (spol, starost, izobrazba, regionalna pripadnost, psihološke lastnosti).   To znanje bomo pridobili z naslednjo metodologijo: -       priprava besedil in izdelava referenčne baze spletnih besedil, -       določanje in evalvacija leksikalnih, znakovnih, skladenjskih in semantičnih lastnosti in kombinacij lastnosti za določanje osebnega profila avtorja, -     izdelava in evalvacija modela za določanje osebnega profila avtorja.   Preverili bomo tudi razlike v jezikovnih lastnostih glede na spletni žanr, pri evalvaciji pa bomo tudi skušali ugotoviti vlogo različnih dejavnikov, kot sta število potencialnih avtorjev in dolžina besedila, na uspešnost metod pri ugotavljanju avtorstva ali izdelavi profila avtorja.   Sočasno z med seboj povezanimi tremi fazami bodo potekale tudi spremljevalne aktivnosti, ki se nanašajo na diseminacijo rezultatov.   Končni rezultat raziskave Jezikovnotehnološke analize za ugotavljanje osebnega profila avtorja besedila bodo izluščeni jezikovni parametri za slovenščino, na podlagi katerih je mogoče določiti osebni profil neznanega avtorja besedila (spol, starost, izobrazbo, regionalno pripadnost in psihometrične lastnosti).   Rezultati raziskave bodo znatno izboljšali kakovost kriminalističnega preiskovanja, prava avtorskih pravic, literarne zgodovine in profiliranja strank za potrebe tržnih analiz. Zato bomo to izvirno metodologijo in nova spoznanja posredovali Centru za forenzične preiskave MNZ, Inštitutu za kriminologijo pri Pravni fakulteti, Fakulteti za varnostne vede, podjetjem, ki se ukvarjajo z jezikovnimi tehnologijami (Amebis, Alpineon), in ustanovam, ki jih zanima področje ugotavljanja avtorstva zaradi boljših možnosti oglaševanja, potencialnega plagiatorstva ali iskanja živih virov.
Pomen za razvoj znanosti
Rezultati projekta so omogočili razvoj področja ugotavljanja avtorstva besedil na naslednjih ravneh: - metodologija: raziskava je razvila interdisciplinarni dialog med področji jezikoslovja (gradnja in analiza korpusov), računalništva (metode strojnega učenja) in kriminologije (jezikovna forenzika), - rezultati: za nadaljnje študije so na voljo korpus z označenimi lastnostmi avtorjev, izračunane vrednosti značilk in model za ugotavljanje avtorstva besedil, - terminologija: objave v domačih in mednarodnih publikacijah so prispevale k poenotenju terminologije na področju ugotavljanja avtorstva besedil, - prenos znanja: rezultati raziskave so bili vključeni v študijski proces, v poljudni obliki pa so bili predstavljeni tudi v medijih.
Pomen za razvoj Slovenije
Rezultati raziskave prispevajo k uresničevanju dveh strateških dokumentov: - evropska iniciativa Digital Agenda for Europe, ki spodbuja izrabo digitalnih tehnologij, - Resolucija o raziskovalni in inovacijski strategiji Slovenije 2011–2020 (3.2 Prenos znanja, 4.3 Razvoj raziskovalne infrastrukture, 4.5 Informacijska infrastruktura v podporo inovacijskemu sistemu). Raziskava dopolnjuje kvantitativno analizo vsakodnevne jezikovne produkcije in izpostavlja uporabno vrednost tovrstnih analiz, zato so rezultati uporabni tako za znanstvene discipline (jezikoslovje, računalništvo, kriminologija) kot za naslednja področja: - gospodarstvo (tržne analize): metodologijo raziskave lahko prilagodimo potrebam podjetij, ki na podlagi jezikovne produkcije strank prilagajajo strategije oglaševanja in razvoja produktov (Shaw et al., 2001), - upravljanje s človeškimi viri: poznavanje jezikovnih parametrov, odločilnih za profiliranje avtorjev, bo v večjih podjetjih omogočilo izbor ustreznih kandidatov (Schuler et al. 1999), - državni organi: na področju kriminalističnega preiskovanja lahko z izračunom in evalvacijo jezikovnih značilk določimo verjetnost, da je neznano besedilo napisal eden izmed znanih avtorjev, - kulturna dediščina: nastala baza besedil z označenimi lastnostmi avtorjev omogoča nadaljnje analize avtorstva besedil (ob skrbnem varovanju osebnih podatkov in avtorskih pravic), - medkulturni dialog: poznavanje razsežnosti analize avtentične jezikovne produkcije lahko izboljša razumevanje kompleksnosti družbenih odnosov in konfliktov v vsakdanjem življenju.
Najpomembnejši znanstveni rezultati Letno poročilo 2011, 2012, 2013, zaključno poročilo, celotno poročilo na dLib.si
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Letno poročilo 2011, 2012, 2013, zaključno poročilo, celotno poročilo na dLib.si
Zgodovina ogledov
Priljubljeno