Ko učimo klasifikatorje, je naravno, da želimo, da klasifikator pravilno oceni verjetnost dogodka (omejitev 1), da ima enako občutljivost in specifičnost (omejitev 2), ali da ima enako pozitivno ter negativno napovedno vrednost (omejitev 3). Dokažemo, da v primeru uravnoteženih podatkov, kjer je delež dogodkov in nedogodkov enak, vsak klasifikator, ki doseže eno omejitev, doseže vse omejitve. Tako nepristransko obravnavo dogodkov in nedogodkov pa je precej težje doseči, ko imamo opravka z redkimi dogodki, to je primeri, ko je delež dogodkov (precej) manjši od 0,5. V tem primeru dokažemo, da je nemogoče doseči vse tri omejitve, razen, ko klasifikator dosega popolno točnost. Vsak drugi klasifikator pa lahko doseže le eno izmed omejitev, doseganje le-te pa pomeni kršenje preostalih dveh v točno določeni smeri. Naši rezultati imajo pomen za klasifikatorje, ki se jih optimizira z uporabo g-povprečja ali F1-mere, ki pomenita uresničevanje druge oziroma prve omejitve. Naši rezultati temeljijo na osnovah verjetnostne teorije in so ilustrirani s pomočjo simulacij za nekaj najbolj pogosto uporabljenih klasifikatorjev.
COBISS.SI-ID: 33010393
Znanost je družbeni proces, zasnovan na široko sprejetih splošnih pravilih, ki omogočajo njen razvoj. Produktivni raziskovalci so opaženi z vidika družbenega omrežja njihovih medsebojnih odnosov. V članku obravnavamo uspešnost slovenske raziskovalne skupnosti s pomočjo bibliografskih omrežij med letoma 1970 in 2015 iz različnih zornih kotov, ki določajo plodno znanost. Osredotočeni smo na osnovne determinante raziskovalne zmogljivosti, vključno s produktivnostjo, sodelovanjem, mednarodnostjo in interdisciplinarnostjo. Za vsakega izmed dejavnikov smo izbrali nabor statističnih podatkov in omrežnih mer ter jih analizirali v vsakem letu obravnavanega obdobja. Analiza temelji na kakovostnih podatkih iz ročno upravljanih informacijskih sistemov. Rezultate smo interpretirali glede na pomembne zgodovinske dogodke, ki so vplivali na Slovenijo in njene izdatke za raziskave in razvoj. Naši rezultati jasno kažejo vzročne odnose med zmogljivostjo raziskovalne skupnosti in spremembami v širši družbi. Politična in finančna stabilnost, skupaj z natančnejšim merjenjem znanstvene produktivnosti, kmalu po razglasitvi samostojne Slovenije v letu 1991 je imela pozitiven vpliv na vse dejavnike. Še bolj jih je spodbudila ustanovitev slovenske raziskovalne agencije in vstop v EU ter NATO. Fenomen "objavi ali propadi", negativni učinki finančne krize med 2008-2014 in preoblikovanje domačih izdatkov za raziskave in razvoj po letu 2008 so dobili jasen odgovor v znanstveni skupnosti. V prispevku smo študirali tudi cikel karierne produktivnosti raziskovalcev in predstavili analizo produktivnosti kariere vseh registriranih raziskovalcev v Sloveniji.
COBISS.SI-ID: 2048412691
Članki, ki se ukvarjajo z vrednotenjem mer pojasnjene variabilnosti ali podobnih mer, skoraj vedno kot najpomembnejši kriterij uporabljajo neodvisnost od krnjenja. Tako vedno ugotovijo, da nekatere mere kriteriju zadostijo, druge ne, kar večinoma vodi k zaključku, da so tiste prve boljše od ostalih. Zato se posledično uporabnikom predlaga uporaba mer, ki se jih ne more uporabljati za modele s kovariatami ali učinki, ki se v času spreminjajo, da ne omenjamo razširitev na ponavljajoče dogodke ali večstanjske modele. V članku pojasnimo, da je zgoraj omenjeni kriterij za preučevanje takih mer neuporaben, saj vedno izpostavi mere, ki imajo implicitno predpostavko, da je model veljaven povsod. Mere brez te predpostavke so torej takoj zapostavljene, čeprav so boljše v vseh ostalih vidikih. V članku pokažemo, da, ko tem, domnevno slabšim, meram dodamo predpostavko o veljavnosti modela povsod, se njihov izračun lahko popravi tako, da zadostijo kriteriju “neodvisnosti od krnjenja”. Še celo bolje, dovolj je, da to predpostavko naredimo samo za čase, ki so večji od zadnjega opazovanega časa tau, kar v nasprotju z “boljšimi” merami, omogoča uporabo celotne fleksibilnosti modela do časa tau in naredi predpostavke šele po času tau. Zato trdimo, da so nekatere, do sedaj v preglednih člankih priporočene mere, pravzaprav slabše od ostalih.
COBISS.SI-ID: 32214489
Pri proučevanju časa do dogodka včasih vemo, da obstaja neko nezanemarljivo sotveganje, ki pa ni zabeleženo v podatkih. Ocene, ki ne upoštevajo vseh sotveganj, so lahko pomembno pristranske, zato potrebujemo način, s katerim bomo to pristranskost ocenili oziroma odpravili. S problemom smo se prvič srečali pri analizi podatkov iz registra ahalazije požiralnika – ponavljajoče bolezni požiranja, v katerem smrti bolnikov v času raziskave niso bile zabeležene, na enak problem pa lahko naletimo tudi v številnih drugih registrih medicinskih naprav, kjer zakon zdravnike obvezuje k poročanju o dogodkih, medtem ko podatki o smrtih niso dostopni. Kadar je pričakovani delež umrlih dovolj velik (pričakovani čas do dogodka mora biti dovolj dolg v primerjavi s pričakovanim preživetjem bolnikov), neupoštevanja smrti vodi do precenjenih ocen mer preživetja zdravljenja. Pokazali smo, zakaj intuitivno smiselno popravljanje ne da nepristranskih rezultatov in razložili, zakaj pri ocenjevanju kumulativne funkcije pojavnosti ne potrebujemo dodatne informacije. Razvili smo teoretični okvir, ki omogoča nepristransko ocenjevanje poljubne mere s pomočjo dodatne informacije, ki jo pridobimo iz populacijskih tabel smrtnosti. Razvili smo dva pristopa - iterativno metodo pripisovanja časov smrti in metodo s prilagajanjem števila ogroženih. Lastnosti obeh pristopov smo teoretično utemeljili ter jih raziskali s simulaciji in ilustrirali s primerom ahalazije požiralnika.
COBISS.SI-ID: 32255193
Odkrivanje zakonitosti iz literature je metodologija za samodejno generiranje raziskovalnih hipotez na osnovi obstoječega znanja. Problem odkrivanja zakonitosti iz literature predstavimo kot klasifikacijsko nalogo na omrežju MeSH terminov. Za napovedovanje neznanih povezav med biomedicinskimi koncepti smo uporabili nenadzorovane in nadzorovane metode. Učinkovitost metode smo preverili s serijo eksperimentov na omrežju MeSH terminov. Napovedovanje povezav smo izvedli na osnovi mer podobnosti med vozlišči; uporabili smo skupne sosede (CN), Jaccardov koeficient (JC), Adamic/Adarjev indeks in koeficient prednostnega povezovanja (PA). Naš pristop temelji na predpostavki, da podobna vozlišča pogosteje vzpostavijo medsebojno povezavo v prihodnosti. Na osnovi nenadzorovanega učenja je najboljši rezultat v smislu ploščine pod ROC krivuljo dosegel prediktor AA (AUC=0.76), ki mu sledijo prediktorji CN, JC in PA. Pri nadzorovanem učenju smo preizkusili učinkovitost napovedovanja na osnovi kombinacije vseh štirih prediktorjev. Uporabili smo različne klasifikatorje: odločitvena drevesa, k-najbližjih sosedov, logistično regresijo, nevronske mreže, naivni Bayes in slučajne gozdove. Najboljšo napovedno točnost smo dosegli s slučajnimi gozdovi (AUC=0.87). Potrdili smo uspešnost metode za napovedovanje povezav v omrežjih pri odkrivanju zakonitosti iz literature. Nadzorovano učenje se je po pričakovanju izkazalo za boljše od nenadzorovanega učenja.
COBISS.SI-ID: 32835801