1.

Hkratna uporaba metod za povečanje in zmanjšanje učne množice in prečnega preverjanja za izgradnjo in evalvacijo napovednih modelov

Napovedni modeli se uporabljajo v kliničnih raziskavah za izgradnjo pravil, ki se jih lahko uporablja za natančno napovedovanje preučevanega izida. Predstavljajo pomembno orodje pri procesu odločanja, saj omogočajo oceniti verjetnost, da se bo pri pacientu pojavila neka bolezen, da se bo bolnik odzval na zdravljenje ali pa, da se bo bolezen ponovila. Interes namenjen napovednim modelom se je na področju biomedicine v zadnjem času zelo povečal. Pogosto so podatki, ki se jih uporablja za izgradnjo napovednega modela, neuravnoteženi, saj le nekaj pacientov doživi dogodek (in tako pripadajo manjšemu razredu). Napovedni modeli, ki uporabljajo neuravnoteženo učno množico, dosegajo neoptimalno točnost za manjši razred. Problem je mogoče odpraviti z uporabo metod vzorčenja, s katerimi se zagotovi uravnoteženo porazdelitev enot po razredih. Med te metode spadadata slučajno povečanje manjšega razreda in slučajno zmanjšanje večjega razreda. Pravilna ocena napovedne točnosti modela je pri tem ključna. Ob odsotnosti neodvisne testne množice se v ta namen uporablja prečno preverjanje. Pomembnost pravilne uporabe prečnega preverjanja je dobro dokumentirana, vendar pa izivi, ki jih predstavlja hkratna uporaba prečenega preverjanja in metod vzorčenja, še niso bili raziskani. V članku opozorimo, da mora biti prečno preverjanje uporabljeno pravilno, ter da je možnost za precenitev napovedne točnosti večja, v kolikor se uporablja metode povečanja manjšega razreda. Prikazani so primeri, ki temeljijo na ponovni analizi pravih podatkov in na simuliranih podatkih. Izpostavimo nekaj primerov iz literature, kjer je bilo prečno preverjanje uporabljeno napačno, kjer pričakujemo, da je bila ocena točnosti metod povečanja manjšega razreda močno precenjena.

COBISS.SI-ID: 32284377

2.

Ojačevanje za visoko-razsežno uvrščanje v dva razreda

Napovedni modeli so uporabljeni v kliničnih študijah za točno napovedovanje izida. Za visoko-razsežne napovedne modele (število spremenljivk močno presega število enot) je izbira ustreznega klasifikatorja ključna, saj je bilo ugotovljeno, da noben algoritem ni optimalen za vse tipe podatkov. Pri ojačevanju se združi napovedi osnovnih klasifikatorjev, kjer se sekvenčno spreminja uteži, glede na delovanje klasifikatorja v predhodnih iteracijah. V splošnem ojačevanje deluje bolje od osnovnih klasifikatorjev, vendar pa so študije za visoko-razsežne podatke pokazale, da najbolj standardna metoda ojačevanja, AdaBoost.M1, znatno ne izboljša delovanja njegovega osnovnega klasifikatorja. Nedavno so bile predlagane metode ojačevanja (Gradient boosting, Stochastic Gradient boosting, LogitBoost) , ki delujejo bolje od metode AdaBoost.M1, vendar pa te metode niso bile preučevane za visoko-razsežne podatke. V članku uporabimo simulirane in prave podatke in ocenimo delovanje različnih metod ojačevanja v primeru visoko-razsežnih podatkov. Rezultati potrjujejo slabo delovanje metode AdaBoost.M1. Razloge za slabo delovanje razložimo in predlagamo modifikacijo, AdaBoost.M1.ICV, ki uporablja prečno preverjeno oceno točnosti in deluje bolje od prvotne metode, ko so podatki visoko-razsežni. Uporaba metode AdaBoost.M1.ICV je priporočljiva, ko se osnovni klasifikator prepriliga podatkom in sicer, ko je število spremenljivk veliko, ko je število enot majhno in/ali, ko je razlika med razredoma velika. V sicer manjšem obsegu smo tudi za metodo Gradient boosting, opazili podobne težave. V nasprotju z raziskavami, ki ne uporabljajo visoko-razsežnih podatkov, krčenje ne izboljša delovanja te metode, vendar pa je uporabno pri metodi Stochastic Gradient boosting, ki v naših analizah deluje bolje od ostalih metod ojačevanja. Rezultati kažejo, da lahko metode ojačevanja znatno izboljšajo točnost osnovnih klasifikatorjev tudi, ko so podatki visoko-razsežni. Vendar pa vse metode ojačevanja ne delujejo enako dobro. Metode LogitBoost, AdaBoost.M1 in Gradient boosting so manj uporabne pri tem tipu podatkov. Stochastic Gradient boosting s krčenjem in AdaBoost.M1.ICV sta metodi, ki delujeta dobro tudi, ko so podatki visoko-razsežni.

COBISS.SI-ID: 32198617

3.

Računalniško odgovarjanje na biomedicinska vprašanja z uporabo semantičnih relacij

Ozadje Zaradi nenehnega širjenja znanstvene literature na področju biomedicine je celo strokovnjakom za posamezna področja težko sledili trenutnemu razvoju znanja. Medtem ko so splošni spletni iskalniki in specializirani sistemi za preiskovanje bibliografskih zbirk pomembeno napredovali v zadnjih desetletjih, problem pridobivanja natančnega znanja iz biomedicinske literature še zdaleč ni rešen. Klasični bibliografski sistemi ponavadi vrnejo seznam dokumentov, ki jih uporabnik mora prebrati za pridobivanje ustreznih informacij. To mučno in dolgotrajno delo lahko zmanjšajo sistemi za avtomatsko odgovarjanje na vprašanja (ang. Question Answering), katerih cilj je zagotoviti uporabnikom neposredne in natančne odgovore na strokovna vprašanja. V tem članku predlagamo novo metodologijo za odgovarjanje na vprašanja, ki temelji na semantičnih relacijah, pridobljenih iz biomedicinske literature z računalniškimi metodami. Rezultati Semantične relacije smo pridobili s sistemom SemRep z računalniško obdelavo naravnega jezika iz 122.421.765 stavkov, ki pridejo iz 21.014.382 bibliografskih zapisov zbirke MEDLINE (to je celotna zbrika MEDLINE do konca leta 2012). Skupaj smo pridobili 58.879.300 instanc semantičnih relacij in smo jih organizirali v relacijsko zbirko podatkov. Odgovarjanje na vprašanja se izvaja kot iskanje v to zbirko podatkov in je dostopno prek spletne aplikacije, ki se imenuje SemBT (na voljo na http://sembt.mf.uni-lj.si). Opravili smo obsežno vrednotenje predlagane metodologije, da bi ocenili natančnost pridobivanja semantičnih relacij iz stavkov. Vrednotenje je izvedlo 80 strokovnjakov. Skupaj 7.510 instanc semantičnih relacij, ki spadajo v 2.675 različnih semantičnih relacij so bile ocenjene 12.083 krat. Instance so bile ocenjene kot pravilne 8.228 krat (68%). Sklepi V tem delu predlagamo inovativno metodologijo za računalniško odgovarjanje na biomedicinska vprašanja. Sistem, ki smo ga zgradili, se izvaja kot spletna aplikacija, ki je sposobna zagotoviti natančne odgovore na široko paleto vprašanj. Tipično vprašanje se odgovori v nekaj sekundah. Orodje vsebuje nekaj razširitev, ki ga naredijo še posebej koristno za interpretacijo rezultatov DNK mikromrež.

COBISS.SI-ID: 2048297218

4.

Primerjava bibliometričnih kazalcev za ocenjevanje relativne pomembnosti raziskovalcev

Kvantitativna evalvacija podatkov o citiranosti za podporo odločanju o financiranju je postala razširjena. V ta namen obstaja veliko mer (indeksov) in medtem, ko so bile značilnosti teh mer dobro preučevane, lahko ugotovimo, da raziskav, ki bi primerjale rangiranje, ki ga dobimo z uporabo različnih indeksov, ni. Dodatni problem v obstoječih raziskavah je pomanjkanje dosegljivih podatkov o čistih citatih, kar onemogoča raziskovanje vpliva merjenja znanstvene odmevnosti z uporabo čistih citatov (vsi citati minus avtocitati). V članku uporabimo simulirane podatke za študijo dejavnikov, ki bi lahko potencialno vplivali na stopnjo ujemanja med rangiranji, ki jih dobimo pri uporabi različnih kazalcev. Poudarek je dan primerjavi med številom čistih citatov na avtorja in ostalimi, bolj uveljavljenimi, indeksi. Opazimo, da so raziskovalci, ki objavljajo članke z velikim številom avtorjev, sistematično rangirani višje, ko se pri rangiranju uporablja h-index ali število vseh citatov (TC) namesto števila citatov na avtorja (TCA), da so raziskovalci, ki objavljajo majhen delež visoko odmevnih člankov, medtem ko njihovi preostali članki dosegajo nizko število citatov, rangirani višje, ko se uporablja TCA ali TC namesto h-indeksa, ter da so raziskovalci, ki imajo manjši delež avtocitatov rangirani višje, ko se uporablja indekse, ki upoštevajo število čistih citatov v primerjavi z indeksi, ki ne ločujejo med čistimi citati in avtocitati. Rezultati so za Slovenijo ilustrirani z uporabo velikega podatkovja za medicino v obdobju 1986-2007.

COBISS.SI-ID: 32004569

5.

Analiza časa do ponovitve bolezni ob nepopolnih podatkih o smrtih bolnikov

Pri proučevanju časa do ponovitve bolezni lahko naletimo na podatke, v katerih so zabeležene vse ponovitve bolezni, manjkajo pa podatki o smrtih bolnikov v času raziskave. Primere takšnih podatkov najdemo v nekaterih nacionalnih registrih vstavitev medicinskih naprav: npr. srčnih spodbujevalnikov, kolčnih endprotez ipd. v katerih zbrani identifikacijski podatki bolnikov ne omogočajo povezave z registrom prebivalstva in dejanskimi datumi smrti. Kadar je pričakovani čas do ponovitve bolezni dovolj dolg v primerjavi s pričakovanim preživetjem bolnikov, bomo brez upoštevanja smrti dobili precenjene ocene preživetja zdravljenja. Pristranskost ocen lahko odstranimo z uporabo populacijskih tablic umrljivosti, če predpostavimo, da proučevani pojav ne vpliva na umrljivost bolnikov. Teoretično in s simulacijami smo analizirali lastnosti dveh neustreznih metod: metode z ignoriranjem problema manjkajočih smrti in metode z intuitivnim pripisovanjem pričakovanih časov smrti ter dveh novih metod: iterativne metode pripisovanja časov smrti in metode s prilagajanjem števila ogroženih. Uporabo metod in razlike med njimi smo ilustrirali na podatkih o ahalaziji ščitnice.

COBISS.SI-ID: 32255193

P3-0154 — Letno poročilo 2015

1.

Hkratna uporaba metod za povečanje in zmanjšanje učne množice in prečnega preverjanja za izgradnjo in evalvacijo napovednih modelov

2.

Ojačevanje za visoko-razsežno uvrščanje v dva razreda

3.

Računalniško odgovarjanje na biomedicinska vprašanja z uporabo semantičnih relacij

4.

Primerjava bibliometričnih kazalcev za ocenjevanje relativne pomembnosti raziskovalcev

5.

Analiza časa do ponovitve bolezni ob nepopolnih podatkih o smrtih bolnikov