Uvrščanje, kjer se uporablja neuravnotežene podatke, je pristrano v prid večjemu razredu. Pristranost je v primeru visoko-razsežnih podatkov, kjer število spremenljivk presega število enot, še večja. Pristranost lahko zmanjšamo z uporabo zmanjšanja večjega razreda (s slučajnim izborom enot, ki jih uporabljamo pri učenju) ali pa povečanjem manjšega razreda (s pomočjo ponovnega vzorčenja). V splošnem zmanjšanje večjega razreda pomaga pri zmanjšanju pristranosti, medtem ko metoda slučajnega povečanja manjšega razreda, v primeru visoko-razsežnih podatkov, ne deluje. Metoda SMOTE (sintetično generiranje novih enot) je zelo popularna metoda povečanja manjšega razreda, za katero je bilo pokazano, da deluje bolje od slučajnega povečanja manjšega razreda, vendar pa njeno delovanje v primeru visoko-razsežnih podatkov še ni bilo raziskano. V tem članku analiziramo teoretične in empirične lastnosti metode SMOTE, kjer uporabljamo prave in simulirane visoko-razsežne podatke. Kljub temu, da metoda SMOTE uspešno zmanjša pristranost v primeru nizko-razsežnih podatkov, ugotavljamo, da v primeru visoko-razsežnih podatkov metoda ne deluje dobro za večino uporabljenih klasifikatorjev. Metoda SMOTE je uporabna zgolj v kombinaciji z metodami najbližjega soseda, vendar samo, če pred učenjem zmanjšamo razsežnost podatkov z metodami za izbiro spremenljivk; pokažemo in razložimo, zakaj je v primeru, ko se razsežnost podatkov pred učenjem ne zmanjša, uvrščanje z metodami najbližjega soseda pristrano v prid manjšemu razredu. Teoretično pokažemo tudi, da z metodo SMOTE ne spremenimo pričakovane vrednosti manjšega razreda, vendar zmanjšamo njegovo variabilnost in v učno množico uvajamo odvisnost med enotami. Pokažemo kako te teoretične ugotovitve vplivajo na uvrščanje.
COBISS.SI-ID: 30528217
PAM, metoda najbližjega skrčenega centroida (NSC), je popularna metoda za uvrščanje visoko-razsežnih podatkov. ALP in AHP sta tudi NSC algoritma, ki sta bila predlagana kot izboljšanje metode PAM. Vse NSC metode temeljijo na skrčenih centroidih; nivo skrčenja se v praksi določi tako, da se minimizira napako, ki jo določimo s prečnim preverjanjem. V članku pokažemo, da so v primeru neuravnoteženih podatkov vse tri metode skrčenega centroida pristrane v prid večjemu razredu. Pristranost je večja, ko je število spremenljivk veliko ali nivo neravnotežja večji ali pa, ko so razlike med razredoma manjše. Da bi se izognili pristranosti predlagamo, da se nivo skrčenja določi na podlagi maksimizacije geometrijskega povprečja napovednih točnosti za posamezen razred, ki se jih oceni s prečnim preverjanjem (g-povprečje). Naši rezultati kažejo, da tovrstni pristop deluje bolje od obstoječega. Pomembno, število spremenljivk, ki se jih upošteva pri učenju, je v primeru uporabe našega pristopa manjše, kot če se uporablja prvotni pristop. Te ugotovitve so podprte s simuliranimi, kot tudi pravimi visoko-razsežnimi neuravnoteženimi podatki.
COBISS.SI-ID: 30458841
Osnovna predpostavka vseh metod v analizi prezivetja je neinformativno krnjenje. Na področju relativnega preživetja ta predpostavka pogosto ne drži, ena izmed težav je, da se spreminja starost ob času diagnoze in je zato administrativno krnjenje ob koncu raziskave informativno. V članku pregledamo obstoječe metode ocenjevanja v relativnem preživetju in prikažemo njihove pomanjkljivosti. Nato predlagamo nov pristop, ki s pomočjo uteževanja popravi nedavno predlagano cenilko čistega preživetja in oceno Ederer I. Velikost problema in uporabnost rešitev preverimo s pomočjo simulacij in dejanskih podatkov, pri tem smo posebej pozorni na predpostavke, ki jih posamezne metode zahtevajo. Članek zaključimo z nekaj predlogi za uporabo v praksi.
COBISS.SI-ID: 30655961
Ozadje: Prejšnje analize zdravstvenega dela raziskav, ki jih financira Evropska unija (EU ), so pokazale nizko raven udeležbe 12 novih držav članic (EU-12) pri raziskovalnih projektih. Poleg tega je bilo opazno pomanjkanje analiz po vsebinskih področjih. V projektu "Zdravstvene raziskave v Evropi" smo pregledali vse projekte EU iz okvirnih programov za raziskave FP5 in FP6 (1998 do 2006), da bi identificirali zdravstvene raziskovalne projekte in opisali udeležbo po državah in po vsebinskih področjih. Metode: Pridobili smo podatkovne zbirke s projekti FP5 in FP6, jih pregledali in identificirali z zdravjem povezane projekte, ki smo jih nato razvrstili glede na 47 oddelkov EU zdravstvenega portala (n = 2.728 projektov) ter dodatni skupini "temeljni/biotehnološki" projekti ( N = 1743 ). Analizirali smo tudi sodelovanje držav in koordiniranje projektov. Rezultati: Približno 20 % od 26946 projektov (vrednost 29,2 milijard EUR) je bilo povezanih z zdravjem (N = 4756 vrednost 6,04 milijard). V zdravstvenih kategorijah so bili največji izdatki rak (11,9%), druge (torej ne na področju duševnega zdravja ali bolezni srca) nenalezljive bolezni (9,5%) in varnost hrane (9,4 %). Sto dvaintrideset držav je sodelovalo pri teh projektih. Od 27 držav članic EU (in pet partnerskih držav) so največ projektov na prebivalca dobile severozahodne in nordijske države. Združeno kraljevstvo (UK) je največkrat koordiralo projekte (več kot 20 % projektov). Države EU-12 so bile na splošno premalo zastopane. Sklep: Z združevanjem naših ugotovitev s pripadajočo literaturo, smo komentirali in ugotovili gonilnike, ki določajo porazdelitev udeležbe pri projektih.
COBISS.SI-ID: 30835673
Odkrivanje osamelcev med pre-razpršenimi deleži je pomemben vidik nadzora kakovosti v zdravstvu. Predhodno smo že predstavili kontrolne meje za dvojne-korenske grafikone, ki temeljijo na intervalih zaupanja za napovedi, ki jih dobimo iz regresijskega modela, kjer predpostavljamo, da gre ocenjena premica skozi koordinatno izhodišče. Naš pristop smo primerjali s pogosto uporabljenimi testi za odkrivanje osamelcev. V tem članku naš pristop nadgradimo tako, da prilagodimo stopnjo zaupanja (v duhu bayezianskega razmišljanja in Chauvenetevega kriterija), dobljen grafikon pa transformiramo v asimetrični lijakast diagram. Ta pristop primerjamo z Laneyevim pristopom (p-grafikon prilagojen za uporabo na presečnih podatkih), Spiegelhalterjevim pristopom (lijakast diagram, ki temelji na multiplikativnih ali aditivnih regresijskih modelih) in Carlinovim medianskim pravilom. Primerjave opravimo z uporabo simuliranih in pravih podatkov. Simulacije zajemajo majhne ((0.2; izrazito desno asimetrični) in velike ()0.5; simetrično porazdeljeni) deleže, ki so simulirani iz lognormalne porazdelitve, kjer upoštevamo različne velikosti vzorca (10-100) in možnost dodajanja osamelcev. Uporabljeni pravi podatki so ponovni sprejemi v angleške bolnišnice (uporabljala sta jih tudi Laney in Spiegelhalter) in indikatorji poslovne uspešnosti slovenskih bolnišnic. Simulacije kažejo, da ima Spiegelhalterjev pristop zelo veliko stopnjo napačno pozitivnih, z izjemo multiplikativnega pristopa pri zelo majhnih vzorcih. Laneyev pristop ima najmanj lažno pozitivnih, vendar pa pri velikih deležih, kot tudi majnih deležih, če je bila velikost vzorca majhna, ni uspel najti osamelcev. Podobno deluje tudi mediansko pravilo. Gledano v celoti, je naš pristop deloval najbolje. Čeprav je bil pri majhnih deležih manj liberalen kot mediansko pravilo, naši rezultati kažejo, da je v primeru velikih deležev edina uporabna metoda za iskanje osamelcev.
COBISS.SI-ID: 1848681