Projekti / Programi
Napredek računsko intenzivnih metod za učinkovito sodobno splošnonamensko statistično analizo in sklepanje
Koda |
Veda |
Področje |
Podpodročje |
1.07.01 |
Naravoslovje |
Računalniško intenzivne metode in aplikacije |
Algoritmi |
Koda |
Veda |
Področje |
P160 |
Naravoslovno-matematične vede |
Statistika, operacijsko raziskovanje, programiranje, aktuarska matematika |
Koda |
Veda |
Področje |
1.01 |
Naravoslovne vede |
Matematika |
uporabna statistika, računska statistika, Monte Carlo z markovskimi verigami, paralelizacija, grafične procesne enote, hierarhični modeli, gručenje
Raziskovalci (24)
Organizacije (5)
Povzetek
Težko bi pretiravali v poudarjanju tega, kako pomembna je danes statistična analiza podatkov: vse empirične znanosti, zdravstvo, finance, odkrivanje goljufij, telekomunikacije, družabna omrežja, in trženje so samo nekatera izmed področij, ki se močno zanašajo na podatke in njihovo analizo. Čeprav je v zadnjem času uporabna statistika močno napredovala in postala bolj dostopna, še posebej sodobna Bayesova statistika, se je napredek upočasnil, saj s sodobnimi računskimi metodami ne moremo več obvladati statističnih modelov in količin podatkov, ki jih želimo analizirati danes.
Problem neučinkovitih računskih metod je bil pred kratkim izpostavljen kot eden izmed 5 najpomembnejših odprtih problemov v statistiki. Naš primarni cilj je prispevati k reševanju tega problema z raziskavo pristopa za bolj učinkovito splošnonamensko računanje in implementacijo ugotovitev v računsko orodje, ki nam bo omogočilo analizo vse večje količine podatkov po zmerni ceni.
Cilj bomo dosegli s samodejno paralelizacijo najbolj potratnih delov splošnonamenskih računskih algoritmov iz družine Monte Carlo z markovskimi verigami (natančneje, algoritma Metropolis-Hastings in algoritma hamiltonski Monte Carlo) in z uporabo grafičnih kartic. Grafične kartice so glede na ceno na enoro računske moči najbolj učinkovita strojna oprema, kar bo v bližnji prihodnosti postalo še bolj izrazito. Kot rezultat projekta pričakujemo 100-krat hitrejše izvajanje algoritmov za nizko ceno (manj kot €1.000,00). K projektu smo privabili vrhunske raziskovalce in strokovnjake iz Univerze v Ljubljani, Slovenske akademije znanosti in umetnosti in industrije. Vse množice podatkov in aplikativni problemi, ki jih bomo uporabili za vpogled, razvoj, ocenjevanje in validacijo razvite metodologije, bodo izhajale iz nekega pomembnega praktičnega problema, s katerim se spopadajo slovenski raziskovalci.
V preteklosti so že bili uspešni poskusi učinkovitega računanja za statistične namene, a le za posebne primere statističnih modelov. Naš cilj - splošnonamenska statistična analiza, ki je samodejno paralelizirana za visoko učinkovitost računanja - je novost in bi pomenila pomemben korak naprej. Projekt je izjemno aktualen tako z vidika znanosti, saj gre za pomemben znanstveni dosežek na področju računskih metod, kakor tudi zaradi številnih praktičn učinkov nizkocenovne in dostopne, a visoko učinkovite statistične analize.
Utrinki iz sorodnih del namigujejo, da lahko dosežemo pohitritve, ki smo si jih zadali. Čeprav gre za raziskovalni projekt in bo potrebno razrešiti več tehničnih in implementacijskih problemov, trdno verjamemo v uspešno izvedbo projekta, saj smo dobro definirali zahteve in mere uspešnosti, izdelali načrt, kako jih bomo dosegli, in zbrali ustrezne strokovnjake z različnimi ozadji, ki pokrivajo vsa zahtevana teoretična in praktična znanja. Prav tako smo privabili sofinanciranje iz gospodarstva ter tako okrepili proračun, aktivno pa bomo spodbujali tudi sodelovanje naših študentov.
Glavni prispevki projekta bodo teoretična raziskava, ki bo pripeljala do učinkovitih računskih metod, praktična implementacija raziskovalnih rezultatov v programsko orodje za splošnonamensko statistično analizo in, kot stranski učinek, raziskovalni rezultati v empiričnih znanostih in industriji, ki jih bo omogočila razvita metodologija. Učinkovito računanje bo zmanjšalo čas in ceno statistične analize, kar predstavlja neposredno korist gospodarstvu in, glede na vseprisotnost podatkov, tudi družbi. Nenazadnje pa bo sodelovanje med raziskovalci, aplikativnimi raziskovalci, gospodarstvom in študenti dvignilo nivo uporabnega statističnega znanja, področja, ki je v Sloveniji izjemno slabo razvito.
Pomen za razvoj znanosti
Uspešna izvedba tega raziskovalnega projekta je v znanstvenem smislu neposredno pomembna za področji računsko intenzivnih metod in računskih metod v statistiki. Slednje pa so bile izpostavljene tudi kot 2. najbolj pomemben odprt problem v uporabni statstiki. Naše raziskave so torej tudi pomemben korak naprej v svetovnem merilu na področju uporabne statistike. Ključen prispevek bodo raziskave, kako samodejno paralelizirati metode MCMC za splošen razred statiističnih modelov in praktična implementacija teh ugotovitev v obliki orodja za učinkovito splošnonamensko statistično sklepanje. Čeprav je glavni poudarek na uporabi v statistiki, bodo naše ugotovitve širše uporabne na vseh področjih, kjer je potreba poračunanju visokorazsežnih integralov.
Računsko orodje, ki ga bomo razvili v tem projektu bo imelo sekundaren vpliv na razvoj v drugih znanostih. Statistično sklepanje je neizmerno široko uporabno in metodološka osnova za vse empirične raziskave. Statistične analize pri aplikativnih problemih, ki smo jih prepoznali skupaj s partnerji, bo moč izvesti veliko hitreje. In, kar je še pbolj pomembno, razvite metode bodo slovenskim znanstvenikom, ki povečini nimajo superračunalnikov ali sredstev za računanje, omogočile raziskovanje novih raziskovalnih vprašanj, ki jih do sedaj niso bili zmožni, zaradi preveč zapletenih modelov ali prevelike količine podatkov. Vse predvidene uporabe razvite metodologije se nanašajo na odprta vprašanja v znanosti, zato ima vsaka izmed njih potencial, da pripelje do znanstvenega napredka. Predvidevamo vsaj en znanstveni dosežek na vsakem izmed področij geografije, nevroznanosti in športa.
Pomen za razvoj Slovenije
Uspešna izvedba projekta bo močno vplivala na uporabno statistiko in bo imela dolgoročne posledice za slovensko znanost in gospodarstvo. Naši rezultati bodo izboljšali fleksibilnost statističnega sklepanja in občutno zmanjšali stroške. Statistična analiza je, podobno kot v znanostih, široko uporabna v gospodarstvu - odkrivanje goljufij, trženje in finance so samo nekatere izmed panog, kjer statistika igra pomembno vlogo.
Konkretno, vsaj ena izmed uporab metode bo v sodelovanju z našim partnerjem iz gospodarstva, Optilab, kjer načrtujemo, da bodo naše metode izboljšale eno izmed njihovih storitev ali enega izmed izdelkov na področju trženja ali odkrivanja goljufij. To bo neposredno izboljšalo kvaliteto storitev, prispevalo k znanju v podjetju in potencialno vodilo k možnosti novih zaposlitev in novih projektov.
Rezultati projekta se lahko enostavno uporabijo tudi v zdravstvu, medicini (prognostiki, diagnostiki), napovedovanju naravnih nesreč, ipd... in drugih podobnih področjih, kjer lahko statistična analiza močno pozitivno vpliva na družbo. Na primer, naša raziskovalna skupina je v preteklosti sodelovala z Onkološkim inštitutom v Ljubljani, pri razvoju avtomatskega napovedovanja ponovitve raka dojke, ki je pripeljalo do pozitivnih rezultatov na majhni množici podatkov približno 1000 pacientov. Danes v Sloveniji vsako leto preko 10.000 ljudi na novo zboli za rakom, vsak izmed njih pa ima zdravstveno zgodovino, genski profil, rezultate meritev, ipd..., kar pripelje do ogromnih količin podatkov. Statistična analiza teh podatkov zahteva učinkovite računske metode, ampak bi potencialno lahko pripeljala do občutnih izboljšav v napovedovanju raka oz. ponovitve, kar bi izboljšalo kvaliteto zdravljenja in koristilo pacientom, kakor tudi zmanjšalo ceno zdravstvene oskrbe.
Projekt je sodelovanje med računalničarji, statistiki, raziskovalci iz drugih znanosti in partnerjem iz gospodarstva, kar bo omogočilo pretok različnih idej. Več uporab metod, ki so predvidene v projektu, ima ekonomsko vrednost: neposredno trženje, napoved naravnih nesreč (plazov, ipd...) in avtomatska identifikacija uspešnih igralcev v športu. Te in potencialno še nekatere druge aplikacije lahko zelo verjetno pripeljejo do novih projektov ali odcepljenega podjetja.
Najpomembnejši znanstveni rezultati
Vmesno poročilo,
zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati
Zaključno poročilo