Premagovanje prekletstva dimenzionalnosti z uporabo predznanja

Evidenčna št.

J2-5480 (C) - iz evidence ARIS

Vodja

dr. Janez Demšar

Obdobje

1.8.2013 - 31.7.2016

Obseg v 2016

0.96 FTE

Veda

Naravoslovje (1)
Tehnika (17)
Medicina (1)

Status raziskovalca

Raziskovalec (19)
Strokovni ali tehnični sodelavec (0)

Izobrazba

Doktorat znanosti (13)
Magisterij (2)
Drugi (4)

Spol

Ženski (6)
Moški (13)

Status

Zaposlen v RO (1)
Zaposlen v RO+RRD (11)
Ni podatka o zaposlitvi v RO (7)

Število publikacij

0 (2)
1–9 (5)
10–99 (9)
100–999 (3)

Projekti / Programi vir: ARIS

Premagovanje prekletstva dimenzionalnosti z uporabo predznanja

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
2.07.07	Tehnika	Računalništvo in informatika	Inteligentni sistemi - programska oprema

Koda	Veda	Področje
P176	Naravoslovno-matematične vede	Umetna inteligenca

Koda	Veda	Področje
1.02	Naravoslovne vede	Računalništvo in informatika

Ključne besede

odkrivanje znanj iz podatkov, statistika, strojno učenje, manjšanje dimenzionalnosti, uporaba predznanja

Vrednotenje (metodologija)

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

Organizacije (2) , Raziskovalci (19)

1539 Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	36469	dr. Niko Colnerič	Računalništvo in informatika	Mladi raziskovalec	2015 - 2016	3
2.	23399	dr. Tomaž Curk	Računalništvo in informatika	Raziskovalec	2013 - 2016	279
3.	16324	dr. Janez Demšar	Računalništvo in informatika	Vodja	2013 - 2016	347
4.	31035	mag. Marjana Erdelji	Računalništvo in informatika	Raziskovalec	2015	22
5.	35424	dr. Tomaž Hočevar	Računalništvo in informatika	Mladi raziskovalec	2015 - 2016	43
6.	38462	Jernej Kernc	Računalništvo in informatika	Tehnični sodelavec	2015	0
7.	32042	dr. Matija Polajnar	Računalništvo in informatika	Mladi raziskovalec	2013 - 2014	0
8.	38461	dr. Ajda Pretnar Žagar	Računalništvo in informatika	Tehnični sodelavec	2015	63
9.	33189	Anže Starič	Računalništvo in informatika	Mladi raziskovalec	2013 - 2016	8
10.	29630	dr. Miha Štajdohar	Računalništvo in informatika	Raziskovalec	2013	29
11.	38464	Vesna Tanko	Računalništvo in informatika	Raziskovalec	2015	7
12.	30142	dr. Marko Toplak	Računalništvo in informatika	Raziskovalec	2013 - 2016	37
13.	37693	mag. Maja Vodopivec	Računalništvo in informatika	Raziskovalec	2014 - 2015	4
14.	23987	dr. Martin Vuk	Matematika	Raziskovalec	2013 - 2014	30
15.	12536	dr. Blaž Zupan	Računalništvo in informatika	Raziskovalec	2013 - 2016	576
16.	30921	dr. Lan Žagar	Računalništvo in informatika	Raziskovalec	2013 - 2015	17
17.	32929	Jure Žbontar	Računalništvo in informatika	Raziskovalec	2013 - 2015	9
18.	35422	dr. Marinka Žitnik	Računalništvo in informatika	Raziskovalec	2015	88

0312 Univerzitetni klinični center Ljubljana

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	25792	dr. Minca Mramor	Reprodukcija človeka	Raziskovalec	2013 - 2016	63

Povzetek

Delovanje današnje družbe temelji na zbiranju in analizi velikih količin podatkov. Ker sta se tako zbiranje kot hranjenje podatkov v zadnjem času zelo pocenili, navadno ne opazujemo več majhnih množic skrbno izbranih spremenljivk, temveč rutinsko zbiramo velike količine meritev. Tako ravnamo na vseh področjih, od znanosti z, na primer, sekvenciranjem celotnega genoma in opazovanja aktivnosti vseh genov hkrati, do poslovnega sveta, kjer, denimo, zajemamo posnetke cen delnic ali vrednosti tečajev v kratkih časovnih intervalih. Načelno naj bi bili z opazovanjem velike količine spremenljivk zmožni odkriti bolj zapletene in nepričakovane vzorce v podatkih kot prej. V praksi pa je tolikšna količina podakotv videti kot ogromna kopica sena, manjkajo pa nam učinkovite metode za iskanje igel oziroma, še huje, za razlikovanje igel od slame. Gledano formalneje, trenutno uporabljene metode za odkrivanje zakonitosti iz podatkov poiščejo veliko število modelov in vzorcev, ki se enako dobro prilegajo podatkom. Čeprav je večina od njih naključnih, jih je z matematičnimi metodami nemogoče razlikovati od resničnih vzorcev. Po našem mnenju je problem posledica trenutnega pristopa k odkrivanju zakonitosti, ki uporablja (le) podatke za sestavljanje novih teorij – slaba praksa, ki so jo nekoč poimenovali "podatkovno ribarjenje". Doslej smo se težavam, ki jih povzroča ta pristop, izognili z iskanjem čim preprostejših teorij (npr. z uporabo linearnih modelov, različnih regularizacij, Occamovega načela ipd). V visoko dimenzionalnih problemih pa to ne deluje več, saj obstaja preveč enako zapletenih teorij, ki se enako dobro prilegajo podatkom. V okviru projekta nameravamo raziskovati, po našem mnenju, edino uporabno rešitev problema. Tako kot klasična znanost ne gradi teorij zgolj iz opazovanj, mora tudi iskanje modelov, vzorcev in vizualizacij v avtomatskem odkrivanju znanj iz podatkov temeljiti na obstoječem znanju iz raziskovanega področja. To predznanje je lahko v poljubni obliki, ki opisuje povezave med spremenljivkami, na primer ontologija ali mreža entitet, ki ustrezajo spremenljivkam, korelacije med spremenljivkami, ki so znane iz preteklih poskusov, pravila, ki jih eksplicitno sestavi področni strokovnjak, ali besedila, ki so povezana s področjem in s katerimi je mogoče statistično določiti povezanost spremenljivk. Predznanje lahko uporabimo v vseh fazah odkrivanja znanja. V projektu nameravamo razviti metode za transformacijo podatkov, ki bodo, recimo, zmanjšale dimenzionalnost podatkov tako, da bodo z uporabo predznanja sestavile nove spremenljivke iz opazovanih; ta pristop je drugačen od obstoječih tehnik zmanjševanja dimenzionalnosti, ki dimenzionalnost podatkov zmanjšuje s pomočjo podatkov samih. Razvili bomo vizualizacijske metode, ki bodo sestavljale uporabne in informativne vizualizacije na podlagi obstoječega znanja. Gradnja napovednih modelov, predvsem z metodami strojnega učenja, temelji na preiskovanju ogromnega prostora možnih modelov; tudi to iskanje lahko usmerjamo s predznanjem o povezavah med spremenljivkami. Končno, obstoječe znanje lahko uporabljamo za izbor modelov in vzorcev iz ogromne množice modelov in vzorcev, ki se enako prilegajo danim podatkom. Pri delu se bomo zgledovali po sodobnih metodah analize genetskih podatkov, področja, ki je v zadnjem času naredilo največ za premagovanje prekletstva dimenzionalnosti, ter s statističnimi tehnikami manjšanja dimenzionalnosti in postopki za omejevanje iskanja v strojnem učenju, ki trenutno ne uporabljajo predznanja, vsaj ne na način, kot ga predvidevamo v projektu. Razvite metode bodo implementirane v odprtokodnih paketih za odkrivanje znanja iz podatkov in tako takoj na voljo za praktično uporabo. Sprotna uporaba bo tudi olajšala testiranje in izpopolnjevanje algoritmov, ki jih bomo razvijali v okviru projekta.

Pomen za razvoj znanosti

Osnovna predpostavka predloga projekta - ki jo je zrcalil tudi njegov naslov - je, da lahko uporaba predznanja izboljša rezultate analize visokodimenzionalnih podatkov. Kot rezultat dela na tem projektu ne razmišljamo več o "predznanju" in "podatkih", temveč oboje razumemo zgolj kot dva ali več različnih, heterogenih virov podatkov, ki jih lahko na primeren način zlijemo.  Tako je eden od najpomembnejših znanstvenih dosežkov tega projekta razvoj metod zlivanja podatkov, ki delujajo na (načelno) poljubnem številu podatkovnih virov poljubnih vrst, ki jih je mogoče predstaviti v obliki matrike in povezati v graf. Razvite tehnike je mogoče uporabiti za reševanje problemov iz zelo različnih kontekstov, kar smo pokazali v številnih dobro citiranih delih.  V času velikih podatkovnih zbirk postajajo omrežja pomembna oblika predstavitve podatkov, saj se zbrani podatki pogosto nanašajo na objekte, ki so v medsebojnih relacijah. Zato - in tudi v povezavi s pravkar opisanih zlivanjem podatkov - so omrežja predstavljala pomemben del naših raziskav. Razvili smo metode, ki omogočajo analize omrežij, na načine, ki so bili prej zaradi velike časovne zahtevnosti neizvedljivi. Eden najpomembnejših dosežkov iz tega sklopa je razvoj kombinatoričnega algoritma za preštevanje orbit grafkov v velikih redkih omrežjih.  Napredek znanosti zahteva tudi orodja. Skupina je nadaljevala razvoj enega najpopularnejših odprtokodnih orodij za analizo podatkov, Orange. Tekom projekta smo mu dodali module za delo z (več terabajtov) velikimi podatkovnimi bazami, analizo časovnih vrst, spektralnih slik, analize besedil, vpetij slik in številne druge metode povezane z delom v okviru projekta.

Pomen za razvoj Slovenije

Pri projektu je poleg raziskovalcev sodelovalo tudi več doktorskih študentov, v posamezne dele pa so bili vključeni tudi dodiplomski študenti, ki so na ta način dobili priložnost, da se srečajo z aktualno znanostjo. To je tudi razlog, da smo v opisu rezultatov projekta poimensko navajali avtorje posameznih dosežkov, saj menimo, da bo delo na tem projektu pustilo trajen pečat na njihovih karierah.  Večina članov projektne skupine dela v Laboratoriju za bioinformatiko Fakultete za računalništvo Univerze v Ljubljani. Ta se je tudi zaradi tega projekta v preteklih letih bistveno okrepil, pridobil še več drugih domačih in tujih raziskovalnih in industrijskih projektov ter predstavlja eno največjih in najbolj plodnih raziskovalnih skupin v Sloveniji na svojem področju. Prek seminarjev, delavnic in drugih predavanj smo promovirali slovensko znanost v tujini in navezali stike s številnimi sorodnimi organizacijami.  Člani projektne skupine smo bili aktivni tudi pri promociji svojega znanstvenega in strokovnega področja tako med odraslimi kot med mladino.

Najpomembnejši znanstveni rezultati

Letno poročilo 2013, 2014, 2015, zaključno poročilo

Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati

Letno poročilo 2014, 2015, zaključno poročilo

Premagovanje prekletstva dimenzionalnosti z uporabo predznanja

Zgodovina ogledov

Priljubljeno

Premagovanje prekletstva dimenzionalnosti z uporabo predznanja

Klasifikacija ARIS

Klasifikacija CERIF

Klasifikacija FORD

Zahtevana je potrditev

Zgodovina ogledov

Priljubljeno