Projekti / Programi
Premagovanje prekletstva dimenzionalnosti z uporabo predznanja
Koda |
Veda |
Področje |
Podpodročje |
2.07.07 |
Tehnika |
Računalništvo in informatika |
Inteligentni sistemi - programska oprema |
Koda |
Veda |
Področje |
P176 |
Naravoslovno-matematične vede |
Umetna inteligenca |
Koda |
Veda |
Področje |
1.02 |
Naravoslovne vede |
Računalništvo in informatika |
odkrivanje znanj iz podatkov, statistika, strojno učenje, manjšanje dimenzionalnosti, uporaba predznanja
Raziskovalci (19)
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
36469 |
dr. Niko Colnerič |
Računalništvo in informatika |
Mladi raziskovalec |
2015 - 2016 |
3 |
2. |
23399 |
dr. Tomaž Curk |
Računalništvo in informatika |
Raziskovalec |
2013 - 2016 |
253 |
3. |
16324 |
dr. Janez Demšar |
Računalništvo in informatika |
Vodja |
2013 - 2016 |
340 |
4. |
31035 |
mag. Marjana Erdelji |
Računalništvo in informatika |
Raziskovalec |
2015 |
19 |
5. |
35424 |
dr. Tomaž Hočevar |
Računalništvo in informatika |
Mladi raziskovalec |
2015 - 2016 |
30 |
6. |
38462 |
Jernej Kernc |
Računalništvo in informatika |
Tehnični sodelavec |
2015 |
0 |
7. |
25792 |
dr. Minca Mramor |
Reprodukcija človeka |
Raziskovalec |
2013 - 2016 |
61 |
8. |
32042 |
dr. Matija Polajnar |
Računalništvo in informatika |
Mladi raziskovalec |
2013 - 2014 |
0 |
9. |
38461 |
dr. Ajda Pretnar Žagar |
Računalništvo in informatika |
Tehnični sodelavec |
2015 |
46 |
10. |
33189 |
Anže Starič |
Računalništvo in informatika |
Mladi raziskovalec |
2013 - 2016 |
8 |
11. |
29630 |
dr. Miha Štajdohar |
Računalništvo in informatika |
Raziskovalec |
2013 |
21 |
12. |
38464 |
Vesna Tanko |
Računalništvo in informatika |
Raziskovalec |
2015 |
0 |
13. |
30142 |
dr. Marko Toplak |
Računalništvo in informatika |
Raziskovalec |
2013 - 2016 |
27 |
14. |
37693 |
mag. Maja Vodopivec |
Računalništvo in informatika |
Raziskovalec |
2014 - 2015 |
3 |
15. |
23987 |
dr. Martin Vuk |
Matematika |
Raziskovalec |
2013 - 2014 |
25 |
16. |
12536 |
dr. Blaž Zupan |
Računalništvo in informatika |
Raziskovalec |
2013 - 2016 |
531 |
17. |
30921 |
dr. Lan Žagar |
Računalništvo in informatika |
Raziskovalec |
2013 - 2015 |
17 |
18. |
32929 |
Jure Žbontar |
Računalništvo in informatika |
Raziskovalec |
2013 - 2015 |
9 |
19. |
35422 |
dr. Marinka Žitnik |
Računalništvo in informatika |
Raziskovalec |
2015 |
83 |
Organizacije (2)
Povzetek
Delovanje današnje družbe temelji na zbiranju in analizi velikih količin podatkov. Ker sta se tako zbiranje kot hranjenje podatkov v zadnjem času zelo pocenili, navadno ne opazujemo več majhnih množic skrbno izbranih spremenljivk, temveč rutinsko zbiramo velike količine meritev. Tako ravnamo na vseh področjih, od znanosti z, na primer, sekvenciranjem celotnega genoma in opazovanja aktivnosti vseh genov hkrati, do poslovnega sveta, kjer, denimo, zajemamo posnetke cen delnic ali vrednosti tečajev v kratkih časovnih intervalih.
Načelno naj bi bili z opazovanjem velike količine spremenljivk zmožni odkriti bolj zapletene in nepričakovane vzorce v podatkih kot prej. V praksi pa je tolikšna količina podakotv videti kot ogromna kopica sena, manjkajo pa nam učinkovite metode za iskanje igel oziroma, še huje, za razlikovanje igel od slame. Gledano formalneje, trenutno uporabljene metode za odkrivanje zakonitosti iz podatkov poiščejo veliko število modelov in vzorcev, ki se enako dobro prilegajo podatkom. Čeprav je večina od njih naključnih, jih je z matematičnimi metodami nemogoče razlikovati od resničnih vzorcev.
Po našem mnenju je problem posledica trenutnega pristopa k odkrivanju zakonitosti, ki uporablja (le) podatke za sestavljanje novih teorij – slaba praksa, ki so jo nekoč poimenovali "podatkovno ribarjenje". Doslej smo se težavam, ki jih povzroča ta pristop, izognili z iskanjem čim preprostejših teorij (npr. z uporabo linearnih modelov, različnih regularizacij, Occamovega načela ipd). V visoko dimenzionalnih problemih pa to ne deluje več, saj obstaja preveč enako zapletenih teorij, ki se enako dobro prilegajo podatkom.
V okviru projekta nameravamo raziskovati, po našem mnenju, edino uporabno rešitev problema. Tako kot klasična znanost ne gradi teorij zgolj iz opazovanj, mora tudi iskanje modelov, vzorcev in vizualizacij v avtomatskem odkrivanju znanj iz podatkov temeljiti na obstoječem znanju iz raziskovanega področja. To predznanje je lahko v poljubni obliki, ki opisuje povezave med spremenljivkami, na primer ontologija ali mreža entitet, ki ustrezajo spremenljivkam, korelacije med spremenljivkami, ki so znane iz preteklih poskusov, pravila, ki jih eksplicitno sestavi področni strokovnjak, ali besedila, ki so povezana s področjem in s katerimi je mogoče statistično določiti povezanost spremenljivk.
Predznanje lahko uporabimo v vseh fazah odkrivanja znanja. V projektu nameravamo razviti metode za transformacijo podatkov, ki bodo, recimo, zmanjšale dimenzionalnost podatkov tako, da bodo z uporabo predznanja sestavile nove spremenljivke iz opazovanih; ta pristop je drugačen od obstoječih tehnik zmanjševanja dimenzionalnosti, ki dimenzionalnost podatkov zmanjšuje s pomočjo podatkov samih. Razvili bomo vizualizacijske metode, ki bodo sestavljale uporabne in informativne vizualizacije na podlagi obstoječega znanja. Gradnja napovednih modelov, predvsem z metodami strojnega učenja, temelji na preiskovanju ogromnega prostora možnih modelov; tudi to iskanje lahko usmerjamo s predznanjem o povezavah med spremenljivkami. Končno, obstoječe znanje lahko uporabljamo za izbor modelov in vzorcev iz ogromne množice modelov in vzorcev, ki se enako prilegajo danim podatkom.
Pri delu se bomo zgledovali po sodobnih metodah analize genetskih podatkov, področja, ki je v zadnjem času naredilo največ za premagovanje prekletstva dimenzionalnosti, ter s statističnimi tehnikami manjšanja dimenzionalnosti in postopki za omejevanje iskanja v strojnem učenju, ki trenutno ne uporabljajo predznanja, vsaj ne na način, kot ga predvidevamo v projektu.
Razvite metode bodo implementirane v odprtokodnih paketih za odkrivanje znanja iz podatkov in tako takoj na voljo za praktično uporabo. Sprotna uporaba bo tudi olajšala testiranje in izpopolnjevanje algoritmov, ki jih bomo razvijali v okviru projekta.
Pomen za razvoj znanosti
Osnovna predpostavka predloga projekta - ki jo je zrcalil tudi njegov naslov - je, da lahko uporaba predznanja izboljša rezultate analize visokodimenzionalnih podatkov. Kot rezultat dela na tem projektu ne razmišljamo več o "predznanju" in "podatkih", temveč oboje razumemo zgolj kot dva ali več različnih, heterogenih virov podatkov, ki jih lahko na primeren način zlijemo. Tako je eden od najpomembnejših znanstvenih dosežkov tega projekta razvoj metod zlivanja podatkov, ki delujajo na (načelno) poljubnem številu podatkovnih virov poljubnih vrst, ki jih je mogoče predstaviti v obliki matrike in povezati v graf. Razvite tehnike je mogoče uporabiti za reševanje problemov iz zelo različnih kontekstov, kar smo pokazali v številnih dobro citiranih delih. V času velikih podatkovnih zbirk postajajo omrežja pomembna oblika predstavitve podatkov, saj se zbrani podatki pogosto nanašajo na objekte, ki so v medsebojnih relacijah. Zato - in tudi v povezavi s pravkar opisanih zlivanjem podatkov - so omrežja predstavljala pomemben del naših raziskav. Razvili smo metode, ki omogočajo analize omrežij, na načine, ki so bili prej zaradi velike časovne zahtevnosti neizvedljivi. Eden najpomembnejših dosežkov iz tega sklopa je razvoj kombinatoričnega algoritma za preštevanje orbit grafkov v velikih redkih omrežjih. Napredek znanosti zahteva tudi orodja. Skupina je nadaljevala razvoj enega najpopularnejših odprtokodnih orodij za analizo podatkov, Orange. Tekom projekta smo mu dodali module za delo z (več terabajtov) velikimi podatkovnimi bazami, analizo časovnih vrst, spektralnih slik, analize besedil, vpetij slik in številne druge metode povezane z delom v okviru projekta.
Pomen za razvoj Slovenije
Pri projektu je poleg raziskovalcev sodelovalo tudi več doktorskih študentov, v posamezne dele pa so bili vključeni tudi dodiplomski študenti, ki so na ta način dobili priložnost, da se srečajo z aktualno znanostjo. To je tudi razlog, da smo v opisu rezultatov projekta poimensko navajali avtorje posameznih dosežkov, saj menimo, da bo delo na tem projektu pustilo trajen pečat na njihovih karierah. Večina članov projektne skupine dela v Laboratoriju za bioinformatiko Fakultete za računalništvo Univerze v Ljubljani. Ta se je tudi zaradi tega projekta v preteklih letih bistveno okrepil, pridobil še več drugih domačih in tujih raziskovalnih in industrijskih projektov ter predstavlja eno največjih in najbolj plodnih raziskovalnih skupin v Sloveniji na svojem področju. Prek seminarjev, delavnic in drugih predavanj smo promovirali slovensko znanost v tujini in navezali stike s številnimi sorodnimi organizacijami. Člani projektne skupine smo bili aktivni tudi pri promociji svojega znanstvenega in strokovnega področja tako med odraslimi kot med mladino.
Najpomembnejši znanstveni rezultati
Letno poročilo
2013,
2014,
2015,
zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati
Letno poročilo
2014,
2015,
zaključno poročilo