Nalaganje ...
Projekti / Programi vir: ARIS

Premagovanje prekletstva dimenzionalnosti z uporabo predznanja

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
2.07.07  Tehnika  Računalništvo in informatika  Inteligentni sistemi - programska oprema 

Koda Veda Področje
P176  Naravoslovno-matematične vede  Umetna inteligenca 

Koda Veda Področje
1.02  Naravoslovne vede  Računalništvo in informatika 
Ključne besede
odkrivanje znanj iz podatkov, statistika, strojno učenje, manjšanje dimenzionalnosti, uporaba predznanja
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (19)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  36469  dr. Niko Colnerič  Računalništvo in informatika  Mladi raziskovalec  2015 - 2016 
2.  23399  dr. Tomaž Curk  Računalništvo in informatika  Raziskovalec  2013 - 2016  253 
3.  16324  dr. Janez Demšar  Računalništvo in informatika  Vodja  2013 - 2016  340 
4.  31035  mag. Marjana Erdelji  Računalništvo in informatika  Raziskovalec  2015  19 
5.  35424  dr. Tomaž Hočevar  Računalništvo in informatika  Mladi raziskovalec  2015 - 2016  30 
6.  38462  Jernej Kernc  Računalništvo in informatika  Tehnični sodelavec  2015 
7.  25792  dr. Minca Mramor  Reprodukcija človeka  Raziskovalec  2013 - 2016  61 
8.  32042  dr. Matija Polajnar  Računalništvo in informatika  Mladi raziskovalec  2013 - 2014 
9.  38461  dr. Ajda Pretnar Žagar  Računalništvo in informatika  Tehnični sodelavec  2015  46 
10.  33189  Anže Starič  Računalništvo in informatika  Mladi raziskovalec  2013 - 2016 
11.  29630  dr. Miha Štajdohar  Računalništvo in informatika  Raziskovalec  2013  21 
12.  38464  Vesna Tanko  Računalništvo in informatika  Raziskovalec  2015 
13.  30142  dr. Marko Toplak  Računalništvo in informatika  Raziskovalec  2013 - 2016  27 
14.  37693  mag. Maja Vodopivec  Računalništvo in informatika  Raziskovalec  2014 - 2015 
15.  23987  dr. Martin Vuk  Matematika  Raziskovalec  2013 - 2014  25 
16.  12536  dr. Blaž Zupan  Računalništvo in informatika  Raziskovalec  2013 - 2016  531 
17.  30921  dr. Lan Žagar  Računalništvo in informatika  Raziskovalec  2013 - 2015  17 
18.  32929  Jure Žbontar  Računalništvo in informatika  Raziskovalec  2013 - 2015 
19.  35422  dr. Marinka Žitnik  Računalništvo in informatika  Raziskovalec  2015  83 
Organizacije (2)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  0312  Univerzitetni klinični center Ljubljana  Ljubljana  5057272000  77.480 
2.  1539  Univerza v Ljubljani, Fakulteta za računalništvo in informatiko  Ljubljana  1627023  16.242 
Povzetek
Delovanje današnje družbe temelji na zbiranju in analizi velikih količin podatkov. Ker sta se tako zbiranje kot hranjenje podatkov v zadnjem času zelo pocenili, navadno ne opazujemo več majhnih množic skrbno izbranih spremenljivk, temveč rutinsko zbiramo velike količine meritev. Tako ravnamo na vseh področjih, od znanosti z, na primer, sekvenciranjem celotnega genoma in opazovanja aktivnosti vseh genov hkrati, do poslovnega sveta, kjer, denimo, zajemamo posnetke cen delnic ali vrednosti tečajev v kratkih časovnih intervalih. Načelno naj bi bili z opazovanjem velike količine spremenljivk zmožni odkriti bolj zapletene in nepričakovane vzorce v podatkih kot prej. V praksi pa je tolikšna količina podakotv videti kot ogromna kopica sena, manjkajo pa nam učinkovite metode za iskanje igel oziroma, še huje, za razlikovanje igel od slame. Gledano formalneje, trenutno uporabljene metode za odkrivanje zakonitosti iz podatkov poiščejo veliko število modelov in vzorcev, ki se enako dobro prilegajo podatkom. Čeprav je večina od njih naključnih, jih je z matematičnimi metodami nemogoče razlikovati od resničnih vzorcev. Po našem mnenju je problem posledica trenutnega pristopa k odkrivanju zakonitosti, ki uporablja (le) podatke za sestavljanje novih teorij – slaba praksa, ki so jo nekoč poimenovali "podatkovno ribarjenje". Doslej smo se težavam, ki jih povzroča ta pristop, izognili z iskanjem čim preprostejših teorij (npr. z uporabo linearnih modelov, različnih regularizacij, Occamovega načela ipd). V visoko dimenzionalnih problemih pa to ne deluje več, saj obstaja preveč enako zapletenih teorij, ki se enako dobro prilegajo podatkom. V okviru projekta nameravamo raziskovati, po našem mnenju, edino uporabno rešitev problema. Tako kot klasična znanost ne gradi teorij zgolj iz opazovanj, mora tudi iskanje modelov, vzorcev in vizualizacij v avtomatskem odkrivanju znanj iz podatkov temeljiti na obstoječem znanju iz raziskovanega področja. To predznanje je lahko v poljubni obliki, ki opisuje povezave med spremenljivkami, na primer ontologija ali mreža entitet, ki ustrezajo spremenljivkam, korelacije med spremenljivkami, ki so znane iz preteklih poskusov, pravila, ki jih eksplicitno sestavi področni strokovnjak, ali besedila, ki so povezana s področjem in s katerimi je mogoče statistično določiti povezanost spremenljivk. Predznanje lahko uporabimo v vseh fazah odkrivanja znanja. V projektu nameravamo razviti metode za transformacijo podatkov, ki bodo, recimo, zmanjšale dimenzionalnost podatkov tako, da bodo z uporabo predznanja sestavile nove spremenljivke iz opazovanih; ta pristop je drugačen od obstoječih tehnik zmanjševanja dimenzionalnosti, ki dimenzionalnost podatkov zmanjšuje s pomočjo podatkov samih. Razvili bomo vizualizacijske metode, ki bodo sestavljale uporabne in informativne vizualizacije na podlagi obstoječega znanja. Gradnja napovednih modelov, predvsem z metodami strojnega učenja, temelji na preiskovanju ogromnega prostora možnih modelov; tudi to iskanje lahko usmerjamo s predznanjem o povezavah med spremenljivkami. Končno, obstoječe znanje lahko uporabljamo za izbor modelov in vzorcev iz ogromne množice modelov in vzorcev, ki se enako prilegajo danim podatkom. Pri delu se bomo zgledovali po sodobnih metodah analize genetskih podatkov, področja, ki je v zadnjem času naredilo največ za premagovanje prekletstva dimenzionalnosti, ter s statističnimi tehnikami manjšanja dimenzionalnosti in postopki za omejevanje iskanja v strojnem učenju, ki trenutno ne uporabljajo predznanja, vsaj ne na način, kot ga predvidevamo v projektu. Razvite metode bodo implementirane v odprtokodnih paketih za odkrivanje znanja iz podatkov in tako takoj na voljo za praktično uporabo. Sprotna uporaba bo tudi olajšala testiranje in izpopolnjevanje algoritmov, ki jih bomo razvijali v okviru projekta.
Pomen za razvoj znanosti
Osnovna predpostavka predloga projekta - ki jo je zrcalil tudi njegov naslov - je, da lahko uporaba predznanja izboljša rezultate analize visokodimenzionalnih podatkov. Kot rezultat dela na tem projektu ne razmišljamo več o "predznanju" in "podatkih", temveč oboje razumemo zgolj kot dva ali več različnih, heterogenih virov podatkov, ki jih lahko na primeren način zlijemo. Tako je eden od najpomembnejših znanstvenih dosežkov tega projekta razvoj metod zlivanja podatkov, ki delujajo na (načelno) poljubnem številu podatkovnih virov poljubnih vrst, ki jih je mogoče predstaviti v obliki matrike in povezati v graf. Razvite tehnike je mogoče uporabiti za reševanje problemov iz zelo različnih kontekstov, kar smo pokazali v številnih dobro citiranih delih. V času velikih podatkovnih zbirk postajajo omrežja pomembna oblika predstavitve podatkov, saj se zbrani podatki pogosto nanašajo na objekte, ki so v medsebojnih relacijah. Zato - in tudi v povezavi s pravkar opisanih zlivanjem podatkov - so omrežja predstavljala pomemben del naših raziskav. Razvili smo metode, ki omogočajo analize omrežij, na načine, ki so bili prej zaradi velike časovne zahtevnosti neizvedljivi. Eden najpomembnejših dosežkov iz tega sklopa je razvoj kombinatoričnega algoritma za preštevanje orbit grafkov v velikih redkih omrežjih. Napredek znanosti zahteva tudi orodja. Skupina je nadaljevala razvoj enega najpopularnejših odprtokodnih orodij za analizo podatkov, Orange. Tekom projekta smo mu dodali module za delo z (več terabajtov) velikimi podatkovnimi bazami, analizo časovnih vrst, spektralnih slik, analize besedil, vpetij slik in številne druge metode povezane z delom v okviru projekta.
Pomen za razvoj Slovenije
Pri projektu je poleg raziskovalcev sodelovalo tudi več doktorskih študentov, v posamezne dele pa so bili vključeni tudi dodiplomski študenti, ki so na ta način dobili priložnost, da se srečajo z aktualno znanostjo. To je tudi razlog, da smo v opisu rezultatov projekta poimensko navajali avtorje posameznih dosežkov, saj menimo, da bo delo na tem projektu pustilo trajen pečat na njihovih karierah. Večina članov projektne skupine dela v Laboratoriju za bioinformatiko Fakultete za računalništvo Univerze v Ljubljani. Ta se je tudi zaradi tega projekta v preteklih letih bistveno okrepil, pridobil še več drugih domačih in tujih raziskovalnih in industrijskih projektov ter predstavlja eno največjih in najbolj plodnih raziskovalnih skupin v Sloveniji na svojem področju. Prek seminarjev, delavnic in drugih predavanj smo promovirali slovensko znanost v tujini in navezali stike s številnimi sorodnimi organizacijami. Člani projektne skupine smo bili aktivni tudi pri promociji svojega znanstvenega in strokovnega področja tako med odraslimi kot med mladino.
Najpomembnejši znanstveni rezultati Letno poročilo 2013, 2014, 2015, zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati Letno poročilo 2014, 2015, zaključno poročilo
Zgodovina ogledov
Priljubljeno