Projekti / Programi
Razvoj in aplikacije novih metod semantičnega rudarjenja podatkov v znanostih o življenju
Koda |
Veda |
Področje |
Podpodročje |
2.07.07 |
Tehnika |
Računalništvo in informatika |
Inteligentni sistemi - programska oprema |
Koda |
Veda |
Področje |
P176 |
Naravoslovno-matematične vede |
Umetna inteligenca |
Koda |
Veda |
Področje |
1.02 |
Naravoslovne vede |
Računalništvo in informatika |
Rudarjenje podatkov, odkrivanje znanja, semantično rudarjenje podatkov, semantični spletni servisi, delotoki
Raziskovalci (18)
št. |
Evidenčna št. |
Ime in priimek |
Razisk. področje |
Vloga |
Obdobje |
Štev. publikacijŠtev. publikacij |
1. |
19116 |
dr. Špela Baebler |
Biotehnologija |
Raziskovalec |
2013 - 2016 |
313 |
2. |
06989 |
dr. Andrej Blejec |
Matematika |
Raziskovalec |
2013 - 2016 |
287 |
3. |
28806 |
dr. Miha Grčar |
Računalniško intenzivne metode in aplikacije |
Raziskovalec |
2013 - 2016 |
85 |
4. |
12688 |
dr. Kristina Gruden |
Biotehnologija |
Raziskovalec |
2013 - 2016 |
985 |
5. |
28291 |
dr. Petra Kralj Novak |
Računalništvo in informatika |
Raziskovalec |
2013 - 2016 |
130 |
6. |
34098 |
dr. Janez Kranjc |
Računalništvo in informatika |
Raziskovalec |
2013 - 2016 |
25 |
7. |
08949 |
dr. Nada Lavrač |
Računalništvo in informatika |
Vodja |
2013 - 2016 |
867 |
8. |
36912 |
dr. Dragana Miljković |
Računalništvo in informatika |
Raziskovalec |
2014 - 2016 |
71 |
9. |
21397 |
dr. Helena Motaln |
Biokemija in molekularna biologija |
Raziskovalec |
2013 - 2016 |
207 |
10. |
03323 |
dr. Igor Mozetič |
Računalništvo in informatika |
Raziskovalec |
2013 - 2016 |
184 |
11. |
29617 |
dr. Marko Petek |
Biotehnologija |
Raziskovalec |
2013 - 2014 |
168 |
12. |
29539 |
dr. Vid Podpečan |
Računalništvo in informatika |
Raziskovalec |
2013 - 2016 |
103 |
13. |
34502 |
dr. Živa Ramšak |
Biologija |
Raziskovalec |
2013 - 2016 |
118 |
14. |
27503 |
dr. Ana Rotter |
Biotehnologija |
Raziskovalec |
2013 - 2014 |
328 |
15. |
07736 |
dr. Bojan Sedmak |
Biokemija in molekularna biologija |
Raziskovalec |
2013 - 2016 |
232 |
16. |
34262 |
dr. Anže Vavpetič |
Računalništvo in informatika |
Mladi raziskovalec |
2013 - 2016 |
30 |
17. |
32811 |
dr. Urška Verbovšek |
Biotehnologija |
Mladi raziskovalec |
2013 - 2015 |
30 |
18. |
23582 |
dr. Martin Žnidaršič |
Računalništvo in informatika |
Raziskovalec |
2013 - 2016 |
165 |
Organizacije (2)
Povzetek
Odkrivanje znanja v podatkovnih bazah je področje računalništva, ki se ukvarja z avtomatskim preiskovanjem velikih količin podatkov z namenom odkrivanja novih hipotez v obliki modelov in vzorcev, odkritih v podatkih. Odkriti modeli ali vzorci so še posebej zanimivi, če so nepričakovani ali pa če prispevajo k potrditvi še nedokazanih hipotez. Pomanjkljivost sedanjih javno dostopnih platform za rudarjenje podatkov in odkrivanje znanja je njihova zmožnost obravnave le preprostih tabelaričnih podatkov. Zaradi vse večjega pojava pol-strukturirani heterogenih in distribuiranih podatkov pa je namen predlaganega projekta SemDM odpraviti to ključno pomanjkljivost in izboljšati trenutno razpoložljive platforme za rudarjenje podatkov z zmožnostjo obravnave distribuiranih, heterogenih informacija in virov znanja, ki so potrebni za analizo podatkov v domenah, ki temeljijo na intenzivni uporabi heterogenih informacij in znanja.
Cilji projekta so naslednji:
- Razvoj novih algoritmov za semantično rudarjenje podatkov (SemDM), ki bodo omogočili odkrivanje znanja v heterogenih (strukturiranih, pol-strukturiranih in nestrukturiranih) in distribuiranih podatkih in virih znanja, vključno s semantično anotiranimi podatki, ki se nahajajo v javno dostopnih ontologijah (Gene ontologija in drugi viri, ki so na voljo v Linked Open Data oblaku).
- Razvoj nove platforme za rudarjenje podatkov ClowdFlows, ki bo nadgradila našo nedavno razvito platformo Orange4WS. Nova platforma bo omogočala v samem brskalniku kreiranje inovativnih delotokov in sicer iz lokalnih in distribuiranih servisov za procesiranje in rudarjenje podatkov.
- Demonstrirati in oceniti uporabnost predlaganega servisno-orientiranega pristopa za semantično rudarjenje z aplikacijo na izbranih domenah: predvsem za analizo podatkov na področju raka dojk, druga pa za odkrivanje podtipov bolnikov z možganskim tumorjem (gliomo) za validacijo novo odkritih molekularnih označevalcev.
V študiji primera bolnikov z gliomo bomo raziskovalci IJS in NIB poskusili priti do novih odkritij o glioblastomi (GBM), najpogostejši in najbolj agresivni oblika raka glioma. V zadnjem času je bilo predlaganih več biomarkerjev za prognozo in predvidevanje odzivnosti pacienta na določeno terapijo, vendar pa zaenkrat ti še niso bili uporabljeni v terapevtske namene. Razvozlati je potrebno interaktivne odnose med vpletenimi geni, kar bo omogočilo hitrejšo in natančnejšo diagnostiko stopnje tumorja in prognozo za posameznega pacienta. To lahko dosežemo s sistemskim pristopom k biologiji, ki temelji na odkrivanju podskupin pacientov z GBM, najverjetneje glede na njihove izvorne (matične) celice ter njihovo infiltracijo, kar se kaže v značilnih vzorcih napredovanja tumorja.
Projekt bo prispeval k razvoju novih semantičnih algoritmov za podatkovno rudarjenje, k izboljšanju njihove javne dostopnosti s pomočjo spletne platforme ClowdFlows in k odkrivanju novega znanja na področju medicine in bioinformatike. Delo se bo izvajalo v sodelovanju med strokovnjaki s področja podatkovnega rudarjenja z Instituta Jožef Stefan (IJS) ter z domenskimi strokovnjaki z Nacionalnega inštituta za biologijo (NIB).
Pomen za razvoj znanosti
Pomen projekta SemDM je razvoj nove paradigme odkrivanja znanja, ki smo ga sprva implementirali v sistemu Orange4WS in zatem prenesli v spletno platformo za rudarjenje podatkov ClowdFlows. Spremembo paradigme, v primerjavi s sedanjo tehnologijo rudarjenja podatkov, prinašajo naslednji pristopi: 1. Sistema g-SEGS in SDM-SEGS za semantično podatkovno rudarjenje, ki uporabljata ontologije kot predznanje v učnem procesu in sta na voljo v platformi za podatkovno rudarjenje Orange4WS. 2. Algoritem Hedwig za semantično podatkovno rudarjenje, ki ima izboljšano preiskovanje prostora semantičnih pravil in ki je bil uporabljen na novi domeni za razlago skupin rakavih pacientov. Z uporabo novih algoritmov semantičnega rudarjenja podatkov in platforme ClowdFlows, ki smo jo razvili na IJS, smo že izboljšali rezultate v več aplikativnih domenah, s poudarkom na medicini in bioinformatiki, katerih rezultate so ovrednotili eksperti z Nacionalnega instituta za biologijo v Ljubljani. Razvoj platforme ClowdFlows je omogočil nadaljnje raziskave na tem področju. Novo platformo ClowdFlows lahko uporabljamo za gradnjo in izvajanje delotokov rudarjenja podatkov v vseh sodobnih spletnih brskalnikih.
Pomen za razvoj Slovenije
Projekt semantičnega rudarjenja podatkov v znanostih o življenju je multidisciplinaren in je uspešno povezal raziskovalni skupini (IJS in NIB) z različnih znanstvenih področij (računalništva in biologije). Algoritem Hedwig, različne metode propozicionalizacije, pristop za gradnjo bioloških modelov, ki temelji na ekspertnem znanju in literaturi ter nov pristop za inkrementalni razvoj bioloških omrežij na podlagi procesiranja naravnega jezika so omogočili odkrivanje novega biološkega znanja. Razviti pristopi se aktivno uporabljajo na Nacionalnem institutu za biologijo. Projekt je omogočil tudi kvalitetno projektno izobraževanje mladih raziskovalcev, njihovo vpetost v tekoče raziskave in aktivno sodelovanje v mednarodnem okolju. Temeljne raziskave prispevajo tudi k napredku znanja na področju informacijskih tehnologij, medtem ko aplikacije na interdisciplinarnih področjih, v našem primeru bioinformatike, pa prispevajo h kreiranju novih idej na aplikativnih domenah in dvigujejo nivo uporabnosti informacijskih tehnologij.
Najpomembnejši znanstveni rezultati
Letno poročilo
2013,
2014,
2015,
zaključno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati
Letno poročilo
2013,
2014,
2015,
zaključno poročilo