Nalaganje ...
Projekti / Programi vir: ARRS

Izboljšanje ponovljivosti eksperimentov in večkratne uporabe raziskovalnih izsledkov pri analizi kompleksnih podatkov

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
2.07.00  Tehnika  Računalništvo in informatika   

Koda Veda Področje
P170  Naravoslovno-matematične vede  Računalništvo, numerična analiza, sistemi, kontrola 

Koda Veda Področje
1.02  Naravoslovne vede  Računalništvo in informatika 
Ključne besede
ponovljive raziskave; ponovna uporaba rezultatov; strojno učenje; podatkovno rudarjenje; analiza kompleksnih podatkov; semantične tehnologije;
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (11)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  53798  Jure Brence  Tehnika  Raziskovalec  2020 - 2022  21 
2.  36220  dr. Martin Breskvar  Tehnika  Raziskovalec  2018 - 2022  31 
3.  11130  dr. Sašo Džeroski  Tehnika  Raziskovalec  2018 - 2022  1.171 
4.  31050  dr. Dragi Kocev  Tehnika  Raziskovalec  2018 - 2022  194 
5.  53530  Ana Kostovska  Tehnika  Mladi raziskovalec  2020 - 2022  32 
6.  28291  dr. Petra Kralj Novak  Tehnika  Raziskovalec  2018 - 2022  127 
7.  36356  dr. Aljaž Osojnik  Tehnika  Raziskovalec  2018 - 2022  44 
8.  27759  dr. Panče Panov  Tehnika  Vodja  2018 - 2022  136 
9.  38206  dr. Matej Petković  Tehnika  Mladi raziskovalec  2018 - 2020  59 
10.  34452  dr. Nikola Simidjievski  Tehnika  Raziskovalec  2018 - 2022  54 
11.  39156  dr. Tomaž Stepišnik  Tehnika  Mladi raziskovalec  2018 - 2022  28 
Organizacije (1)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  0106  Institut "Jožef Stefan"  Ljubljana  5051606000  85.590 
Povzetek
Napredek v znanosti se povečini opira na tezo zanesljivega znanstvenega odkritja, pri čemer mora biti izpolnjen pogoj, da je izvedba neke raziskave pravilna in da jo lahko ponovijo drugi znanstveniki. Da bi povečali ponovno uporabnost raziskovalnih izsledkov, kot so razviti modeli in pridobljeni podatki, morajo biti ti najdeni, dostopni, interoperabilni in ponovno uporabni. Bistvo FAIR načel je v tem, da zagotavljajo ponovno uporabnost izsledkov in da bodo ti dejansko uporabljeni s strani drugih, s tem pa pridobivajo na lastni veljavi. Generalni direktorat za raziskave in inovacije EK je ponovno uporabnost izsledkov izpostavil kot eno od svojih prioritet, kar je povzročilo naglo uvajanje FAIR načel s strani različnih interesnih skupin. Izsledki morajo zato biti reprezentirani v kontekstu okvira, ki omogoča računalniško obdelavo. Med trenutno najbolj priljubljenimi rešitvami izmenjave podatkov, ki sledijo zahtevam FAIR, so tehnologije semantičnega spleta. Metode analize kompleksnih podatkov, ki izvirajo iz strojnega učenja ali podatkovnega rudarjenja, se vse pogosteje uporabljajo v različnih znanstvenih domenah. Z namenom zagotavljanja ponovljivosti eksperimentov in ponovne uporabe raziskovalnih izsledkov moramo formalno opisati vse entitete, ki so vključene v proces analize, in jih skupaj z opisi shraniti kot digitalne objekte v strukturo tipa, kot je podatkovna baza. Posedovanje “semantično ozaveščenih” skladov entitet, namenjenih za analizo kompleksnih podatkov, ki je izboljšana z zmožnostjo avtomatiziranega sklepanja, se lahko izkaže za veliko prednost pri izboljšanju ponovljivosti eksperimentov ter ponovne uporabe izsledkov, na ta način pa se tudi močno približamo FAIR načelom. Glavni cilj predlaganega projekta je izboljšanje ponovljivosti eksperimentov ter ponovne uporabnosti raziskovalnih izsledkov v analizi kompleksnih podatkov. Omenjeni cilj bomo dosegli s kombiniranim pristopom, pri čemer bomo uporabili analizo kompleksnih podatkov, ontologije znanosti, semantičnega spleta ter induktivnih podatkovnih baz. V ta namen bomo razvili modularni sistem za izvrševanje eksperimentov analize ter za semantično označevanje, shranjevanje, povpraševanje ter ponovno uporabo izsledkov. Za doseganje cilja bomo: (1) zasnovali, implementirali in naselili ontologije za analizo kompleksnih podatkov, ki bodo nato uporabljene za semantično označevanje, (2) zasnovali in implementirali prototipni sistem za shranjevanje semantično označenih podatkov, eksperimentov in modelov; (3) razvili strategije povpraševanj in preizkusili zmožnosti povpraševanja prototipnega sistema ter (4) preizkusili delovanje novega razvitega sistema v primeru različnih scenarijev z več področij (strojno učenje, znanosti o življenju, raziskave vesolja, kemijska informatika). Predlagane raziskave v okviru projekta se bodo bistveno približale k najnaprednejšim pristopom v domeni računalništva, zlasti s področja strojnega učenja in podatkovnega rudarjenja, znotraj tega pa še posebej problematike analize kompleksnih podatkov. V ta namen bomo razvili novo arhitekturo semantično ozaveščenega eksperimentiranja, kar bo bistveno izboljšalo shranjevanje, ponovno uporabo, revidiranje in povpraševanje modelov, ki so jih ustvarile različne analitične metode. To je pomembno predvsem za aplikacijo v domenah, ki se pri svojem delu pretežno opirajo na analitična orodja. Projekt bo tako pomemben tudi za širši kontekst avtomatizacije znanosti o podatkih. Vsi eksperimenti bodo ponovljivi, saj bodo izvedeni v natančno dokumentirani obliki, pri tem pa bo uporabljena dostopna arhitektura, ki takšno analizo omogoča. Trenutne eksperimentalne arhitekture so namreč uporabne zgolj za zelo omejeno vrsto nalog, pri tem pa niso zmožne opravljati še nalog povpraševanja, skupinskega vrednotenja in revizije modelov, kar predstavlja resno oviro za nadaljnji razvoj. V širšem družbenem kontekstu bo projekt, ki ima velik praktični pomen, bistveno povečal raziskovalni ter inovacijski potencial Slovenije.
Pomen za razvoj znanosti
V okviru predlaganega projekta bomo razvijali novo arhitekturo izvrševanja, skladiščenja, semantične anotacije ter povpraševanja eksperimentov in rezultatov v analizi kompleksnih podatkov z namenom izboljšave ponovljivosti eksperimentov ter ponovne uporabe podatkov, eksperimentov in modelov. To velja za izjemno pomembno raziskovalno področje, ki ima lahko velik vpliv na aplikativne domene, ki vedno bolj uporabljajo analitična orodja pri svojih raziskavah. Na primer, glede na našo vključenost v Medicinsko-informacijsko platformo H2020 projekta Human Brain, lahko konkretiziramo arhitekturo, ki podpira ponovljivost in ponovno uporabo pri nalogah odkritja bioloških markerjev ter bioloških značilk bolezni. Prav tako smo zaradi vključenost v Interreg projekt z italijanskim partnerjem ICGEB (Trst) zmožni konkretizirati arhitekturo, ki podpira ponovljivost in ponovno uporabo za naloge modeliranja bolezni v kontekstu izgradnje čezmejne platforme validiranih kompletov za biotehnološko industrijo. Predlagana raziskava bo bistveno pripomogla k odkrivanju najnaprednejših smernic v okviru znanstvenega polja računalništva, specifično v polju strojnega učenja in podatkovnega rudarjenja, znotraj slednjega pa še posebej v domeni analize kompleksnih podatkov. Raziskava bo razvila novo arhitekturo za semantično ozaveščeno eksperimentiranje. Prav tako bo izboljšala skladiščenje, ponovno uporabo, revizijo in povpraševanje modelov, kar je še posebej pomembno za različna aplikacijska področja, ki uporabljajo analizo podatkov v obliki storitve. V širšem družbenem kontekstu bo projekt povečal slovenski raziskovalni potencial, in sicer na področju, ki ima izredno velik praktični pomen. Predlagani projekt ima lahko potencialno velik vpliv v kontekstu avtomatizacije znanosti o podatkih. Eksperimenti bi tako postali ponovljivi, saj bi se izvajali v natančni dokumentirani obliki, prav tako bi na ta način obstajala arhitektura, ki bi omogočala takšno vrsto analize. Trenutne eksperimentalne arhitekture se lahko uporabijo za zelo omejen niz nalog, prav tako pa ne predvidevajo povpraševanja in skupnega vrednotenja in revizije modelov, kar predstavlja zelo veliko razvojno oviro. Ne nazadnje, rezultati projekta bodo primerno diseminirani in objavljeni na način, ki bo zagotavil maksimalni  doseg. To bomo dosegli z obiskovanjem različnih delavnic in konferenc kakor tudi z objavljanjem raziskovalnih rezultatov v revijah. Predlagana arhitektura in ustvarjeni viri (ontologije, RDF skladi) bodo objavljeni z namenom zagotavljanja širše dostopnosti. Pridobljeni rezultati bodo prav tako posredovani zunanjim interesnim skupinam v Evropi (kot je denimo Research Data Alliance), ki lahko dodatno pomaga pri povečevanju dosega projekta in uporabi pridobljenega znanja in virov.
Pomen za razvoj Slovenije
Within the proposed project, we will develop a new architecture for executing, storing, semantically annotating, and querying experiments and results in complex data analytics, to improve the reproducibility of experiments and reusability of data, experiments and models. This is a highly relevant topic that can have large impact in application domains that heavily use data analytics tools in their work.  For example, given our involvement in the Medical Informatics Platform of the H2020 FET Flagship Human Brain Project, we can instantiate the architecture to support reproducibility and reuse for the tasks of biomarker discovery and biological signatures of  diseases discovery. Moreover, we are also involved in an Interreg project with an Italian partner ICGEB, Trieste, where we will be able to instantiate the architecture to support reproducibility and reuse for the task of disease modeling in the context of  building a cross-border platform for validated biotech industry kits. The proposed research will significantly advance the state-of-the-art in the general area of computer science, the specific area of machine learning and data mining, and particularly for the topic of complex data analytics. It will develop new architecture for semantically aware experimentation. It will also improve storing, reusing, revising and querying of models, which is of particular importance for the application areas that use analytics as a service. In a wider societal context, the project will increase Slovenia’s research and innovation potential in this area of extreme practical importance. The proposed project can have a large impact in the context of automating data science. The experiments would be repeatable since they are performed in a sound documented fashion, as there will be an architecture available to perform such an analysis. Current experimentation architectures are applicable to a very limited set of tasks and do not deal with querying, collaborative validation and revision of models, which represents a serious development bottleneck. Finally, the project results will be properly disseminated and communicated to provide maximal outreach. This will be done by attending various workshops and conferences as well as by publishing the research results in the journals. The proposed architecture and the produced resources (ontologies, RDF stores) will be made publically available to ensure larger outreach. The obtained results will also be communicated to external stakeholders in Europe (such as the Research Data Alliance) that can help in increasing the outreach of the project and exploit the obtained knowledge and resources.
Najpomembnejši znanstveni rezultati Vmesno poročilo
Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati
Zgodovina ogledov
Priljubljeno