Izboljšanje ponovljivosti eksperimentov in večkratne uporabe raziskovalnih izsledkov pri analizi kompleksnih podatkov

Evidenčna št.

J2-9230 (B) - iz evidence ARIS

Vodja

dr. Panče Panov

Obdobje

1.7.2018 - 30.6.2022

Obseg v 2022

0.86 FTE

Veda

Tehnika (11)

Status raziskovalca

Raziskovalec (11)
Strokovni ali tehnični sodelavec (0)

Izobrazba

Doktorat znanosti (10)
Drugi (1)

Spol

Ženski (2)
Moški (9)

Status

Zaposlen v RO+RRD (9)
Ni podatka o zaposlitvi v RO (2)

Število publikacij

10–99 (7)
100–999 (3)
1.000–9.999 (1)

Projekti / Programi vir: ARIS

Izboljšanje ponovljivosti eksperimentov in večkratne uporabe raziskovalnih izsledkov pri analizi kompleksnih podatkov

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
2.07.00	Tehnika	Računalništvo in informatika

Koda	Veda	Področje
P170	Naravoslovno-matematične vede	Računalništvo, numerična analiza, sistemi, kontrola

Koda	Veda	Področje
1.02	Naravoslovne vede	Računalništvo in informatika

Ključne besede

ponovljive raziskave; ponovna uporaba rezultatov; strojno učenje; podatkovno rudarjenje; analiza kompleksnih podatkov; semantične tehnologije;

Vrednotenje (metodologija)

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

Organizacije (1) , Raziskovalci (11)

0106 Institut "Jožef Stefan"

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	53798	dr. Jure Brence	Računalništvo in informatika	Raziskovalec	2020 - 2022	27
2.	36220	dr. Martin Breskvar	Računalništvo in informatika	Raziskovalec	2018 - 2022	38
3.	11130	dr. Sašo Džeroski	Računalništvo in informatika	Raziskovalec	2018 - 2022	1.302
4.	31050	dr. Dragi Kocev	Računalništvo in informatika	Raziskovalec	2018 - 2022	233
5.	53530	Ana Kostovska	Računalništvo in informatika	Mladi raziskovalec	2020 - 2022	58
6.	28291	dr. Petra Kralj Novak	Računalništvo in informatika	Raziskovalec	2018 - 2022	133
7.	36356	dr. Aljaž Osojnik	Računalništvo in informatika	Raziskovalec	2018 - 2022	49
8.	27759	dr. Panče Panov	Računalništvo in informatika	Vodja	2018 - 2022	173
9.	38206	dr. Matej Petković	Računalništvo in informatika	Mladi raziskovalec	2018 - 2020	74
10.	34452	dr. Nikola Simidjievski	Računalništvo in informatika	Raziskovalec	2018 - 2022	60
11.	39156	dr. Tomaž Stepišnik	Računalništvo in informatika	Mladi raziskovalec	2018 - 2022	28

Povzetek

Napredek v znanosti se povečini opira na tezo zanesljivega znanstvenega odkritja, pri čemer mora biti izpolnjen pogoj, da je izvedba neke raziskave pravilna in da jo lahko ponovijo drugi znanstveniki. Da bi povečali ponovno uporabnost raziskovalnih izsledkov, kot so razviti modeli in pridobljeni podatki, morajo biti ti najdeni, dostopni, interoperabilni in ponovno uporabni. Bistvo FAIR načel je v tem, da zagotavljajo ponovno uporabnost izsledkov in da bodo ti dejansko uporabljeni s strani drugih, s tem pa pridobivajo na lastni veljavi. Generalni direktorat za raziskave in inovacije EK je ponovno uporabnost izsledkov izpostavil kot eno od svojih prioritet, kar je povzročilo naglo uvajanje FAIR načel s strani različnih interesnih skupin. Izsledki morajo zato biti reprezentirani v kontekstu okvira, ki omogoča računalniško obdelavo. Med trenutno najbolj priljubljenimi rešitvami izmenjave podatkov, ki sledijo zahtevam FAIR, so tehnologije semantičnega spleta. Metode analize kompleksnih podatkov, ki izvirajo iz strojnega učenja ali podatkovnega rudarjenja, se vse pogosteje uporabljajo v različnih znanstvenih domenah. Z namenom zagotavljanja ponovljivosti eksperimentov in ponovne uporabe raziskovalnih izsledkov moramo formalno opisati vse entitete, ki so vključene v proces analize, in jih skupaj z opisi shraniti kot digitalne objekte v strukturo tipa, kot je podatkovna baza. Posedovanje “semantično ozaveščenih” skladov entitet, namenjenih za analizo kompleksnih podatkov, ki je izboljšana z zmožnostjo avtomatiziranega sklepanja, se lahko izkaže za veliko prednost pri izboljšanju ponovljivosti eksperimentov ter ponovne uporabe izsledkov, na ta način pa se tudi močno približamo FAIR načelom. Glavni cilj predlaganega projekta je izboljšanje ponovljivosti eksperimentov ter ponovne uporabnosti raziskovalnih izsledkov v analizi kompleksnih podatkov. Omenjeni cilj bomo dosegli s kombiniranim pristopom, pri čemer bomo uporabili analizo kompleksnih podatkov, ontologije znanosti, semantičnega spleta ter induktivnih podatkovnih baz. V ta namen bomo razvili modularni sistem za izvrševanje eksperimentov analize ter za semantično označevanje, shranjevanje, povpraševanje ter ponovno uporabo izsledkov. Za doseganje cilja bomo: (1) zasnovali, implementirali in naselili ontologije za analizo kompleksnih podatkov, ki bodo nato uporabljene za semantično označevanje, (2) zasnovali in implementirali prototipni sistem za shranjevanje semantično označenih podatkov, eksperimentov in modelov; (3) razvili strategije povpraševanj in preizkusili zmožnosti povpraševanja prototipnega sistema ter (4) preizkusili delovanje novega razvitega sistema v primeru različnih scenarijev z več področij (strojno učenje, znanosti o življenju, raziskave vesolja, kemijska informatika). Predlagane raziskave v okviru projekta se bodo bistveno približale k najnaprednejšim pristopom v domeni računalništva, zlasti s področja strojnega učenja in podatkovnega rudarjenja, znotraj tega pa še posebej problematike analize kompleksnih podatkov. V ta namen bomo razvili novo arhitekturo semantično ozaveščenega eksperimentiranja, kar bo bistveno izboljšalo shranjevanje, ponovno uporabo, revidiranje in povpraševanje modelov, ki so jih ustvarile različne analitične metode. To je pomembno predvsem za aplikacijo v domenah, ki se pri svojem delu pretežno opirajo na analitična orodja. Projekt bo tako pomemben tudi za širši kontekst avtomatizacije znanosti o podatkih. Vsi eksperimenti bodo ponovljivi, saj bodo izvedeni v natančno dokumentirani obliki, pri tem pa bo uporabljena dostopna arhitektura, ki takšno analizo omogoča. Trenutne eksperimentalne arhitekture so namreč uporabne zgolj za zelo omejeno vrsto nalog, pri tem pa niso zmožne opravljati še nalog povpraševanja, skupinskega vrednotenja in revizije modelov, kar predstavlja resno oviro za nadaljnji razvoj. V širšem družbenem kontekstu bo projekt, ki ima velik praktični pomen, bistveno povečal raziskovalni ter inovacijski potencial Slovenije.

Pomen za razvoj znanosti

V okviru predlaganega projekta bomo razvijali novo arhitekturo izvrševanja, skladiščenja, semantične anotacije ter povpraševanja eksperimentov in rezultatov v analizi kompleksnih podatkov z namenom izboljšave ponovljivosti eksperimentov ter ponovne uporabe podatkov, eksperimentov in modelov. To velja za izjemno pomembno raziskovalno področje, ki ima lahko velik vpliv na aplikativne domene, ki vedno bolj uporabljajo analitična orodja pri svojih raziskavah. Na primer, glede na našo vključenost v Medicinsko-informacijsko platformo H2020 projekta Human Brain, lahko konkretiziramo arhitekturo, ki podpira ponovljivost in ponovno uporabo pri nalogah odkritja bioloških markerjev ter bioloških značilk bolezni. Prav tako smo zaradi vključenost v Interreg projekt z italijanskim partnerjem ICGEB (Trst) zmožni konkretizirati arhitekturo, ki podpira ponovljivost in ponovno uporabo za naloge modeliranja bolezni v kontekstu izgradnje čezmejne platforme validiranih kompletov za biotehnološko industrijo.

Predlagana raziskava bo bistveno pripomogla k odkrivanju najnaprednejših smernic v okviru znanstvenega polja računalništva, specifično v polju strojnega učenja in podatkovnega rudarjenja, znotraj slednjega pa še posebej v domeni analize kompleksnih podatkov. Raziskava bo razvila novo arhitekturo za semantično ozaveščeno eksperimentiranje. Prav tako bo izboljšala skladiščenje, ponovno uporabo, revizijo in povpraševanje modelov, kar je še posebej pomembno za različna aplikacijska področja, ki uporabljajo analizo podatkov v obliki storitve. V širšem družbenem kontekstu bo projekt povečal slovenski raziskovalni potencial, in sicer na področju, ki ima izredno velik praktični pomen.

Predlagani projekt ima lahko potencialno velik vpliv v kontekstu avtomatizacije znanosti o podatkih. Eksperimenti bi tako postali ponovljivi, saj bi se izvajali v natančni dokumentirani obliki, prav tako bi na ta način obstajala arhitektura, ki bi omogočala takšno vrsto analize. Trenutne eksperimentalne arhitekture se lahko uporabijo za zelo omejen niz nalog, prav tako pa ne predvidevajo povpraševanja in skupnega vrednotenja in revizije modelov, kar predstavlja zelo veliko razvojno oviro.

Ne nazadnje, rezultati projekta bodo primerno diseminirani in objavljeni na način, ki bo zagotavil maksimalni   doseg. To bomo dosegli z obiskovanjem različnih delavnic in konferenc kakor tudi z objavljanjem raziskovalnih rezultatov v revijah. Predlagana arhitektura in ustvarjeni viri (ontologije, RDF skladi) bodo objavljeni z namenom zagotavljanja širše dostopnosti. Pridobljeni rezultati bodo prav tako posredovani zunanjim interesnim skupinam v Evropi (kot je denimo Research Data Alliance), ki lahko dodatno pomaga pri povečevanju dosega projekta in uporabi pridobljenega znanja in virov.

Pomen za razvoj Slovenije

Within the proposed project, we will develop a new architecture for executing, storing, semantically annotating, and querying experiments and results in complex data analytics, to improve the reproducibility of experiments and reusability of data, experiments and models. This is a highly relevant topic that can have large impact in application domains that heavily use data analytics tools in their work.   For example, given our involvement in the Medical Informatics Platform of the H2020 FET Flagship Human Brain Project, we can instantiate the architecture to support reproducibility and reuse for the tasks of  biomarker discovery and biological signatures of   diseases discovery. Moreover, we are also involved in an Interreg project with an Italian partner ICGEB, Trieste, where we will be able to instantiate the architecture to support reproducibility and reuse for the task of disease modeling in the context of   building a cross-border platform for validated biotech industry kits.

The proposed research will significantly advance the state-of-the-art in the general area of computer science, the specific area of machine learning and data mining, and particularly for the topic of complex data analytics. It will develop new architecture for semantically aware experimentation. It will also improve storing, reusing, revising and querying of models, which is of particular importance for the application areas that use analytics as a service. In a wider societal context, the project will increase Slovenia’s research and innovation potential in this area of extreme practical importance.

The proposed project can have a large impact in the context of automating data science. The experiments would be repeatable since they are performed in a sound documented fashion, as there will be an architecture available to perform such an analysis. Current experimentation architectures are applicable to a very limited set of tasks and do not deal with querying, collaborative validation and revision of models, which represents a serious development bottleneck.

Finally, the project results will be properly disseminated and communicated to provide maximal outreach. This will be done by attending various workshops and conferences as well as by publishing the research results in the journals. The proposed architecture and the produced resources (ontologies, RDF stores) will be made publically available to ensure larger outreach. The obtained results will also be communicated to external stakeholders in Europe (such as the Research Data Alliance) that can help in increasing the outreach of the project and exploit the obtained knowledge and resources.

Najpomembnejši znanstveni rezultati

Vmesno poročilo

Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati

Izboljšanje ponovljivosti eksperimentov in večkratne uporabe raziskovalnih izsledkov pri analizi kompleksnih podatkov

Zgodovina ogledov

Priljubljeno

Izboljšanje ponovljivosti eksperimentov in večkratne uporabe raziskovalnih izsledkov pri analizi kompleksnih podatkov

Klasifikacija ARIS

Klasifikacija CERIF

Klasifikacija FORD

Zahtevana je potrditev

Zgodovina ogledov

Priljubljeno