Odkrivanje zakonitosti iz literature kot pomoč pri interpretaciji podatkov pridobljenimi z metodami visokozmogljivega sekvenciranja

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
5.13.00	Družboslovje	Informacijska znanost in bibliotekarstvo

Koda	Veda	Področje
H100	Humanistične vede	Dokumentalistika, informacijska znanost, bibliotekarstvo, arhivistika

Koda	Veda	Področje
5.08	Družbene vede	Mediji in komunikacije

Ključne besede

informacijska znanost; rudarjenje besedil; odkrivanje zakonitosti iz literature; sistem za podporo kliničnemu diagnosticiranju

Vrednotenje (metodologija)

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

Organizacije (2) , Raziskovalci (13)

0381 Univerza v Ljubljani, Medicinska fakulteta

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	54468	Tomaž Bratanič		Tehnični sodelavec	2020 - 2022	0
2.	22621	dr. Polonca Ferk	Metabolne in hormonske motnje	Raziskovalec	2019 - 2020	150
3.	11373	dr. Dimitar Hristovski	Računalništvo in informatika	Vodja	2019 - 2022	160
4.	26484	dr. Andrej Kastrin	Medicina	Raziskovalec	2020 - 2022	180
5.	10467	dr. Matevž Kovačič	Medicina	Raziskovalec	2021 - 2022	14
6.	15355	dr. Branimir Leskošek	Javno zdravstvo (varstvo pri delu)	Raziskovalec	2019 - 2020	201
7.	33230	dr. Nina Ružić Gorenjec	Matematika	Raziskovalec	2019 - 2020	57
8.	08992	dr. Janez Stare	Javno zdravstvo (varstvo pri delu)	Raziskovalec	2019 - 2020	284
9.	54467	Petar Statevski		Tehnični sodelavec	2020 - 2022	0
10.	36368	dr. Marko Vidak	Medicina	Raziskovalec	2019 - 2020	42
11.	56196	dr. Klemen Žiberna	Medicina	Raziskovalec	2022	31

0312 Univerzitetni klinični center Ljubljana

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	50804	Gaber Bergant	Reprodukcija človeka	Raziskovalec	2019 - 2022	32
2.	30697	dr. Anja Kovanda	Nevrobiologija	Raziskovalec	2019 - 2022	92

Povzetek

Odkrivanje zakonitosti iz literature je tehnologija rudarjenja besedil za samodejno generiranje razsikovalnih domnev. Glavni cilj OZL je odkrivanje implicitnih, v literaturi še ne opisanih, povezav med znanstvenimi koncepti v obstoječi strokovni literaturi (domeni znanja). Osnovna zamisel pristopa OZL narekuje obstoj dveh, med seboj nepovezanih, znanstvenih domen. Koncepti znanja v prvi domeni so sicer lahko povezani s koncepti znanja v drugi domeni, cendar so te relacije implicitne. Sekvenciranje naslednje generacije (NGS) je termin, ki se nanaša tehnologijo za množično paralelno sekvenciranje, kar omogoča pregled celotnega genoma v razumnem časovnem okviru. Razvoj NGS tehnologij je omogočil razširjeno uporabo sekvenciranja DNA, tudi v klinične namene, hitreje in ceneje kot s predhodno uporabljenimi metodami. To je omogočilo obsežno uporabo sekvenciranja, tako v klinični praksi, kot tudi v raziskovalne namene, kar je vodilo v hiter razvoj genomskih znanosti. V klinični genetiki tako ozko grlo velikokrat ni sekvenciranje z uporabo tehnologij NGS samo, vendar kasnejša zmožnost procesiranja in, še toliko bolj, interpretacija velike količine podatkov, katerih obseg je velikokrat slabo predstavljiv. V tem projektu predlagamo nov pristop k interpretaciji NGS rezultatov, temelječ na metodologiji OZL. Glavni raziskovalni problem, ki ga bomo rešili v okviru predlaganega projekta, sestavljajo naslednje komponente: (i) teoretična analiza bibliografske zbirke MEDLINE/PubMed in zbirke semantičnih relacij SemMedDB kot omrežij biomedicinskih konceptov, ki bi lahko pripomogla k boljšemu razumevanju lastnosti, pomembnih za razumevanje interpretacije NGS podatkov s pomočjo metodologije OZL; (ii) razvoj teoretskega okvira in podatkovnega modela za interpretacijo NGS podatkov s pomočjo metodologije OZL; (iii) razvoj odprtokodne spletne aplikacije za sodejno (interaktivno) interpretacijo NGS podatkov s pomočjo OZL, ki bo služila kot klinično diagnostično orodje za podporo odločanju; (iv) razvoj metodologije za filtriranje napačno-pozitivnih relacij v procesu OZL s pomočjo uporabe orodij strojnega učenja; (v) prevedba procesa OZL na problem napovedovanja povezav v heterogenih omrežjih ter (vi) validacija razvite metodologije s strani domenskih ekspertov. Hkrati obravnavamo podatke enega pacienta. Vhod algoritma predstavljata dve množici podatkov, genotip z genetskimi različicami in fenotip, kot ga je opisal klinični genetik. Genotip X vsebuje gene z mutacijami, ki jih pridobimo na osnovi sekvenciranja z NGS. Fenotip Z vsebuje klinične lastnosti na osnovi ontologije humanega fenotipa. Relevantna podatkovja bomo predstavili v grafovski podatkovni zbirki Neo4j. Grafovska zbirka vsebuje dva glavna tipa vozlišč, paciente in koncepte različnih tipov, vključno s fenotipom, geni, proteini, celičnimi funkcijami, genetskimi boleznimi ter drugimi biomedicinskimi tipi. Zgrajeno omrežje povezav se ponaša z različnimi tipi povezav. Relacija PHENO tako povezuje paciente z ustreznimi vozlišči, ki se nanašajo na fenotip, relacija GENO pa povezuje paciente z ustreznimi mutiranimi geni. Poleg tega v omrežje vključimo 30 različnih tipov semantičnih relacij, kot jih izlušči orodje SemRep iz bibliografske zbirke MEDLINE. Izhod algoritma predstavlja množica relevantnih vmesnih konceptov Y (kot so npr. Genetske funkcije ali bolezni), ki povezujejo genotip X s fenotipom Z. Y koncepti predstavljajo nove raziskovalne domneve, ki pojasnjujejo mehanizme novih relacij med genotipom in fenotipom. Predlagan projekt bo formaliziral in dodatno okrepil naše dolgoletno raziskovalno delo na področju OZL.

Pomen za razvoj znanosti

Analiza besedilnih podatkov doživlja v svetu izjemen razmah predvsem zaradi lahke dostopnosti tovrstnih podatkov in čedalje večjih računskih zmogljivosti po eni strani, po drugi strani pa zaradi potreb inštitucij in industrije po obvladovanju problemskih situacij povezanih z razumevanjem kompleksnih sistemov. Pomembnost znanj in tehnologij za obvladovanje kompleksnih (tj. relacijskih) podatkovij je še toliko večja, ker služijo kot osnova drugim znanstvenim področjem (npr. analizi semantičnega spleta, bioinformatiki, ekonomiji, jezikoslovju). Pomen vsebine predlaganega projekta vidimo v doseganju znanstvene odličnosti na področju odkrivanja zakonitosti iz literature, rudarjenja besedilnih podatkov, obvladovanja relacijskih podatkov in analize omrežij ter hkrati sooblikovanju svetovnih znanstvenih trendov na tem področju. Menimo, da bodo rezultati predlaganega projekta pomembno prispevali v svetovno zakladnico znanja s področja informacijskih tehnologij, k nadaljnji uveljavitvi slovenske znanosti na področju rudarjenja besedilnih podatkov, odkrivanja zakonitosti iz literature in analize omrežij v evropskem in tudi svetovnem merilu ter k prenosu znanstvenih dosežkov v prakso.

Pomen za razvoj Slovenije

The analysis of textual data worldwide is experiencing a remarkable upswing. On the one hand there is the easy availability of such data and the increasing processing capabilities, and on the other hand, there is the need of institutions and industry to deal with complex problem situations related to the understanding of complex systems. The importance of knowledge and technologies for managing complex (i.e., relational) datasets is even greater because they serve as a basis for other scientific fields (e.g., analysis of semantic Web, bioinformatics, economics, and linguistics). The significance of the contents of the proposed research is foreseen in the achievement of excellence in the field of literature-based discovery, text mining, managing relational data set, and network analysis. We strongly believe that the results of the proposed project will contribute significantly to the global knowledge in the field of information technologies, to a further establishment of Slovenian science in the field of text mining, literature-based discovery, and network analysis on the European and global scale and to the transfer of scientific knowledge into practice.

Odkrivanje zakonitosti iz literature kot pomoč pri interpretaciji podatkov pridobljenimi z metodami visokozmogljivega sekvenciranja

Zgodovina ogledov

Priljubljeno

Odkrivanje zakonitosti iz literature kot pomoč pri interpretaciji podatkov pridobljenimi z metodami visokozmogljivega sekvenciranja

Klasifikacija ARIS

Klasifikacija CERIF

Klasifikacija FORD

Zahtevana je potrditev

Zgodovina ogledov

Priljubljeno