Nalaganje ...
Projekti / Programi vir: ARIS

Odkrivanje zakonitosti iz literature kot pomoč pri interpretaciji podatkov pridobljenimi z metodami visokozmogljivega sekvenciranja

Raziskovalna dejavnost

Koda Veda Področje Podpodročje
5.13.00  Družboslovje  Informacijska znanost in bibliotekarstvo   

Koda Veda Področje
H100  Humanistične vede  Dokumentalistika, informacijska znanost, bibliotekarstvo, arhivistika 

Koda Veda Področje
5.08  Družbene vede  Mediji in komunikacije 
Ključne besede
informacijska znanost; rudarjenje besedil; odkrivanje zakonitosti iz literature; sistem za podporo kliničnemu diagnosticiranju
Vrednotenje (pravilnik)
vir: COBISS
Raziskovalci (13)
št. Evidenčna št. Ime in priimek Razisk. področje Vloga Obdobje Štev. publikacijŠtev. publikacij
1.  50804  Gaber Bergant  Reprodukcija človeka  Raziskovalec  2019 - 2022  23 
2.  54468  Tomaž Bratanič    Tehnični sodelavec  2020 - 2022 
3.  22621  dr. Polonca Ferk  Metabolne in hormonske motnje  Raziskovalec  2019 - 2020  142 
4.  11373  dr. Dimitar Hristovski  Računalništvo in informatika  Vodja  2019 - 2022  152 
5.  26484  dr. Andrej Kastrin  Medicina  Raziskovalec  2020 - 2022  151 
6.  10467  dr. Matevž Kovačič  Medicina  Raziskovalec  2021 - 2022  14 
7.  30697  dr. Anja Kovanda  Nevrobiologija  Raziskovalec  2019 - 2022  77 
8.  15355  dr. Branimir Leskošek  Javno zdravstvo (varstvo pri delu)  Raziskovalec  2019 - 2020  182 
9.  33230  dr. Nina Ružić Gorenjec  Matematika  Raziskovalec  2019 - 2020  52 
10.  08992  dr. Janez Stare  Javno zdravstvo (varstvo pri delu)  Raziskovalec  2019 - 2020  279 
11.  54467  Petar Statevski    Tehnični sodelavec  2020 - 2022 
12.  36368  dr. Marko Vidak  Medicina  Raziskovalec  2019 - 2020  24 
13.  56196  dr. Klemen Žiberna  Medicina  Raziskovalec  2022  28 
Organizacije (2)
št. Evidenčna št. Razisk. organizacija Kraj Matična številka Štev. publikacijŠtev. publikacij
1.  0381  Univerza v Ljubljani, Medicinska fakulteta  Ljubljana  1627066  48.720 
2.  0312  Univerzitetni klinični center Ljubljana  Ljubljana  5057272000  77.921 
Povzetek
Odkrivanje zakonitosti iz literature je tehnologija rudarjenja besedil za samodejno generiranje razsikovalnih domnev. Glavni cilj OZL je odkrivanje implicitnih, v literaturi še ne opisanih, povezav med znanstvenimi koncepti v obstoječi strokovni literaturi (domeni znanja). Osnovna zamisel pristopa OZL narekuje obstoj dveh, med seboj nepovezanih, znanstvenih domen. Koncepti znanja v prvi domeni so sicer lahko povezani s koncepti znanja v drugi domeni, cendar so te relacije implicitne. Sekvenciranje naslednje generacije (NGS) je termin, ki se nanaša tehnologijo za množično paralelno sekvenciranje, kar omogoča pregled celotnega genoma v razumnem časovnem okviru. Razvoj NGS tehnologij je omogočil razširjeno uporabo sekvenciranja DNA, tudi v klinične namene, hitreje in ceneje kot s predhodno uporabljenimi metodami. To je omogočilo obsežno uporabo sekvenciranja, tako v klinični praksi, kot tudi v raziskovalne namene, kar je vodilo v hiter razvoj genomskih znanosti. V klinični genetiki tako ozko grlo velikokrat ni sekvenciranje z uporabo tehnologij NGS samo, vendar kasnejša zmožnost procesiranja in, še toliko bolj, interpretacija velike količine podatkov, katerih obseg je velikokrat slabo predstavljiv. V tem projektu predlagamo nov pristop k interpretaciji NGS rezultatov, temelječ na metodologiji OZL. Glavni raziskovalni problem, ki ga bomo rešili v okviru predlaganega projekta, sestavljajo naslednje komponente: (i) teoretična analiza bibliografske zbirke MEDLINE/PubMed in zbirke semantičnih relacij SemMedDB kot omrežij biomedicinskih konceptov, ki bi lahko pripomogla k boljšemu razumevanju lastnosti, pomembnih za razumevanje interpretacije NGS podatkov s pomočjo metodologije OZL; (ii) razvoj teoretskega okvira in podatkovnega modela za interpretacijo NGS podatkov s pomočjo metodologije OZL; (iii) razvoj odprtokodne spletne aplikacije za sodejno (interaktivno) interpretacijo NGS podatkov s pomočjo OZL, ki bo služila kot klinično diagnostično orodje za podporo odločanju; (iv) razvoj metodologije za filtriranje napačno-pozitivnih relacij v procesu OZL s pomočjo uporabe orodij strojnega učenja; (v) prevedba procesa OZL na problem napovedovanja povezav v heterogenih omrežjih ter (vi) validacija razvite metodologije s strani domenskih ekspertov. Hkrati obravnavamo podatke enega pacienta. Vhod algoritma predstavljata dve množici podatkov, genotip z genetskimi različicami in fenotip, kot ga je opisal klinični genetik. Genotip X vsebuje gene z mutacijami, ki jih pridobimo na osnovi sekvenciranja z NGS. Fenotip Z vsebuje klinične lastnosti na osnovi ontologije humanega fenotipa. Relevantna podatkovja bomo predstavili v grafovski podatkovni zbirki Neo4j. Grafovska zbirka vsebuje dva glavna tipa vozlišč, paciente in koncepte različnih tipov, vključno s fenotipom, geni, proteini, celičnimi funkcijami, genetskimi boleznimi ter drugimi biomedicinskimi tipi. Zgrajeno omrežje povezav se ponaša z različnimi tipi povezav. Relacija PHENO tako povezuje paciente z ustreznimi vozlišči, ki se nanašajo na fenotip, relacija GENO pa povezuje paciente z ustreznimi mutiranimi geni. Poleg tega v omrežje vključimo 30 različnih tipov semantičnih relacij, kot jih izlušči orodje SemRep iz bibliografske zbirke MEDLINE. Izhod algoritma predstavlja množica relevantnih vmesnih konceptov Y (kot so npr. Genetske funkcije ali bolezni), ki povezujejo genotip X s fenotipom Z. Y koncepti predstavljajo nove raziskovalne domneve, ki pojasnjujejo mehanizme novih relacij med genotipom in fenotipom. Predlagan projekt bo formaliziral in dodatno okrepil naše dolgoletno raziskovalno delo na področju OZL.
Pomen za razvoj znanosti
Analiza besedilnih podatkov doživlja v svetu izjemen razmah predvsem zaradi lahke dostopnosti tovrstnih podatkov in čedalje večjih računskih zmogljivosti po eni strani, po drugi strani pa zaradi potreb inštitucij in industrije po obvladovanju problemskih situacij povezanih z razumevanjem kompleksnih sistemov. Pomembnost znanj in tehnologij za obvladovanje kompleksnih (tj. relacijskih) podatkovij je še toliko večja, ker služijo kot osnova drugim znanstvenim področjem (npr. analizi semantičnega spleta, bioinformatiki, ekonomiji, jezikoslovju). Pomen vsebine predlaganega projekta vidimo v doseganju znanstvene odličnosti na področju odkrivanja zakonitosti iz literature, rudarjenja besedilnih podatkov, obvladovanja relacijskih podatkov in analize omrežij ter hkrati sooblikovanju svetovnih znanstvenih trendov na tem področju. Menimo, da bodo rezultati predlaganega projekta pomembno prispevali v svetovno zakladnico znanja s področja informacijskih tehnologij, k nadaljnji uveljavitvi slovenske znanosti na področju rudarjenja besedilnih podatkov, odkrivanja zakonitosti iz literature in analize omrežij v evropskem in tudi svetovnem merilu ter k prenosu znanstvenih dosežkov v prakso.
Pomen za razvoj Slovenije
The analysis of textual data worldwide is experiencing a remarkable upswing. On the one hand there is the easy availability of such data and the increasing processing capabilities, and on the other hand, there is the need of institutions and industry to deal with complex problem situations related to the understanding of complex systems. The importance of knowledge and technologies for managing complex (i.e., relational) datasets is even greater because they serve as a basis for other scientific fields (e.g., analysis of semantic Web, bioinformatics, economics, and linguistics). The significance of the contents of the proposed research is foreseen in the achievement of excellence in the field of literature-based discovery, text mining, managing relational data set, and network analysis. We strongly believe that the results of the proposed project will contribute significantly to the global knowledge in the field of information technologies, to a further establishment of Slovenian science in the field of text mining, literature-based discovery, and network analysis on the European and global scale and to the transfer of scientific knowledge into practice.
Zgodovina ogledov
Priljubljeno