Globoko generativno modeliranje izgleda v vizualnem sledenju

Evidenčna št.

Z2-1866 (B) - iz evidence ARIS

Vodja

dr. Luka Čehovin Zajc

Obdobje

1.7.2019 - 28.2.2022

Obseg v 2022

0.5 FTE

Veda

Tehnika (1)

Status raziskovalca

Raziskovalec (1)
Strokovni ali tehnični sodelavec (0)

Izobrazba

Doktorat znanosti (1)

Spol

Moški (1)

Status

Zaposlen v RO+RRD (1)

Število publikacij

100–999 (1)

Projekti / Programi vir: ARIS

Globoko generativno modeliranje izgleda v vizualnem sledenju

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
2.07.07	Tehnika	Računalništvo in informatika	Inteligentni sistemi - programska oprema

Koda	Veda	Področje
P176	Naravoslovno-matematične vede	Umetna inteligenca

Koda	Veda	Področje
1.02	Naravoslovne vede	Računalništvo in informatika

Ključne besede

računalniški vid, visualno sledenje, generativno modeliranje, umetne nevronske mreže

Vrednotenje (metodologija)

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

Organizacije (1) , Raziskovalci (1)

1539 Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	29381	dr. Luka Čehovin Zajc	Računalništvo in informatika	Vodja	2019 - 2022	146

Povzetek

Napovedovanje stanja objekta (npr. poze) v video tokovih je eno izmed temeljnih raziskovalnih vprašanj računalniškega vida, Če vemo, kje je objekt ob danem času, lahko to omogoči avtonomnemu vozilu izogibanje se oviram, lahko nadzorni sistem opozori, če starejša oseba pade doma, lahko analiziramo igro v profesionalnem športu, odkrijemo obnašanje živali ali pa se preko sledenja robot uči novih konceptov. Vendar pa obstajajo številni odprti izzivi, ki jih je treba rešiti, da bi razvili splošno metodo za vizualno sledenja, ki je sposobna robustno obravnavati zgoraj opisane scenarije. Če se osvetlitev spremeni, objekt delno zakrije ali pa se objekt deformira, npr. premakne svoje dele (npr. človekove ude), to povzroči spremembe v videzu, ki jih je težko razložiti s preprostimi slikovnimi transformacijami. Po drugi strani pa ljudje lahko rešujemo kompleksne situacije sledenja tako, da se zanašamo na velikansko količino znanja o svetu, ki se nabere skozi vseživljenjsko učenje. To znanje vsebuje informacije o kategorijah objektov, njihovih možnih deformacijah in variacijah videza, ki so ključnega pomena za ohranitev stabilne predstavitve objekta med sledenjem. Na podlagi te opazke ter uspeha paradigme globokega učenja je glavni raziskovalni cilj tega projekta konstrukcija globokih generativnih modelov videza objekta, ki bodo primerni za uporabo v vizualnem sledenju. Želimo določiti preslikavo med slikovno predstavitvijo in visokodimenzionalnim latentnim prostorom, ki bo strukturiral spremembe videza različnih objektov na način, ki bi bil uporaben pri scenarijih vizualnega sledenja, tj. ko imamo dostop do omejene količine zaupanja vrednih primerov izgleda objekta in bi jih radi posplošili s predhodnim znanjem. Delo bo razdeljeno na štiri delovne sklope: DS1 (Generativni modeli umetnih nevronskih mrež za modeliranje izgleda), DS2 (Generativni modeli videza v vizualnem sledenju), DS3 (Zajem podatkov za učenje in testiranje), DS4 (Diseminacija). To je podoktorski projekt, na katerem bo delal le en raziskovalec. Prijavitelj je član Laboratorija za vizualne kognitivne sisteme (ViCoS) in je objavil številne članke v najboljših revijah na področju računalniškega vida ter na pomembnih konferencah s področja računalniškega vida. Njegove raziskave so večinoma povezanih z vizualnim sledenjem, a ima tudi pomembne izkušnje na drugih področjih računalniškega vida. Je eden od ustanoviteljev največjega tekmovanja na področju vizualnega sledenja in ima odličen vpogled v aktualno stanje na tem področju, kar bo ključno pri razvoju novih algoritmov.

Pomen za razvoj znanosti

Predlagani projekt je temeljni raziskovalni projekt z visokim tveganjem in visokim dobičkom.  Predstavljena raziskovalna vprašanja so izjemno relevantna in izvirna. Generativne nevronske mreže so živahno raziskovalno področje z mnogimi odprtimi izzivi. Uporaba generativnih globokih nevronskih mrež v okviru vizualnega sledenja je v celoti neraziskano področje. Interakcija med diskriminativno in generativno komponento v vizualnem sledenju je tudi neraziskana. Dolgoročno sledenje, t.j. sledenje objektov zelo dolgo časa in med izginotji iz slike, je prav tako manj raziskano področje vizualnega sledenja, ki počasi pridobiva na zagonu. Jasno je, da taki scenariji sledenja potrebujejo stabilno predstavitev izgleda, ki se lahko izboljša tekom sledenja z novimi podatki. To pa je cilj predlaganega projekta.

Potencialni vpliv projekta je precejšen in presega zgolj področje vizualnega sledenja. Iz stališča dolgoročnega razvoja računalniškega vida lahko generativni modeli povežejo več ločenih opravil, npr. detekcijo, klasifikacijo, segmentacijo in sledenje v skupen okvir. To je v skladu z nedavnimi raziskavami v smeri večopravilnega učenja globokih nevronskih mrež. Kratkoročno bi vpeljava globokih generativnih modelov v vizualno sledenje izboljšala robustnost metod in odprla nove smeri raziskav. Iz stališča aplikacij bi bilo mogoče razvite metode uporabiti npr. v robotiki za boljše zaznavanje, v multimediji za semantično segmentacijo v videu, v obogateni resničnosti za bolj natančno lokalizacijo predmetov, itd. Rezultati projekta bodo objavljeni na pomembnejših konferencah in v revijah s področja računalniškega vida.

Pomen za razvoj Slovenije

The proposed project is a basic research high-risk/high-gain project. The research challenges of the project are highly relevant and novel. Generative neural networks are a vibrant research domain with many open research questions. The application of generative deep network architectures to the problem of visual tracking is a nearly unexplored territory. The interaction between a discriminative and generative component for visual tracking has also not been explored. Long-term tracking, i.e. tracking an object for very long time, possibly through occlusions and out-of-view disappearances, is also a less-explored research area that is slowly gaining momentum. It is clear that such tracking scenarios require a stable appearance representation that can be refined with new data as it is available. This is what this project aims to achieve.

The potential impact of the project is significant and transcends visual tracking alone.  From the point of long-term computer vision development, generative models can bring together several separated tasks, e.g. detection, classification, segmentation and tracking into a joint framework. This goes in line with the recent introduction of a multi-task learning of deep neural networks. In the short-run the introduction of deep generative models into visual tracking will improve stability of trackers and open new research directions for the field. From the application standpoint, the methods developed within the project could be extended and used in robotics for better object perception, in multimedia applications for improved object segmentation, in augmented reality for more accurate object localisation to name just a few. The results of the proposed project will also be published at major conferences and journals in the field of computer vision.

Najpomembnejši znanstveni rezultati

Vmesno poročilo

Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati

Vmesno poročilo

Globoko generativno modeliranje izgleda v vizualnem sledenju

Zgodovina ogledov

Priljubljeno

Globoko generativno modeliranje izgleda v vizualnem sledenju

Klasifikacija ARIS

Klasifikacija CERIF

Klasifikacija FORD

Zahtevana je potrditev

Zgodovina ogledov

Priljubljeno