Uporaba parapodatkov za ocenjevanje kakovosti odgovorov v anketah

Evidenčna št.

J5-9334 (C) - iz evidence ARIS

Vodja

dr. Vasja Vehovar

Obdobje

1.7.2018 - 30.6.2021

Obseg v 2021

0.75 FTE

Veda

Družboslovje (8)
Drugi (1)

Status raziskovalca

Raziskovalec (7)
Strokovni ali tehnični sodelavec (2)

Izobrazba

Doktorat znanosti (6)
Drugi (3)

Spol

Ženski (4)
Moški (5)

Status

Zaposlen v RO+RRD (8)
Upokojen (1)

Število publikacij

0 (1)
1–9 (1)
10–99 (3)
100–999 (4)

Projekti / Programi vir: ARIS

Uporaba parapodatkov za ocenjevanje kakovosti odgovorov v anketah

Raziskovalna dejavnost

Koda	Veda	Področje	Podpodročje
5.03.00	Družboslovje	Sociologija

Koda	Veda	Področje
S274	Družboslovje	Raziskovalna metodologija v znanosti

Koda	Veda	Področje
5.04	Družbene vede	Sociologija

Ključne besede

parapodatki, ankete, kvaliteta podatkov, spletne ankete

Vrednotenje (metodologija)

Vrednotenje bibliografskih kazalcev raziskovalne uspešnosti po metodologiji ARIS

Citiranost Citiranost bibliografskih zapisov v COBIB.SI, ki so povezani z zapisi citatnih baz

Organizacije (1) , Raziskovalci (9)

0582 Univerza v Ljubljani, Fakulteta za družbene vede

št.	Evidenčna št.	Ime in priimek	Razisk. področje	Vloga	Obdobje	Štev. publikacijŠtev. publikacij
1.	30704	dr. Jernej Berzelak	Sociologija	Raziskovalec	2018 - 2020	140
2.	34789	dr. Gregor Čehovin	Sociologija	Raziskovalec	2019 - 2021	66
3.	17913	dr. Katja Lozar Manfreda	Sociologija	Raziskovalec	2018 - 2021	191
4.	38368	dr. Miha Matjašič	Sociologija	Raziskovalec	2018 - 2021	69
5.	38051	Bojana Novak-Fajfar		Tehnični sodelavec	2018 - 2020	0
6.	29060	Ajda Petek	Sociologija	Raziskovalec	2018	29
7.	27574	dr. Andraž Petrovčič	Sociologija	Raziskovalec	2018 - 2021	349
8.	51405	Katja Trebežnik	Sociologija	Raziskovalec	2019	4
9.	10155	dr. Vasja Vehovar	Sociologija	Vodja	2018 - 2021	886

Povzetek

Tehnološki razvoj na področju anketiranja nenehno spodbuja zbiranje podatkov brez uporabe papirja in brez prisotnosti anketarja. Računalniško podprte ankete s samo-izpolnjevanjem (kjer prevladujejo spletne ankete) so cenovno ugodnejša, vendar potencialno ogroža kakovost podatkov. V tem kontekstu narašča vloga parapodatkov – podatkov o procesu zbiranja podatkov. Eden ključnih parapodatkov je podatek o času, ki ga anketiranec potrebuje, da odgovori na vprašanje. Skupaj z drugimi parapodatki (npr. premiki miške ipd.) parapodatki potencialno omogočajo identifikacijo anketirancev, ki odgovarjajo na neželen način (npr. prehitro) ali nekakovostno (npr. z netočnim odgovorom). Parapodatki so uporabni tudi pri evalvaciji merskega instrumenta in pri posegih, na primer z opozorilom prehitrim anketirancem. Za učinkovit zajem in obdelavo parapodatkov je potreben ustrezen pristop glede nivoja merjenja (postavka, vprašanje, stran, vprašalnik), metrike (statistične ali kognitivne metrike) in kriterijev za odstranitev enot z nizko kakovostjo odgovora (npr. 1 % najhitrejših). Preliminarni pregled literature in raziskovalnih praks (npr. spletni paneli) kaže, da so pristopi izredno raznoliki in tudi nedosledni. Posebej skrb vzbujajoča je odsotnost celostnega razumevanja razmerja med parapodatki, kakovostjo odgovora in učinki v primeru odstranitve anketirancev z visoko verjetnostjo nekakovostnega odgovora. S predlaganim projektom naslavljamo problem kakovosti podatkov računalniško podprtih anket, kar je izrednega pomena v metodologiji v družboslovnega raziskovanja. Vrzeli v razumevanju želimo zapolniti z doseganjem naslednjih ciljev: 1. zagotoviti nova znanja s sistematičnim pregledom literature in globalne raziskovalne prakse o uporabi parapodatkov; 2. poglobiti razumevanje odnosa med parapodatki, kakovostjo odgovora in učinki odstranitve enot z nizko kakovostjo odgovora; 3. razviti nove pristope za identifikacijo anketirancev, ki – sodeč po parapodatkih in podanih odgovorih – imajo odgovore nizke kakovosti, njihova odstranitev pa bi zvišala splošno kakovost zbranih podatkov; 4. razviti na parapodatkih temelječ nabor standardiziranih sestavljenih kazalcev, ki so povezani z anketirančevimi načinom odgovarjanja, kakovostjo odgovorov in njegovimi družbenimi in psihološkimi lastnostni, z namenom obogatitve anketnih podatkov. Zgoraj navedeni cilji bodo doseženi s preučevanjem spletnih anket, kjer so bili zajeti podrobni parapodatki in so bila v njih uporabljena tudi specifična metodološka vprašanja. Med njimi je anketa European Social Survey online panel (CRONOS 2017). Dodatno bodo izvedene tri namenske študije v sodelovanju z vodilnim slovenskim ponudnikom spletnega panela (npr. Valicon), z globalnim ponudnikom panela (npr. SurveyMonkey) in z lastno študijo ne-panelnih respondentov. Del raziskovanja bo vključeval tudi meta-študijo približno 100,000 spletnih anket, izvedenih s platformo 1KA. Projekt izvaja raziskovalna skupina, ki ima pionirski status na področju metodologije spletnih anket (od leta 1996). Poleg publikacij (posebej monografija Callegaro, Lozar-Manfreda in Vehovar: Web survey methodology, 2015, Sage), je skupina mednarodno poznana po osrednjem viru o metodologiji spletnih anket (WebSM) in odprtokodni raziskovalni platformi 1KA. Cilji projekta so zelo ambiciozni, saj niso usmerjeni le na novo znanje, ampak tudi na razjasnitev protislovnih vidikov s področja parapodatkov (cilj 1 in 2). Cilj pa je tudi oblikovanje standardov na področju anketnega raziskovanja (cilj 3 in 4), kar bo omogočilo preboj na področju večje kakovosti podatkov. Zagotovilo, da bodo ambiciozni cilji doseženi, so dosedanji dosežki raziskovalne skupine in visoka kompetenca znanstvenega svetovalnega telesa, sestavljenega iz vodilnih raziskovalcev s tega področja: Mick Couper (Univerza v Michiganu), Michael Bosnjak (Univerza v Trierju), Frauke Kreuter (Univerza v Marylandu) Jon Krosnick (Univerza Stanford).

Pomen za razvoj znanosti

Glede parapodatkov v anketah se trenutno pojavlja veliko vprašanj, njihov potencial pa še ni v celoti raziskan, vsaj ne na operativnem nivoju, ki podpira masovno in standardizirano uporabo. Po eni strani so parapodatki obširno raziskovani in preučevani v različnih specifičnih študijah, po drugi strani pa še vedno niso splošno uveljavljeni in se ne uporabljajo kot standardna komponenta računalniškega zbiranja podatkov.

S predlaganim projektom želimo med prvimi razviti celovito metodologijo za splošno in standardizirano uporabo parapodatkov v anketnem procesu. Predlagani projekt torej ponuja nove možnosti izboljšav v anketni metodologiji in tako predstavlja osrednjo vlogo za inovacije v metodologiji družboslovnih znanosti na splošno. 

Natančneje, projekt na podlagi novega znanja zagotavlja temelje za nove rešitve, ki imajo potencial, da postanejo standardi v industriji:  
• Čiščenje podatkov je postopek v procesu priprave podatkov in obsega večji nabor procedur. Ena od njih je povezana s procesom odstranjevanja anketirancev, pri katerih so zbrani podatki potencialno prenizke kakovosti (npr. zaradi prehitrega reševanja vprašalnika). Žal se trenutne procedure čiščenja podatkov ne opirajo na parapodatke. Ko se, pa obstaja veliko različnih pristopov, ki se kažejo v kontradiktornih rezultatih. Projekt bo torej zagotovil temelje za razvoj novega in optimiziranega pristopa za prepoznavanje anketirancev, ki (z veliko verjetnostjo) podajajo odgovore nesprejemljivo nizke kakovosti, in bi jih bilo morda bolje odstraniti.
• Bogatenje podatkov se nanaša na podatke o anketnih odgovorih, ki se lahko dopolnijo s standardiziranim naborom na parapodatkih temelječih kazalcev. Ti dodatni podatki morajo biti povezani s kvaliteto odgovorov in tudi z vedenjskimi in psihološkimi značilnostmi anketirancev. Projekt bo torej natančno proučil navedene odnose. Na podlagi pridobljenih rezultatov bo potencial velike količine informacij, ki izvirajo iz parapodatkov, v celoti izkoriščen, vendar v zgoščeni obliki manjšega števila kazalnikov, ki so ključni za oceno kakovosti podatkov in tudi za vsebinsko uporabo. Ocenjujemo, da bo običajen obseg standardnih parapodatkov lahko predstavljen z ne več kot 10 sestavljenimi kazalci. 

S tem projektom bo prototip rešitve za avtomatsko identificiranje razvit tudi znotraj odprtokodnega orodja za spletno anketiranje 1KA.

Problem, ki je obravnavan v projektu, je tesno povezan z razvojem v metodologiji družboslovnih znanosti, vključno z analizo masovnih podatkov (ang. Big data), merjenjem na osnovi digitalnih sledi, potenciali zbiranja anketnih podatkov povezanih z “medmrežjem stvari” (ang. Internet of things), analizo v spletnih družbenih omrežjih ter potenciali zajetja in uporabe naprednih oblik anketnih parapodatkov, povezanimi z lastnostmi okolja anketnega zbiranja podatkov z mobilnimi napravami.

Pomen za razvoj Slovenije

Paradata in surveys are currently in a certain dilemma, with their potentials still not fully recognised, at least not in an operational manner supporting massive and standardised use. On one hand, they are extensively researched and examined in several specific studies while, on the other hand, they remain not fully accepted and used as a standard component of computerised survey data collection.

This project will be one of the first to develop a comprehensive methodology for the general and standardised exploitation of survey paradata. With this, the project is at the forefront of innovation in survey methodology, hence also representing a valuable improvement in social science methodology in general. 

More specifically, the project also provides grounds for new solutions with the prospect of becoming a foundation for corresponding survey industry standards:
• Data cleaning is a procedure in the post-survey adjustment process and it includes several tasks. One relates to the process of removing respondents with potentially high probability for response quality to be unacceptably low (e.g. due to speeding). However, current data cleaning procedures very often do not rely on the paradata at all. Even when they do, many different approaches exist, sometimes with contradictory results. This project will provide the basis for developing a new optimised approach for identifying respondents with a high probability of unacceptably low response quality, which may be better to be removed. 
• Data augmentation relates to survey response data, which can be added with a standardised set of paradata-based compound indicators. This added information need to be correlated with the response quality and also with the behavioural and psychological characteristics of the respondents. The project will study in detail these relations. Based on these results, large amount of information contained in paradata will be fully exploited, but extracted to produce a handful of indicators relevant to the data quality evaluations and also to the substantive use. We estimate that this set of paradata-based compound indicators will have roughly around 10 dimensions. 

Within this project, prototypes with the implementation of above mentioned solutions will be developed within the open-source platform for web surveys – 1KA, so that contributions will be easily evaluated and exploited.

The project’s scope is also closely related to other emerging developments in social science methodology, including analysis of large datasets (‘big data’), measurements based on the digital footprints, survey data collection related to the Internet of Things, analysis of activities in online social networks and collection of ambient characteristics related to the mobile survey data collection.

Najpomembnejši znanstveni rezultati

Vmesno poročilo

Najpomembnejši družbeno–ekonomsko in kulturno relevantni rezultati

Uporaba parapodatkov za ocenjevanje kakovosti odgovorov v anketah

Zgodovina ogledov

Priljubljeno

Uporaba parapodatkov za ocenjevanje kakovosti odgovorov v anketah

Klasifikacija ARIS

Klasifikacija CERIF

Klasifikacija FORD

Zahtevana je potrditev

Zgodovina ogledov

Priljubljeno