Preuzeo sam bazu podataka iz proračunskog kalkulatora Vjetrenjače. Pohvale ekipi opet, ali da ih samo ne hvalimo par upita.
Zašto nedostaju krajnji (nakon svih promjena) proračunski deficit (ili suficit) za svakog korisnika? Isto za krajnje rashode i prihode? Te tri variable (obzervacije) su bitne. Ukazuju ne samo na postotke ljudi koji su htjeli viši ili niži deficit, već primjerice ako želimo istražiti koliko dob, stupanj obrazovanja i radno mjesto objašnjavaju promjene u rashodima, prihodima, deficitu. Koliko se krajnji deficit mjenja sa rashodima, koliko sa prihodima.
Bilo što što želite objasniti po kategoriji obratite pažnju da za nekih 324 obzervacija dobi nema, tj. =0. Primjerice, ako želimo saznati koliko su neke promjene prihodovnih ili rashodovnih stavki objašnjene godinama morate ukloniti nulu, inače su rezultati iskrivljeni. To naravno smanjuje broj obzervacija. Možda bi se moglo zahtjevati makar dob kao nužan odgovor prije snimanja ili općenito tražiti odgovore na anketna pitanja prije samog proračunskog kalulatora. (Znam da to ima neke nepoželjne poljedice.)
Vrlo dobro bi bilo opisati što određene brojke u anketnom djelu znače, tj. redizajnirati anketni odgovor da bude jasniji. Primjerice za level školovanja što znači 4 “ostalo”? Kako to interpretirati? Zamjenite sa visokim stupnjem obrazovanja – magisterij, doktorat tokom upita da znamo tko ima više od 4 godine fakulteta.
Nula kao stupanj obrazovanja je isto nekoristan u analizi, svatko ima neki stupanj obrazovanja pa 1 neka znači osnovnu ili manje. Isto za ostala anketna pitanja. U “Status” treba uključiti kao odgovor “umirovljenik” ne “ostalo.” Po dobi možemo saznati tko je ‘vjerojatno’ umirovljen, ali to je neprecizan indikator. A pošto je trećina zemlje umirovljena to je prilično važan indikator.
Općenito, nulu kao indikator odgovora potpuno izbacite i zamjenite sa 1, 2, 3, 4, 5 itd. u drugim anketnim pitanjima. To bi valjda značilo da pitanje ne može ostati neodgovoreno. Nula predstavlja smetnju pri izračunima, osim kad su odgovori da, ne (dummy variabla). Ostalo neka budu jasni odgovori sa interpretacijom, bez opcije “ostalo.”
Više informacija je bolje u ovom slučaju i cilj, među ostalima, bio bi analizirati i pokušati objasniti što bolje možemo željene promjene proračuna po određenim karakteristikam populacije. Odlično bi bilo ako bi za koji tjedan bilo još više snimljnih proračuna i baza naraste za još koju tisuću.
Za kraj samo jedan graf distribucije po dobi. (0 kao odgovor je uklonjena naravno). Primjerice, da imamo odgovor o krajnjem deficitu/suficitu mogli bi usporediti dvije variable i vidjeti kako se deficit da objasniti po dobi. Više će usljediti.
P.S. Zanimljivo je kako se prilikom empirijske analize nekih pitanja najviše vremena potroši na pronalaženju kvalitetnih podataka koja se onda relativno brzo analiziraju. Ovdje je situacija obrnuta – podatke imamo (sa nekim nužnim poboljšanjima) a možda i više podataka uskoro kako bi bili što više reprezentativni stanovništva hrvatske. Sad treba postavljati dobra pitanja i onda analizirati dostupne podatke.