Preliminarno o bazi proračunskog kalkulatora

autora/ice cronomy

Preuzeo sam bazu podataka iz proračunskog kalkulatora Vjetrenjače. Pohvale ekipi opet, ali da ih samo ne hvalimo par upita.

Zašto nedostaju krajnji (nakon svih promjena) proračunski deficit (ili suficit) za svakog korisnika? Isto za krajnje rashode i prihode? Te tri variable (obzervacije) su bitne. Ukazuju ne samo na postotke ljudi koji su htjeli viši ili niži deficit, već primjerice ako želimo istražiti koliko dob, stupanj obrazovanja i radno mjesto objašnjavaju promjene u rashodima, prihodima, deficitu. Koliko se krajnji deficit mjenja sa rashodima, koliko sa prihodima.

Bilo što što želite objasniti po kategoriji obratite pažnju da za nekih 324 obzervacija dobi nema, tj. =0. Primjerice, ako želimo saznati koliko su neke promjene prihodovnih ili rashodovnih stavki objašnjene godinama morate ukloniti nulu, inače su rezultati iskrivljeni. To naravno smanjuje broj obzervacija. Možda bi se moglo zahtjevati makar dob kao nužan odgovor prije snimanja ili općenito tražiti odgovore na anketna pitanja prije samog proračunskog kalulatora. (Znam da to ima neke nepoželjne poljedice.)

Vrlo dobro bi bilo opisati što određene brojke u anketnom djelu znače, tj. redizajnirati anketni odgovor da bude jasniji. Primjerice za level školovanja što znači 4 “ostalo”? Kako to interpretirati? Zamjenite sa visokim stupnjem obrazovanja – magisterij, doktorat tokom upita da znamo tko ima više od 4 godine fakulteta.

Nula kao stupanj obrazovanja je isto nekoristan u analizi, svatko ima neki stupanj obrazovanja pa 1 neka znači osnovnu ili manje. Isto za ostala anketna pitanja. U “Status” treba uključiti kao odgovor “umirovljenik” ne “ostalo.” Po dobi možemo saznati tko je ‘vjerojatno’ umirovljen, ali to je neprecizan indikator. A pošto je trećina zemlje umirovljena to je prilično važan indikator.

Općenito, nulu kao indikator odgovora potpuno izbacite i zamjenite sa 1, 2, 3, 4, 5 itd. u drugim anketnim pitanjima. To bi valjda značilo da pitanje ne može ostati neodgovoreno. Nula predstavlja smetnju pri izračunima, osim kad su odgovori da, ne (dummy variabla). Ostalo neka budu jasni odgovori sa interpretacijom, bez opcije “ostalo.”

Više informacija je bolje u ovom slučaju i cilj, među ostalima, bio bi analizirati i pokušati objasniti što bolje možemo željene promjene proračuna po određenim karakteristikam populacije. Odlično bi bilo ako bi za koji tjedan bilo još više snimljnih proračuna i baza naraste za još koju tisuću.

Za kraj samo jedan graf distribucije po dobi. (0 kao odgovor je uklonjena naravno). Primjerice, da imamo odgovor o krajnjem deficitu/suficitu mogli bi usporediti dvije variable i vidjeti kako se deficit da objasniti po dobi. Više će usljediti.

P.S. Zanimljivo je kako se prilikom empirijske analize nekih pitanja najviše vremena potroši na pronalaženju kvalitetnih podataka koja se onda relativno brzo analiziraju. Ovdje je situacija obrnuta – podatke imamo (sa nekim nužnim poboljšanjima) a možda i više podataka uskoro kako bi bili što više reprezentativni stanovništva hrvatske. Sad treba postavljati dobra pitanja i onda analizirati dostupne podatke.

3 komentara to “Preliminarno o bazi proračunskog kalkulatora”

  1. thanks na pohvalama, doista smo zadovoljni obavljenim poslom

    a da odmah par stvari objasnim,
    kao prvo kako smo bili zatečeni sa slanjem proračuna (poslali su ga 14 dana prije uobičajenog roka) jednostavno smo programirali dok je aplikacija već bila na netu, prvi dan kada smo prikupili nekih 30.000 posjeta snimanje proračuna nije radilo, a u utorak smo opet imali problem sa snimanjem jer je zbog prevelikog interesa server potrošio svoju kvotu na disku i nije dopuštao snimanje u bazu (znam, amaterska greška ali to mi doista nije palo na pamet – žrtva vlastitog uspjeha)

    što se tiče anketnih podataka, priznajem da nisu baš najbolje riješeni i da ima mjesta nedoumicama (nekako sam mislio da će sama činjenica gdje se slider nalazi dati do znanja na što se mislilo) a kako za te slidere nismo na kraju napisali uputstva ostalo je visiti

    no poanta i generalni princip je tu; anketa po definiciji nažalost ne može biti reprezentativna ali mislim da je unatoč tome sigurnost djelomice u brojevima i da se neki zaključci moraju moći izvući

    slijedeći zadatak je mirovinski sustav 🙂

  2. Hvala na pohvalama i konstruktivnim komentarima.

    Kako ih na vrijeme nismo snimali u bazu, ukupne prihode i rashode na žalost je moguće izračunati isključivo ručno. Planiram to za najzanimljivije kategorije učiniti tijekom ovog tjedna. No unatoč tome, momci iz Videodroma su tijekom tog suludog vikenda odradili lavovski posao.

    Sve primjedbe zapisujemo i već sada planiramo poboljšanja za iduću godinu. Osim tehničkih poboljšanja (npr. unos godina) u kalkulator planiramo dodati primarni deficit te uvesti dodatne veze (npr. veza stope doprinosa i bruto plaća u rashodima). Želja nam je povećati razradu po ministarstvima i vrsti troška.

  3. Pretpostavljam da se proračuni još snimaju, pa kako baza odgovora raste svakako dodajte neka poboljšanja tj. uključite ukupne prihode, rashode i krajnji deficit u sljedeću veću bazu. Anketu poboljšajte za sljedeću godinu, šta je tu je valjda.
    (Npr. možda bi spol mogli isprogramirati jer bi spol trebao biti ili 0 ili 1, kao što je uobičajeno, ne 0, 1, 2.)
    Primarni deficit je isto dobrodošao za sljedeću godinu, ali sada svakako treba registirati krajnji deficit, rashod i prihod jer se baza onda može bolje iskoristiti za možebitnu ekonometrijsku analizu. I ručni update je poboljšanje. Valjda neće uzeti cijeli tjedan. 😉

%d blogeri kao ovaj: