metode de tratare a non-răspunsurilor

5
Curs 6 Metode de tratare a non-răspunsurilor A. Metoda eliminării complete Metoda constă în înlăturarea tuturor unităţilor ce conţin valori lipsă. Este considerată una din cele mai utilizate metode în special pentru sondajele ce nu necesită asigurarea unui nivel ridicat de reprezentativitate. Această metodă presupune că dacă în momentul aplicării unei metode de analiză pentru un set de variabile există unităţi ce conţin valori lipsă acestea vor fi înlăturate. Deşi este frecvent utilizată si permite aplicarea imediată a metodelor de analiză această metodă prezintă următoarele dezavantaje: 1. În primul rând, odată cu ştergerea unităţilor ce conţin valori lipsă mărimea eşantionului disponibil se reduce simţitor fapt ce determină o scădere a preciziei estimaţiei; 2. este posibil ca indivizii cărora le corespund valorile lipsă (ce urmează să fie înlăturaţi din baza de date) să fie foarte diferiţi de cei rămaşi. Acest lucru va face ca estimatorii rezultaţi să fie puternic deplasaţi; 3. În schemele sondajelor complexe fiecărui individ îi este atribuită o greutate (pondere) ce poate reflecta printre altele şi probabilitatea cu care a fost selectată unitatea. Ştergerea din bază a unităţilor ce conţin valori lipsă este foarte probabil să invalideze schema de ponderare. B. Metoda imputaţiilor Metoda imputaţiilor este o metodă empirică foarte frecvent utilizată pentru tratarea non-răspunsurilor parţiale. Notăm cu y ij răspunsul pe care îl dă individului i din eşantionul E la întrebarea j (i=1,..,n, j=1,... ,p). Concentrându-ne asupra individul i din eşantion constatăm că vectorului (y i1 , ...., y ip ), format din răspunsurile la întrebările din chestionar, îi lipsesc unele componente (non-răspunsurile). Fiecare poziţie de coordonate (i,j) trebuie tratată separat, prin crearea unei valori y’ ij numită ’’valoare atribuită’’ sau ’’imputaţie’’. Această înlocuire se poate face sub următoarele forme: 1. Imputaţia deductivă se referă la acele situaţii (rare în practică) în care se poate stabili valoarea corectă printr-o deducţie logică. Este vorba de o modalitate deterministă de a corecta datele incorecte sau nevalidate. În acest caz y’ ij = y ij.

Upload: lucianb12

Post on 03-Oct-2015

14 views

Category:

Documents


6 download

DESCRIPTION

Metode de tratare a non-răspunsurilor

TRANSCRIPT

Curs 6

Curs 6

Metode de tratare a non-rspunsurilor

A. Metoda eliminrii complete

Metoda const n nlturarea tuturor unitilor ce conin valori lips. Este considerat una din cele mai utilizate metode n special pentru sondajele ce nu necesit asigurarea unui nivel ridicat de reprezentativitate.

Aceast metod presupune c dac n momentul aplicrii unei metode de analiz pentru un set de variabile exist uniti ce conin valori lips acestea vor fi nlturate.

Dei este frecvent utilizat si permite aplicarea imediat a metodelor de analiz aceast metod prezint urmtoarele dezavantaje:

1. n primul rnd, odat cu tergerea unitilor ce conin valori lips mrimea eantionului disponibil se reduce simitor fapt ce determin o scdere a preciziei estimaiei;

2. este posibil ca indivizii crora le corespund valorile lips (ce urmeaz s fie nlturai din baza de date) s fie foarte diferii de cei rmai. Acest lucru va face ca estimatorii rezultai s fie puternic deplasai;

3. n schemele sondajelor complexe fiecrui individ i este atribuit o greutate (pondere) ce poate reflecta printre altele i probabilitatea cu care a fost selectat unitatea. tergerea din baz a unitilor ce conin valori lips este foarte probabil s invalideze schema de ponderare.

B. Metoda imputaiilor

Metoda imputaiilor este o metod empiric foarte frecvent utilizat pentru tratarea non-rspunsurilor pariale.

Notm cu yij rspunsul pe care l d individului i din eantionul E la ntrebarea j (i=1,..,n, j=1,... ,p). Concentrndu-ne asupra individul i din eantion constatm c vectorului (yi1, ...., yip), format din rspunsurile la ntrebrile din chestionar, i lipsesc unele componente (non-rspunsurile). Fiecare poziie de coordonate (i,j) trebuie tratat separat, prin crearea unei valori yij numit valoare atribuit sau imputaie. Aceast nlocuire se poate face sub urmtoarele forme:

1. Imputaia deductiv se refer la acele situaii (rare n practic) n care se poate stabili valoarea corect printr-o deducie logic. Este vorba de o modalitate determinist de a corecta datele incorecte sau nevalidate. n acest caz yij = yij.2. Imputaia predictiv prin mediere global se realizeaz nlocuind non-rspunsul de pe poziia (i,j) cu media rspunsurilor care au fost obinute la ntrebarea j. n acest caz avem:

unde r este numrul rspunsurilor valide la ntrebarea j.

Avantajul acestei metode este c nlocuirea valorii lips se face cu o valoare probabil ceea ce i d un oarecare grad de stabilitate. Dac exist muli respondeni care nu au rspuns la ntrebarea j vom folosi pentru toi aceeai imputaie. Este clar c se produce o subevaluare sever a dispersiei estimatorului pentru media sau totalul caracteristicii yj.

n cazul n care caracteristica este reprezentat pe o scal de intervale sau proporional calcularea media aritmetic se va nlocui cu o medie de poziie (mediana n cazul unei variabile ordinale sau modulul pentru variabilele nominale).

3. Imputaia predictiv prin mediere pe clase este similar imputaiei predictive prin mediere global, cu deosebirea c nu se utilizeaz o singur imputaie, ci mai multe corespunztoare unor clase n care a fost mprit mulimea respondenilor. Astfel, partiionm mulimea respondenilor r la ntrebarea j n q clase disjuncte. Identificm clasa cruia i aparine individul i construim imputaia:

unde t ia valorile 1,..,q iar k este numrul de respondeni din clasa respectiv.

Utilizarea acestui tip de imputaie reduce gradul de subestimare a dispersiei estimatorului.

O variant a acestei metode este imputaia calculat ca medie a valorilor vecinilor valorii lips. Aceast metod poate fi implementat automat i sub softwareurile statistice specializate, avnd posibilitatea selectrii tipului de medie pe baza creia se va calcula imputaia i a numrului de vecini ce vor forma baza de calcul.

4. Imputaia hot-deck. Este utilizat la scar larg deoarece, spre deosebire de imputaia prin mediere global sau pe clase, evit subestimarea dispersiei estimatorului. Pentru aplicarea acestei metode se parcurg urmtoarele etape:Etapa1: fiierul ce conine baza de date este n prealabil sortat dup caracteristicile demografice, economice sau sociale pe baza crora se poate pune n eviden structura eantionului.

Etapa 2: Un registru de lucru este iniializat cu valorile aferente cmpurilor cuprinse n prima nregistrare a unei caracteristici dup care s-a realizat sortarea.

Etapa 3: Fiierul se parcurge nregistrare cu nregistrare si fiecare cmp este identificat i verificat s nu conin valori lips.

Etapa 4: n cazul n care unul din cmpuri conine valori lips acesta va fi nlocuit cu valoarea corespunztoare din registru.Ex la seminar5. Imputaia cold-deck. Este o variaie a metodei hot-deck const n nlocuirea valorilor lips cu date provenite din alte surse dect sondajul curent cum ar fi sondaje anterioare sau recensminte. Este necesar ca populaia sondajului din care se preiau valorile s fie foarte asemntoare cu cea asupra cruia se realizeaz sondajul n prezent iar modul de definire i de codificare a variabilelor supuse procesului de imputare s fie identic. Imputaia cu care se va nlocui valoarea lips este selectat aleator din baza de date aferent sondajului anterior. Aceast metod prezint dezavantajul c imputaia utilizat nu provine din sondajul curent motiv pentru care este mult mai rar utilizat.

6. Imputaia aleatoare. Const n alegerea aleatoare din mulimea respondenilor sau dintr-o clas a unui donator h din mulimea de r respondeni la ntrebarea j. n acest caz avem:

Este o variant a imputaiei hot-deck iar principalul avantaj fa de aceasta este c prin selecia aleatoare a imputaiei nu mai este necesar sortarea fiierului dup diferite caracteristici.

7. Imputaia obiectiv. La baza acestei metode st generarea unei ecuaii de regresie pe baza setului de date ce conin nregistrri complete ale variabilei ce urmeaz a fi supuse procesului de imputare. Ecuaia poate avea urmtoarea form:

unde y este variabila ce urmeaz a fi imputat pentru valorile date ale variabilelor xi, i=1,,k corelate cu variabila y.

Imputaiile obinute n aceast manier sunt superioare celor provenite n urma aplicrii metodelor prezentate anterior, deoarece ea se armonizeaz cu restul nregistrrilor individului respectiv. Aplicarea acestei metode permite obinerea unui estimator nedeplasat al mediei i nu subevalueaz dispersia acestuia.

8. Metoda imputaiilor multiple. Metodele de imputaie prezentate anterior prin care se nlocuiete valoarea lips cu o singur valoare prezint dezavantajul c nu ia n consideraie incertitudinea cu privire la aceast valoare lips. Acest dezavantaj este nlturat de ctre metoda imputaiilor multiple introdus de Rubin la sfritul anilor '80.

Metoda const n umplerea fiecrei celule corespunztoare unei valori lips cu una, dou sau mai multe imputaii i analizarea fiecrui set de date. Combinnd rezultatul acestei analize cu rezultatul inferenei statistice vom lua n consideraie i nivelul de incertitudine introdus de valorile lips.

C Reselecia pentru non-respondeni

Este o metod utilizat pentru tratarea non-rspunsurilor totale. Dac timpul i bugetul alocate sondajului permit, se poate face o reselecie pentru non-respondeni. mprim n mod formal populaia de volum N n dou straturi: cel al respondenilor de volum N1 i cel al non-respondenilor de volum N2. Organizm sondajul ca o selecie n dou faze.

n prima faz se construiete eantionul E de volum n. Eantionul va conine n1 respondeni ai subeantionului E1 i n2 non-respondeni ai subeantionului E2. Variabila aleatoare w1=n1/n este un estimator nedeplasat al lui p1=N1/N (ponderea respondenilor).

Presupunem c parametrul de interes este media . Pe baza subeantionului E1 putem calcula un estimator asociat primei faze:

n a doua faz a sondajului formm un eantion E2 de volum m prin selecie aleatoare fr revenire din E2. Prin eforturile fcute de operatorul de sondaj i prin eventuale recompensri eantionul va conine doar respondeni. Putem acum calcula un estimator asociat celei de a doua faze:

Estimatorul parametrului construit pe baza celor dou faze are forma:

Metoda reseleciei pentru non-respondeni are avantajul c genereaz un estimator nedeplasat al parametrului de interes dar determin o cretere substanial a costului sondajului deoarece cerina ca n a doua faz s se obin rspunsuri complete impune eforturi organizatorice i financiare deosebite.

D Metoda post-stratificrii i a calibrrii generalizate

Utilizarea acestor metode necesit utilizarea unor informaii auxiliare, o dotare tehnic superioar i un soft specializat i sunt utilizate pentru tratarea non-rspunsurilor totale. Sunt prezentate n capitolul 6 al acestei lucrri.

Prelucrarea i analiza statistic a datelor. Redactarea raportului final. Anexele

Prelucrarea datelor presupune estimarea parametrilor pentru fiecare variabil, evaluarea preciziei estimatorilor construii, analiza formei distribuiilor, analiza legturilor ce se pot stabili ntre variabile, teste de semnificaie. Exist pachete de programe cu ajutorul crora se realizeaz cu uurin prelucrarea datelor urmnd ca interpretarea acestora s fie realizat de specialiti.

Ultima etap a efecturii sondajului const n redactarea raportului T. Caplow a menionat n lucrarea sa LEngute sociologique (1970) patru puncte eseniale ce trebuiesc atinse ntr-un raport final:

Enunul problemei studiate ;

Descrierea tehnicilor utilizate. Referirile metodologice din textul raportului trebuie s precizeze c metodele sunt adaptate problemei, eantionul are un grad de reprezentativitate satisfctor menionnd care este eroarea limit i nivelul de probabilitate;

Interpretarea rezultatelor pornind de la obiectivele stabilite iniial. Raportul este de fapt comentariul rezultatelor extrapolate care trebuie realizat cu profesionalism, astfel nct s sintetizeze esenialul pentru fiecare din obiective propuse. Se recomand utilizarea graficelor deoarece pot da o imagine mai clar a fenomenelor.; Prezentarea concluziilor. Pe baza analizei statistice realizate se formuleaz recomandri pentru utilizarea rezultatelor.

Anexele includ informaiile ce au fost necesare caracterizrii populaiei, alegerii tipului de sondaj i calculului volumului eantionului. Ele au rolul de a justifica informaiile prezentate n partea central a studiului. Tot n anexe se mai include baza de sondaj i eantionul format aleator sau foile de cot n cazul n care s-a realizat un sondaj dirijat pe cote, chestionarul i tabelul centralizator indivizi-variabile.

_1170030557.unknown

_1170030585.unknown

_1155224626.unknown

_1167744232.unknown

_1167744238.unknown

_1095957878.unknown

_1096196028.unknown

_1095955520.unknown