Download - STEC - Capitolul 4
56
Capitolul 4 – Sondajul statistic
4.1 Noţiuni generale
În funcție de amploarea sa, observarea statistică poate lua două forme:
a) Observarea exhaustivă: înregistrarea caracteristicilor urmărite asupra tuturor unităţilor elementare din cadrul populaţiei statistice considerate, cea mai cunoscută formă de observare exhaustivă fiind recensământul populaţiei;
b) Observarea parțială: înregistrarea caracteristicilor urmărite doar pentru o parte a populaţiei totale. Anchetele şi sondajele statistice sunt astfel de observări parţiale.
Sondajele statistice sunt metode de colectare a datelor folosite des în
practică datorită operativităţii şi a economicităţii obţinerii datelor. În plus, metodele
de observare parţială sunt indicate atunci când se doreşte obţinerea unor date care
să răspundă unor nevoi precise de informaţii, pentru care nu sunt disponibile date
colectate în mod uzual (de autorităţi, birouri de statistică etc.).
Rezultatele obţinute pe baza datelor de sondaj se extrapolează la
dimensiunea întregii populaţii. Extinderea rezultatelor de la „parte” la „întreg” nu
are, însă, un caracter determinist, ci unul probabilist. De aceea, rezultatele obţinute
prin sondaj sunt supuse unui risc de a fi eronate. Avantajul metodei sondajului
constă nu atât în eliminarea erorilor, cât, mai ales, în predimensionarea lor şi în
controlul probabilităţii afirmaţiilor.
Principalele avantaje ale cercetării prin sondaj faţă la observarea exhaustivă:
1) Costul redus (în termeni financiari, dar și de timp) – Costul de obţinere a datelor statistice prin sondaj este mult inferior costurilor pe care le implică o observare exhaustivă. Astfel, pe baza unui eşantion relativ mic, care implică cheltuieli mult reduse, se pot obţine date ce caracterizează suficient de bine populaţia de referinţă. Rapiditatea observărilor parţiale, deci şi a sondajului statistic, este alt argument important pentru care acest gen de analize este foarte des întâlnit în practică. Întrucât eşantioanele analizate sunt mult mai mici decât populaţia de referinţă, timpul alocat pregătirii observării, culegerii şi prelucrării datelor este mult redus.
2) Exactitatea – Cu toate că rezultatele obţinute prin sondaj sunt supuse riscului de a fi eronate, practica statistică a arătat că orice fel de observare a unei populaţii (fie ea totală sau parţială) implică erori. Mai mult decât atât, întrucât sondajul presupune o organizare riguroasă, o colectare a datelor realizată de către operatori specializaţi, dar şi o mai bună verificare în teren a activităţii acestor operatori, mulţi practicieni consideră că datele obţinute prin sondaj sunt mai precise decât cele dobândite în urma recensămintelor.
57
3) Cerinţele speciale – În anumite domenii, observările exhaustive nu pot fi utilizate, observarea parţială fiind singura opţiune disponibilă. Așa stau lucrurile atunci când analiza unităților elementare ale populației presupune distrugerea sau alterarea semnificativă a caracteristicilor acestora. De exemplu, analiza prin intermediul sondajului este singura modalitate fezabilă pentru evaluarea calității unui lot de produse, mai ales atunci când evaluarea calității presupune testarea rezistenței la impact a produselor sau determinarea duratei medii de funcționare a unui echipament electronic. Cercetarea prin sondaj prezintă însă şi neajunsuri, date în general de apariţia
erorilor de eşantionare şi a dificultăţilor legate de extragerea eşantionului din
populaţia de referinţă.
1) Erori de eşantionare şi de observare – În acest context, conceptul de eroare desemnează abaterea care se constată între rezultatul furnizat de observarea parţială şi valoarea reală a unei caracteristici pentru populaţia studiată. Precizia este o măsură a abaterii între un estimator, obţinut plecând de la un eşantion, şi situația reală, dar de cele mai multe ori necunoscută și care ar putea fi determinată doar în cazul ideal al unei observări totale realizate perfect. Sondajele generează două tipuri de erori:
a. Eroarea de eşantionare, generată de faptul că se observă doar o parte a populaţiei, această eroare fiind invers proporţională cu mărimea eşantionului. Acest gen de eroare este determinat şi de gradul de variaţie a caracteristicilor studiate, de planul de eşantionare utilizat, de metodele de estimare a parametrilor şi de caracteristicile populaţiei de referinţă. Metoda sondajului este eficientă atunci când populaţia de referinţă este suficient de mare, iar unităţile elementare care o compun sunt suficient de omogene. Altfel, este de preferat o observare exhaustivă.
b. Erorile de observare, care apar atât în observările parţiale, cât şi pe parcursul observărilor exhaustive. Aceste erori sunt generate în multe cazuri de maniera în care au fost formulate întrebările, de felul în care au fost pregătiți operatorii de interviu, de codarea și introducerea datelor.
2) Dificultăţi în construirea eşantionului – Principala problemă în construirea eşantionului vine din dificultatea localizării populaţiei de referinţă şi a înţelegerii modului în care aceasta este structurată (este de dorit a se cunoaște structura populației de referință, astfel încât structura eșantionului să se apropie cât mai mult de structura populației).
Etapele unei cercetări parţiale
O observare parţială, categorie din care face parte şi sondajul statistic, se
realizează, în general, prin respectarea anumitor paşi, fiecare dintre aceştia având o
importanţă crucială pentru bunul mers al cercetării (concretizat în rezultate de
încredere):
58
1. Definirea problemei la care se solicită un răspuns – este întrebarea principală la care trebuie să răspundă cercetătorul, această întrebare având un impact major asupra modalităţii de culegere şi analiză a datelor;
2. Definirea populaţiei de referinţă – se face în funcţie de subiectul analizat. De exemplu, dacă se doreşte cuantificarea intenţiilor de vot, atunci populaţia de referinţă va fi constituită din persoanele cu drept de vot. Dacă se doreşte cuantificarea gradului de satisfacţie al utilizatorilor unui anumit tip de sistem irigaţii, atunci vor trebui chestionaţi fermierii care utilizează sau au utilizat acel tip de sistem. Dacă se dorește evaluarea modului în care firmele folosesc contractele comerciale în relațiile cu furnizorii și distribuitorii, atunci vor trebui întrebate persoane din structurile de conducere ale societăților comerciale. De fiecare dată, populația de referință se schimbă, în funcție de subiectul analizat.
3. Definirea eşantionului – Aşa cum vom vedea, eşantionul poate fi construit prin metode probabiliste sau neprobabiliste, fiecare cu avantajele și dezavantajele sale.
Paşii 2 şi 3, împreună, se mai numesc generic etapa de eşantionare.
4. Construirea chestionarului (inclusiv testarea sa într-un proiect pilot).
5. Pregătirea operatorilor de interviu – aceştia trebuie să fie capabili să lămurească respondenţilor orice eventuală neclaritate legată de chestionar.
6. Observarea unităţilor din eşantion pentru caracteristicile desemnate – reprezintă practic completarea chestionarelor de către respondenţi, care se poate face prin intermediul operatorului de interviu sau personal de către respondent, de exemplu, atunci când chestionarul este trimis prin poştă sau este completat online de către respondent.
7. Introducerea şi verificarea datelor – În general, introducerea datelor pe calculator se realizează prin intermediul unor formulare substanţial similare chestionarului, realizate în aşa fel încât să filtreze eventualele neconcordanțe între datele introduse de operator şi ceea ce se consideră a fi un răspuns valid. Verificarea datelor implică atât verificarea completării reale şi integrale a chestionarelor de către operatorii de interviu, prin contactarea a 5-10% dintre respondenţi, dar şi verificarea existenţei unor eventuale valori aberante în rândul răspunsurilor colectate.
Paşii 4-7, împreună, se mai numesc etapa de culegere a datelor.
8. Prelucrarea datelor şi obţinerea de indicatori statistici – se pot calcula medii, dispersii, indicatori de corelaţie etc.
9. În acest punct, se răspunde la întrebarea: eşantionarea a fost aleatoare?
Dacă răspunsul este NU, indicatorii calculaţi mai sus şi concluziile privind
populaţia de referinţă trebuie privite ca având doar un caracter orientativ.
Dacă răspunsul este DA, se mai pot efectua următorii paşi:
59
9.1. Estimarea parametrilor populaţiei cu o anumită probabilitate.
9.2. Testarea statistică pentru verificarea unor anumite ipoteze.
9.3. Concluzii asupra populaţiei de referinţă.
Paşii 9.1-9.3, împreună, se mai numesc etapa de inferenţă statistică.
Aşa cum menţionam mai sus, sondajul statistic este o metodă de observare
parţială a caracteristicilor unei populaţii de referinţă, această metodă fiind des
utilizată în practică datorită operativităţii şi a economicităţii cu care sunt obţinute
datele. Unităţile supuse observării parţiale sunt definite în funcţie de natura şi scopul
anchetei întreprinse. De exemplu, într-un studiu al cheltuielilor familiale, unitatea de
sondaj o poate constitui locuinţa sau gospodăria, în timp ce în măsurarea intenţiei de
vot, unitatea de sondaj o reprezintă persoanele cu drept de vot.
Baza de sondaj
Baza de sondaj reprezintă o listă a elementelor populaţiei, listă din care va fi
ales eşantionul ce urmează a fi analizat (un exemplu de bază de sondaj este o carte
de telefoane, care indică toate gospodăriile care au instalat un pos telefonic). Baza
de sondaj este extrem de importantă în planul oricărei observări parţiale, aceasta
determinând în mare măsură calitatea eşantionului construit. Astfel, baza de sondaj
trebuie să reprezinte populaţia de referinţă în integralitatea sa, pentru a da o şansă
oricărei unităţi să fie selectată în eşantionul analizat. În plus, baza de sondaj trebuie
să fie actualizată, pentru a reduce costul colectării datelor (pentru a limita numărul
cazurilor în care operatorii sunt trimişi să culeagă informaţii de la unităţi de sondaj
inexistente). De multe ori, cercetătorii nu au la dispoziție o bază de sondaj completă
și actualizată, ceea ce poate afecta calitatea eșantionului.
Exemplu: Sondajul de opinie realizat în 1936 de revista The Literary Digest
La alegerile prezidențiale din SUA din anul 1936 candidații erau Franklin
Delano Roosevelt (democrat) și Alfred Landon (republican). O publicație generalistă
Predicție: Roosevelt 43% Rezultat: Roosevelt 62%
Motiv: eșantion nereprezentativ
(subiectiv)
Alfred Landon (republican)
Franklin Delano Roosevelt (democrat)
60
săptămânală, The Literary Digest, a făcut un sondaj și a preconizat victoria lui
Landon, estimând că Roosevelt va obține 43% din voturi. Rezultatul final a fost însă
complet diferit: Roosevelt câștigă alegerile cu 62% din voturi, ceea ce înseamnă că
predicția revistei a fost eronată cu aproape 20 de puncte procentuale (!). Eșecul
sondajului a fost determinat de nereprezentativitatea eșantionului.
În primul rând, revista s-a adresat cititorilor săi, care reprezentau americani
cu venituri peste medie (lucru evidențiat fie doar și prin faptul că, în condițiile severe
ale crizei economice din acele timpuri, aveau în continuare abonament la o revistă
săptămânală generalistă). Apoi, revista a folosit drept bază de sondaj cărțile de
telefoane, listele proprietarilor de autovehicule, listele de membri ai anumitor
cluburi etc., extrăgând respondenții în mod aleatoriu din aceste liste. Problema este
că, în 1936, doar aproximativ 25% din americani aveau telefon, aceștia fiind, din nou,
votanții mai înstăriți. Lucrurile stăteau similar în ceea ce privește posesorii de
autovehicule și cei care își permiteau să fie membri unor cluburi. Se pare că această
categorie socială mai bogată, care a fost puternic reprezentată în eșantion, era mai
predispusă să voteze cu candidații republicani în acele timpuri.
Folosind toate informațiile de care dispunea, The Literary Digest a trimis
chestionare prin poștă către 10 milioane de votanți, primind 2,4 milioane de
răspunsuri. Este posibil ca și rata de răspuns să fi condus la eșecul studiului. Chiar
dacă o rată de răspuns de 24% este rezonabilă, rezultatele pot fi influențate de
subiectivismul celor care răspund și de numărul celor indeciși (care nu răspund
chestionarului dar în final votează la alegeri). În fine, chiar dacă eșantionul a fost
unul de mărimi astronomice, mărimea sa nu a rezolvat problemele metodologice:
procedura de selecție fiind eronată, eroarea de bază a fost doar repetată la o scară
mai largă, eșantionul rămânând nereprezentativ (subiectiv).
Merită menționat că, pentru aceleași alegeri, Gallup a construit un eșantion
mult mai mic, de 50,000 de indivizi, și a prezis victoria lui Roosevelt cu 56% din
voturi. Chiar dacă rezultatul preconizat este diferit destul de mult de cel real (6
puncte procentuale), diferența între această predicție și cea a The Literary Digest
este impresionantă. Gallup a construit eșantionul prin metoda cotelor, metodă ce va
fi prezentată pe larg într-o secțiune ulterioară.
4.2 Câteva aspecte practice ale cercetării prin sondaj
• În general, culegerea datelor statistice se realizează într-unul din următoarele
patru moduri:
- Prin interviu direct – datele sunt culese prin completarea, în prezența
operatorului de interviu, a răspunsurilor la întrebările incluse în chestionar.
Această metodă este foarte răspândită și este uneori indicată sub numele de
PAPI (paper and pencil interview). Principalul avantaj al metodei este dat de
posiblitatea operatorului de interviu de a explica în detaliu aspectele
61
considerate neclare de către respondent, dar și de a obține opinii privind
anumite figuri, poze, imagini.
- Prin interviu telefonic – formă foarte răspândită de colectare a informației, în
care operatorul de interviu contactează respondenții la telefon și
completează răspunsurile direct pe calculator. Metoda este cunoscută sub
numele CATI (computer assisted telephone interview). Avantajul este dat de
reducerea costurilor, întrucât nu mai implică deplasarea operatorilor de
interviu pe teren, dar și de reducerea erorilor, deoarece informația este
introdusă direct pe calculator, în formulare predefinite. Metoda este folosită
cu succes în cazul sondajelor care presupun un număr redus de întrebări și
este des utilizată datorită gradului ridicat de penetrare a telefoniei.
Întrebările trebuie să fie însă foarte clare, în timp ce numărul acestora
trebuie să fie relativ redus, pentru ca persoana intervievată să nu-și piardă
interesul (respondentul poate oricând termina convorbirea, ceea ce nu este
la fel de ușor în cadrul unui interviu față în față).
- Prin chestionar transmis prin poștă – chestionarele sunt distribuite unui
anumit număr de persoane sau companii, urmând ca acestea să le transmită
după completare la o adresă indicată. Dezavantajul major al culegerii
informației prin corespondență este rata scăzută de participare, întrucât
mulți potențiali respondenți nu dau curs solicitării. Pentru a spori rata de
răspuns, cel mai adesea chestionarul este însoțit de un plic timbrat, astfel
încât efortul respondentului să fie minim. Problema este cu atât mai acută cu
cât există tendința ca cei care răspund să fie cei care au păreri puternice față
de subiect, ceea ce înseamnă că există un risc mai ridicat ca eșantionul să nu
fie reprezentativ pentru populația de referință. Această tehnică de culegere a
datelor nu este eficientă în cazul sondajelor politice, mai ales dacă sondajul
este organizat de un cotidian sau revistă cu o anumită înclinare politică (vezi
exemplul anterior privind sondajul The Literary Digest).
- Prin chestionar online – dată fiind creșterea gradului de penetrare a
internetului, această modalitate de colectare a informației este din ce în ce
mai utilizată. Similaritatea cu chestionarele transmise prin poștă este
evidentă. Avantajul chestionarelor online vine din rapiditatea și ușurința
completării lor (ceea ce reduce efortul respondentului), din faptul că
răspunsurile sunt înregistrate direct în baza de date a studiului (ceea ce
reduce erorile de introducere a datelor), din posibilitatea validării
răspunsurilor în funcție de anumite criterii și din posibilitatea adresării unor
întrebări în funcție de răspunsuri anterioare (de exemplu, dacă răspunsul la
întrebarea X = DA, pune întrebarea Y, dacă răspunsul la întrebarea X = NU,
pune întrebarea Z).
62
• Chestionarul trebuie să fie succint şi la obiect, astfel încât respondentul să nu își
piardă interesul pe parcursul interviului. Acest lucru este valabil pentru orice
metodă de colectare a datelor statistice prin chestionar, dar cu precădere în
cazul chestionarelor transmise prin poștă și a celor completate în mediul online,
unde respondentul poate vedea de la început câte întrebări îi vor fi adresate.
• Întrebările trebuie să fie clare şi concise, să nu lase loc interpretărilor. Orice
ambiguitate a întrebărilor va face ca răspunsul să fie inerent ambiguu, poate
chiar inutililzabil. Faza de testare a chestionarului (faza pilot, vezi mai jos) este
esențială pentru depistarea posibilelor neclarități.
• Este indicat ca posibilităţile de răspuns să includă varianta „Nu ştiu/Nu răspund”,
chiar dacă această variantă nu este oferită imediat respondentului, pentru a
încerca obţinerea unui răspuns informativ. De obicei, operatorii de interviu sunt
instruiți să nu dea respondenților chestionarul pentru a fi completat direct de
aceștia, tocmai pentru ca respondenții să nu știe de la bun început că varianta
„Nu știu/Nu răspund” este o opțiune de răspuns.
• Întrebările trebuie să fie, în marea lor majoritate, întrebări închise: variantele de
răspuns sunt indicate dinainte (sunt predefinite), astfel încât respondentul nu
trebuie decât să aleagă varianta pe care o consideră cea mai potrivită. Întrebările
deschise, în care respondentul îşi precizează, de exemplu, un punct de vedere,
conduc la dificultăţi de introducere, de codare şi analizare a răspunsurilor. În
unele cazuri, o bună alternativă la întrebările (strict) închise o reprezintă
includerea variantei de răspuns „Altele (precizați) ________________________”
la sfârșitul opțiunilor predefinite, dând astfel respondentului posibilitatea de a
indica o variantă de răspuns ce nu a fost prevăzută deja. Etapa de testare a
chestionarului este foarte utilă în evaluarea numărului de cazuri în care
respondenții aleg această opțiune de răspuns, indicând variante care nu au fost
predefinite. În mod evident, dacă pe parcursul testării se observă că un număr
ridicat de respondenți indică o anumită variantă de răspuns, care nu a fost
predefinită, acea variantă de răspuns va trebui adăugată opțiunilor oferite în
varianta finală a chestionarului.
• Un exemplu frecvent utilizat de întrebări închise îl constituie scalele Likert, în
care respondentul trebuie să aleagă una dintre variantele oferite sub forma unei
scale, capetele scalei reprezentând situații diametral opuse. Aceste scale sunt
denumite după psihologul american Rensis Likert, care le-a propus în anul 1932.
O astfel de întrebare poate lua forma: „Cum consideraţi situaţia dumneavoastră
financiară curentă faţă de cea înregistrată în urmă cu un an?”, variantele de
răspuns oferite putând fi 1–mult mai proastă, 2–ceva mai proastă, 3–nici mai
proastă, nici mai bună, 4–ceva mai bună, 5–mult mai bună. Caracteristica acestor
63
întrebări este aceea că variantele oferite sunt practic în oglindă, mijlocul scalei
indicând incertitudinea sau indiferenţa față de subiectul analizat.
Atenţie! Și o astfel de întrebare trebuie să conţină opțiunea „Nu ştiu/Nu răspund” ca
posibil răspuns, chiar dacă această opțiune nu este oferită imediat respondentului.
De multe ori, întrebările în care respondentului i se cere să aleagă o variantă pe o
scală cuprind un număr par de valori posibile. Dată fiind absenţa unui punct de
mijloc (deseori văzut drept un punct de refugiu), respondentul este practic forţat
să indice un punct de vedere, fie și doar acordul sau dezacordul parțial cu
afirmaţia enunţată.
Exemplu: Chestionarul Subway
Exemplul de mai jos reprezintă partea principală a chestionarului ce vizează
satisfacția clienților SUBWAY, fiind preluat de pe site-ul tellsubway.ro. Pentru a
încuraja participarea, respondenții primesc un cookie pentru completarea
chestionarului (abordarea este discutabilă, întrucât poate genera răspunsuri din
partea unor clienți interesați strict în desertul oferit ca recompensă).
64
După cum se poate observa, chestionarul include mai multe întrebări închise
sub forma unor scale Likert cu număr impar de opțiuni predefinite. Sunt explicate
doar capetele scalelor (valoarea 0 și valoarea 10), valorile intermediare fiind
implicite. Nu este oferită varianta „Nu știu/Nu răspund” și nici nu este posibilă
transmiterea rezultatelor fără a răspunde tuturor întrebărilor. Această abordare este
discutabilă. Pe de o parte, forțarea respondenților în a aprecia toate aspectele
supuse evaluării poate oferi informații relevante, pe de altă parte, unii respondenți
vor avea tentația de a da o notă la întâmplare atunci când chiar nu știu cum să
evalueze un anumit aspect (de exemplu, poate nu au fost atenți la curățenia
restaurantului sau nu-și pot exprima opinia cu privire la confort și atmosferă în cazul
în care au luat mâncarea la pachet). În fine, exemplul de mai sus include și două
întrebări deschise, compania fiind interesată de orice comentariu pozitiv sau negativ
la adresa restaurantelor sale.
• Datele de identificare sau socio-economice ale respondentului se cer de obicei la
finele chestionarului. Aceste date se referă, în general, la vârsta respondentului,
la nivelul său de școlarizare (de obicei întrebarea se referă la ultima formă de
școlarizare), la mediul de rezidență (rural-urban), la localitatea de domiciliu, la
etnia respondentului. Se consideră că, odată ajuns la sfârșitul procesului de
completare a chestionarului, respondentul este mai deschis la a oferi unele
informații ceva mai sensibile. Cu toate acestea, există în orice moment riscul ca
respondentul să devină reticent sau chiar ostil, putând abandona chestionarul.
Întrebările privind venitul respondentului sau al gospodăriei sunt delicate și ar
trebui evitate dacă nu sunt esențiale sondajului. Dacă această informație este
însă esențială, o opțiune o reprezintă răspunsul prin încadrarea în intervale
predefinite de valori, nu indicarea precisă a venitului. O altă informație sensibilă
o poate reprezenta vârsta respondentului, mai ales pentru persoanele de sex
feminin. În cazul interviului față în față, operatorul va estima vârsta, folosind
anumite intervale predefinite.
• Este foarte util ca chestionarul să fie testat înainte de aplicarea sa asupra
întregului eşantion. Se recomandă testarea chestionarului pe un număr de
respondenţi care să reprezinte între 5 şi 10% din numărul respondenţilor din
eşantion, direct de către cercetător sau de către unii din cei mai buni operatori
de interviu. Această fază pilot se poate dovedi extrem de utilă prin corectarea
unor erori care altfel ar ajunge să impacteze întregul set de date cules, cu
implicaţii majore asupra calităţii rezultatelor sondajului. De exemplu, testarea
chestionarului ar putea evita erori care ar putea să-i scape cercetătorului, extrem
de familiarizat cu acesta, şi care ar putea presupune în mod greşit că anumite
concepte şi definiţii sunt familiare tuturor respondenţilor. În plus, faza de testare
a chestionarului va conduce, cel mai probabil, la redefinirea unor opțiuni de
răspuns acordate respondenților.
65
4.3 Tipuri de sondaj
După procedeul utilizat în construirea eşantionului, sondajele se împart în
două categorii: sondaje nealeatoare şi sondaje aleatoare (numite şi probabiliste).
Primul tip de eşantioane se bazează pe alegerea judicioasă a unităţilor ce vor fi
analizate, folosind informaţii cunoscute asupra populaţiei. Astfel de eşantioane
nealeatoare sunt practice şi mai puţin costisitoare, dar şi mai puţin exacte.
Eşantioanele probabiliste, pe de altă parte, se obţin prin alegerea aleatoare a
unităţilor din populaţia totală, fiecare unitate având o probabilitate cunoscută de a
accede în cadrul eşantionului.
În cadrul aceluiaşi plan de eşantionare, metodele probabiliste (aleatoare) de
alegere a unităţilor se pot combina cu metodele neprobabiliste, alegerea fiind
dictată de cele mai multe ori de argumente practice.
Metode nealeatoare de eşantionare (metode neprobabiliste)
Aceste metode se caracterizează prin alegerea a unităţilor din eşantion după
anumite considerente, astfel încât eșantionul să se apropie cât mai mult de
caracteristicile esenţiale ale populaţiei din care se extrage. Întrucât unităţile sunt
incluse în eşantion după o manieră judicioasă, având la bază o alegere raţională, dar
totuși arbitrară, în cadrul acestor metode de eşantionare nu se poate estima
probabilitatea ca un element să figureze în eşantion. Nu este posibilă estimarea
varianţei şi nici calcularea deplasării estimatorilor în raport cu indicatorii populaţiei
de referinţă.
Dacă populaţia de referinţă este omogenă, atunci metodele neprobabiliste
pot oferi rezultate acceptabile, constituind deci un instrument util de cercetare
statistică. În cele ce urmează, vom prezenta principalele tipuri de metode
nealeatoare utilizate în practica statistică.
a) Eşantionarea la întâmplare (accidentală sau de conveniență) – Este o metodă
caracterizată de operativitate (rapidă și mai puțin costisitoare), care se utilizează
cu rezultate bune dacă populaţia de referinţă este omogenă, dar care poate
conduce la rezultate denaturate dacă populația este eterogenă. Această metodă
de culegere a datelor presupune libertatea deplină a operatorilor de interviu de a
alege posibilii respondenți, rezultatele obţinute fiind puternic afectate de intuiţia
operatorilor în asigurarea reprezentativităţii eşantionului. Astfel, lipsa oricărei
constrângeri pentru operatorii de interviu face ca aceștia să se adreseze
persoanelor celor mai familiare acestora: colegi, prieteni, mambrii ai familiei etc.,
riscul fiind ca eșantionul astfel construit să nu fie reprezentativ (să fie subiectiv).
b) Eşantionarea de voluntari – Această formă de eşantionare este utilizată cu
precădere în cercetările psihologice, medicale sau de marketing, şi mai puţin în
66
analizele socio-politice (întrucât subiectivitatea indivizilor poate afecta serios
deplasarea faţă de indicatorii populaţiei de referinţă). Includerea în eşantion a
persoanelor, gospodăriilor, firmelor etc. nu se realizează la întâmplare, ci pe baza
opţiunii voluntare a acestora de a face parte din eşantion. Din nou, avantajul este
operativitatea metodei, dar dezavantajul este dat de riscul nereprezentativității
eșantionului, mai ales atunci când participarea în cadrul studiului este
recompensată financiar.
c) Eşantionarea dirijată – Această metodă de eşantionare presupune alegerea
unităţilor din eşantion în funcţie de anumite caracteristici ale acestora și în baza
unor judecăţi privind compoziţia populaţiei de referinţă. Este o modalitate
pseudoaleatoare de alegere a unităţilor eşantionului, care presupune costuri
reduse și conduce la o structură a eșantionului ce se poate apropia de structura
populației. Cu toate acestea, eșantioanele astfel construite sunt afectate de
subiectivitatea cercetătorului (care poate avea anumite păreri sau prejudecăți
privind structura populației), eșantioanele astfel generate putând fi
nereprezentative. Prin urmare, indicatorii calculaţi pe baza acestor eşantioane
pot prezenta deplasări semnificative faţă de valorile populaţiei de referinţă.
Deplasarea este cu atât mai pronunţată cu cât există o anumită tendință în
rândul practicienilor de a elimina din populația de referință unităţile pe care le
consideră extreme şi de a reţine numai unităţile pe care le consideră a fi tipice.
d) Eşantionarea prin metoda cotelor – Această formă de eşantionare, bazată pe o
alegere raţională a unităţilor din eşantion, este foarte des utilizată în anchetele
socio-economice, dând rezultate destul de bune în sondajele de opinie la nivel
naţional. Dat fiind că această metodă este folosită în mod frecvent, aceasta va fi
prezentată ceva mai detaliat în cele ce urmează.
Eşantionarea pe cote se bazează pe definirea structurilor populaţiei de referință
după diferite caracteristici, numite şi variabile de control, pentru fiecare dintre
acestea structura eşantionului fiind identică cu structura populaţiei. Se asigură
astfel o premisă de bază pentru a genera o mare apropiere între populaţia de
referință şi eşantion în ceea ce priveşte distribuţia după caracteristicile urmărite.
Variabilele de control trebuie stabilite în funcţie de tipul populaţiei şi de cerinţele
studiului întreprins, în aşa manieră încât operatorul de interviu să aibă o
implicare cât mai redusă în asigurarea reprezentativităţii eșantionului. De
exemplu, pentru eşantioane constituite din persoane, pot fi avute în vedere
următoarele caracteristici socio-demografice: regiunea geografică, mediul de
rezidenţă, sexul, vârsta, nivelul studiilor, etnia, în timp ce nivelul veniturilor nu
este recomandat a fi folosit drept variabilă de control. Pentru eșantioane
contruite din firme, ar putea fi avute în vedere următoarele variabile de control:
domeniul de activitate (codul CAEN al activității principale), numărul de angajați
67
(pe intervale), cifra de afaceri (pe intervale), modalitatea de organizare (PFA, SF,
SRL, SA etc.), regiunea geografică, tipul de proprietate (publică/privată).
Eşantionarea prin metoda cotelor prezintă două avantaje majore. În primul rând,
această metodă este, în general, mai puţin costisitoare decât o metodă
probabilistă de eşantionare. Apoi, este o metodă practică, întrucât evită
utilizarea unor liste ce se pot dovedi greu de procurat sau care nu sunt
actualizate. Din acest punct de vedere, baza de sondaj (pe care o constituie
aceste liste) poate chiar să lipsească.
Această metodă prezintă însă şi dezavantaje. Principalul dezavantaj, asociat
tuturor metodelor nealeatoare, în care intuiţia anchetatorilor joacă un rol
deosebit în alegerea unităţilor, este reprezentat de posibilitatea ca eșantionul să
nu fie reprezentativ pentru populația investigată, ceea ce conduce la
imposibilitatea evaluării erorilor de eşantionare și calculării preciziei estimatorilor
obţinuţi.
În concluzie, eşantionarea prin metoda cotelor are o fundamentare teoretică
facilă, asigurarea reprezentativităţii bazându-se pe măsura în care variabilele de
control sunt semnificative pentru studiul întreprins şi pentru definirea populaţiei
de referinţă. Cu toate acestea, metoda depinde de măsura în care informaţiile
asupra caracteristicilor de control sunt exacte şi de măsura în care cercetătorii
nu-şi impun o anumită tendinţă proprie în selectarea unităţilor (alegând spre
interogare, de exemplu, persoane din mediul social din care ei înşişi fac parte).
Exemplu: Pentru o cercetare statistică se stabileşte necesitatea completării unui
chestionar de către 2.000 de respondenţi cu vârsta peste 15 ani. Variabilele de
control pentru caracterizarea structurii populaţiei sunt considerate a fi sexul şi
vârsta (categoriile 15-24, 25-34, 35-54, 55 de ani şi peste).
Recensământul populaţiei din 1992 a arătat că 48,61% din populaţia României
este de sex masculin iar 51,39% este de sex feminin, în timp ce structura de
vârstă a celor peste 15 ani este 22,46% (15-24),15,89% (25-34), 32,69% (35-54),
28,96% (55 şi peste). Prin urmare, pentru a respecta aceste cote, eşantionul de
2000 de respondenţi va trebui să includă 972 de bărbaţi şi 1028 de femei, în timp
ce structura pe grupe de vârste este: 449, 318, 654 şi 579 respondenţi pentru
cele patru grupe de vârstă.
e) Eşantionarea în rețea (bulgăre de zăpadă) – Această formă de eşantionare se
utilizează de regulă în cadrul studiilor sociologice, psihologice sau de
management și constă în intervievarea inițială a unui grup de persoane alese pe
baza anumitor criterii. La rândul lor, persoanele intervievate vor desemna alte
persoane ce respectă criteriile de selecție și care care vor fi rugate să răspundă
întrebărilor chestionarului, procesul putând continua de un anumit număr de ori.
Această metodă de eșantionare face posibilă observarea unor grupuri pentru
greu identificabile sau pentru care nu există baze de sondaj (de exemplu,
68
consumatori de droguri, delicvenți etc.). Dezavantajul major este același care a
fost enunțat și mai sus, respectiv posibila nereprezentativitate a eșantionului în
raport cu populația de referință.
Metode aleatoare de eşantionare (metode probabiliste)
În cadrul acestor metode, fiecare unitate elementară din populaţia de
referinţă are o anumită probabilitate, nenulă, de a fi inclusă în eşantion. O
caracteristică importantă a acestor metode este aceea că operatorul de interviu nu
are libertatea de a alege pe cine să intervieveze, evitându-se astfel nivelul de
subiectivitate asociat metodelor nealeatoare de eșantionare.
Utilizând o metodă probabilistă de generare a unui eşantion, eroarea de
eşantionare este în general mai mică decât într-o eşantionare nealeatoare. De altfel,
pentru observările parţiale bazate pe metode aleatoare se poate calcula mărimea
erorii de eşantionare pentru fiecare estimator.
Un lucru demn de reţinut este acela că fiecare din tipurile de sondaje ce
urmează a fi prezentate se poate efectua în două variante: repetat şi nerepetat. Un
sondaj se numeşte repetat (cu revenire) atunci când o unitate statistică (individ,
firmă etc.) prelevată și observată este restituită populaţiei de origine, având deci
şanse să reintre în eşantion. Eşantionul astfel obţinut se mai numeşte eşantion
independent. Un sondaj este nerepetat (fără revenire) atunci când unităţile statistice
observate nu sunt (sau nu pot fi) restituite în populaţia generală. Eşantionul astfel
obţinut se mai numeşte eşantion exhaustiv (terminologie uşor improprie, dat fiind
faptul că un eşantion duce automat cu gândul la o cercetare parţială, nu exhaustivă).
În eşantionarea aleatoare cu revenire (procedeul bilei revenite), cele n
extrageri prin care se formează eşantionul sunt independente, compoziţia urnei
rămânând aceeaşi pe tot parcursul procesului de constituire a eşantionului. Prin
această metodă, o unitate poate fi inclusă de mai multe ori în eşantion iar la fiecare
extragere probabilitatea pentru fiecare unitate de a fi inclusă în eşantion este 1/N.
Întrucât au loc n extrageri succesive, probabilitatea ca o anumită unitate să fie aleasă
până la urmă în eşantion este n/N.
Pe de altă parte, pentru o eşantionare fără revenire, urna ce defineşte
populaţia de referinţă îşi schimbă compoziţia de la o extragere la alta (la prima
extragere are N elemente, apoi N-1, N-2,..., iar la final N-n). Metoda eşantionării fără
revenire oferă rezultate mai precise, precum şi avantaje majore din punct de vedere
operaţional. Cu toate acestea, dacă dimensiunea populaţiei de referinţă (N) este
suficient de mare, iar mărimea eşantionului (n) este foarte mică relativ la mărimea
populaţiei, atunci cele două modalităţi de extragere a unităţilor (cu revenire sau fără)
dau rezultate aproximativ identice.
Vom prezenta în continuare diferite metode aleatoare de construire a
eşantioanelor probabiliste.
69
a) Eşantionarea aleatoare simplă – Acest gen de eşantionare se efectuează prin
extragerea succesivă a unităţilor, cu revenire sau fără. În ambele cazuri, baza
de sondaj are în general forma unei liste, fiecare unitate elementară având
un anumit număr de ordine. Unităţile elementare sunt extrase din această
listă folosindu-se tabele de numere aleatoare sau proceduri computerizate
de generare de numere aleatoare. Pentru populaţii de dimensiuni reduse,
extragerea unităţilor ce urmează a fi analizate se poate face şi prin
organizarea unei „loterii”, bileţele sau bile ce reprezintă unităţile statistice
fiind extrase dintr-o urnă. Eşantionarea aleatoare simplă reprezintă varianta
elementară de eşantionare probabilistă, celelalte tipuri putând fi văzute ca
particularizări ale acestei metode.
b) Eşantionarea sistematică (mecanică) – Includerea unităţilor din populaţie în
eşantion se face pe baza unei progresii aritmetice, alegând un număr de la
care se realizează construirea progresiei. Raţia progresiei se numeşte pas de
numărare (sau de sondaj) şi se determină pe baza relaţiei k=[N/n] (parte
întreagă din N/n). Drept punct de plecare se alege în mod aleatoriu un număr
între 1 şi k.
Exemplu: Dată fiind o populaţie de 380 de unităţi, se doreşte extragerea unui
eşantion format din 15 unităţi. Se calculează pasul de numărare, ca parte
întreagă din 380/15=25,33. Pasul de sondaj va fi 25. Se alege în mod aleatoriu
un punct de plecare, între 1 şi 25, să zicem 10. Unităţile supuse observării vor
fi cele de pe poziţiile: 10, 35, 60, 85, 110, 135, 160, 185, 210, 235, 260, 285,
310, 335 şi 360.
Eșantionarea aleatoare simplă și cea sistematică implică existența unei baze
de sondaj complete, care e posibil să fie greu/costisitor de procurat sau chiar
să nu existe. În plus, practica a arătat că procesul de selecție a respondenților
este unul destul de lung. Dacă fenomenul studiat este unul care se poate
modifica rapid, întârzierile în procesul de colectare a datelor pot afecta serios
calitatea rezultatelor sondajului. De exemplu, preferințele electorale ar trebui
surprinse pe parcursul unei perioade restrânse, de câteva zile, întrucât orice
știre poate avea un impact semnificativ asupra acestor preferințe (caz în care
informațiile colectate la începutul studiului s-ar putea să-și piardă relevanța).
c) Eşantionarea stratificată – Metodele de eşantionare descrise până acum s-au bazat pe alegerea aleatoare a eşantionului pe baza listelor ce cuprind unităţile populaţiei de referinţă. Pentru îmbunătăţirea calităţii eşantioanelor (şi, prin urmare, a calităţii estimatorilor obţinuţi în baza acestora) se pot utiliza şi alte informaţii cunoscute apriori despre populaţia de referinţă. Una dintre aceste metode este cea bazată pe împărţirea populaţiei pe straturi,
70
după unul sau mai multe criterii, pentru a asigura creşterea şansei de obţinere a unor eşantioane reprezentative. Aplicarea eşantionării stratificate, în cazul stratificării populaţiei după un
anumit criteriu, se bazează pe descompunerea dispersiei totale în dispersie
datorată variaţiei în interiorul claselor (straturilor) şi dispersie între straturile
constituite (cei interesați pot aprofunda materialul opțional privind regula de
adunare a dispersiilor, prezentat în capitolul 2). Procedeul de eşantionare se
desfăşoară în următoarele etape:
1. Se definesc straturile (clasele tipice) în care se partajează populaţia de referinţă, această partajare realizându-se, la fel ca în cazul eşantionării pe cote, pe baza unor variabile de control relevante pentru obiectivul studiului. Alegerea criteriilor de stratificare a populaţiei prezintă o importanţă deosebită, pe baza acestora putându-se asigura o omogenitate ridicată a straturilor. De altfel, este de dorit ca distribuția unităților elementare în straturi să fie cât mai strânsă în jurul mediei (straturile să fie cât mai omogene). Alegerea numărului de straturi/clase se face în funcţie de mărimea
populaţiei, de natura acesteia şi de cerinţele cercetării. Se pot utiliza
criterii dintre cele mai diverse: geografice (straturi după regiuni),
organizatorice (straturi după tipul localității), profilul activităţii (pentru
firme, straturi după domeniul de activitate), socio-economice (straturi
după sex, vârstă, categorie socială) etc.
Formalizarea definirii straturilor este relativ intuitivă: fie populaţia P şi
variabila de control X pentru care se definesc k clase de valori
V1x,V2
x,...,Vkx. Atunci, structura populaţiei de referinţă P are la bază
straturile S1,S2,...,Sk, unde }.|{ xjij VxNiS ∈∈= Aceste straturi trebuie să
satisfacă următoarele două proprietăţi:
i) Uk
jj PS
1=
= şiii) knmSS nm ,1,)(, =∀∅=∩ şi m≠n.
Practic, straturile bine definite sunt acelea pentru care o unitate
elementară aparţine unuia şi numai unuia dintre straturi şi nu există o
unitate a populaţiei care să nu facă parte dintr-un strat.
2. Se stabilește dimensiunea eșantionului, n, secțiunea 4.5 fiind dedicată
acestei etape importante a observării parțiale prin sondaj.
3. Se repartizează volumul eşantionului pe straturi, folosindu-se în acest sens repartizarea proporţională sau optimă a unităţilor din eşantion.
- Repartizarea proporţională: partea din eşantion care se atribuie fiecărui strat este direct proporţională cu numărul total de unităţi din stratul considerat. Dacă Nj reprezintă numărul de unităţi din populaţia de referinţă din stratul Sj, atunci N=ΣNj, j de la 1 la k. Proporţia numărului de
71
unităţi din straturile considerate se notează prin p1,p2,...,pk, unde pj=Nj/N şi Σpj=1. Dacă nj reprezintă numărul unităţilor din eşantion care se găsesc în stratul Sj, atunci n=Σnj, cu j de la 1 la k. În cadrul repartizării proporţionale, numărul de unităţi din fiecare strat al eşantionului se defineşte prin nj=npj, j de la 1 la k. Acest gen de repartizare a numărului de observații pe straturi este implementată în eșantionarea prin metoda cotelor (metodă de eșantionare nealeatoare prezentată anterior).
- Repartizarea optimă: în timp ce repartizarea proporţională consideră doar volumul fiecărui strat drept criteriu de clasificare, repartizarea optimă ţine cont şi de gradul de variabilitate (de omogenitate) a fiecărui strat. Evident, această metodă este aplicabilă doar în măsura în care straturile au grade de dispersare diferite, această condiţie fiind, în general, îndeplinită. Dacă σj reprezintă abaterea standard din stratul Sj, atunci unităţile din
eşantion se vor repartiza pe straturi după relaţia .,1,
1
kjN
Nnn
k
jjj
jjj ==∑
=
σ
σ
Prin urmare, numărul astfel determinat este direct proporţional cu
volumul stratului şi invers proporţional cu omogenitatea acestuia:
straturile mai omogene vor necesita extragerea mai puţinor unităţi în
eşantion, în timp ce din straturile mai eterogene vor trebui extrase mai
multe unităţi.
4. Pentru fiecare strat, se generează în mod aleatoriu unităţile care se includ în eşantion.
În concluzie, eșantionarea stratificată se recomandă în cazul în care unităţile
din populaţia de referinţă pot fi separate pe straturi omogene. Cu cât
stratificarea este mai evidentă (straturile sunt mai omogene), cu atât
eficienţa acestui sondaj este mai mare, comparativ cu a unui sondaj simplu.
d) Eşantionarea pe grupe (de tip cluster) – Această modalitate de eşantionare se
deosebeşte de cele prezentate anterior prin aceea că, în timp ce până acum
unităţile elementare erau extrase una câte una din populația de referință, în
acest caz se extrag grupuri de unităţi elementare. Această metodă de
eşantionare este utilă mai ales atunci când populaţia studiată se prezintă sub
forma unei ierarhii. De exemplu, ansamblul persoanelor care locuiesc în
aceeaşi locuinţă constituie un grup (cluster) de indivizi, care se află la primul
nivel de agregare. Apoi, imobilul este un cluster de locuinţe aflate în aceeaşi
clădire. Sectorul administrativ poate fi privit ca un cluster de imobile aflate
într-un anumit teritoriu administrativ, în timp ce oraşul este un cluster de
sectoare.
Eşantionarea de tip cluster este mult mai simplu de aplicat şi reduce cu mult
complexitatea bazei de sondaj (lista de persoane este acum înlocuită cu o
72
listă de locuinţe, de imobile sau de sectoare, în funcţie de nivelul de agregare
supus observării, crescând astfel şansele ca acea listă să fie actualizată). În
plus, această modalitate de eşantionare asigură un cost redus pentru
culegerea datelor şi, datorită reducerii deplasării în teren a operatorilor,
permite o mai bună supervizare a procesului de culegere a datelor.
Pentru a obţine rezultate cât mai verosimile, cum unităţile din acelaşi grup au
tendinţa de a se asemăna, se recomandă să se observe un număr mai mare
de clustere mai mici, decât un număr mai mic de clustere mai mari. Nu în
ultimul rând, este ideal ca fiecare grup să cuprindă unităţi cât mai eterogene
(diferenţă majoră faţă de eşantionarea stratificată, unde fiecare strat era de
dorit să fie cât mai omogen).
Exemplu3: Se organizează un sondaj statistic pentru a se analiza nivelul de trai
al populației din mediul rural, stabilindu-se să fie intervievate un număr n de
familii din mediul rural. Presupunem că acest număr n (mărimea
eșantionului) reprezintă aproximativ 5% din numărul de familii din mediul
rural din România. Se ține cont de faptul că, potrivit datelor de la
recensământul populației din 1992, în România au fost înregistrate 2.688 de
comune.
O primă opțiune o reprezintă eșantionarea stratificată, considerând comuna
ca reprezentând un criteriu de stratificare. Din fiecare comună se aleg în mod
aleatoriu 5% din numărul de familii, care sunt supuse interviului. Principalul
inconvenient al acestei metode este dat de efortul culegerii datelor, întrucât
eșantionul va fi dispersat pe întreg teritoriul țării.
O altă opțiune o reprezintă eșantionarea pe grupe, considerând comuna ca
reprezentând un cluster de gospodării. Într-o primă etapă, se extrag 134 de
comune (5% din totalul celor 2.688), după care sunt intervievate toate
familiile din comunele selectate. În acest caz, procesul de culegere a datelor
este mult simplificat din punct de vedere logistic, dar pot apărea probleme de
reprezentativitate a eșantionului dacă diferențele dintre comune sunt
semnificative în timp ce diferențele în cadrul comunelor sunt reduse în ceea
ce privește nivelul de trai. De exemplu, există riscul ca în eșantion să intre un
număr ridicat de comune foarte dezvoltate (în care marea masă a
gospodăriilor se bucură de un nivel de trai ridicat), ceea ce ar afecta
reprezentativitatea eșantionului și concluziile studiului.
e) Eșantionarea în mai multe faze (multistadială) – Această metodă de
eșantionare este foarte des întâlnită în practica statistică, datorită costurilor
mai reduse pe care le implică, cu pierderi minime de exactitate a
estimatorilor. În prima fază se construiește un eșantion primar, de regulă de
3Acest exemplu este bazat pe exemplul 7.3 din Statistică și Econometrie, Tudorel Andrei,
Editura Economică, 2003, pag. 226.
73
dimensiune mai mare decât cea dorită, format din grupe (clustere) de unități
elementare. De obicei, în această fază populația de referință este structurată
pe grupe din punct de vedere geografic, social sau administrativ. În a doua
fază sunt alese în mod probabilistic în eșantion unități elementare din fiecare
grupă selectată, unități ce sunt supuse apoi interviului. Selecția acestor
unități elementare se poate face prin eșantionare aleatoare simplă,
sistematică sau stratificată. Prin urmare, eșantionarea multistadială
reprezintă o combinație între eșantionarea pe grupe (în prima fază) și o
metodă de eșantionare aleatoare (simplă, sistematică sau stratificată, după
caz, în a doua fază). Aceasta înseamnă că eșantionarea în mai multe faze
combină atât avantajele, cât și dezavantajele acestor tipuri de eșantionare.
Continuând exemplul anterior, într-un prim stadiu se pot extrage în mod
aleatoriu 25% din comune (672 de comune), după care, din cadrul acestor
comune selectate, se pot extrage în mod sistematic 20% din familii, astfel
încât numărul de observații din eșantion să reprezinte în final 5% din N.
Alternativ, în cadrul comunelor se pot defini straturi relevante (de exemplu,
după vârsta capului de familie sau după numărul membrilor acesteia),
extrăgând aleatoriu unități din fiecare strat.
Tehnicile de eşantionare prin care se generează eşantioane reprezentative,
pentru care unităţile au fost prelevate în mod aleatoriu, asigură premisele
estimărilor statistice ale parametrilor populaţiei de referinţă prin intermediul
observaţiilor efectuate asupra eşantionului. Astfel, rezultatele obţinute la nivelul
eşantionului pot fi extinse, cu anumită probabilitate, la nivelul întregii populaţii de
referinţă.
Observaţie: La sfârşitul capitolului precedent am făcut referire la operatorul E, care
indică valoarea aşteptată a unei variabile aleatoare (media sa). Un alt operator la
care am făcut referire este operatorul V, prin care se indică varianţa (dispersia) unei
variabile aleatoare. Astfel, dacă E(X)=m, atunci V(X)=E[(X-m)2].
4.4 Procesul de estimare
Estimarea reprezintă procesul prin care, pe baza datelor obţinute asupra
unităţilor din eşantion, se determină, printr-o valoare sau interval de valori, cu o
anumită probabilitate, valorile necunoscute pentru parametrii sau caracteristicile
populaţiei de referinţă. Estimatorul reprezintă deci rezultatul acestui proces de
inferenţă sau inducţie statistică, fiecărui estimator fiindu-i asociată o anumită
probabilitate (ce caracterizează încrederea ce se poate pune în acest estimator).
În cele ce urmează, vom considera următoarele notaţii:
74
Indicatori
Numărul
de
unităţi
Media aritmetică
pentru caracteristici...
Dispersia
caracteristicilor...
măsurabile binare măsurabile binare
În populaţia de referinţă N μ p σ2 p(1-p)
În eşantion n m f s2 f(1-f)
Metoda observării parţiale presupune prelevarea de n unităţi din cele N ale
populaţiei de referinţă şi înregistrarea pentru fiecare unitate din eşantion a valorii
caracteristicii urmărite. Se obţine astfel şirul valorilor x1,x2,...,xn, pe baza căruia se
calculează un anumit indicator. În cele ce urmează, indicatorul de interes va fi
reprezentat de media populaţiei de referinţă pentru caracteristica X.
Acest indicator (media obţinută din eşantion) va diferi mai mult sau mai puţin
faţă de indicatorul adevărat (media caracteristicii în populaţia de referinţă). Pentru
exemplul nostru, m, care are o valoare cunoscută, va fi diferit de μ, indicator care
este însă necunoscut. Ceea ce trebuie reţinut este că într-o altă eşantionare, în care
unităţile prelevate sunt foarte posibil să fie diferite, valoarea indicatorului m este
foarte posibil să fie alta, la rândul său diferită de μ. Faptul că indicatorii statistici
calculaţi pe baza datelor de sondaj diferă de la eşantion la eşantion face ca ei să
poată fi interpretaţi ca variabile aleatoare. În consecinţă, în prelucrarea datelor de
sondaj se pot aplica metode şi proceduri din aria statisticii matematice şi a
probabilităţilor.
În concluzie, trebuie reţinut faptul că, în procesul cercetării statistice,
următoarele concepte sunt diferite:
- indicatorul sau parametrul de interes al populaţiei – reprezintă o valoare concretă dar necunoscută (de exemplu, μ);
- indicatorul sau parametrul eşantionului – reprezintă o valoare concretă şi cunoscută, care depinde, printre altele, de volumul eşantionului şi procedeul de eşantionare (de exemplu, m);
- variabila aleatoare a indicatorului sau parametrului – aceasta apare datorită faptului că indicatorul calculat pe baza eşantionului variază de la un eşantion la altul. Pentru această variabilă aleatoare, cel mai adesea se cunoaşte (sau se presupune) legea de probabilitate.
Calitatea estimatorului
Pentru a putea fi extinşi la nivelul întregii populaţii, indicatorii estimaţi pe
baza sondajului (indicatori ce sunt priviţi drept variabile aleatoare) trebuie să aibă
anumite caracteristici:
- să fie estimări nedeplasate – valoarea medie (aşteptată) a indicatorului de sondaj trebuie să fie egală cu parametrul din populaţia de referinţă pe care îl
75
reprezintă. Aceasta înseamnă că dacă am repeta sondajul de un număr mare de ori, să zicem de 2.000 de ori, media indicatorului obţinut în aceste 2.000 de eşantioane (fiecare de mărime n) ar trebui să fie egală cu parametrul populaţiei de referinţă. Astfel, un indicator β* se spune că este un estimator nedeplasat al lui β dacă valoarea aşteptată (media) lui β* în eşantioane repetate este β. Nedeplasarea nu înseamnă că β*=β ci că, în sondaje repetate E(β*)=β. Pentru exemplul nostru, în care suntem interesaţi de media caracteristicii X, indicatorul m este nedeplasat faţă de μ dacă E(m)=μ.
- să fie estimări eficiente – în cazul în care există doi sau mai mulţi indicatori nedeplasaţi, obţinuţi din eşantioane de acelaşi volum, este de preferat cel caracterizat de dispersia cea mai mică. Altfel spus, dintre mai mulţi estimatori nedeplasaţi, fiecare obţinuţi prin sondaje repetate, cercetătorul va alege acel estimator pentru care funcţia densităţii de probabilitate este cea mai ascuţită (leptocurtică).
- să fie estimări consistente – pentru valori mari ale lui n, indicatorul de sondaj să conveargă în probabilitate către parametrul teoretic (şi necunoscut) al populaţiei de referinţă. Estimatorul β* converge în probabilitate spre β dacă,
pentru orice ε>0: .1)|(|lim * =≤−∞→
εββPn
Cerinţa ca estimatorul să fie consistent este rezultatul direct al faptului că în
practică se folosesc eşantioane de dimensiuni finite, chiar mici, în timp ce
teoria face apel deseori la mulţimi infinite. De multe ori se întâmplă ca un
estimator deplasat să devină din ce în ce mai puţin deplasat, cu cât mărimea
eşantionului este mai mare. În econometrie, acest fenomen este descris prin
folosirea termenului de distribuţie asimptotică şi prin definirea
caracteristicilor asimptotice ale unui estimator (cele care s-ar obţine pentru
eşantioane de volum extrem de mare).
Material opțional: Intervale de încredere
Din populaţia de referinţă de volum N, în care variabila aleatoare X este
caracterizată de media μ şi dispersia σ2, se extrage în mod aleatoriu (probabilist) un
eşantion de mărime n, media unităţilor din eşantion fiind notată prin m, iar dispersia
prin s2. Trebuie reținut faptul că extragerea unui alt eşantion din populaţia de
referinţă va duce foarte probabil la determinarea unei alte medii. Astfel, dacă se
extrag r eşantioane, mediile obţinute (pentru caracteristica X) pot fi notate
m1,m2,...,mr. Aceste medii ale eşantioanelor generate pot fi considerate ca fiind
valorile unei variabile aleatoare, notate me. Pentru această nouă variabilă aleatoare,
ce se presupune a urma o distribuţie normală, are sens calcularea parametrilor
tendinţei centrale şi ai împrăştierii.
În cazul în care eşantionarea este probabililstă și repetată (cu revenire),
pentru variabila me sunt adevărate proprietăţile:
E(me)=μ,
76
ceea ce înseamnă că valoarea aşteptată (media) a mediilor generate de diversele
eşantioane pentru caracteristica X este egală cu media acestei caracteristici în
populaţia de referinţă. Altfel spus, media eşantionului, m, este un estimator
nedeplasat al mediei populației, μ.
V(me)= σ2/n,
ceea ce înseamnă că dispersia mediei eşantionului este de n ori mai mică decât
dispersia caracteristicii X în populaţia de referinţă.
În cazul în care eşantionarea este probabilistă și nerepetată (fără revenire),
pentru variabila me sunt adevărate proprietăţile:
E(me)=μ
Comentariile de mai sus se aplică şi aici.
1)(
2
−−⋅=
N
nN
nmV e
σ
Singura noutate faţă de cazul eşantionării repetate este apariţia factorului (N-n)/(N-
1). Acest factor este deseori înlocuit de (N-n)/N, diferenţa dintre cei doi fiind absolut
neglijabilă (N, volumul populaţiei de referinţă, se presupune a fi un număr extrem de
mare, fapt pentru care N-1 este tot o valoare foarte mare). Factorul (N-n)/N se mai
poate scrie ca 1-n/N.
Observaţie: Dacă N (volumul populaţiei totale) este un număr foarte mare în raport
cu n (volumul eşantionului), atunci raportul (N-n)/(N-1) tinde la 1, fapt pentru care
rezultatele obţinute în cazul eşantionărilor cu și fără revenire sunt similare.
Observaţie: Dacă n=N, atunci ne aflăm în situaţia unei cercetări totale, exhaustive, nu
a unei observări parţiale. În acest caz, atât factorul (N-n)/(N-1), cât şi alternativa sa
(N-n)/N,devin zero, ceea ce înseamnă că V(me)=0 în cazul eşantionării nerepetate.
Mai mult, întrucât n=N este un număr foarte mare, V(me)�0 şi în cazul eşantionării
repetate. Acest fapt este evident şi la nivel intuitiv: întrucât observăm întreaga
populaţie, considerăm practic un unic eşantion, care produce o unică medie, egală cu
media populaţiei de referinţă. Această medie unică nu poate fi caracterizată decât de
o dispersie nulă.
Revenind la cele afirmate mai sus, subliniem faptul că estimările obţinute pe
baza datelor de sondaj constituie evaluări aproximative ale adevăratelor valori ale
parametrilor necunoscuţi din populaţia de referinţă. Prin urmare, rezultatele
obţinute printr-un sondaj sunt afectate de erori. Eroarea de sondaj este definită ca
diferenţa dintre estimatorul obţinut prin culegerea datelor de la eşantion (m) şi
valoarea adevărată a parametrului urmărit (μ).
Ceea ce se obţine prin sondaj nu este valoarea adevărată a parametrului
căutat, ci un interval care, cu o probabilitate fixată de cercetător, acoperă valoarea
77
adevărată dar necunoscută a acestui parametru din populaţia de referinţă, μ. Acest
interval poartă numele de interval de încredere, notat (m-∆1, m+∆2), şi defineşte
precizia estimaţiei. De cele mai multe ori se consideră ∆1=∆2, caz în care intervalul
devine (m-∆, m+∆), un interval simetric în jurul valorii calculate. Prin urmare, are loc
inegalitatea m-∆<μ<m+∆.
Cele două limite ale intervalului de încredere se calculează pe baza datelor
sondajului (pe baza x1, x2, ..., xn) astfel încât, cu o probabilitate P=1-α, să se
îndeplinească relaţia P(m-∆<μ<m+∆)=P(|m-μ|<∆)=1-α. Probabilitatea P=1-α se
numeşte nivel de încredere şi caracterizează siguranţa afirmaţiilor. α se numeşte
prag de semnificaţie şi se fixează prin programul de cercetare. Valorile uzuale ale lui
α sunt 5%, 1%, 0,1%, care corespund unor niveluri de încredere P=1-α de 95%, 99%,
respectiv 99,9%. Cel mai utilizat nivel de încredere este, de departe, P=1-α=95%, de
unde și gluma că statisticienii sunt acei oameni al căror unic țel în viață este să se
înșele în fix 5% din cazuri.
Alegerea unui nivel de încredere are la bază mai multe considerente. După
cum vom vedea, un nivel de încredere mai ridicat implică un număr mai mare de
observații în eșantion, deci costuri crescute. Trebuie avută în vedere și importanța
subiectului analizat. Astfel, în cazul unui studiu ce privește gradul de satisfacție al
clienților unui anumit model de telefon mobil, un nivel de încredere de 95% ar putea
fi considerat acceptabil. În schimb, în evaluarea efectelor adverse ale unui nou
medicament, efecte adverse ce ar putea depăși beneficiile tratamentului, s-ar putea
ca un nivel de încredere de 99% să fie considerat prea redus, putându-se opta pentru
un nivel de încredere de 99,9%.
Întrucât în cazul eşantionării repetate me urmează o distribuţie normală de
medie μ şi dispersie σ2/n, atunci variabila n
mz e
/σµ−= urmează o distribuţie normală
normată N(0,1). Aceasta înseamnă că, pentru un prag de semnificaţie α, se poate
determina valoarea critică zα/2 pentru care
.1/
2/2/2/ ασµσσ
µααα −=
+<<−=
<−
nzm
nzmPz
n
mP ee
e
Intervalul de încredere este deci ,, 2/2/
+−n
zmn
zm ee
σσαα unde zα/2
reprezintă valoarea tabelată pentru repartiţia N(0,1), corespunzătoare pragului de
semnificaţie α fixat prin programul de cercetare (acceptat de cel care organizează
sondajul). Aşa cum precizam mai sus, valorile uzuale ale lui α sunt 5%, care
corespunde lui z=1,96, 1%, care corespunde lui z=2,58 şi α=0,1%, care corespunde lui
z=3,29.
78
În cazul eşantionării nerepetate, media variabilei aleatoare me este aceeaşi,
μ, dispersia fiind uşor diferită prin includerea factorului 1-n/N. Intervalul de
încredere în acest caz este .1,1 2/2/
−+−−
N
n
nzm
N
n
nzm ee
σσαα
Din cele prezentate mai sus, reiese că pentru determinarea intervalului de
încredere pentru μ (media caracteristicii X în populaţia de referinţă), statisticianul ar
trebui să cunoască σ (abaterea standard a caracteristicii urmărite în populaţia de
referinţă). Acest lucru nu este însă posibil (să cunoşti dispersia unei variabile, în
condiţiile în care nu ştii media sa). De aceea, în practică, limitele intervalului de
încredere vor fi calculate folosind în locul lui σ un estimator al acestuia, după cum
vom vedea mai jos.
4.5 Determinarea volumului eşantionului
Dimensionarea eşantionului reprezintă una din etapele importante în analiza
unei populaţii statistice prin intermediul sondajului. Stabilirea mărimii eşantionului
se face pe baza acceptării unui compromis raţional între a opta pentru eşantioane de
volum mare, care asigură reprezentativitate mai ridicată, şi eşantioane de volum mai
mic, dar care presupun costuri mai reduse.
Mărimea unui eşantion este dată de gradul de variaţie a populaţiei de
referinţă, de forma de organizare a populaţiei (care implică folosirea unui anumit tip
de sondaj) şi de importanţa cercetării efectuate (care are un impact asupra nivelului
de probabilitate acceptat pentru garantarea estimării). Dimensiunea minimă a
eşantionului trebuie să asigure o reprezentativitate acceptabilă în procesul inferenţei
statistice, care să nu ducă la distorsionarea rezultatelor.
Este demn de remarcat faptul că mărimea populaţiei totale, N, va fi puţin
relevantă în dimensionarea volumului unui eşantion. De aceea, raţionamentul
potrivit căruia o creştere a ponderii eşantionului în volumul populaţiei totale duce la
creşterea reprezentativităţii acestui eşantion este unul greşit, reprezentativitatea
unui eşantion fiind influenţată de mărimea absolută a acestuia, nu de mărimea
relativă la populație.
O altă precizare în dimensionarea eşantionului: există un prag optim al
volumului eşantionului care asigură reprezentativitatea la nivelul întregii populaţii,
dar nu pe diverse subpopulaţii constituite după unul sau mai multe criterii de
partiţionare. Nivelul optim se află în jurul a 500-600 de observaţii. Dacă însă
populaţia de referinţă este constituită din două subpopulaţii (de exemplu, rural-
urban) iar eşantionul se repartizează proporţional pe cele două straturi, atunci cele
două subeşantioane nu sunt reprezentative pentru fiecare din cele două
subpopulaţii, ci pentru ansamblul lor. De aceea, în acest caz, mărimea optimă a
79
eşantionului se va situa în jurul a 1000-1200 de observaţii, acest eşantion asigurând
reprezentativitatea atât la nivelul întregii populaţii, cât şi pentru fiecare strat.
Aşa cum am văzut în secțiunea anterioară, în cazul eşantionării probabiliste
repetate, cu o anumită probabilitate P=1-α, media caracteristicii X în populaţia de
referinţă se află în intervalul de încredere ., 2/2/
+−n
zmn
zm ee
σσαα
nz
σα 2/
reprezintă eroarea în jurul mediei obţinute din eşantion, iar cercetătorul va stabili
nivelul maxim pe care îl admite, această eroare maximă admisă fiind notată ∆x.
Eroarea maximă se stabileşte în funcţie de particularităţile concrete ale problemei
practice de soluţionat, de precizia necesară a studiului. De exemplu, într-un studiu
medical sau militar, s-ar putea ca precizia estimării să fie esențială, ceea ce impune
un interval restrâns în jurul mediei.
În cazul eşantionării probabiliste repetate, din relaţia n
zx
σα 2/=∆ se
determină mărimea eșantionului, .2
222/
x
zn
∆= σα
În cazul eşantionării probabiliste nerepetate, intervalul de încredere indică
faptul că eroarea maximă admisă este ,12/ N
n
nzx −=∆ σ
α relaţie pe baza căreia
se determină volumul eşantionului: ./22
2/2
222/
Nz
zn
x σσ
α
α
+∆=
Precizări şi observaţii:
• Determinarea volumului eșantionului se bazează pe faptul că selecția unităților populației în eșantion se realizează în mod probabilist (repetat sau nerepetat). În cazul în care selecția nu se face în mod aleatoriu (repetat sau nerepetat), se pot folosi formulele de mai sus, dar studiul este doar unul calitativ – se calculează indicatorul de interes pe baza informațiilor din eșantion, dar această informație nu poate fi extrapolată la nivelul populației.
• zα/2~N(0,1) este o valoare tabelată, care depinde de valoarea aleasă a pragului de semnificaţie α. Astfel, pentru α=5%, z=1,96, pentru α=1%, z=2,58 iar pentru α=0,1%, z=3,29.
• σ2 reprezintă dispersia variabilei X în populaţia de referinţă, fiind deci o măsură a omogenităţii acestei populaţii. Întrucât σ2 este necunoscută, în practică se folosesc estimări ale acesteia. Astfel, pot fi folosite măsuri ale dispersiei obţinute în cadrul unor cercetări anterioare, dar şi estimări bazate pe observarea unui număr redus de unităţi ale populaţiei de referinţă. Nu în ultimul rând, pentru a asigura reprezentativitatea eşantionului, se poate folosi valoarea maximă pe care cercetătorul consideră că o poate lua dispersia populaţiei de referinţă în funcţie de variabila considerată.
80
Dacă populaţia este caracterizată de o variabilă binară, atunci dispersia unei
astfel de variabile este egală cu p(1-p), unde p reprezintă ponderea unităţilor
care posedă acea caracteristică în totalul populaţiei. Valoarea maximă a
dispersiei unei variabile alternative este 0,25, corespunzătoare unei împărţiri a
populaţiei în două părţi egale în funcţie de caracteristica avută în vedere.
• Pentru populaţii de volum mare, fracţia z2α/2σ2/N tinde la zero, fapt pentru care
cele două formule de determinare a volumului eșantionului, pentru cazul eşantionării repetate şi nerepetate, returnează valori ale lui n relativ egale. De exemplu, pentru α=5% (z=1,96), z2σ2=1,962x0,25≈0,96, ceea ce înseamnă că, pentru o populație de mărime N=10.000, z2σ2/N≈0,0001, termen care poate fi ignorat.
• ∆x reprezintă eroarea maximă admisă. Aceasta se exprimă în formă absolută, unitatea de măsură fiind aceeaşi cu cea a σ (respectiv a estimatorului s). De exemplu, atât ∆x, cât şi σ pot fi exprimate procentual sau în orice unitate de măsură. Prin urmare, raportul σ2/∆x
2 este o măsură adimensională.
• Mărimea eşantionului determinată conform formulelor de mai sus este uneori corectată în funcţie de N, volumul populaţiei totale, întrucât în practică acesta este un număr finit, nu infinit (sau extrem de mare), aşa cum presupune teoria. Astfel, pentru populaţii de ordinul miilor de unităţi, cercetătorii preferă
implementarea unor eşantioane de mărime n*, unde ./)1(1
*
Nn
nn
−+= Pentru
populaţii de ordinul zecilor de mii de unităţi sau mai mari n*≈n, fapt pentru care această corecţie nu mai este necesară.
• Trebuie avut în vedere faptul că formulele precedente returnează valoarea minimă a lui n, date fiind nivelul de încredere în rezultate (care determină valoarea lui z), omogenitatea populaţiei de referinţă (prin intermediul lui σ) şi eroarea maximă admisă (∆). Este vorba de valoarea minimă pentru că, de multe ori, statisticienii decid să culeagă informaţii de la mai mulţi respondenţi pentru a compensa eventualele non-răspunsuri (de exemplu, respondenţi care aleg varianta Nu ştiu/Nu răspund). Unii practicieni consideră că un număr suplimentar de chestionare de aproximativ 30% din volumul eşantionului ar fi suficient, dar o regulă general valabilă este greu de găsit. În plus, trebuie reţinut faptul că n determinat mai sus reprezintă numărul minim de răspunsuri colectate, nu numărul de chestionare transmise. De exemplu, sondajele online sau cele realizate prin poştă au, în general, o rată de răspuns redusă, în jur de 15-20% din cei interpelaţi oferind răspunsuri (procentul depinde de mulţi factori: de subiectul studiului, de eventuale stimulente acordate etc.). Prin urmare, s-ar putea să fie necesară contactarea unui număr de potenţiali respondenţi de până la 5 ori mai mare faţă de numărul răspunsurilor necesare.
• Tabelul de mai jos indică volumul minim al eșantionului pentru trei valori uzuale ale nivelului de încredere (P=1-α) și pentru patru valori ale erorii maxime admise (Δ), marja de eroare fiind exprimată procentual. Δ la nivelul +/-10% trebuie văzut doar ca un exemplu, acest grad redus de precizie a estimării nefiind prea folosit.
81
Volumul eșantionului, n
Δ
1% 3% 5% 10%
P=1-α
95% 9.604 1.068 385 97
99% 16.641 1.849 666 167
99,9% 27.061 3.007 1.083 271
• Nu în ultimul rând, trebuie subliniat faptul că volumul eşantionului se determină pentru a se putea construi intervalul de încredere pentru media unei anumite caracteristici X în populaţia de referinţă. Dacă se doreşte determinarea intervalului de încredere pentru media unei alte caracteristici, Y, caracteristică după care populaţia are o altă omogenitate şi pentru care se acceptă o altă eroare maximă admisă, atunci volumul eşantionului va fi diferit. Întrucât un chestionar va cuprinde mai multe întrebări adresate respondenţilor, rezultă că, în funcţie şi de numărul răspunsurilor valide primite, statisticianul va putea determina pentru fiecare caracteristică un interval de încredere şi un prag de semnificaţie.
Întrucât sondajul va urmări estimarea mai multor parametri de interes din populație, deci va urmări mai multe variabile, X1, X2, X3 etc., în funcție de fiecare dintre acestea populația având un grad de omogenitate diferit, în vederea determinării volumului eșantionului are sens folosirea unei valori maxime, acoperitoare, pentru σ2. Acesta este motivul pentru care se folosește valoarea de 0,25, corespunzătoare dispersiei maxime a unei variabile binare, iar eroarea maximă admisă, ∆x, se exprimă procentual.
La adresa http://www.nss.gov.au/nss/home.NSF/pages/Sample+size+calculator
puteți găsi o aplicaţie care calculează volumul eşantionului pentru diverşii parametri
pe care îi poate alege utilizatorul. În primul rând, se alege nivelul de încredere al
estimării, fiind posibilă selectarea a două valori, 95% sau 99%, ceea ce arată că
nivelul 99,9% este mult mai rar folosit în practică. Se poate introduce apoi mărimea
populației, sau se poate lăsa gol acel câmp, caz în care populația este considerată de
dimensiuni ridicate. Se mai poate introduce dispersia ce caracterizează populația de
interes, sau se poate lăsa gol acel câmp, caz în care se face calculul cu valoarea
standard de 0,25. În fine, se alege apoi eroarea maximă admisă, exprimată
procentual (de exemplu, 0,05 pentru +/-5% în jurul mediei).
Site-ul www.random.org generează numere aleatoare, putând fi deci folosit pentru
alegerea unităților care să fie incluse în eșantion.
Exemplu: Sondaj CSCI (Centrul de Studii și Cercetări Infopolitic, www.infopolitic.ro)
Obiectiv: Sondajul a vizat gradul de încredere în anumite personalități politice,
intențiile de vot ale respondenților, părerile acestora privind prestațiilor guvernelor
care au condus țara, dar și aspecte privind referendumul de demitere a președintelui
organizat în vara lui 2012.
82
Tipul eșantionului: Multistadial cluster cu selecție probabilistică a persoanelor,
reprezentativ la nivel național.
Mărimea eșantionului: 1.100 de persoane
Marja de eroare: +/- 3%, la un nivel de probabilitate de 95%.
Culegerea datelor: CATI, perioada 25.08-5.09.2012.
CSCI a realizat mai multe astfel de sondaje, un altul fiind organizat în perioada 20-
24.03.2014: eșantion multistadial cluster, 1.120 de respondenți selectați
probabilistic, eșantion validat pe baza datelor INS 2011 și a recensământului
populației din 2002, eroare tolerată +/- 3%, la un nivel de probabilitate 95%.
Exemplu: Sondaj IMAS Marketing și Sondaje (www.imas-inc.com) din 2009.
Obiectiv: Evaluarea percepţiilor şi a opiniilor privind sistemul de justiţie şi codurile penal şi civil -> populația de referință = rezidenți peste 18 ani.
Tipul eșantionului: Probabilist multistadial, cu stratificare în primul stadiu în funcție de 11 regiuni și 5 tipuri de localitate, 48 în mediul urban, 33 în mediul rural.
Mărimea eșantionului: 875 de persoane, eșantionul fiind validat pe baza datelor INS. Marja de eroare: +/-3,3%, cu un nivel de probabilitate 95%.
Culegerea datelor: perioada 25-30.04.2009
Studiu pilot: 15 chestionare (8 în București, 7 în comune din apropierea Bucureștiului), 15-16.04.2009, pentru adaptarea instrumentului la nivelul discursiv al publicului general. Tabelul din dreapta arată repartiția celor 875 de respondenți după mai multe criterii considerate importante: sex, vârstă, tipul localității, regiune, venit, educație și statut social. Informațiile sunt prezentate pentru a susține ideea reprezentativității eșantionului în relație cu populația totală. De exemplu, vedem că 48,4% din respondenți
83
sunt bărbați și 51,6% sunt femei, valori foarte apropiate de mediile naționale (recensământul populaţiei din anul 1992 a arătat că 48,61% din populaţia României este de sex masculin iar 51,39% este de sex feminin). Exerciţiu: Pentru început, considerăm o populaţie de volum mare, N=3 milioane de
unităţi, astfel încât termenul z2σ2/N poate fi ignorat (prin urmare, nu prezintă
importanţă dacă extragerea se face cu repetare sau fără). Presupunem că se doreşte
determinarea intervalului de încredere pentru media unei variabile binare, dispersia
acestei variabile fiind necunoscută.
1) Determinaţi mărimea eşantionului considerând un prag de semnificaţie α=5% (nivel de încredere 95%) şi o marjă de eroare admisă ∆x=±5%.
2) Care este volumul eşantionului dacă marja de eroare se reduce la ±3%? 3) Dar dacă pragul de semnificaţie se reduce la 1%, eroarea maximă admisă
rămânând ∆x=±5%? 4) Dar dacă cei doi parametri de mai sus se reduc concomitent? 5) Care este volumul eşantionului dacă α=5%, ∆x=±5%, volumul populaţiei de
referinţă N=5000 iar eşantionarea se face cu repetare? (Volumul eşantionului va trebui corectat pentru populaţii finite.)
6) Care este volumul eşantionului dacă α=5%, ∆x=±5%, volumul populaţiei de referinţă N=5000 iar eşantionarea se face fără repetare? (În acest caz, termenul z2σ2/N nu mai poate fi considerat nul şi trebuie făcută şi corecţia pentru populaţii finite.)
Rezolvare:
1) Volumul eşantionului se determină pe baza relaţiei 2
222/
x
zn
∆= σα . Dat fiind că
α=5%, valoarea tabelată a lui z este 1,96. Apoi, aşa cum am arătat anterior, dispersia maximă a unei variabile alternative este σ2=0,25. Astfel, relaţia de mai sus devine n=1,962x0,25/0,052=385 de unităţi (Rotunjire prin adaos. De ce?)
2) Dacă eroarea maximă admisă ∆x se doreşte a fi ±3%, atunci relaţia de mai sus devine n=1,962*0,25/0,032=1.068 de unităţi.
3) Dacă pragul de semnificaţie se reduce la 1%, dar eroarea maximă admisă rămâne ∆x=±5%, atunci valoarea lui z din tabelul legii de repartiţie N(0,1) este 2,58. Relaţia de mai sus devine n=2,582x0,25/0,052=666 de unităţi.
4) Dacă cei doi parametri se reduc concomitent, atunci relaţia de mai sus devine n=2,582x0,25/0,032=1.849 de unităţi.
5) Pentru α=5% şi ∆x=±5%, n=385 determinat anterior va trebui corectat datorită faptului că populaţia de referinţă are un volum N relativ redus. În practică se va implementa un eşantion de volum
3585000/3841
385
/)1(1* =
+=
−+=
Nn
nn de unităţi.
84
Ore de studiu
individual ni
1-3 7
3-5 11
5-7 20
7-9 29
9-11 21
11-13 16
>13 6
Total 110
6) Formula de calcul a volumului eşantionului în cazul extragerilor nerepetate
este .3575000/25,096,105,0
25,096,1
/ 22
2
222/
2
222/ =
⋅+⋅=
+∆=
Nz
zn
x σσ
α
α Această valoare
trebuie corectată pentru faptul că populaţia de referinţă are o dimensiune
relativ redusă. Astfel, 3345000/3561
357
/)1(1* =
+=
−+=
Nn
nn de unităţi.
Exerciţiu opțional: Se cunosc datele din tabelul alăturat cu
privire la distribuţia unui număr de studenţi după durata de
studiu individual pe săptămână:
1) Presupunând că cei n=110 studenţi reprezintă un eşantion repetat dintr-o populaţie de mărime N=500 de studenţi şi având în vedere un nivel de încredere P=95% (z=1,96), să se determine intervalul de încredere pentru media numărului de ore de studiu individual săptămânal în populaţia generală (de referinţă).
2) Cum se modifică acest interval dacă eşantionul este nerepetat? Dar dacă, în plus, N=50.000 de studenţi?
3) Cum se modifică acest interval dacă P=99,9% (z=3,29)? 4) Care este volumul necesar al eşantionului dacă se acceptă o eroare maximă
dublă faţă de cea precedentă? Dar dacă se impune o eroare maximă la jumătate?
Rezolvare:
Pentru a rezolva acest exerciţiu trebuie determinate media şi dispersia variabilei X
(ore de studiu individual) în eşantionul prelevat. Pentru aceasta, construim
următorul tabel:
Ore de studiu
individual ni xi xini mxi − 2)( mxi − ii nmx 2)( −
1-3 7 2 14 -6,15 37,82 246,74
3-5 11 4 44 -4,15 17,22 189,42
5-7 20 6 120 -2,15 4,62 92,4
7-9 29 8 232 -0,15 0,02 0,58
9-11 21 10 210 1,85 3,42 71,82
11-13 16 12 192 3,85 14,82 237,12
>13 6 14 84 5,85 34,22 205,32
Total 110 896 1043,4
15,8110
896 ===∑n
nxm ii
49,9110
4,1043)( 22 ==
−=∑
n
nmxs ii
s=3,08
85
1) În cazul eşantionării repetate, intervalul de încredere este
., 2/2/
+−
nzm
nzm
σσαα Întrucât σ, abaterea standard a variabilei aleatoare
X în populaţia generală, este necunoscută, vom folosi un estimator al său,
respectiv s. Intervalul de încredere este .110
08,396,115,8;
110
08,396,115,8
+−
Deoarece ,58,049,10
04,6
110
08,396,1 == intervalul de încredere devine (7,57; 8,73).
2) În cazul eşantionării nerepetate, intervalul de încredere pentru media
caracteristicii X este .1,1 2/2/
−+−−
N
n
nzm
N
n
nzm
σσαα
Pentru N=500, obţinem .500
1101
110
08,396,115,8;
500
1101
110
08,396,115,8
−+−−
,51,088,058,0500
1101
110
08,396,1 =⋅=− deci intervalul de încredere este (7,64;
8,66).
Pentru N=50.000, factorul 1-n/N este egal cu 1-110/50.000, respectiv 0,998,
foarte apropiat de valoarea 1 (mai mult, rădăcina pătrată din acest factor este
egală cu 0,999). Intervalul de încredere va fi deci tot (7,57; 8,73). Aceasta
înseamnă că, pentru valori ridicate ale lui N, nu are importanţă în practică dacă
eşantionarea se face cu sau fără revenire.
3) Dacă P=99,9% (z=3,29), atunci intervalul de încredere devine
).12,9;18,7()97,015,8;97,015,8(110
08,329,315,8;
110
08,329,315,8 =+−=
+− Se
observă că, pentru a garanta rezultatele cu o mai mare probabilitate, este necesar ca intervalul de încredere să fie extins.
4) Eroarea maximă admisă este n
zσ
α 2/ , în cazul de faţă fiind egală cu 0,58 (ore de
studiu individual pe săptămână). Dacă se acceptă o eroare dublă, deci 1,16 (ore
de studiu), volumul eşantionului necesar va scădea. Din relaţia 16,108,3
96,1 =n
se determină n=28. Dacă însă se doreşte înjumătăţirea erorii maxime, atunci este
nevoie de un eşantion lărgit. Din relaţia 29,008,3
96,1 =n
se determină n=434. În
acest caz, dat fiind că N=500, ar fi de preferat observarea întregii populaţii de referinţă.