Download - STEC - Capitolul 4

56

Capitolul 4 – Sondajul statistic

4.1 Noţiuni generale

În funcție de amploarea sa, observarea statistică poate lua două forme:

a) Observarea exhaustivă: înregistrarea caracteristicilor urmărite asupra tuturor unităţilor elementare din cadrul populaţiei statistice considerate, cea mai cunoscută formă de observare exhaustivă fiind recensământul populaţiei;

b) Observarea parțială: înregistrarea caracteristicilor urmărite doar pentru o parte a populaţiei totale. Anchetele şi sondajele statistice sunt astfel de observări parţiale.

Sondajele statistice sunt metode de colectare a datelor folosite des în

practică datorită operativităţii şi a economicităţii obţinerii datelor. În plus, metodele

de observare parţială sunt indicate atunci când se doreşte obţinerea unor date care

să răspundă unor nevoi precise de informaţii, pentru care nu sunt disponibile date

colectate în mod uzual (de autorităţi, birouri de statistică etc.).

Rezultatele obţinute pe baza datelor de sondaj se extrapolează la

dimensiunea întregii populaţii. Extinderea rezultatelor de la „parte” la „întreg” nu

are, însă, un caracter determinist, ci unul probabilist. De aceea, rezultatele obţinute

prin sondaj sunt supuse unui risc de a fi eronate. Avantajul metodei sondajului

constă nu atât în eliminarea erorilor, cât, mai ales, în predimensionarea lor şi în

controlul probabilităţii afirmaţiilor.

Principalele avantaje ale cercetării prin sondaj faţă la observarea exhaustivă:

1) Costul redus (în termeni financiari, dar și de timp) – Costul de obţinere a datelor statistice prin sondaj este mult inferior costurilor pe care le implică o observare exhaustivă. Astfel, pe baza unui eşantion relativ mic, care implică cheltuieli mult reduse, se pot obţine date ce caracterizează suficient de bine populaţia de referinţă. Rapiditatea observărilor parţiale, deci şi a sondajului statistic, este alt argument important pentru care acest gen de analize este foarte des întâlnit în practică. Întrucât eşantioanele analizate sunt mult mai mici decât populaţia de referinţă, timpul alocat pregătirii observării, culegerii şi prelucrării datelor este mult redus.

2) Exactitatea – Cu toate că rezultatele obţinute prin sondaj sunt supuse riscului de a fi eronate, practica statistică a arătat că orice fel de observare a unei populaţii (fie ea totală sau parţială) implică erori. Mai mult decât atât, întrucât sondajul presupune o organizare riguroasă, o colectare a datelor realizată de către operatori specializaţi, dar şi o mai bună verificare în teren a activităţii acestor operatori, mulţi practicieni consideră că datele obţinute prin sondaj sunt mai precise decât cele dobândite în urma recensămintelor.

57

3) Cerinţele speciale – În anumite domenii, observările exhaustive nu pot fi utilizate, observarea parţială fiind singura opţiune disponibilă. Așa stau lucrurile atunci când analiza unităților elementare ale populației presupune distrugerea sau alterarea semnificativă a caracteristicilor acestora. De exemplu, analiza prin intermediul sondajului este singura modalitate fezabilă pentru evaluarea calității unui lot de produse, mai ales atunci când evaluarea calității presupune testarea rezistenței la impact a produselor sau determinarea duratei medii de funcționare a unui echipament electronic. Cercetarea prin sondaj prezintă însă şi neajunsuri, date în general de apariţia

erorilor de eşantionare şi a dificultăţilor legate de extragerea eşantionului din

populaţia de referinţă.

1) Erori de eşantionare şi de observare – În acest context, conceptul de eroare desemnează abaterea care se constată între rezultatul furnizat de observarea parţială şi valoarea reală a unei caracteristici pentru populaţia studiată. Precizia este o măsură a abaterii între un estimator, obţinut plecând de la un eşantion, şi situația reală, dar de cele mai multe ori necunoscută și care ar putea fi determinată doar în cazul ideal al unei observări totale realizate perfect. Sondajele generează două tipuri de erori:

a. Eroarea de eşantionare, generată de faptul că se observă doar o parte a populaţiei, această eroare fiind invers proporţională cu mărimea eşantionului. Acest gen de eroare este determinat şi de gradul de variaţie a caracteristicilor studiate, de planul de eşantionare utilizat, de metodele de estimare a parametrilor şi de caracteristicile populaţiei de referinţă. Metoda sondajului este eficientă atunci când populaţia de referinţă este suficient de mare, iar unităţile elementare care o compun sunt suficient de omogene. Altfel, este de preferat o observare exhaustivă.

b. Erorile de observare, care apar atât în observările parţiale, cât şi pe parcursul observărilor exhaustive. Aceste erori sunt generate în multe cazuri de maniera în care au fost formulate întrebările, de felul în care au fost pregătiți operatorii de interviu, de codarea și introducerea datelor.

2) Dificultăţi în construirea eşantionului – Principala problemă în construirea eşantionului vine din dificultatea localizării populaţiei de referinţă şi a înţelegerii modului în care aceasta este structurată (este de dorit a se cunoaște structura populației de referință, astfel încât structura eșantionului să se apropie cât mai mult de structura populației).

Etapele unei cercetări parţiale

O observare parţială, categorie din care face parte şi sondajul statistic, se

realizează, în general, prin respectarea anumitor paşi, fiecare dintre aceştia având o

importanţă crucială pentru bunul mers al cercetării (concretizat în rezultate de

încredere):

58

1. Definirea problemei la care se solicită un răspuns – este întrebarea principală la care trebuie să răspundă cercetătorul, această întrebare având un impact major asupra modalităţii de culegere şi analiză a datelor;

2. Definirea populaţiei de referinţă – se face în funcţie de subiectul analizat. De exemplu, dacă se doreşte cuantificarea intenţiilor de vot, atunci populaţia de referinţă va fi constituită din persoanele cu drept de vot. Dacă se doreşte cuantificarea gradului de satisfacţie al utilizatorilor unui anumit tip de sistem irigaţii, atunci vor trebui chestionaţi fermierii care utilizează sau au utilizat acel tip de sistem. Dacă se dorește evaluarea modului în care firmele folosesc contractele comerciale în relațiile cu furnizorii și distribuitorii, atunci vor trebui întrebate persoane din structurile de conducere ale societăților comerciale. De fiecare dată, populația de referință se schimbă, în funcție de subiectul analizat.

3. Definirea eşantionului – Aşa cum vom vedea, eşantionul poate fi construit prin metode probabiliste sau neprobabiliste, fiecare cu avantajele și dezavantajele sale.

Paşii 2 şi 3, împreună, se mai numesc generic etapa de eşantionare.

4. Construirea chestionarului (inclusiv testarea sa într-un proiect pilot).

5. Pregătirea operatorilor de interviu – aceştia trebuie să fie capabili să lămurească respondenţilor orice eventuală neclaritate legată de chestionar.

6. Observarea unităţilor din eşantion pentru caracteristicile desemnate – reprezintă practic completarea chestionarelor de către respondenţi, care se poate face prin intermediul operatorului de interviu sau personal de către respondent, de exemplu, atunci când chestionarul este trimis prin poştă sau este completat online de către respondent.

7. Introducerea şi verificarea datelor – În general, introducerea datelor pe calculator se realizează prin intermediul unor formulare substanţial similare chestionarului, realizate în aşa fel încât să filtreze eventualele neconcordanțe între datele introduse de operator şi ceea ce se consideră a fi un răspuns valid. Verificarea datelor implică atât verificarea completării reale şi integrale a chestionarelor de către operatorii de interviu, prin contactarea a 5-10% dintre respondenţi, dar şi verificarea existenţei unor eventuale valori aberante în rândul răspunsurilor colectate.

Paşii 4-7, împreună, se mai numesc etapa de culegere a datelor.

8. Prelucrarea datelor şi obţinerea de indicatori statistici – se pot calcula medii, dispersii, indicatori de corelaţie etc.

9. În acest punct, se răspunde la întrebarea: eşantionarea a fost aleatoare?

Dacă răspunsul este NU, indicatorii calculaţi mai sus şi concluziile privind

populaţia de referinţă trebuie privite ca având doar un caracter orientativ.

Dacă răspunsul este DA, se mai pot efectua următorii paşi:

59

9.1. Estimarea parametrilor populaţiei cu o anumită probabilitate.

9.2. Testarea statistică pentru verificarea unor anumite ipoteze.

9.3. Concluzii asupra populaţiei de referinţă.

Paşii 9.1-9.3, împreună, se mai numesc etapa de inferenţă statistică.

Aşa cum menţionam mai sus, sondajul statistic este o metodă de observare

parţială a caracteristicilor unei populaţii de referinţă, această metodă fiind des

utilizată în practică datorită operativităţii şi a economicităţii cu care sunt obţinute

datele. Unităţile supuse observării parţiale sunt definite în funcţie de natura şi scopul

anchetei întreprinse. De exemplu, într-un studiu al cheltuielilor familiale, unitatea de

sondaj o poate constitui locuinţa sau gospodăria, în timp ce în măsurarea intenţiei de

vot, unitatea de sondaj o reprezintă persoanele cu drept de vot.

Baza de sondaj

Baza de sondaj reprezintă o listă a elementelor populaţiei, listă din care va fi

ales eşantionul ce urmează a fi analizat (un exemplu de bază de sondaj este o carte

de telefoane, care indică toate gospodăriile care au instalat un pos telefonic). Baza

de sondaj este extrem de importantă în planul oricărei observări parţiale, aceasta

determinând în mare măsură calitatea eşantionului construit. Astfel, baza de sondaj

trebuie să reprezinte populaţia de referinţă în integralitatea sa, pentru a da o şansă

oricărei unităţi să fie selectată în eşantionul analizat. În plus, baza de sondaj trebuie

să fie actualizată, pentru a reduce costul colectării datelor (pentru a limita numărul

cazurilor în care operatorii sunt trimişi să culeagă informaţii de la unităţi de sondaj

inexistente). De multe ori, cercetătorii nu au la dispoziție o bază de sondaj completă

și actualizată, ceea ce poate afecta calitatea eșantionului.

Exemplu: Sondajul de opinie realizat în 1936 de revista The Literary Digest

La alegerile prezidențiale din SUA din anul 1936 candidații erau Franklin

Delano Roosevelt (democrat) și Alfred Landon (republican). O publicație generalistă

Predicție: Roosevelt 43% Rezultat: Roosevelt 62%

Motiv: eșantion nereprezentativ

(subiectiv)

Alfred Landon (republican)

Franklin Delano Roosevelt (democrat)

60

săptămânală, The Literary Digest, a făcut un sondaj și a preconizat victoria lui

Landon, estimând că Roosevelt va obține 43% din voturi. Rezultatul final a fost însă

complet diferit: Roosevelt câștigă alegerile cu 62% din voturi, ceea ce înseamnă că

predicția revistei a fost eronată cu aproape 20 de puncte procentuale (!). Eșecul

sondajului a fost determinat de nereprezentativitatea eșantionului.

În primul rând, revista s-a adresat cititorilor săi, care reprezentau americani

cu venituri peste medie (lucru evidențiat fie doar și prin faptul că, în condițiile severe

ale crizei economice din acele timpuri, aveau în continuare abonament la o revistă

săptămânală generalistă). Apoi, revista a folosit drept bază de sondaj cărțile de

telefoane, listele proprietarilor de autovehicule, listele de membri ai anumitor

cluburi etc., extrăgând respondenții în mod aleatoriu din aceste liste. Problema este

că, în 1936, doar aproximativ 25% din americani aveau telefon, aceștia fiind, din nou,

votanții mai înstăriți. Lucrurile stăteau similar în ceea ce privește posesorii de

autovehicule și cei care își permiteau să fie membri unor cluburi. Se pare că această

categorie socială mai bogată, care a fost puternic reprezentată în eșantion, era mai

predispusă să voteze cu candidații republicani în acele timpuri.

Folosind toate informațiile de care dispunea, The Literary Digest a trimis

chestionare prin poștă către 10 milioane de votanți, primind 2,4 milioane de

răspunsuri. Este posibil ca și rata de răspuns să fi condus la eșecul studiului. Chiar

dacă o rată de răspuns de 24% este rezonabilă, rezultatele pot fi influențate de

subiectivismul celor care răspund și de numărul celor indeciși (care nu răspund

chestionarului dar în final votează la alegeri). În fine, chiar dacă eșantionul a fost

unul de mărimi astronomice, mărimea sa nu a rezolvat problemele metodologice:

procedura de selecție fiind eronată, eroarea de bază a fost doar repetată la o scară

mai largă, eșantionul rămânând nereprezentativ (subiectiv).

Merită menționat că, pentru aceleași alegeri, Gallup a construit un eșantion

mult mai mic, de 50,000 de indivizi, și a prezis victoria lui Roosevelt cu 56% din

voturi. Chiar dacă rezultatul preconizat este diferit destul de mult de cel real (6

puncte procentuale), diferența între această predicție și cea a The Literary Digest

este impresionantă. Gallup a construit eșantionul prin metoda cotelor, metodă ce va

fi prezentată pe larg într-o secțiune ulterioară.

4.2 Câteva aspecte practice ale cercetării prin sondaj

• În general, culegerea datelor statistice se realizează într-unul din următoarele

patru moduri:

- Prin interviu direct – datele sunt culese prin completarea, în prezența

operatorului de interviu, a răspunsurilor la întrebările incluse în chestionar.

Această metodă este foarte răspândită și este uneori indicată sub numele de

PAPI (paper and pencil interview). Principalul avantaj al metodei este dat de

posiblitatea operatorului de interviu de a explica în detaliu aspectele

61

considerate neclare de către respondent, dar și de a obține opinii privind

anumite figuri, poze, imagini.

- Prin interviu telefonic – formă foarte răspândită de colectare a informației, în

care operatorul de interviu contactează respondenții la telefon și

completează răspunsurile direct pe calculator. Metoda este cunoscută sub

numele CATI (computer assisted telephone interview). Avantajul este dat de

reducerea costurilor, întrucât nu mai implică deplasarea operatorilor de

interviu pe teren, dar și de reducerea erorilor, deoarece informația este

introdusă direct pe calculator, în formulare predefinite. Metoda este folosită

cu succes în cazul sondajelor care presupun un număr redus de întrebări și

este des utilizată datorită gradului ridicat de penetrare a telefoniei.

Întrebările trebuie să fie însă foarte clare, în timp ce numărul acestora

trebuie să fie relativ redus, pentru ca persoana intervievată să nu-și piardă

interesul (respondentul poate oricând termina convorbirea, ceea ce nu este

la fel de ușor în cadrul unui interviu față în față).

- Prin chestionar transmis prin poștă – chestionarele sunt distribuite unui

anumit număr de persoane sau companii, urmând ca acestea să le transmită

după completare la o adresă indicată. Dezavantajul major al culegerii

informației prin corespondență este rata scăzută de participare, întrucât

mulți potențiali respondenți nu dau curs solicitării. Pentru a spori rata de

răspuns, cel mai adesea chestionarul este însoțit de un plic timbrat, astfel

încât efortul respondentului să fie minim. Problema este cu atât mai acută cu

cât există tendința ca cei care răspund să fie cei care au păreri puternice față

de subiect, ceea ce înseamnă că există un risc mai ridicat ca eșantionul să nu

fie reprezentativ pentru populația de referință. Această tehnică de culegere a

datelor nu este eficientă în cazul sondajelor politice, mai ales dacă sondajul

este organizat de un cotidian sau revistă cu o anumită înclinare politică (vezi

exemplul anterior privind sondajul The Literary Digest).

- Prin chestionar online – dată fiind creșterea gradului de penetrare a

internetului, această modalitate de colectare a informației este din ce în ce

mai utilizată. Similaritatea cu chestionarele transmise prin poștă este

evidentă. Avantajul chestionarelor online vine din rapiditatea și ușurința

completării lor (ceea ce reduce efortul respondentului), din faptul că

răspunsurile sunt înregistrate direct în baza de date a studiului (ceea ce

reduce erorile de introducere a datelor), din posibilitatea validării

răspunsurilor în funcție de anumite criterii și din posibilitatea adresării unor

întrebări în funcție de răspunsuri anterioare (de exemplu, dacă răspunsul la

întrebarea X = DA, pune întrebarea Y, dacă răspunsul la întrebarea X = NU,

pune întrebarea Z).

62

• Chestionarul trebuie să fie succint şi la obiect, astfel încât respondentul să nu își

piardă interesul pe parcursul interviului. Acest lucru este valabil pentru orice

metodă de colectare a datelor statistice prin chestionar, dar cu precădere în

cazul chestionarelor transmise prin poștă și a celor completate în mediul online,

unde respondentul poate vedea de la început câte întrebări îi vor fi adresate.

• Întrebările trebuie să fie clare şi concise, să nu lase loc interpretărilor. Orice

ambiguitate a întrebărilor va face ca răspunsul să fie inerent ambiguu, poate

chiar inutililzabil. Faza de testare a chestionarului (faza pilot, vezi mai jos) este

esențială pentru depistarea posibilelor neclarități.

• Este indicat ca posibilităţile de răspuns să includă varianta „Nu ştiu/Nu răspund”,

chiar dacă această variantă nu este oferită imediat respondentului, pentru a

încerca obţinerea unui răspuns informativ. De obicei, operatorii de interviu sunt

instruiți să nu dea respondenților chestionarul pentru a fi completat direct de

aceștia, tocmai pentru ca respondenții să nu știe de la bun început că varianta

„Nu știu/Nu răspund” este o opțiune de răspuns.

• Întrebările trebuie să fie, în marea lor majoritate, întrebări închise: variantele de

răspuns sunt indicate dinainte (sunt predefinite), astfel încât respondentul nu

trebuie decât să aleagă varianta pe care o consideră cea mai potrivită. Întrebările

deschise, în care respondentul îşi precizează, de exemplu, un punct de vedere,

conduc la dificultăţi de introducere, de codare şi analizare a răspunsurilor. În

unele cazuri, o bună alternativă la întrebările (strict) închise o reprezintă

includerea variantei de răspuns „Altele (precizați) ________________________”

la sfârșitul opțiunilor predefinite, dând astfel respondentului posibilitatea de a

indica o variantă de răspuns ce nu a fost prevăzută deja. Etapa de testare a

chestionarului este foarte utilă în evaluarea numărului de cazuri în care

respondenții aleg această opțiune de răspuns, indicând variante care nu au fost

predefinite. În mod evident, dacă pe parcursul testării se observă că un număr

ridicat de respondenți indică o anumită variantă de răspuns, care nu a fost

predefinită, acea variantă de răspuns va trebui adăugată opțiunilor oferite în

varianta finală a chestionarului.

• Un exemplu frecvent utilizat de întrebări închise îl constituie scalele Likert, în

care respondentul trebuie să aleagă una dintre variantele oferite sub forma unei

scale, capetele scalei reprezentând situații diametral opuse. Aceste scale sunt

denumite după psihologul american Rensis Likert, care le-a propus în anul 1932.

O astfel de întrebare poate lua forma: „Cum consideraţi situaţia dumneavoastră

financiară curentă faţă de cea înregistrată în urmă cu un an?”, variantele de

răspuns oferite putând fi 1–mult mai proastă, 2–ceva mai proastă, 3–nici mai

proastă, nici mai bună, 4–ceva mai bună, 5–mult mai bună. Caracteristica acestor

63

întrebări este aceea că variantele oferite sunt practic în oglindă, mijlocul scalei

indicând incertitudinea sau indiferenţa față de subiectul analizat.

Atenţie! Și o astfel de întrebare trebuie să conţină opțiunea „Nu ştiu/Nu răspund” ca

posibil răspuns, chiar dacă această opțiune nu este oferită imediat respondentului.

De multe ori, întrebările în care respondentului i se cere să aleagă o variantă pe o

scală cuprind un număr par de valori posibile. Dată fiind absenţa unui punct de

mijloc (deseori văzut drept un punct de refugiu), respondentul este practic forţat

să indice un punct de vedere, fie și doar acordul sau dezacordul parțial cu

afirmaţia enunţată.

Exemplu: Chestionarul Subway

Exemplul de mai jos reprezintă partea principală a chestionarului ce vizează

satisfacția clienților SUBWAY, fiind preluat de pe site-ul tellsubway.ro. Pentru a

încuraja participarea, respondenții primesc un cookie pentru completarea

chestionarului (abordarea este discutabilă, întrucât poate genera răspunsuri din

partea unor clienți interesați strict în desertul oferit ca recompensă).

64

După cum se poate observa, chestionarul include mai multe întrebări închise

sub forma unor scale Likert cu număr impar de opțiuni predefinite. Sunt explicate

doar capetele scalelor (valoarea 0 și valoarea 10), valorile intermediare fiind

implicite. Nu este oferită varianta „Nu știu/Nu răspund” și nici nu este posibilă

transmiterea rezultatelor fără a răspunde tuturor întrebărilor. Această abordare este

discutabilă. Pe de o parte, forțarea respondenților în a aprecia toate aspectele

supuse evaluării poate oferi informații relevante, pe de altă parte, unii respondenți

vor avea tentația de a da o notă la întâmplare atunci când chiar nu știu cum să

evalueze un anumit aspect (de exemplu, poate nu au fost atenți la curățenia

restaurantului sau nu-și pot exprima opinia cu privire la confort și atmosferă în cazul

în care au luat mâncarea la pachet). În fine, exemplul de mai sus include și două

întrebări deschise, compania fiind interesată de orice comentariu pozitiv sau negativ

la adresa restaurantelor sale.

• Datele de identificare sau socio-economice ale respondentului se cer de obicei la

finele chestionarului. Aceste date se referă, în general, la vârsta respondentului,

la nivelul său de școlarizare (de obicei întrebarea se referă la ultima formă de

școlarizare), la mediul de rezidență (rural-urban), la localitatea de domiciliu, la

etnia respondentului. Se consideră că, odată ajuns la sfârșitul procesului de

completare a chestionarului, respondentul este mai deschis la a oferi unele

informații ceva mai sensibile. Cu toate acestea, există în orice moment riscul ca

respondentul să devină reticent sau chiar ostil, putând abandona chestionarul.

Întrebările privind venitul respondentului sau al gospodăriei sunt delicate și ar

trebui evitate dacă nu sunt esențiale sondajului. Dacă această informație este

însă esențială, o opțiune o reprezintă răspunsul prin încadrarea în intervale

predefinite de valori, nu indicarea precisă a venitului. O altă informație sensibilă

o poate reprezenta vârsta respondentului, mai ales pentru persoanele de sex

feminin. În cazul interviului față în față, operatorul va estima vârsta, folosind

anumite intervale predefinite.

• Este foarte util ca chestionarul să fie testat înainte de aplicarea sa asupra

întregului eşantion. Se recomandă testarea chestionarului pe un număr de

respondenţi care să reprezinte între 5 şi 10% din numărul respondenţilor din

eşantion, direct de către cercetător sau de către unii din cei mai buni operatori

de interviu. Această fază pilot se poate dovedi extrem de utilă prin corectarea

unor erori care altfel ar ajunge să impacteze întregul set de date cules, cu

implicaţii majore asupra calităţii rezultatelor sondajului. De exemplu, testarea

chestionarului ar putea evita erori care ar putea să-i scape cercetătorului, extrem

de familiarizat cu acesta, şi care ar putea presupune în mod greşit că anumite

concepte şi definiţii sunt familiare tuturor respondenţilor. În plus, faza de testare

a chestionarului va conduce, cel mai probabil, la redefinirea unor opțiuni de

răspuns acordate respondenților.

65

4.3 Tipuri de sondaj

După procedeul utilizat în construirea eşantionului, sondajele se împart în

două categorii: sondaje nealeatoare şi sondaje aleatoare (numite şi probabiliste).

Primul tip de eşantioane se bazează pe alegerea judicioasă a unităţilor ce vor fi

analizate, folosind informaţii cunoscute asupra populaţiei. Astfel de eşantioane

nealeatoare sunt practice şi mai puţin costisitoare, dar şi mai puţin exacte.

Eşantioanele probabiliste, pe de altă parte, se obţin prin alegerea aleatoare a

unităţilor din populaţia totală, fiecare unitate având o probabilitate cunoscută de a

accede în cadrul eşantionului.

În cadrul aceluiaşi plan de eşantionare, metodele probabiliste (aleatoare) de

alegere a unităţilor se pot combina cu metodele neprobabiliste, alegerea fiind

dictată de cele mai multe ori de argumente practice.

Metode nealeatoare de eşantionare (metode neprobabiliste)

Aceste metode se caracterizează prin alegerea a unităţilor din eşantion după

anumite considerente, astfel încât eșantionul să se apropie cât mai mult de

caracteristicile esenţiale ale populaţiei din care se extrage. Întrucât unităţile sunt

incluse în eşantion după o manieră judicioasă, având la bază o alegere raţională, dar

totuși arbitrară, în cadrul acestor metode de eşantionare nu se poate estima

probabilitatea ca un element să figureze în eşantion. Nu este posibilă estimarea

varianţei şi nici calcularea deplasării estimatorilor în raport cu indicatorii populaţiei

de referinţă.

Dacă populaţia de referinţă este omogenă, atunci metodele neprobabiliste

pot oferi rezultate acceptabile, constituind deci un instrument util de cercetare

statistică. În cele ce urmează, vom prezenta principalele tipuri de metode

nealeatoare utilizate în practica statistică.

a) Eşantionarea la întâmplare (accidentală sau de conveniență) – Este o metodă

caracterizată de operativitate (rapidă și mai puțin costisitoare), care se utilizează

cu rezultate bune dacă populaţia de referinţă este omogenă, dar care poate

conduce la rezultate denaturate dacă populația este eterogenă. Această metodă

de culegere a datelor presupune libertatea deplină a operatorilor de interviu de a

alege posibilii respondenți, rezultatele obţinute fiind puternic afectate de intuiţia

operatorilor în asigurarea reprezentativităţii eşantionului. Astfel, lipsa oricărei

constrângeri pentru operatorii de interviu face ca aceștia să se adreseze

persoanelor celor mai familiare acestora: colegi, prieteni, mambrii ai familiei etc.,

riscul fiind ca eșantionul astfel construit să nu fie reprezentativ (să fie subiectiv).

b) Eşantionarea de voluntari – Această formă de eşantionare este utilizată cu

precădere în cercetările psihologice, medicale sau de marketing, şi mai puţin în

66

analizele socio-politice (întrucât subiectivitatea indivizilor poate afecta serios

deplasarea faţă de indicatorii populaţiei de referinţă). Includerea în eşantion a

persoanelor, gospodăriilor, firmelor etc. nu se realizează la întâmplare, ci pe baza

opţiunii voluntare a acestora de a face parte din eşantion. Din nou, avantajul este

operativitatea metodei, dar dezavantajul este dat de riscul nereprezentativității

eșantionului, mai ales atunci când participarea în cadrul studiului este

recompensată financiar.

c) Eşantionarea dirijată – Această metodă de eşantionare presupune alegerea

unităţilor din eşantion în funcţie de anumite caracteristici ale acestora și în baza

unor judecăţi privind compoziţia populaţiei de referinţă. Este o modalitate

pseudoaleatoare de alegere a unităţilor eşantionului, care presupune costuri

reduse și conduce la o structură a eșantionului ce se poate apropia de structura

populației. Cu toate acestea, eșantioanele astfel construite sunt afectate de

subiectivitatea cercetătorului (care poate avea anumite păreri sau prejudecăți

privind structura populației), eșantioanele astfel generate putând fi

nereprezentative. Prin urmare, indicatorii calculaţi pe baza acestor eşantioane

pot prezenta deplasări semnificative faţă de valorile populaţiei de referinţă.

Deplasarea este cu atât mai pronunţată cu cât există o anumită tendință în

rândul practicienilor de a elimina din populația de referință unităţile pe care le

consideră extreme şi de a reţine numai unităţile pe care le consideră a fi tipice.

d) Eşantionarea prin metoda cotelor – Această formă de eşantionare, bazată pe o

alegere raţională a unităţilor din eşantion, este foarte des utilizată în anchetele

socio-economice, dând rezultate destul de bune în sondajele de opinie la nivel

naţional. Dat fiind că această metodă este folosită în mod frecvent, aceasta va fi

prezentată ceva mai detaliat în cele ce urmează.

Eşantionarea pe cote se bazează pe definirea structurilor populaţiei de referință

după diferite caracteristici, numite şi variabile de control, pentru fiecare dintre

acestea structura eşantionului fiind identică cu structura populaţiei. Se asigură

astfel o premisă de bază pentru a genera o mare apropiere între populaţia de

referință şi eşantion în ceea ce priveşte distribuţia după caracteristicile urmărite.

Variabilele de control trebuie stabilite în funcţie de tipul populaţiei şi de cerinţele

studiului întreprins, în aşa manieră încât operatorul de interviu să aibă o

implicare cât mai redusă în asigurarea reprezentativităţii eșantionului. De

exemplu, pentru eşantioane constituite din persoane, pot fi avute în vedere

următoarele caracteristici socio-demografice: regiunea geografică, mediul de

rezidenţă, sexul, vârsta, nivelul studiilor, etnia, în timp ce nivelul veniturilor nu

este recomandat a fi folosit drept variabilă de control. Pentru eșantioane

contruite din firme, ar putea fi avute în vedere următoarele variabile de control:

domeniul de activitate (codul CAEN al activității principale), numărul de angajați

67

(pe intervale), cifra de afaceri (pe intervale), modalitatea de organizare (PFA, SF,

SRL, SA etc.), regiunea geografică, tipul de proprietate (publică/privată).

Eşantionarea prin metoda cotelor prezintă două avantaje majore. În primul rând,

această metodă este, în general, mai puţin costisitoare decât o metodă

probabilistă de eşantionare. Apoi, este o metodă practică, întrucât evită

utilizarea unor liste ce se pot dovedi greu de procurat sau care nu sunt

actualizate. Din acest punct de vedere, baza de sondaj (pe care o constituie

aceste liste) poate chiar să lipsească.

Această metodă prezintă însă şi dezavantaje. Principalul dezavantaj, asociat

tuturor metodelor nealeatoare, în care intuiţia anchetatorilor joacă un rol

deosebit în alegerea unităţilor, este reprezentat de posibilitatea ca eșantionul să

nu fie reprezentativ pentru populația investigată, ceea ce conduce la

imposibilitatea evaluării erorilor de eşantionare și calculării preciziei estimatorilor

obţinuţi.

În concluzie, eşantionarea prin metoda cotelor are o fundamentare teoretică

facilă, asigurarea reprezentativităţii bazându-se pe măsura în care variabilele de

control sunt semnificative pentru studiul întreprins şi pentru definirea populaţiei

de referinţă. Cu toate acestea, metoda depinde de măsura în care informaţiile

asupra caracteristicilor de control sunt exacte şi de măsura în care cercetătorii

nu-şi impun o anumită tendinţă proprie în selectarea unităţilor (alegând spre

interogare, de exemplu, persoane din mediul social din care ei înşişi fac parte).

Exemplu: Pentru o cercetare statistică se stabileşte necesitatea completării unui

chestionar de către 2.000 de respondenţi cu vârsta peste 15 ani. Variabilele de

control pentru caracterizarea structurii populaţiei sunt considerate a fi sexul şi

vârsta (categoriile 15-24, 25-34, 35-54, 55 de ani şi peste).

Recensământul populaţiei din 1992 a arătat că 48,61% din populaţia României

este de sex masculin iar 51,39% este de sex feminin, în timp ce structura de

vârstă a celor peste 15 ani este 22,46% (15-24),15,89% (25-34), 32,69% (35-54),

28,96% (55 şi peste). Prin urmare, pentru a respecta aceste cote, eşantionul de

2000 de respondenţi va trebui să includă 972 de bărbaţi şi 1028 de femei, în timp

ce structura pe grupe de vârste este: 449, 318, 654 şi 579 respondenţi pentru

cele patru grupe de vârstă.

e) Eşantionarea în rețea (bulgăre de zăpadă) – Această formă de eşantionare se

utilizează de regulă în cadrul studiilor sociologice, psihologice sau de

management și constă în intervievarea inițială a unui grup de persoane alese pe

baza anumitor criterii. La rândul lor, persoanele intervievate vor desemna alte

persoane ce respectă criteriile de selecție și care care vor fi rugate să răspundă

întrebărilor chestionarului, procesul putând continua de un anumit număr de ori.

Această metodă de eșantionare face posibilă observarea unor grupuri pentru

greu identificabile sau pentru care nu există baze de sondaj (de exemplu,

68

consumatori de droguri, delicvenți etc.). Dezavantajul major este același care a

fost enunțat și mai sus, respectiv posibila nereprezentativitate a eșantionului în

raport cu populația de referință.

Metode aleatoare de eşantionare (metode probabiliste)

În cadrul acestor metode, fiecare unitate elementară din populaţia de

referinţă are o anumită probabilitate, nenulă, de a fi inclusă în eşantion. O

caracteristică importantă a acestor metode este aceea că operatorul de interviu nu

are libertatea de a alege pe cine să intervieveze, evitându-se astfel nivelul de

subiectivitate asociat metodelor nealeatoare de eșantionare.

Utilizând o metodă probabilistă de generare a unui eşantion, eroarea de

eşantionare este în general mai mică decât într-o eşantionare nealeatoare. De altfel,

pentru observările parţiale bazate pe metode aleatoare se poate calcula mărimea

erorii de eşantionare pentru fiecare estimator.

Un lucru demn de reţinut este acela că fiecare din tipurile de sondaje ce

urmează a fi prezentate se poate efectua în două variante: repetat şi nerepetat. Un

sondaj se numeşte repetat (cu revenire) atunci când o unitate statistică (individ,

firmă etc.) prelevată și observată este restituită populaţiei de origine, având deci

şanse să reintre în eşantion. Eşantionul astfel obţinut se mai numeşte eşantion

independent. Un sondaj este nerepetat (fără revenire) atunci când unităţile statistice

observate nu sunt (sau nu pot fi) restituite în populaţia generală. Eşantionul astfel

obţinut se mai numeşte eşantion exhaustiv (terminologie uşor improprie, dat fiind

faptul că un eşantion duce automat cu gândul la o cercetare parţială, nu exhaustivă).

În eşantionarea aleatoare cu revenire (procedeul bilei revenite), cele n

extrageri prin care se formează eşantionul sunt independente, compoziţia urnei

rămânând aceeaşi pe tot parcursul procesului de constituire a eşantionului. Prin

această metodă, o unitate poate fi inclusă de mai multe ori în eşantion iar la fiecare

extragere probabilitatea pentru fiecare unitate de a fi inclusă în eşantion este 1/N.

Întrucât au loc n extrageri succesive, probabilitatea ca o anumită unitate să fie aleasă

până la urmă în eşantion este n/N.

Pe de altă parte, pentru o eşantionare fără revenire, urna ce defineşte

populaţia de referinţă îşi schimbă compoziţia de la o extragere la alta (la prima

extragere are N elemente, apoi N-1, N-2,..., iar la final N-n). Metoda eşantionării fără

revenire oferă rezultate mai precise, precum şi avantaje majore din punct de vedere

operaţional. Cu toate acestea, dacă dimensiunea populaţiei de referinţă (N) este

suficient de mare, iar mărimea eşantionului (n) este foarte mică relativ la mărimea

populaţiei, atunci cele două modalităţi de extragere a unităţilor (cu revenire sau fără)

dau rezultate aproximativ identice.

Vom prezenta în continuare diferite metode aleatoare de construire a

eşantioanelor probabiliste.

69

a) Eşantionarea aleatoare simplă – Acest gen de eşantionare se efectuează prin

extragerea succesivă a unităţilor, cu revenire sau fără. În ambele cazuri, baza

de sondaj are în general forma unei liste, fiecare unitate elementară având

un anumit număr de ordine. Unităţile elementare sunt extrase din această

listă folosindu-se tabele de numere aleatoare sau proceduri computerizate

de generare de numere aleatoare. Pentru populaţii de dimensiuni reduse,

extragerea unităţilor ce urmează a fi analizate se poate face şi prin

organizarea unei „loterii”, bileţele sau bile ce reprezintă unităţile statistice

fiind extrase dintr-o urnă. Eşantionarea aleatoare simplă reprezintă varianta

elementară de eşantionare probabilistă, celelalte tipuri putând fi văzute ca

particularizări ale acestei metode.

b) Eşantionarea sistematică (mecanică) – Includerea unităţilor din populaţie în

eşantion se face pe baza unei progresii aritmetice, alegând un număr de la

care se realizează construirea progresiei. Raţia progresiei se numeşte pas de

numărare (sau de sondaj) şi se determină pe baza relaţiei k=[N/n] (parte

întreagă din N/n). Drept punct de plecare se alege în mod aleatoriu un număr

între 1 şi k.

Exemplu: Dată fiind o populaţie de 380 de unităţi, se doreşte extragerea unui

eşantion format din 15 unităţi. Se calculează pasul de numărare, ca parte

întreagă din 380/15=25,33. Pasul de sondaj va fi 25. Se alege în mod aleatoriu

un punct de plecare, între 1 şi 25, să zicem 10. Unităţile supuse observării vor

fi cele de pe poziţiile: 10, 35, 60, 85, 110, 135, 160, 185, 210, 235, 260, 285,

310, 335 şi 360.

Eșantionarea aleatoare simplă și cea sistematică implică existența unei baze

de sondaj complete, care e posibil să fie greu/costisitor de procurat sau chiar

să nu existe. În plus, practica a arătat că procesul de selecție a respondenților

este unul destul de lung. Dacă fenomenul studiat este unul care se poate

modifica rapid, întârzierile în procesul de colectare a datelor pot afecta serios

calitatea rezultatelor sondajului. De exemplu, preferințele electorale ar trebui

surprinse pe parcursul unei perioade restrânse, de câteva zile, întrucât orice

știre poate avea un impact semnificativ asupra acestor preferințe (caz în care

informațiile colectate la începutul studiului s-ar putea să-și piardă relevanța).

c) Eşantionarea stratificată – Metodele de eşantionare descrise până acum s-au bazat pe alegerea aleatoare a eşantionului pe baza listelor ce cuprind unităţile populaţiei de referinţă. Pentru îmbunătăţirea calităţii eşantioanelor (şi, prin urmare, a calităţii estimatorilor obţinuţi în baza acestora) se pot utiliza şi alte informaţii cunoscute apriori despre populaţia de referinţă. Una dintre aceste metode este cea bazată pe împărţirea populaţiei pe straturi,

70

după unul sau mai multe criterii, pentru a asigura creşterea şansei de obţinere a unor eşantioane reprezentative. Aplicarea eşantionării stratificate, în cazul stratificării populaţiei după un

anumit criteriu, se bazează pe descompunerea dispersiei totale în dispersie

datorată variaţiei în interiorul claselor (straturilor) şi dispersie între straturile

constituite (cei interesați pot aprofunda materialul opțional privind regula de

adunare a dispersiilor, prezentat în capitolul 2). Procedeul de eşantionare se

desfăşoară în următoarele etape:

1. Se definesc straturile (clasele tipice) în care se partajează populaţia de referinţă, această partajare realizându-se, la fel ca în cazul eşantionării pe cote, pe baza unor variabile de control relevante pentru obiectivul studiului. Alegerea criteriilor de stratificare a populaţiei prezintă o importanţă deosebită, pe baza acestora putându-se asigura o omogenitate ridicată a straturilor. De altfel, este de dorit ca distribuția unităților elementare în straturi să fie cât mai strânsă în jurul mediei (straturile să fie cât mai omogene). Alegerea numărului de straturi/clase se face în funcţie de mărimea

populaţiei, de natura acesteia şi de cerinţele cercetării. Se pot utiliza

criterii dintre cele mai diverse: geografice (straturi după regiuni),

organizatorice (straturi după tipul localității), profilul activităţii (pentru

firme, straturi după domeniul de activitate), socio-economice (straturi

după sex, vârstă, categorie socială) etc.

Formalizarea definirii straturilor este relativ intuitivă: fie populaţia P şi

variabila de control X pentru care se definesc k clase de valori

V1x,V2

x,...,Vkx. Atunci, structura populaţiei de referinţă P are la bază

straturile S1,S2,...,Sk, unde }.|{ xjij VxNiS ∈∈= Aceste straturi trebuie să

satisfacă următoarele două proprietăţi:

i) Uk

jj PS

1=

= şiii) knmSS nm ,1,)(, =∀∅=∩ şi m≠n.

Practic, straturile bine definite sunt acelea pentru care o unitate

elementară aparţine unuia şi numai unuia dintre straturi şi nu există o

unitate a populaţiei care să nu facă parte dintr-un strat.

2. Se stabilește dimensiunea eșantionului, n, secțiunea 4.5 fiind dedicată

acestei etape importante a observării parțiale prin sondaj.

3. Se repartizează volumul eşantionului pe straturi, folosindu-se în acest sens repartizarea proporţională sau optimă a unităţilor din eşantion.

- Repartizarea proporţională: partea din eşantion care se atribuie fiecărui strat este direct proporţională cu numărul total de unităţi din stratul considerat. Dacă Nj reprezintă numărul de unităţi din populaţia de referinţă din stratul Sj, atunci N=ΣNj, j de la 1 la k. Proporţia numărului de

71

unităţi din straturile considerate se notează prin p1,p2,...,pk, unde pj=Nj/N şi Σpj=1. Dacă nj reprezintă numărul unităţilor din eşantion care se găsesc în stratul Sj, atunci n=Σnj, cu j de la 1 la k. În cadrul repartizării proporţionale, numărul de unităţi din fiecare strat al eşantionului se defineşte prin nj=npj, j de la 1 la k. Acest gen de repartizare a numărului de observații pe straturi este implementată în eșantionarea prin metoda cotelor (metodă de eșantionare nealeatoare prezentată anterior).

- Repartizarea optimă: în timp ce repartizarea proporţională consideră doar volumul fiecărui strat drept criteriu de clasificare, repartizarea optimă ţine cont şi de gradul de variabilitate (de omogenitate) a fiecărui strat. Evident, această metodă este aplicabilă doar în măsura în care straturile au grade de dispersare diferite, această condiţie fiind, în general, îndeplinită. Dacă σj reprezintă abaterea standard din stratul Sj, atunci unităţile din

eşantion se vor repartiza pe straturi după relaţia .,1,

1

kjN

Nnn

k

jjj

jjj ==∑

=

σ

σ

Prin urmare, numărul astfel determinat este direct proporţional cu

volumul stratului şi invers proporţional cu omogenitatea acestuia:

straturile mai omogene vor necesita extragerea mai puţinor unităţi în

eşantion, în timp ce din straturile mai eterogene vor trebui extrase mai

multe unităţi.

4. Pentru fiecare strat, se generează în mod aleatoriu unităţile care se includ în eşantion.

În concluzie, eșantionarea stratificată se recomandă în cazul în care unităţile

din populaţia de referinţă pot fi separate pe straturi omogene. Cu cât

stratificarea este mai evidentă (straturile sunt mai omogene), cu atât

eficienţa acestui sondaj este mai mare, comparativ cu a unui sondaj simplu.

d) Eşantionarea pe grupe (de tip cluster) – Această modalitate de eşantionare se

deosebeşte de cele prezentate anterior prin aceea că, în timp ce până acum

unităţile elementare erau extrase una câte una din populația de referință, în

acest caz se extrag grupuri de unităţi elementare. Această metodă de

eşantionare este utilă mai ales atunci când populaţia studiată se prezintă sub

forma unei ierarhii. De exemplu, ansamblul persoanelor care locuiesc în

aceeaşi locuinţă constituie un grup (cluster) de indivizi, care se află la primul

nivel de agregare. Apoi, imobilul este un cluster de locuinţe aflate în aceeaşi

clădire. Sectorul administrativ poate fi privit ca un cluster de imobile aflate

într-un anumit teritoriu administrativ, în timp ce oraşul este un cluster de

sectoare.

Eşantionarea de tip cluster este mult mai simplu de aplicat şi reduce cu mult

complexitatea bazei de sondaj (lista de persoane este acum înlocuită cu o

72

listă de locuinţe, de imobile sau de sectoare, în funcţie de nivelul de agregare

supus observării, crescând astfel şansele ca acea listă să fie actualizată). În

plus, această modalitate de eşantionare asigură un cost redus pentru

culegerea datelor şi, datorită reducerii deplasării în teren a operatorilor,

permite o mai bună supervizare a procesului de culegere a datelor.

Pentru a obţine rezultate cât mai verosimile, cum unităţile din acelaşi grup au

tendinţa de a se asemăna, se recomandă să se observe un număr mai mare

de clustere mai mici, decât un număr mai mic de clustere mai mari. Nu în

ultimul rând, este ideal ca fiecare grup să cuprindă unităţi cât mai eterogene

(diferenţă majoră faţă de eşantionarea stratificată, unde fiecare strat era de

dorit să fie cât mai omogen).

Exemplu3: Se organizează un sondaj statistic pentru a se analiza nivelul de trai

al populației din mediul rural, stabilindu-se să fie intervievate un număr n de

familii din mediul rural. Presupunem că acest număr n (mărimea

eșantionului) reprezintă aproximativ 5% din numărul de familii din mediul

rural din România. Se ține cont de faptul că, potrivit datelor de la

recensământul populației din 1992, în România au fost înregistrate 2.688 de

comune.

O primă opțiune o reprezintă eșantionarea stratificată, considerând comuna

ca reprezentând un criteriu de stratificare. Din fiecare comună se aleg în mod

aleatoriu 5% din numărul de familii, care sunt supuse interviului. Principalul

inconvenient al acestei metode este dat de efortul culegerii datelor, întrucât

eșantionul va fi dispersat pe întreg teritoriul țării.

O altă opțiune o reprezintă eșantionarea pe grupe, considerând comuna ca

reprezentând un cluster de gospodării. Într-o primă etapă, se extrag 134 de

comune (5% din totalul celor 2.688), după care sunt intervievate toate

familiile din comunele selectate. În acest caz, procesul de culegere a datelor

este mult simplificat din punct de vedere logistic, dar pot apărea probleme de

reprezentativitate a eșantionului dacă diferențele dintre comune sunt

semnificative în timp ce diferențele în cadrul comunelor sunt reduse în ceea

ce privește nivelul de trai. De exemplu, există riscul ca în eșantion să intre un

număr ridicat de comune foarte dezvoltate (în care marea masă a

gospodăriilor se bucură de un nivel de trai ridicat), ceea ce ar afecta

reprezentativitatea eșantionului și concluziile studiului.

e) Eșantionarea în mai multe faze (multistadială) – Această metodă de

eșantionare este foarte des întâlnită în practica statistică, datorită costurilor

mai reduse pe care le implică, cu pierderi minime de exactitate a

estimatorilor. În prima fază se construiește un eșantion primar, de regulă de

3Acest exemplu este bazat pe exemplul 7.3 din Statistică și Econometrie, Tudorel Andrei,

Editura Economică, 2003, pag. 226.

73

dimensiune mai mare decât cea dorită, format din grupe (clustere) de unități

elementare. De obicei, în această fază populația de referință este structurată

pe grupe din punct de vedere geografic, social sau administrativ. În a doua

fază sunt alese în mod probabilistic în eșantion unități elementare din fiecare

grupă selectată, unități ce sunt supuse apoi interviului. Selecția acestor

unități elementare se poate face prin eșantionare aleatoare simplă,

sistematică sau stratificată. Prin urmare, eșantionarea multistadială

reprezintă o combinație între eșantionarea pe grupe (în prima fază) și o

metodă de eșantionare aleatoare (simplă, sistematică sau stratificată, după

caz, în a doua fază). Aceasta înseamnă că eșantionarea în mai multe faze

combină atât avantajele, cât și dezavantajele acestor tipuri de eșantionare.

Continuând exemplul anterior, într-un prim stadiu se pot extrage în mod

aleatoriu 25% din comune (672 de comune), după care, din cadrul acestor

comune selectate, se pot extrage în mod sistematic 20% din familii, astfel

încât numărul de observații din eșantion să reprezinte în final 5% din N.

Alternativ, în cadrul comunelor se pot defini straturi relevante (de exemplu,

după vârsta capului de familie sau după numărul membrilor acesteia),

extrăgând aleatoriu unități din fiecare strat.

Tehnicile de eşantionare prin care se generează eşantioane reprezentative,

pentru care unităţile au fost prelevate în mod aleatoriu, asigură premisele

estimărilor statistice ale parametrilor populaţiei de referinţă prin intermediul

observaţiilor efectuate asupra eşantionului. Astfel, rezultatele obţinute la nivelul

eşantionului pot fi extinse, cu anumită probabilitate, la nivelul întregii populaţii de

referinţă.

Observaţie: La sfârşitul capitolului precedent am făcut referire la operatorul E, care

indică valoarea aşteptată a unei variabile aleatoare (media sa). Un alt operator la

care am făcut referire este operatorul V, prin care se indică varianţa (dispersia) unei

variabile aleatoare. Astfel, dacă E(X)=m, atunci V(X)=E[(X-m)2].

4.4 Procesul de estimare

Estimarea reprezintă procesul prin care, pe baza datelor obţinute asupra

unităţilor din eşantion, se determină, printr-o valoare sau interval de valori, cu o

anumită probabilitate, valorile necunoscute pentru parametrii sau caracteristicile

populaţiei de referinţă. Estimatorul reprezintă deci rezultatul acestui proces de

inferenţă sau inducţie statistică, fiecărui estimator fiindu-i asociată o anumită

probabilitate (ce caracterizează încrederea ce se poate pune în acest estimator).

În cele ce urmează, vom considera următoarele notaţii:

74

Indicatori

Numărul

de

unităţi

Media aritmetică

pentru caracteristici...

Dispersia

caracteristicilor...

măsurabile binare măsurabile binare

În populaţia de referinţă N μ p σ2 p(1-p)

În eşantion n m f s2 f(1-f)

Metoda observării parţiale presupune prelevarea de n unităţi din cele N ale

populaţiei de referinţă şi înregistrarea pentru fiecare unitate din eşantion a valorii

caracteristicii urmărite. Se obţine astfel şirul valorilor x1,x2,...,xn, pe baza căruia se

calculează un anumit indicator. În cele ce urmează, indicatorul de interes va fi

reprezentat de media populaţiei de referinţă pentru caracteristica X.

Acest indicator (media obţinută din eşantion) va diferi mai mult sau mai puţin

faţă de indicatorul adevărat (media caracteristicii în populaţia de referinţă). Pentru

exemplul nostru, m, care are o valoare cunoscută, va fi diferit de μ, indicator care

este însă necunoscut. Ceea ce trebuie reţinut este că într-o altă eşantionare, în care

unităţile prelevate sunt foarte posibil să fie diferite, valoarea indicatorului m este

foarte posibil să fie alta, la rândul său diferită de μ. Faptul că indicatorii statistici

calculaţi pe baza datelor de sondaj diferă de la eşantion la eşantion face ca ei să

poată fi interpretaţi ca variabile aleatoare. În consecinţă, în prelucrarea datelor de

sondaj se pot aplica metode şi proceduri din aria statisticii matematice şi a

probabilităţilor.

În concluzie, trebuie reţinut faptul că, în procesul cercetării statistice,

următoarele concepte sunt diferite:

- indicatorul sau parametrul de interes al populaţiei – reprezintă o valoare concretă dar necunoscută (de exemplu, μ);

- indicatorul sau parametrul eşantionului – reprezintă o valoare concretă şi cunoscută, care depinde, printre altele, de volumul eşantionului şi procedeul de eşantionare (de exemplu, m);

- variabila aleatoare a indicatorului sau parametrului – aceasta apare datorită faptului că indicatorul calculat pe baza eşantionului variază de la un eşantion la altul. Pentru această variabilă aleatoare, cel mai adesea se cunoaşte (sau se presupune) legea de probabilitate.

Calitatea estimatorului

Pentru a putea fi extinşi la nivelul întregii populaţii, indicatorii estimaţi pe

baza sondajului (indicatori ce sunt priviţi drept variabile aleatoare) trebuie să aibă

anumite caracteristici:

- să fie estimări nedeplasate – valoarea medie (aşteptată) a indicatorului de sondaj trebuie să fie egală cu parametrul din populaţia de referinţă pe care îl

75

reprezintă. Aceasta înseamnă că dacă am repeta sondajul de un număr mare de ori, să zicem de 2.000 de ori, media indicatorului obţinut în aceste 2.000 de eşantioane (fiecare de mărime n) ar trebui să fie egală cu parametrul populaţiei de referinţă. Astfel, un indicator β* se spune că este un estimator nedeplasat al lui β dacă valoarea aşteptată (media) lui β* în eşantioane repetate este β. Nedeplasarea nu înseamnă că β*=β ci că, în sondaje repetate E(β*)=β. Pentru exemplul nostru, în care suntem interesaţi de media caracteristicii X, indicatorul m este nedeplasat faţă de μ dacă E(m)=μ.

- să fie estimări eficiente – în cazul în care există doi sau mai mulţi indicatori nedeplasaţi, obţinuţi din eşantioane de acelaşi volum, este de preferat cel caracterizat de dispersia cea mai mică. Altfel spus, dintre mai mulţi estimatori nedeplasaţi, fiecare obţinuţi prin sondaje repetate, cercetătorul va alege acel estimator pentru care funcţia densităţii de probabilitate este cea mai ascuţită (leptocurtică).

- să fie estimări consistente – pentru valori mari ale lui n, indicatorul de sondaj să conveargă în probabilitate către parametrul teoretic (şi necunoscut) al populaţiei de referinţă. Estimatorul β* converge în probabilitate spre β dacă,

pentru orice ε>0: .1)|(|lim * =≤−∞→

εββPn

Cerinţa ca estimatorul să fie consistent este rezultatul direct al faptului că în

practică se folosesc eşantioane de dimensiuni finite, chiar mici, în timp ce

teoria face apel deseori la mulţimi infinite. De multe ori se întâmplă ca un

estimator deplasat să devină din ce în ce mai puţin deplasat, cu cât mărimea

eşantionului este mai mare. În econometrie, acest fenomen este descris prin

folosirea termenului de distribuţie asimptotică şi prin definirea

caracteristicilor asimptotice ale unui estimator (cele care s-ar obţine pentru

eşantioane de volum extrem de mare).

Material opțional: Intervale de încredere

Din populaţia de referinţă de volum N, în care variabila aleatoare X este

caracterizată de media μ şi dispersia σ2, se extrage în mod aleatoriu (probabilist) un

eşantion de mărime n, media unităţilor din eşantion fiind notată prin m, iar dispersia

prin s2. Trebuie reținut faptul că extragerea unui alt eşantion din populaţia de

referinţă va duce foarte probabil la determinarea unei alte medii. Astfel, dacă se

extrag r eşantioane, mediile obţinute (pentru caracteristica X) pot fi notate

m1,m2,...,mr. Aceste medii ale eşantioanelor generate pot fi considerate ca fiind

valorile unei variabile aleatoare, notate me. Pentru această nouă variabilă aleatoare,

ce se presupune a urma o distribuţie normală, are sens calcularea parametrilor

tendinţei centrale şi ai împrăştierii.

În cazul în care eşantionarea este probabililstă și repetată (cu revenire),

pentru variabila me sunt adevărate proprietăţile:

E(me)=μ,

76

ceea ce înseamnă că valoarea aşteptată (media) a mediilor generate de diversele

eşantioane pentru caracteristica X este egală cu media acestei caracteristici în

populaţia de referinţă. Altfel spus, media eşantionului, m, este un estimator

nedeplasat al mediei populației, μ.

V(me)= σ2/n,

ceea ce înseamnă că dispersia mediei eşantionului este de n ori mai mică decât

dispersia caracteristicii X în populaţia de referinţă.

În cazul în care eşantionarea este probabilistă și nerepetată (fără revenire),

pentru variabila me sunt adevărate proprietăţile:

E(me)=μ

Comentariile de mai sus se aplică şi aici.

1)(

2

−−⋅=

N

nN

nmV e

σ

Singura noutate faţă de cazul eşantionării repetate este apariţia factorului (N-n)/(N-

1). Acest factor este deseori înlocuit de (N-n)/N, diferenţa dintre cei doi fiind absolut

neglijabilă (N, volumul populaţiei de referinţă, se presupune a fi un număr extrem de

mare, fapt pentru care N-1 este tot o valoare foarte mare). Factorul (N-n)/N se mai

poate scrie ca 1-n/N.

Observaţie: Dacă N (volumul populaţiei totale) este un număr foarte mare în raport

cu n (volumul eşantionului), atunci raportul (N-n)/(N-1) tinde la 1, fapt pentru care

rezultatele obţinute în cazul eşantionărilor cu și fără revenire sunt similare.

Observaţie: Dacă n=N, atunci ne aflăm în situaţia unei cercetări totale, exhaustive, nu

a unei observări parţiale. În acest caz, atât factorul (N-n)/(N-1), cât şi alternativa sa

(N-n)/N,devin zero, ceea ce înseamnă că V(me)=0 în cazul eşantionării nerepetate.

Mai mult, întrucât n=N este un număr foarte mare, V(me)�0 şi în cazul eşantionării

repetate. Acest fapt este evident şi la nivel intuitiv: întrucât observăm întreaga

populaţie, considerăm practic un unic eşantion, care produce o unică medie, egală cu

media populaţiei de referinţă. Această medie unică nu poate fi caracterizată decât de

o dispersie nulă.

Revenind la cele afirmate mai sus, subliniem faptul că estimările obţinute pe

baza datelor de sondaj constituie evaluări aproximative ale adevăratelor valori ale

parametrilor necunoscuţi din populaţia de referinţă. Prin urmare, rezultatele

obţinute printr-un sondaj sunt afectate de erori. Eroarea de sondaj este definită ca

diferenţa dintre estimatorul obţinut prin culegerea datelor de la eşantion (m) şi

valoarea adevărată a parametrului urmărit (μ).

Ceea ce se obţine prin sondaj nu este valoarea adevărată a parametrului

căutat, ci un interval care, cu o probabilitate fixată de cercetător, acoperă valoarea

77

adevărată dar necunoscută a acestui parametru din populaţia de referinţă, μ. Acest

interval poartă numele de interval de încredere, notat (m-∆1, m+∆2), şi defineşte

precizia estimaţiei. De cele mai multe ori se consideră ∆1=∆2, caz în care intervalul

devine (m-∆, m+∆), un interval simetric în jurul valorii calculate. Prin urmare, are loc

inegalitatea m-∆<μ<m+∆.

Cele două limite ale intervalului de încredere se calculează pe baza datelor

sondajului (pe baza x1, x2, ..., xn) astfel încât, cu o probabilitate P=1-α, să se

îndeplinească relaţia P(m-∆<μ<m+∆)=P(|m-μ|<∆)=1-α. Probabilitatea P=1-α se

numeşte nivel de încredere şi caracterizează siguranţa afirmaţiilor. α se numeşte

prag de semnificaţie şi se fixează prin programul de cercetare. Valorile uzuale ale lui

α sunt 5%, 1%, 0,1%, care corespund unor niveluri de încredere P=1-α de 95%, 99%,

respectiv 99,9%. Cel mai utilizat nivel de încredere este, de departe, P=1-α=95%, de

unde și gluma că statisticienii sunt acei oameni al căror unic țel în viață este să se

înșele în fix 5% din cazuri.

Alegerea unui nivel de încredere are la bază mai multe considerente. După

cum vom vedea, un nivel de încredere mai ridicat implică un număr mai mare de

observații în eșantion, deci costuri crescute. Trebuie avută în vedere și importanța

subiectului analizat. Astfel, în cazul unui studiu ce privește gradul de satisfacție al

clienților unui anumit model de telefon mobil, un nivel de încredere de 95% ar putea

fi considerat acceptabil. În schimb, în evaluarea efectelor adverse ale unui nou

medicament, efecte adverse ce ar putea depăși beneficiile tratamentului, s-ar putea

ca un nivel de încredere de 99% să fie considerat prea redus, putându-se opta pentru

un nivel de încredere de 99,9%.

Întrucât în cazul eşantionării repetate me urmează o distribuţie normală de

medie μ şi dispersie σ2/n, atunci variabila n

mz e

/σµ−= urmează o distribuţie normală

normată N(0,1). Aceasta înseamnă că, pentru un prag de semnificaţie α, se poate

determina valoarea critică zα/2 pentru care

.1/

2/2/2/ ασµσσ

µααα −=

+<<−=

<−

nzm

nzmPz

n

mP ee

e

Intervalul de încredere este deci ,, 2/2/

+−n

zmn

zm ee

σσαα unde zα/2

reprezintă valoarea tabelată pentru repartiţia N(0,1), corespunzătoare pragului de

semnificaţie α fixat prin programul de cercetare (acceptat de cel care organizează

sondajul). Aşa cum precizam mai sus, valorile uzuale ale lui α sunt 5%, care

corespunde lui z=1,96, 1%, care corespunde lui z=2,58 şi α=0,1%, care corespunde lui

z=3,29.

78

În cazul eşantionării nerepetate, media variabilei aleatoare me este aceeaşi,

μ, dispersia fiind uşor diferită prin includerea factorului 1-n/N. Intervalul de

încredere în acest caz este .1,1 2/2/

−+−−

N

n

nzm

N

n

nzm ee

σσαα

Din cele prezentate mai sus, reiese că pentru determinarea intervalului de

încredere pentru μ (media caracteristicii X în populaţia de referinţă), statisticianul ar

trebui să cunoască σ (abaterea standard a caracteristicii urmărite în populaţia de

referinţă). Acest lucru nu este însă posibil (să cunoşti dispersia unei variabile, în

condiţiile în care nu ştii media sa). De aceea, în practică, limitele intervalului de

încredere vor fi calculate folosind în locul lui σ un estimator al acestuia, după cum

vom vedea mai jos.

4.5 Determinarea volumului eşantionului

Dimensionarea eşantionului reprezintă una din etapele importante în analiza

unei populaţii statistice prin intermediul sondajului. Stabilirea mărimii eşantionului

se face pe baza acceptării unui compromis raţional între a opta pentru eşantioane de

volum mare, care asigură reprezentativitate mai ridicată, şi eşantioane de volum mai

mic, dar care presupun costuri mai reduse.

Mărimea unui eşantion este dată de gradul de variaţie a populaţiei de

referinţă, de forma de organizare a populaţiei (care implică folosirea unui anumit tip

de sondaj) şi de importanţa cercetării efectuate (care are un impact asupra nivelului

de probabilitate acceptat pentru garantarea estimării). Dimensiunea minimă a

eşantionului trebuie să asigure o reprezentativitate acceptabilă în procesul inferenţei

statistice, care să nu ducă la distorsionarea rezultatelor.

Este demn de remarcat faptul că mărimea populaţiei totale, N, va fi puţin

relevantă în dimensionarea volumului unui eşantion. De aceea, raţionamentul

potrivit căruia o creştere a ponderii eşantionului în volumul populaţiei totale duce la

creşterea reprezentativităţii acestui eşantion este unul greşit, reprezentativitatea

unui eşantion fiind influenţată de mărimea absolută a acestuia, nu de mărimea

relativă la populație.

O altă precizare în dimensionarea eşantionului: există un prag optim al

volumului eşantionului care asigură reprezentativitatea la nivelul întregii populaţii,

dar nu pe diverse subpopulaţii constituite după unul sau mai multe criterii de

partiţionare. Nivelul optim se află în jurul a 500-600 de observaţii. Dacă însă

populaţia de referinţă este constituită din două subpopulaţii (de exemplu, rural-

urban) iar eşantionul se repartizează proporţional pe cele două straturi, atunci cele

două subeşantioane nu sunt reprezentative pentru fiecare din cele două

subpopulaţii, ci pentru ansamblul lor. De aceea, în acest caz, mărimea optimă a

79

eşantionului se va situa în jurul a 1000-1200 de observaţii, acest eşantion asigurând

reprezentativitatea atât la nivelul întregii populaţii, cât şi pentru fiecare strat.

Aşa cum am văzut în secțiunea anterioară, în cazul eşantionării probabiliste

repetate, cu o anumită probabilitate P=1-α, media caracteristicii X în populaţia de

referinţă se află în intervalul de încredere ., 2/2/

+−n

zmn

zm ee

σσαα

nz

σα 2/

reprezintă eroarea în jurul mediei obţinute din eşantion, iar cercetătorul va stabili

nivelul maxim pe care îl admite, această eroare maximă admisă fiind notată ∆x.

Eroarea maximă se stabileşte în funcţie de particularităţile concrete ale problemei

practice de soluţionat, de precizia necesară a studiului. De exemplu, într-un studiu

medical sau militar, s-ar putea ca precizia estimării să fie esențială, ceea ce impune

un interval restrâns în jurul mediei.

În cazul eşantionării probabiliste repetate, din relaţia n

zx

σα 2/=∆ se

determină mărimea eșantionului, .2

222/

x

zn

∆= σα

În cazul eşantionării probabiliste nerepetate, intervalul de încredere indică

faptul că eroarea maximă admisă este ,12/ N

n

nzx −=∆ σ

α relaţie pe baza căreia

se determină volumul eşantionului: ./22

2/2

222/

Nz

zn

x σσ

α

α

+∆=

Precizări şi observaţii:

• Determinarea volumului eșantionului se bazează pe faptul că selecția unităților populației în eșantion se realizează în mod probabilist (repetat sau nerepetat). În cazul în care selecția nu se face în mod aleatoriu (repetat sau nerepetat), se pot folosi formulele de mai sus, dar studiul este doar unul calitativ – se calculează indicatorul de interes pe baza informațiilor din eșantion, dar această informație nu poate fi extrapolată la nivelul populației.

• zα/2~N(0,1) este o valoare tabelată, care depinde de valoarea aleasă a pragului de semnificaţie α. Astfel, pentru α=5%, z=1,96, pentru α=1%, z=2,58 iar pentru α=0,1%, z=3,29.

• σ2 reprezintă dispersia variabilei X în populaţia de referinţă, fiind deci o măsură a omogenităţii acestei populaţii. Întrucât σ2 este necunoscută, în practică se folosesc estimări ale acesteia. Astfel, pot fi folosite măsuri ale dispersiei obţinute în cadrul unor cercetări anterioare, dar şi estimări bazate pe observarea unui număr redus de unităţi ale populaţiei de referinţă. Nu în ultimul rând, pentru a asigura reprezentativitatea eşantionului, se poate folosi valoarea maximă pe care cercetătorul consideră că o poate lua dispersia populaţiei de referinţă în funcţie de variabila considerată.

80

Dacă populaţia este caracterizată de o variabilă binară, atunci dispersia unei

astfel de variabile este egală cu p(1-p), unde p reprezintă ponderea unităţilor

care posedă acea caracteristică în totalul populaţiei. Valoarea maximă a

dispersiei unei variabile alternative este 0,25, corespunzătoare unei împărţiri a

populaţiei în două părţi egale în funcţie de caracteristica avută în vedere.

• Pentru populaţii de volum mare, fracţia z2α/2σ2/N tinde la zero, fapt pentru care

cele două formule de determinare a volumului eșantionului, pentru cazul eşantionării repetate şi nerepetate, returnează valori ale lui n relativ egale. De exemplu, pentru α=5% (z=1,96), z2σ2=1,962x0,25≈0,96, ceea ce înseamnă că, pentru o populație de mărime N=10.000, z2σ2/N≈0,0001, termen care poate fi ignorat.

• ∆x reprezintă eroarea maximă admisă. Aceasta se exprimă în formă absolută, unitatea de măsură fiind aceeaşi cu cea a σ (respectiv a estimatorului s). De exemplu, atât ∆x, cât şi σ pot fi exprimate procentual sau în orice unitate de măsură. Prin urmare, raportul σ2/∆x

2 este o măsură adimensională.

• Mărimea eşantionului determinată conform formulelor de mai sus este uneori corectată în funcţie de N, volumul populaţiei totale, întrucât în practică acesta este un număr finit, nu infinit (sau extrem de mare), aşa cum presupune teoria. Astfel, pentru populaţii de ordinul miilor de unităţi, cercetătorii preferă

implementarea unor eşantioane de mărime n*, unde ./)1(1

*

Nn

nn

−+= Pentru

populaţii de ordinul zecilor de mii de unităţi sau mai mari n*≈n, fapt pentru care această corecţie nu mai este necesară.

• Trebuie avut în vedere faptul că formulele precedente returnează valoarea minimă a lui n, date fiind nivelul de încredere în rezultate (care determină valoarea lui z), omogenitatea populaţiei de referinţă (prin intermediul lui σ) şi eroarea maximă admisă (∆). Este vorba de valoarea minimă pentru că, de multe ori, statisticienii decid să culeagă informaţii de la mai mulţi respondenţi pentru a compensa eventualele non-răspunsuri (de exemplu, respondenţi care aleg varianta Nu ştiu/Nu răspund). Unii practicieni consideră că un număr suplimentar de chestionare de aproximativ 30% din volumul eşantionului ar fi suficient, dar o regulă general valabilă este greu de găsit. În plus, trebuie reţinut faptul că n determinat mai sus reprezintă numărul minim de răspunsuri colectate, nu numărul de chestionare transmise. De exemplu, sondajele online sau cele realizate prin poştă au, în general, o rată de răspuns redusă, în jur de 15-20% din cei interpelaţi oferind răspunsuri (procentul depinde de mulţi factori: de subiectul studiului, de eventuale stimulente acordate etc.). Prin urmare, s-ar putea să fie necesară contactarea unui număr de potenţiali respondenţi de până la 5 ori mai mare faţă de numărul răspunsurilor necesare.

• Tabelul de mai jos indică volumul minim al eșantionului pentru trei valori uzuale ale nivelului de încredere (P=1-α) și pentru patru valori ale erorii maxime admise (Δ), marja de eroare fiind exprimată procentual. Δ la nivelul +/-10% trebuie văzut doar ca un exemplu, acest grad redus de precizie a estimării nefiind prea folosit.

81

Volumul eșantionului, n

Δ

1% 3% 5% 10%

P=1-α

95% 9.604 1.068 385 97

99% 16.641 1.849 666 167

99,9% 27.061 3.007 1.083 271

• Nu în ultimul rând, trebuie subliniat faptul că volumul eşantionului se determină pentru a se putea construi intervalul de încredere pentru media unei anumite caracteristici X în populaţia de referinţă. Dacă se doreşte determinarea intervalului de încredere pentru media unei alte caracteristici, Y, caracteristică după care populaţia are o altă omogenitate şi pentru care se acceptă o altă eroare maximă admisă, atunci volumul eşantionului va fi diferit. Întrucât un chestionar va cuprinde mai multe întrebări adresate respondenţilor, rezultă că, în funcţie şi de numărul răspunsurilor valide primite, statisticianul va putea determina pentru fiecare caracteristică un interval de încredere şi un prag de semnificaţie.

Întrucât sondajul va urmări estimarea mai multor parametri de interes din populație, deci va urmări mai multe variabile, X1, X2, X3 etc., în funcție de fiecare dintre acestea populația având un grad de omogenitate diferit, în vederea determinării volumului eșantionului are sens folosirea unei valori maxime, acoperitoare, pentru σ2. Acesta este motivul pentru care se folosește valoarea de 0,25, corespunzătoare dispersiei maxime a unei variabile binare, iar eroarea maximă admisă, ∆x, se exprimă procentual.

La adresa http://www.nss.gov.au/nss/home.NSF/pages/Sample+size+calculator

puteți găsi o aplicaţie care calculează volumul eşantionului pentru diverşii parametri

pe care îi poate alege utilizatorul. În primul rând, se alege nivelul de încredere al

estimării, fiind posibilă selectarea a două valori, 95% sau 99%, ceea ce arată că

nivelul 99,9% este mult mai rar folosit în practică. Se poate introduce apoi mărimea

populației, sau se poate lăsa gol acel câmp, caz în care populația este considerată de

dimensiuni ridicate. Se mai poate introduce dispersia ce caracterizează populația de

interes, sau se poate lăsa gol acel câmp, caz în care se face calculul cu valoarea

standard de 0,25. În fine, se alege apoi eroarea maximă admisă, exprimată

procentual (de exemplu, 0,05 pentru +/-5% în jurul mediei).

Site-ul www.random.org generează numere aleatoare, putând fi deci folosit pentru

alegerea unităților care să fie incluse în eșantion.

Exemplu: Sondaj CSCI (Centrul de Studii și Cercetări Infopolitic, www.infopolitic.ro)

Obiectiv: Sondajul a vizat gradul de încredere în anumite personalități politice,

intențiile de vot ale respondenților, părerile acestora privind prestațiilor guvernelor

care au condus țara, dar și aspecte privind referendumul de demitere a președintelui

organizat în vara lui 2012.

82

Tipul eșantionului: Multistadial cluster cu selecție probabilistică a persoanelor,

reprezentativ la nivel național.

Mărimea eșantionului: 1.100 de persoane

Marja de eroare: +/- 3%, la un nivel de probabilitate de 95%.

Culegerea datelor: CATI, perioada 25.08-5.09.2012.

CSCI a realizat mai multe astfel de sondaje, un altul fiind organizat în perioada 20-

24.03.2014: eșantion multistadial cluster, 1.120 de respondenți selectați

probabilistic, eșantion validat pe baza datelor INS 2011 și a recensământului

populației din 2002, eroare tolerată +/- 3%, la un nivel de probabilitate 95%.

Exemplu: Sondaj IMAS Marketing și Sondaje (www.imas-inc.com) din 2009.

Obiectiv: Evaluarea percepţiilor şi a opiniilor privind sistemul de justiţie şi codurile penal şi civil -> populația de referință = rezidenți peste 18 ani.

Tipul eșantionului: Probabilist multistadial, cu stratificare în primul stadiu în funcție de 11 regiuni și 5 tipuri de localitate, 48 în mediul urban, 33 în mediul rural.

Mărimea eșantionului: 875 de persoane, eșantionul fiind validat pe baza datelor INS. Marja de eroare: +/-3,3%, cu un nivel de probabilitate 95%.

Culegerea datelor: perioada 25-30.04.2009

Studiu pilot: 15 chestionare (8 în București, 7 în comune din apropierea Bucureștiului), 15-16.04.2009, pentru adaptarea instrumentului la nivelul discursiv al publicului general. Tabelul din dreapta arată repartiția celor 875 de respondenți după mai multe criterii considerate importante: sex, vârstă, tipul localității, regiune, venit, educație și statut social. Informațiile sunt prezentate pentru a susține ideea reprezentativității eșantionului în relație cu populația totală. De exemplu, vedem că 48,4% din respondenți

83

sunt bărbați și 51,6% sunt femei, valori foarte apropiate de mediile naționale (recensământul populaţiei din anul 1992 a arătat că 48,61% din populaţia României este de sex masculin iar 51,39% este de sex feminin). Exerciţiu: Pentru început, considerăm o populaţie de volum mare, N=3 milioane de

unităţi, astfel încât termenul z2σ2/N poate fi ignorat (prin urmare, nu prezintă

importanţă dacă extragerea se face cu repetare sau fără). Presupunem că se doreşte

determinarea intervalului de încredere pentru media unei variabile binare, dispersia

acestei variabile fiind necunoscută.

1) Determinaţi mărimea eşantionului considerând un prag de semnificaţie α=5% (nivel de încredere 95%) şi o marjă de eroare admisă ∆x=±5%.

2) Care este volumul eşantionului dacă marja de eroare se reduce la ±3%? 3) Dar dacă pragul de semnificaţie se reduce la 1%, eroarea maximă admisă

rămânând ∆x=±5%? 4) Dar dacă cei doi parametri de mai sus se reduc concomitent? 5) Care este volumul eşantionului dacă α=5%, ∆x=±5%, volumul populaţiei de

referinţă N=5000 iar eşantionarea se face cu repetare? (Volumul eşantionului va trebui corectat pentru populaţii finite.)

6) Care este volumul eşantionului dacă α=5%, ∆x=±5%, volumul populaţiei de referinţă N=5000 iar eşantionarea se face fără repetare? (În acest caz, termenul z2σ2/N nu mai poate fi considerat nul şi trebuie făcută şi corecţia pentru populaţii finite.)

Rezolvare:

1) Volumul eşantionului se determină pe baza relaţiei 2

222/

x

zn

∆= σα . Dat fiind că

α=5%, valoarea tabelată a lui z este 1,96. Apoi, aşa cum am arătat anterior, dispersia maximă a unei variabile alternative este σ2=0,25. Astfel, relaţia de mai sus devine n=1,962x0,25/0,052=385 de unităţi (Rotunjire prin adaos. De ce?)

2) Dacă eroarea maximă admisă ∆x se doreşte a fi ±3%, atunci relaţia de mai sus devine n=1,962*0,25/0,032=1.068 de unităţi.

3) Dacă pragul de semnificaţie se reduce la 1%, dar eroarea maximă admisă rămâne ∆x=±5%, atunci valoarea lui z din tabelul legii de repartiţie N(0,1) este 2,58. Relaţia de mai sus devine n=2,582x0,25/0,052=666 de unităţi.

4) Dacă cei doi parametri se reduc concomitent, atunci relaţia de mai sus devine n=2,582x0,25/0,032=1.849 de unităţi.

5) Pentru α=5% şi ∆x=±5%, n=385 determinat anterior va trebui corectat datorită faptului că populaţia de referinţă are un volum N relativ redus. În practică se va implementa un eşantion de volum

3585000/3841

385

/)1(1* =

+=

−+=

Nn

nn de unităţi.

84

Ore de studiu

individual ni

1-3 7

3-5 11

5-7 20

7-9 29

9-11 21

11-13 16

>13 6

Total 110

6) Formula de calcul a volumului eşantionului în cazul extragerilor nerepetate

este .3575000/25,096,105,0

25,096,1

/ 22

2

222/

2

222/ =

⋅+⋅=

+∆=

Nz

zn

x σσ

α

α Această valoare

trebuie corectată pentru faptul că populaţia de referinţă are o dimensiune

relativ redusă. Astfel, 3345000/3561

357

/)1(1* =

+=

−+=

Nn

nn de unităţi.

Exerciţiu opțional: Se cunosc datele din tabelul alăturat cu

privire la distribuţia unui număr de studenţi după durata de

studiu individual pe săptămână:

1) Presupunând că cei n=110 studenţi reprezintă un eşantion repetat dintr-o populaţie de mărime N=500 de studenţi şi având în vedere un nivel de încredere P=95% (z=1,96), să se determine intervalul de încredere pentru media numărului de ore de studiu individual săptămânal în populaţia generală (de referinţă).

2) Cum se modifică acest interval dacă eşantionul este nerepetat? Dar dacă, în plus, N=50.000 de studenţi?

3) Cum se modifică acest interval dacă P=99,9% (z=3,29)? 4) Care este volumul necesar al eşantionului dacă se acceptă o eroare maximă

dublă faţă de cea precedentă? Dar dacă se impune o eroare maximă la jumătate?

Rezolvare:

Pentru a rezolva acest exerciţiu trebuie determinate media şi dispersia variabilei X

(ore de studiu individual) în eşantionul prelevat. Pentru aceasta, construim

următorul tabel:

Ore de studiu

individual ni xi xini mxi − 2)( mxi − ii nmx 2)( −

1-3 7 2 14 -6,15 37,82 246,74

3-5 11 4 44 -4,15 17,22 189,42

5-7 20 6 120 -2,15 4,62 92,4

7-9 29 8 232 -0,15 0,02 0,58

9-11 21 10 210 1,85 3,42 71,82

11-13 16 12 192 3,85 14,82 237,12

>13 6 14 84 5,85 34,22 205,32

Total 110 896 1043,4

15,8110

896 ===∑n

nxm ii

49,9110

4,1043)( 22 ==

−=∑

n

nmxs ii

s=3,08

85

1) În cazul eşantionării repetate, intervalul de încredere este

., 2/2/

+−

nzm

nzm

σσαα Întrucât σ, abaterea standard a variabilei aleatoare

X în populaţia generală, este necunoscută, vom folosi un estimator al său,

respectiv s. Intervalul de încredere este .110

08,396,115,8;

110

08,396,115,8

+−

Deoarece ,58,049,10

04,6

110

08,396,1 == intervalul de încredere devine (7,57; 8,73).

2) În cazul eşantionării nerepetate, intervalul de încredere pentru media

caracteristicii X este .1,1 2/2/

−+−−

N

n

nzm

N

n

nzm

σσαα

Pentru N=500, obţinem .500

1101

110

08,396,115,8;

500

1101

110

08,396,115,8

−+−−

,51,088,058,0500

1101

110

08,396,1 =⋅=− deci intervalul de încredere este (7,64;

8,66).

Pentru N=50.000, factorul 1-n/N este egal cu 1-110/50.000, respectiv 0,998,

foarte apropiat de valoarea 1 (mai mult, rădăcina pătrată din acest factor este

egală cu 0,999). Intervalul de încredere va fi deci tot (7,57; 8,73). Aceasta

înseamnă că, pentru valori ridicate ale lui N, nu are importanţă în practică dacă

eşantionarea se face cu sau fără revenire.

3) Dacă P=99,9% (z=3,29), atunci intervalul de încredere devine

).12,9;18,7()97,015,8;97,015,8(110

08,329,315,8;

110

08,329,315,8 =+−=

+− Se

observă că, pentru a garanta rezultatele cu o mai mare probabilitate, este necesar ca intervalul de încredere să fie extins.

4) Eroarea maximă admisă este n

zσ

α 2/ , în cazul de faţă fiind egală cu 0,58 (ore de

studiu individual pe săptămână). Dacă se acceptă o eroare dublă, deci 1,16 (ore

de studiu), volumul eşantionului necesar va scădea. Din relaţia 16,108,3

96,1 =n

se determină n=28. Dacă însă se doreşte înjumătăţirea erorii maxime, atunci este

nevoie de un eşantion lărgit. Din relaţia 29,008,3

96,1 =n

se determină n=434. În

acest caz, dat fiind că N=500, ar fi de preferat observarea întregii populaţii de referinţă.

Download - STEC - Capitolul 4

Top Related