curs statistica
DESCRIPTION
BVTRANSCRIPT
SONDAJUL STATISTIC
1. Generalităţi
Necesarul de informaţie în continuă creştere, coroborat cu faptul că sursele
economice (în principal cele financiare) sunt de regulă limitate, determină creşterea
gradului de utilizare a metodei sondajului statistic ca formă a observării parţiale.
Sondajul statistic este uneori singura formă de obţinere a informaţiei şi este cu
atât mai avantajoasă cu cât presupune un consum redus de resurse, oferind posibilitatea
de a obţine informaţii referitoare la întreaga colectivitate, prin observarea şi cercetarea
unei părţi a acesteia.
Partea cercetată este numită subpopulaţie sau eşantion, fiind întâlnită în literatura
de specialitate sub numele de sondaj sau selecţie.
În practica cel mai des se foloseşte sintagma "colectivitate de selecţie" pentru
eşantion.
Toate ipotezele, afirmaţiile, clasele stabilite pe baza unui sondaj nu pot fi
considerate de tip determinist, ele având caracterul unor ipoteze, afirmaţii de tip statistic,
efectuate în condiţiile unei anumite probabilităţi, deci cu un anumit nivel de încredere.
2. Noţiuni si importanţă
Culegerea datelor se poate face prin observări totale şi parţiale. Dacă observarea
parţială se face în scopul înlocuirii unei observări totale, atunci statistica foloseşte metoda
selectivă, care presupune obţinerea unor eşantioane reprezentative, extrase după criterii
strict elaborate şi care se supun observării în conformitate cu o serie de reguli prestabilite.
Reprezentativitatea este proprietatea conform căreia, într-un număr mai mic de
unităţi care formează împreună un eşantion, să se regăsească aceleaşi trăsături esenţiale
ca şi în întreaga populaţie supusă cercetării statistice.
Se consideră suficient de reprezentativ sondajul care conduce la erori de cel mult
5 % între colectivitatea de selecţie şi colectivitatea generală.
La aplicarea metodei sondajului statistic se utilizează o serie de noţiuni-perechi
ale colectivităţii de selecţie şi colectivităţii generale după cum urmează:
Colectivitatea VolumCaracteristica nealternativă Caracteristica alternativă (binară)
Medie Dispersie Medie Dispersie
Colectivitatea
de selecţie
(sondaj)
n
sau
sau
Colectivitatea
generală
(populaţie)
N
De reţinut că, în orice condiţii volumul colectivităţii totale este o constantă, deci
parametrii colectivităţii totale (media, dispersia) pot lua fiecare câte o singură valoare
distinctă. În acelaşi timp, dintr-o populaţie totală de N unităţi pot fi extrase mai multe
eşantioane de acelaşi volum sau de volum diferit. Rezultă de aici că media şi dispersia
colectivităţii de sondaj se transformă în variabile aleatoare, cu valori şi frecvenţe diferite
de apariţie.
Dintr-un volum de N unităţi pot fi extrase eşantioane. Numărul total al
eşantioanelor este .
De aici rezultă că media şi dispersia colectivităţii de sondaj se transformă în
variabile aleatoare cu valori diferite şi cu frecvenţe diferite.
Pentru fiecare indicator calculat la nivel de colectivitate generală sau eşantion,
există diferenţe în plus sau în minus. Aceste diferenţe se numesc erori de selecţie şi sunt:
de sondaj sau de reprezentativitate.
Erorile de sondaj sunt erori de reprezentativitate care îşi au sursa în încălcarea
principiului fundamental al sondajului şi anume caracterul aleator al prelucrărilor. Ele se
concretizează în deplasări ale valorilor parametrilor stabiliţi pentru colectivitatea de
selecţie, comparativ cu parametrii existenţi pentru populaţia originară.
Datorită proprietăţilor mediei, la calculul erorii de sondaj se ia în discuţie ca
principal măsurător al erorii, diferenţa dintre media de selecţie şi media generală.
Eroarea de reprezentativitate reprezintă diferenţa dintre media generală a
populaţiei şi media eşantionului, aceasta din urmă fiind calculată pe baza sondajului.
Această eroare este expresia în unităţi concrete de măsură, considerându-se că
media a colectivităţii de selecţie este reprezentativă pentru media generală (m) a
colectivităţii generale, dacă este reflectată relaţia:
sau
Diferenţa se numeşte eroare de eşantionare sau eroare de
reprezentativitate şi este de 2 tipuri:
- eroare de reprezentativitate sistematică, provenind de la nerespectarea
principiilor fundamentale ale efectuării sondajului: “alegerea la întâmplare a unităţilor
eşantionului”.
- eroare de reprezentativitate întâmplătoare, care nu poate fi evitată şi care ţine
de natura eşantionării ca cercetare parţială.
Practica demonstrează că indiferent de precauţiile luate, nu este posibilă
reproducerea până la identitate a structurii populaţiei totale şi de aici rezultă că eroarea
de reprezentativitate poate fi calculată dacă media generală este cunoscută dintr-o
cercetare anterioară, comparându-se media eşantionului înregistrat, calculată în cursul
cercetării, cu această medie generală recunoscută.
În acest caz se spune că a fost calculată eroarea efectivă de sondaj şi dacă ea se
încadrează în marja de 5% este verificat şi gradul de reprezentativitate.
Nu în toate cazurile există o medie precalculată a colectivităţii generale. Din acest
motiv se utilizează mai multe sondaje de probă, verificându-se stabilitatea mediei şi a
dispersiei acestor sondaje prin metode cunoscute de la seriile de distribuţie.
Avantajul selecţiei statistice constă în faptul că permite calcularea mărimii erorii
şi stabilirea prealabilă a mărimii acesteia, cu condiţia ca la formarea eşantionului să se
folosească o schemă probabilistică sau un procedeu derivat dintr-o schemă probabilistă.
În acest caz, se pot interpreta şi calcula erorile de selecţie, cu ajutorul
proprietăţilor diferitelor funcţii de probabilitate.
3. Procedee şi modalităţi de alcătuire a eşantioanelor
Metoda sondajului oferă tehnici variate de prelucrare, diferenţiate şi adaptate
diferitelor tipuri de populaţie, astfel încât să se asigure caracterul aleator al selecţiei
unităţilor şi reprezentativitatea eşantionului.
După modul de prelucrare sau extragere, există următoarele tipuri de sondaje:
a) sondaj simplu aleatoriu (întâmplător)
- repetat
- nerepetat
b) sondaj tipic (stratificat):
c) sondaj de serie
d) sondaj în mai multe trepte
e) sondaj secvenţial utilizat la controlul calităţii
f) sondaj subiectiv (organizat sau dirijat)
g) sondaj sistematic sau mecanic
În practică, în marea majoritate a cazurilor, eşantioanele se extrag din populaţii
finite. Aceste eşantioane se tratează prin analogie cu extragerea sondajelor din populaţii
infinite.
În funcţie de revenirea sau nerevenirea fiecărei unităţi în baza de extragere,
sondajele sunt repetate, dacă unitatea extrasă revine în bază în vederea unei noi extrageri,
şi nerepetate în caz contrar.
Sondajul repetat este sondajul în care fiecare unitate extrasă din populaţia
generală este introdusă din nou în aceasta, în vederea unei noi extrageri. În acest caz,
variabilele sunt independente între ele şi fiecare unitate poate fi extrasă de mai multe ori.
În sondajul simplu repetat varianta de sondaj dă naştere unei repartiţii teoretice
după modelul Bernoulli.
Dintr-o colectivitate care conţine N unităţi se pot extrage mai multe eşantioane de
volum n, care pot să fie diferite ca structură una de cealaltă, deci succesiunea probelor de
sondaj este infinită. Numărul de variante de eşantionare este totuşi finit şi este egal cu:
.
Prin sondaj nerepetat se înţelege un sondaj analog cu modelul bilei extrase din
urnă, fără ca ea să mai fie pusă înapoi.
În acest caz, variantele sunt dependente între ele, şi fiecare unitate poate apărea o
singură dată în şirul succesiv al probelor. Este practic un sondaj efectuat dintr-o
populaţie finită, cu fracţia de sondaj depinzând de volumul eşantionului.
Atât în cazul bilei revenite, cât şi în cel al bilei nerevenite se obţin mai multe
eşantioane de acelaşi volum. Efectuând toate eşantioanele posibile cu acelaşi volum,
mediile de selecţie pot fi considerate ca valori diferite ale unei variabile statistice
aleatoare, care pot estima media generală cu o abatere mai mare sau mai mică. Rezultă de
aici că există sondaje mai eficiente sau mai puţin eficiente.
Prin definiţie, un sondaj A de volum n, in baza căruia se estimează media m
a unei populaţii pentru variabila x prin estimaţia este mai eficient decât sondajul
B, de acelaşi volum n, în baza căruia se estimează aceeaşi medie m prin estimaţia ,
dacă există relaţiile:
Acest lucru se explică pe baza inegalităţii lui Cebâşev, care exprimă cu o
probabilitate mai mare decât următoarele:
- în cazul sondajului A, media teoretică m se găseşte cuprinsă în intervalul
;
- în cazul sondajului B .
Concluzie:
Cu aceeaşi probabilitate, se găseşte pentru media teoretică un interval mai mic de
acoperire în cazul sondajului A decât în cazul sondajului B, motiv pentru care spunem că
sondajul A este mai eficient şi îl preferăm sondajului B.
Întreaga metodologie de calcul şi interpretare statistică a rezultatelor unei
cercetări selective se bazează pe sondajul simplu aleator, care corespunde cel mai bine
schemei Bernoulli şi are ca model teoretic repartiţiile binomială şi hipergeometrică.
Alcătuirea eşantioanelor poate fi făcută prin mai multe procedee:
a) procedeul bilei revenite şi nerevenite procedeu în care elementele
populaţiei generale se notează de la 1 la N, şi fiecare nr. se notează pe un cartonaş. Toate
cartonaşele se introduc într-o anumită urnă (urna lui Bernoulli) şi se amestecă bine.
Extragerile se fac la întâmplare.
Elementul extras se consideră component al eşantionului. Dacă elementele nu se
mai introduc în urna lui Bernoulli, sondajul aleator este nerepetat. În caz contrar, sondajul
este repetat.
La sondajul repetat, după fiecare reintroducere, cartonaşele din urna lui Bernoulli
sunt din nou amestecate.
b) procedeul tabelului numerelor aleatoare reprezintă o variantă de selecţie
probabilistă, care porneşte de la conceptul de nr. aleator şi care are sens prin asociere cu
anumite experimente şi anumite consemnări, privind frecvenţa de apariţie a unui fenomen
sau a unei anumite caracteristici intr-un proces.
Utilizarea tabelelor cu numere aleatoare constă în preluarea din cadrul populaţiei
a unităţilor ale căror numere de ordine prestabilite printr-o numărătoare prealabilă au fost
citite după o anumită ordine din tabel. Citirea se face de sus în jos şi de la stânga la
dreapta.
Există algoritmi care generează numere aleatoare. Pentru ca selecţia să fie riguros
întâmplătoare, punctul de pornire in acest tabel se alege tot întâmplător.
Daca nu există corespondenţi între numărul citit din tabel şi numărul elementului,
se trece mai departe la alt număr aleator.
c) procedeul mecanic de formare a eşantionului solicită ca elementele
colectivităţii generale supuse cercetării sa fie prelevate după un interval determinat,
denumit frecvent " pas de numărare", care se aplică bazei de sondaj.
Spre exemplu, dacă volumul eşantionului ar fi de 1/10 din cel al colectivităţii
generale, preluarea elementelor în eşantion se face din 10 în 10, pornindu-se dintr-un
punct al colectivităţii ales întâmplător.