statisticac2.ppt
TRANSCRIPT
STATISTICSTATISTICĂĂSTATISTICSTATISTICĂĂ
Curs IICurs II
TEMA 2. TEMA 2. ANALIZA STATISTICĂ A ANALIZA STATISTICĂ A
SERISERIILORILOR DE DISTRIBUTIE DE DISTRIBUTIE
TEMA 2. TEMA 2. ANALIZA STATISTICĂ A ANALIZA STATISTICĂ A
SERISERIILORILOR DE DISTRIBUTIE DE DISTRIBUTIE
2. 1.2. 1.2. 1.2. 1.
2.1.1. DefiniţieGruparea unităţilor statistice ale unei colectivităţi în funcţie de caracteristici atributive calitative sau cantitative are ca efect obţinerea seriilor de repartiţie (distribuţie). Specific seriilor de repartiţie este faptul că indiferent de tipul lor, spaţiul şi timpul sunt constante.
• Numărul de unităţi statistice corespunzătoare fiecărei grupe se numesc frecvenţe absolute, se notează cu fi, iar suma acestora este egală cu numărul de unităţi statistice ale colectivităţii (N).
Nk
i if 1
2.1.2. Clasificarea seriilor de repartiţie
a) După modul de variaţie a caracteristicii de grupare:
• Serie de repartiţie după variante • Serie de repartiţie după intervale de
variaţie
b) După numărul caracteristicilor de grupare
• Serii de repartiţie unidimensionale• Serii de repartiţie bidimensionale
a).1. Serii de repartiţie pe variante
Se construieşte, de regulă, în cazul în care:
caracteristica atributivă de grupare este cu variaţie discretă, iar numărul variantelor este relativ mic,
caracteristica de grupare este calitativă;
• Perechile (xi, fi) reprezintă termenii seriei de repartiţie.
• Dacă f1=f2=...=fk =1, atunci de regulă nu se mai scrie şirul frecvenţelor, iar şirul variantelor caracteristicii x1, x2, ..., xk poartă numele de repartiţie simplă.
• De cele mai multe ori însă frecvenţele diferă între ele şi prin urmare seria poartă numele de repartiţie de frecvenţe.
a).2. Seria de repartiţie după
intervale de variaţie Se construieşte de regulă în cazul în care caracteristica de grupare este cu variaţie continuă.
Stabilirea limitelor intervalelor de variaţie
• Indicarea limitelor intervalelor de variaţie se poate face în două moduri:– limita superioară a intervalului se preia
ca limită inferioară a intervalului următor
– cele două limite sunt distincte fiind distanţate cu o unitate egală cu cifra de cel mai mic ordin.
• Primul caz, când se consideră că limita superioară este inclusă în interval este utilizat dacă caracteristica de grupare are o variaţie continuă.
În acest caz, în calcule, intervalul este reprezentat de centrul acestuia care se obţine după relaţia:
xic x
ixi
inf sup
2
• Al doilea caz corespunde variaţiei discrete.
• Centrul intervalului se determină conform cu relaţia:
Unde hi este lungimea intervalului de variaţie.
xic x
i
hi inf2
Determinarea lungimii intervalului de variaţie şi a
numărului de grupe
• Se utilizează două metode:– Numărul de grupe se stabileşte
apriori şi ulterior de determină lungimea intervalului de variaţie;
grupenr
xx
ih
.minmax
– Se determină lungimea intervalului de variaţie şi în funcţie de acesta se stabilesc grupele;Se utilizează formula lui H.A. Sturges:
în care:xmax, xmin - varianta maximă şi varianta
minimă a caracteristicii de grupare;N - numărul total al unităţilor statistice ale
colectivităţii.
N
xx
ih
lg322,31minmax
b).1. Seria de repartiţie
unidimensională
• Se construieşte după o singură variabilă de grupare şi poate fi pe variante sau pe intervale de variaţie ale caracteristicii de grupare
b).2. Seria de repartiţie bidimensională
• Se construieşte după două variabile de grupare, de regulă interdependente, din care una este principală, iar cealaltă secundară
• Caracteristicile de grupare pot fi cantitative sau calitative cu variaţie discretă sau continuă.
2.1.3. Indicatori de frecvenţă
• Frecvenţelor absolute • Frecvenţe relative • Ponderile• Frecvenţele cumulate
Frecvenţele absolute• Numărul de unităţi statistice
corespunzătoare fiecărei grupe se numesc frecvenţe absolută, se notează cu fi, iar suma acestora este egală cu numărul de unităţi statistice ale colectivităţii (N).
Nk
i if 1
Frecvenţele relative• Dacă frecvenţele absolute fi se
împart la numărul total de unităţi statistice ale colectivităţii, se obţin frecvenţe relative notate cu fi*.
• Suma frecventelor relative este 1
Nif
i ifif
if
* 1*
i if
Ponderile• Frecvenţele relative exprimate în
procente se numesc ponderi• Suma ponderilor este 100%
Frecvenţe cumulatePe baza frecvenţelor absolute, (sau a
frecvenţelor relative) se pot determina frecvenţele cumulate, notate cu Fi (respectiv Fi*).
Cumularea frecvenţelor se poate face succesiv pornind fie din capătul de sus al seriei, fie din capătul de jos, obţinând astfel pentru fiecare valoare a seriei frecvenţe cumulate crescător sau descrescător
2.2. 2.2. INDICATORII INDICATORII TENDINŢEI CENTRALETENDINŢEI CENTRALE
2.2. 2.2. INDICATORII INDICATORII TENDINŢEI CENTRALETENDINŢEI CENTRALE
Media, Mediana, ModulMedia, Mediana, Modul
2.2.1. Media• Media valorilor individuale ale unei
variabile (caracteristici) statistice este expresia sintetizării într-un singur număr reprezentativ a tot ceea ce este esenţial, tipic şi obiectiv în apariţia, manifestarea şi dezvoltarea acestuia
Tipuri de mediiMedia este o valoare reprezentativă pentru un grup de date. Se pot defini mai multe tipuri de medie, dar cel mai frecvent utilizate sunt:
- media aritmetică, - media armonică, - media pătratică,- media geometrică.
Diversitatea largă a fenomenelor social-economic, precum şi complexitatea variabilităţii acestora, ne obligă să alegem cu grijă tipul de medie potrivit.
Media aritmetică
• Media aritmetică, se foloseşte în general, când fenomenul prezintă modificări aproximativ constante apropiate de forma unei progresii aritmetice.
• Se calculează ca:– medie aritmetică simplă;– medie aritmetică ponderată.
x
Media aritmetică simplă
• MEDIA se calculează ca medie aritmetică simplă atunci când:– numărul variantelor caracteristicii
studiate este egal cu numărul unităţilor;
– când se cunoaşte nivelul totalizat al caracteristicii şi numărul unităţilor
• Dacă notăm cu X o caracteristică şi cu x1, x2, .. , xn variantele acesteia, atunci suma tuturor variantelor ne dă nivelul totalizat al caracteristicii:
• Substituim fiecare valoare xi cu mărimea medie a variantelor .
x x xn xii
n
1 21
...
n
iixxxx
1...
n
iixxn
1
n
n
iix
x
1
Media aritmetică ponderată
• Pentru seriile de distribuţie, în care variantele caracteristicii se înregistrează de mai multe ori, deci apar frecvenţele se calculează ca medie aritmetică ponderată.
f f fn1 2, , ...,
n
iif
n
iifix
x
1
1
Proprietăţile mediei aritmetice
• Media aritmetică este marcată de o serie de proprietăţi dintre care o parte ajută la verificarea exactităţii calculului, iar altele determină modalităţi de calcul simplificat al acesteia.
a) Proprietăţile de verificare a exactităţii mediei:
• a1) Media trebuie să fie mai mare decât varianta minimă şi mai mică decât varianta maximă, adică:
maxminxxx
• a2) Suma abaterilor variantelor de la media lor este egală cu zero, adică:
– pentru media aritmetică simplă
– pentru media aritmetică ponderată
xi x 0
xi x fi 0
b) Proprietăţi de calcul simplificat:
b).1. Media calculată din variantele caracteristicii micşorate în prealabil cu o constantă a este mai mică decât media reală cu constanta a, adică:
xi a fifi
x a
x
xi a fifi
a
b).2. Media calculată din variantele caracteristicii micşorate în prealabil prin împărţire la o constantă k, este mai mică decât media reală de k ori, adică: xi
kfi
fi
x
k
x
xikfi
fik
PROPRIETATEA DE CALCUL SIMPLIFICAT
Constantele a şi k pot avea orice valoare, totuşi se preferă ca acestea să se aleagă pe baza seriei de distribuţie şi anume:a - varianta caracteristicii cu frecvenţa cea mai mare;k - mărimea intervalului de variaţie.
akif
if
k
aix
x
Exemplu:
• Metoda obişnuită:
878,235
75,100
i if
i ifixx
• Calculul simplificat:Pentru aplicarea formulei de calcul simplificat se stabilesc:
a=2,75 – varianta corespunzătoare celei mai mari frecvenţe;k=0,5 – lungimea intervalului de variaţie.
878,275,2128,075,25,035
9
ak
if
if
k
aix
x
De reţinut! • Principalul dezavantaj al folosirii mediei aritmetice
constă în faptul că ea depinde şi de valori extreme ale seriei. Când termenii seriei sunt împrăştiaţi, ea devine nereprezentativă.
• Semnificaţia mediei aritmetice se pierde şi în
cazul în care în interiorul colectivităţii statistice, se observă manifestări distincte din punct de vedere calitativ. În astfel de situaţii se recomandă gruparea colectivităţii pe clase de valori tipice, şi calculul unor medii parţiale pentru fiecare grupă în parte, după care se calculează o medie generală.
Media geometrică, • Se foloseşte în cazurile în care
modificările fenomenului se manifestă în progresie geometrică, adică atunci când modificările sunt mai mari la începutul seriei şi din ce în ce mai mici către sfârşitul acesteia.
• Ca model este utilizată în calculul indicelui mediu de creştere – indicator al seriilor cronologice deosebit de utilizat în analiza acestora.
)( gx
- pentru seriile simple.
- Pentru serii de frecvenţe:
nn
i ix
gx
1
xg xifi
i
nf i
1
• Pentru rezolvarea mediei geometrice, se utilizează logaritmii.
• Astfel că formula de calcul a mediei geometrice ponderate devine: xg e
fifi xi
1 ln
xgfi
fi xi
10
1 lg
Exemplu:
489,1366220,7845,158
22
1ln1
ee
ixififegx
De reţinut!• Media geometrică nu poate fi folosită
dacă în cadrul seriei, există cel puţin un termen negativ.
• Se foloseşte pentru a calcula ritmul mediu de creştere (scădere) a unui fenomen în evoluţia lui în timp.
• Media geometrică este mai mică decât media aritmetică calculată pentru aceeaşi serie de date, xg x
Media pătratică
• Se foloseşte în cazurile în care fenomenele înregistrează creşteri aproximativ în progresie exponenţială, adică atunci când creşterea este mai lentă la început şi din ce în ce mai pronunţată spre sfârşit.
• Ca medie se utilizează foarte rar, dar este folosită ca model de calcul al abaterii medii pătratice, unul dintre indicatorii sintetici ai variaţiei cu o largă utilizare.
)( px
• - pentru serii simple:
• pentru serii cu frecvenţe:
xp
xi
i
n
n
2
1
xp
xi
i
nfi
fi
i
n
2
1
1
Exemplu:
948,23217
922500
1
1
2
n
iif
if
n
iix
px
De reţinut!• Media pătratică se foloseşte în statistică
în situaţii speciale şi anume când se dă o importanţă mai mare termenilor mari ai seriei (în cazul în care aceştia predomină, seria fiind simetrică către valori mari) sau în cazul în care termenii seriei au valori pozitive sau negative.
• Media pătratică este întotdeauna mai mare decât cea aritmetică. x xp
Media armonică • Se foloseşte atunci când nu se cunosc
frecvenţele f1, f2 ,...,fn şi nici suma acestora.
• Se deosebesc două tipuri de medie armonică:– Medie armonică propriu-zisă simplă sau ponderată;– Medie armonică derivată din media aritmetică
ponderată cunoscută sub numele de medie armonică transformată a mediei aritmetice.
xh
if
• Media armonică propriu-zisă:– pentru serii simple de date:
– Pentru serii de frecvenţe:
n
iif
ix
n
if
hx
1
11
xhn
xii
n
1
1
Ca formă transformată a
mediei aritmetice • Se foloseşte atunci când nu se
cunosc frecvenţele fi, dar se cunosc variantele şi produsele fixi
Se întâlnesc totuşi două situaţii:1) Când f1x1= f2x2=...= fnxn
2) Când f1x1 f2x2... fnxn
hx
ix
n
ixi
fix
ifixn
ifixix
ifix
ififix
x
111
hx
ifixix
ifix
ififix
x
1
Exemplu:
xh
fi
n
xi
fi
i
n
11
1
35
1 52922 890
,,
Exemplu:
819,2469,34
861
1
ifix
ix
ifix
hx
De reţinut!
• O largă aplicabilitate o are pentru calculul preţului mediu şi al indicelui mediu al preţurilor. Media armonică ponderată propriu-zisă se foloseşte ca model de calcul al indicelui mediu armonic.
• Dacă se compară cele două medii (aritmetică şi armonică), sesizăm unele relaţii utile în teoria şi practica statistică, astfel:– dacă termenii seriei sunt pozitivi – când între două variabile interdependente există un raport
de inversă proporţionalitate, el se păstrează şi în cazul mediilor calculate, deci nivelul mediu al uneia se calculează ca medie aritmetică, iar a celeilalte ca o medie armonică.
xh x
2.2.2. MEDIANA• Mediana ( Me ) este acea valoare
a caracteristicii care ocupă locul central al seriei statistice ordonate crescător sau descrescător.
• Deci, mediana este acea valoare care împarte seria în două părţi egale.
Determinarea medianei
• Pentru serii simple se deosebesc două situaţii:– Seria are un număr impar de termeni,
situaţie în care mediana este acea variantă a caracteristicii cu rangul n fiind numărul termenilor seriei, după ce în prealabil seria a fost ordonată
n 1
2
Exemplu:• Se dă seria simplă cu 5 termeni (număr
impar): 5, 6, 9, 2, 10.– Pentru determinarea medianei se
ordonează seria crescător: 2, 5, 6, 9, 10.
– Se calculează rangul medianei
– Mediana este egală cu varianta de pe poziţia 3 adică este Me=6.
33
15
2
1
n
• Seria are un număr par de termeni, situaţie în care mediana este dată de semisuma termenilor centrali, după ce în prealabil seria a fost ordonată.
Exemplu• Se dă seria simplă: 7, 9, 3, 12, 5, 8.
- Se ordonează seria crescător:3, 5, 7, 8, 9, 12. - Termenii centrali sunt 7 şi respectiv 8. - Mediana va fi: 5,7
2
87
Me
• Pentru serii de repartiţie unidimensionale de frecvenţe se dispune de două modalităţi de determinare a medianei:
- Calculul algebric- Determinarea grafică
Calculul algebric:
mf
knSi
f
ilMe
2
Exemplu:
Determinarea grafică:
De reţinut!
• Mediana este una dintre variantele seriei statistice. Ea se bazează pe toate variantele seriei, dar numai sub aspectul numărului şi poziţiei acestora;
• Mediana poate fi folosită în locul mediei; Are utilizări largi în calculul unor indicatori ai asimetriei şi mai ales este folosită pentru aprecierea semnificaţiei mediei;
• Cu cât diferenţa este mai mică cu atât media este mai reprezentativă.
2.2.3.Modul • Modul este nivelul caracteristicii care are
frecvenţa cea mai mare. Este cunoscut şi sub numele de dominantă şi se calculează numai pentru seriile de distribuţie.
• În cazul seriilor de distribuţie unidimensionale se dispune, ca şi în cazul medianei, de două modalităţi de calcul:
Calculul algebric:
kilMo
2Δ
1Δ
1Δ
Exemplu
Determinarea grafică:
De reţinut!
• În cazul distribuţiilor unimodale, ordinea între cei trei indicatori ai tendinţei centrale este de cele mai multe ori următoare: modul, mediana şi media.
• Mediana înregistrează chiar o apropiere de medie, comparativ cu poziţia sa faţă de mod şi numai în anumite cazuri mediana se situează mai aproape de mod decât de medie.