proiect la statistica - practica

Upload: constantin-slobodeanu

Post on 03-Mar-2016

233 views

Category:

Documents


2 download

DESCRIPTION

statistica-anul I

TRANSCRIPT

Proiect la Statistica - Practica

PROIECT PENTRU

PRACTICA IN STATISTICA

Prof. Coordonator

Student:Anul I , ZI

FEAA

Structura proiectului

I. Obiectivul proiectului

a. Verificarea existentei unei relatii ntre 2 variabile categoriale

b. Verificarea existentei unei relatii ntre 2 variabile numerice

II. Crearea bazei de date

a. Se identific minim 4 variabiale statistice (2 numerice, 2 categoriale), conform

obiectivului cercetrii

b. Se definesc variabilele si se introduc datele n editorul de date folosind un

program statistic (Excell, SPSS)

c. Se verific datele introduse (outlieri, greseli, valori lips)

III. Descrierea statistic a variabilelor

a. Pentru variabile categoriale: proportii, valoarea dominant, diagrama de

structur, diagrama Pareto

b. Pentru variabile numerice: nivelul mediu (media aritmetic, modul, mediana),

dispersia (varianta, intervalul mediu de varietie, coeficientul de variatie), forma

distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma,

curba frecventelor, box-plot, curba de concentrare)

IV. Inferenta statistic

a. Estimarea prin interval de ncredere a unei medii

b. Estimarea prin interval de ncredere a unei proportii

c. Testarea unei valori medii cu o valoare fix

d. Testarea unei proportii cu o valoare fix

V. Analiza statistic a legturilor dintre variabile

a. Analiza variantei (ANOVA)

b. Analiza de corelatie si asociere

c. Analiza de regresie

VI. Concluzii

BibliografieI. Obiectivul proiectului

Orice analiza statistica a bazelor de date incepe cu pregatirea setului de date.Acestea au fost obtinute din Anuarul Statistic al Romaniei din anul 2008 . Pentru analiza statistica urmarita, au fost luate in calcul urmatoarele variabile:

Variabile categoriale: valorile lor aparin unei mulimi de categorii distinct; Cauze ale deceselor

Sexul persoanelor decedate

Variabile numerice: valorile lor se stabilesc prin numarare, masurare , calcul; Varsta populatiei

Numarului deceselor

Obiectivul proiectului se refera la analiza si descrierea statistica a unei distributii bivariate folosind indicatori ai tendintei centrale, indicatori ai dispersiei si indicatori ai formei precum si o parte a statisticii inferentiale folosind estimarea si testarea unor parametri si analiza statistica a legaturilor dintre variabile (ANOVA, Analiza de corelatie si regresie)Datele care urmeaza a fi sistematizate sunt preluate din Anuarul Statistic al Romaniei, 2008 Sistematizarea datelor inregistrate presupune ordonarea acestora in functie de omogenitatea lor.

Rezultatul sistematizarii se prezinta intr-o forma comoda de manevrat, prin serii, tabele si grafice. Sistematizarea datelor este prima faza a prelucrarii statistice si vizeaza obtinerea de distributii statistice. Distributia bivariata pe care o voi analiza o voi obtine prin gruparea statistica dupa doua caracteristici.

Datele ce vor fi grupate se refera la NUMARUL DECESELOR, PE GRUPE DE VRST in anul 2007 in Romania pentru variabile numerice, si sunt prezentate in urmatorul tabel:

Tabelul 1.Numarul deceselor pe grupa de varsta in anul 2007 in Romania

Grupa de vrst (ani)nr deceselor

0 4 3046

59327

1014343

1519906

20241029

25291243

30341832

35393295

40443841

45497602

505412866

555915958

606416745

656925386

707435322

757943293

808442793

858922821

909410185

95992843

100 i peste 289

total 251965

Sursa: Anuarul Statistic al Romaniei 2008Iar pentru variabilele categoriale, datele ce vor fi grupate se refera la NUMARULUI DECESELOR, PE CAUZE DE DECES SI SEXE in anul 2007 in Romania pentru variabile numerice, si sunt prezentate in urmatorul tabel:

Tabelul 2 . Numarul deceselor, pe cauze de deces si sexe in anul 2007 in Romania

Sexul TOTAL

CAUZEMasculinFemininM+F

BOLI INFECTIOASE SI PARAZITARE17466292375

TUMORI267531863045383

BOLI ENDOCRINE DE NUTRITIE SI METABOLISM107613062382

TULBURARI MENTALE SI DE COMPORTAMNET481107588

BOLI ALE SISTEMULUI NERVOS10619572018

BOLI ALE APARATULUI CIRCULATOR7326381253154516

BOLI ALE APARATULUI RESPIRATOR7926473012656

BOLI ALE APARATULUI DIGESTIV8723584514568

BOLI ALE APARATULUI GENITO-URINAR13299652294

SARCINA NASTERE SI LAUZIE03333

MALFORMATII CONGENITALE DEFORMATII SI ANOMALII430327757

LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE EXTERNE9343291412257

ALTE CAUZE7084711179

TOTAL132839118167251006

Sursa: Anuarul Statistic al Romaniei 2008III. Descrierea statistica a variabilelor

Obtinerea indicatorilor statistici este necesara pentru caracterizarea, in expresii numerice generalizatoare, a ceea ce este esential pentru un grup de unitati sau pentru intreaga colectivitate studiata in conditii de timp si de spatiu date.

a) Pentru variabilele categoriale vom folosi :

Proportia Valoarea dominanta Diagrama de structura

Diagram Pareto

Proportia este un parametru al populaiei, care arat proporia elementelor din populaie avnd o anumit proprietate.Mod de calcul; unde - reprezinta indivizii dintr-o anumita categorie (i)

N intreaga populatie Tabelul 3 . Tabelul cu elementele necesare calcului proportieiTOTALProportia

CAUZEMasculinFemininM+FMasculinFeminin

BOLI INFECTIOASE SI PARAZITARE174662923750,0069560,002506

TUMORI2675318630453830,1065830,074221

BOLI ENDOCRINE DE NUTRITIE SI METABOLISM1076130623820,0042870,005203

TULBURARI MENTALE SI DE COMPORTAMNET4811075880,0019160,000426

BOLI ALE SISTEMULUI NERVOS106195720180,0042270,003813

BOLI ALE APARATULUI CIRCULATOR73263812531545160,2918770,323709

BOLI ALE APARATULUI RESPIRATOR79264730126560,0315770,018844

BOLI ALE APARATULUI DIGESTIV87235845145680,0347520,023286

BOLI ALE APARATULUI GENITO-URINAR132996522940,0052950,003845

SARCINA NASTERE SI LAUZIE0333300,000131

MALFORMATII CONGENITALE DEFORMATII SI ANOMALII4303277570,0017130,001303

LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE EXTERNE93432914122570,0372220,011609

ALTE CAUZE70847111790,0028210,001876

TOTAL1328391181672510060,5292260,470774

Din totalul deceselor inregistrate 53% sunt persoane de genul masculine si 47% de genul feminin.

Valoarea dominanta ( D ) a seriei este acea valoare a caracteristicii care are cea mai mare frecven de apariie. Valoarea dominant se mai numetevaloare modal.Tabelul 4. Tabelul cu elementele necesare calcului valorii dominanteSexul TOTAL

CAUZEMasculinFemininM+F

BOLI INFECTIOASE SI PARAZITARE17466292375

TUMORI267531863045383

BOLI ENDOCRINE DE NUTRITIE SI METABOLISM107613062382

TULBURARI MENTALE SI DE COMPORTAMNET481107588

BOLI ALE SISTEMULUI NERVOS10619572018

BOLI ALE APARATULUI CIRCULATOR7326381253154516

BOLI ALE APARATULUI RESPIRATOR7926473012656

BOLI ALE APARATULUI DIGESTIV8723584514568

BOLI ALE APARATULUI GENITO-URINAR13299652294

SARCINA NASTERE SI LAUZIE03333

MALFORMATII CONGENITALE DEFORMATII SI ANOMALII430327757

LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE EXTERNE9343291412257

ALTE CAUZE7084711179

TOTAL132839118167251006

Interpretare: Valoarea dominanta in exemplul nostru este valoarea in care prezentam cea mai frecventa cauza de deces atat in cazul femeilor cat si a barbatilor . Aceasta este in cadrul bolilor ale aparatului circulator avand valoarea de 154516 iar dominanta dintre masculin si feminin are valoarea de 132839 si se prezinta in cazul barbatilor.

Grafic 1. Diagrama de structura dupa distributie cauzelor deceselor in cazul sexului feminin

Grafic 2. Diagrama de structura dupa distributie cauzelor deceselor in cazul sexului masculinb) Pentru variabile numerice vom folosi : nivelul mediu (media aritmetic, modul, mediana), dispersia, (prin varianta, intervalul mediu de varietie, coeficientul de varitie), forma distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma, curba frecventelor, box-plot, curba de concentrare)

Indicatorii nivelului mediu sunt:

Media aritmetica a unei distributii empirice reprezinta valoarea pe care ar purta-o fiecare unitate statistica daca distributia ar fi omogena.

In exemplul nostru media se calculeaza ca medie ponderata, cand nn..n, dupa relatia:

= , unde x = , -mijlocul intervalelor;

- numarul indivizilor din populatie

Pentru calculul mediei aritmetice la nivelul populatiei vor fi necesare cateva elemente de calcul ce vor fi prezentate in urmatorul tabel:

Tabelul 5. Tabelul cu elementele necesare calcului medieiGrupa de vrst (ani)nr deceselor mijlocul intervalului

0 4 304626092

5932772289

1014343124116

15199061715402

202410292222638

252912432733561

303418323258624

3539329537121915

4044384142161322

4549760247357294

50541286652669032

55591595857909606

606416745621038190

656925386671700862

707435322722543184

757943293773333561

808442793823509026

858922821871985427

90941018592937020

9599284397275771

100 i peste 28910530345

Total 251965-17715277

=

Interpretare : Varsta medie de deces este de 70,30 ani pentru populatia Romaniei in anul 2007Modul (M) face parte din categoria marimilor medii fundamentale, de pozitie. El este valoarea cea mai frecvent observata intr-o distributie, adica valoarea ce corespunde frecventei dominante.Aflarea modului in cazul variabilelor continue presupune efectuarea urmatoarelor operatii:

a) Aflarea frecventei maxime ( )b) Indicarea intervalului modal () corespunzator frecventei maximec) Efectuarea interpolarii in intervalul modal dupa relatia: M= x+d ,

In care: x - limita inferioara a intervalului modal

d - marimea intervalului modal()

- diferenta dintre frecventa intervalului modal si frecventa intervalului anterior celui modal (= n- n)

- diferenta dintre frecventa intervalului modal si frecventa intervalului urmator celui modal (= n- n)

Tabelul 5. Tabelul cu elementele necesare calcului medieiGrupa de vrst (ani)nr deceselor

0 4 3046

59327

1014343

1519906

20241029

25291243

30341832

35393295

40443841

45497602

505412866

555915958

606416745

656925386

707435322

757943293

808442793

858922821

909410185

95992843

100 i peste 289

Total 251965

=43293(75;79)

Interpretare : La nivelul esantionului considerat cele mai multe decese au loc la varsta d 78,76 ani.Mediana se defineste ca acea valoare a caracteristicii unei serii ordonate, crescator sau descrescator, pana la care si peste care sunt distribuite in numar egal unitatile colectivitatii observate: jumatate din unitati au valori mai mari decat mediana si jumatate au valori mai mici.

Pentru a calcula valoarea medianei trebuie:

calculate frecventele relative cumulate(N): calcularea unitatii mediane aflarea intervalului median in dreptul determinarea medianei prin interpolare, in cadrul intervalului median dupa formula:

, unde

-limita inferioara a intervalului median

- marimea intervalului median

- unitatea mediana

- frecventa cumulata anterior intervalului median

- frecventa intervalului median

Tabelul 6. Tabelul cu elementele necesare calcului medianei, quartilelorGrupa de vrst (ani)nr deceselor Frecvente

0 4 30463046

593273373

10143433716

15199064622

202410295651

252912436894

303418328726

3539329512021

4044384115862

4549760223464

50541286636330

55591595852288

60641674569033

65692538694419

707435322129741

757943293173034

808442793215827

858922821238648

909410185248833

95992843251676

100 i peste 289251965

total 251965-

Interpretare : 50% dintre persoanele decedate au varsta de pana la 73,57 ani si 50% varsta de peste 73,57 ani.Generalizarea medianei:

Quantilele sunt marimi de pozitie.ele sunt valori ale caracteristicii care impart seria in r grupe ale caror effective sunt egale. Numarul r defineste ordinul quantilelor. Ele sunt folosite in calculul unor indicatori ai dispersiei

quartile(sunt in numar de trei):

Q in care: U=

Q=Me

Q

U=

Calcul : U== 62991,25=(60-64) Q60+4* 0,6391908 = 62,55676Interpretare: 25% din decedati au varsta de pana la 62,55 ani iar 75% din ei au varsta de peste 62,55 anI

= Me =

U=(80-84) 81,47273 Interpretare : 75% din decedati au varsta de pana la 62,55 ani iar 25% din au varsta de peste 62,55 ani

Indicatori ai dispersiei

Orice colectivitate are o anumita organizare interna, definita de modul in care valorile individuale ale caracteristicii se disperseaza sau se concentreaza in jurul valorii centrale, generand o anumita forma a distributiei observate. Din acest motiv se impune ca indicatorii tendintei centrale ai unei variabile sa fie completati cu indicatori ai dispersiei, asimetriei si boltirii.

Dispersia exprima gradul de imprastiere a valorilor individuale ale unei distributii in jurul valorii centrale si este datorata influentei factorilor aleatori.

Indicatorii pentru calculul dispersiei sunt: amplitudinea

abaterea individuala

abaterea medie liniara varianta

abaterea medie patratica intervalul mediu de varietie,

coeficientul de variatieTabelul 7. Tabelul cu elementele necesare calcului indicatorilor dispersieiGrupa de vrst (ani)nr deceselormijlocul intervalului

0 4 304626092-68682071284624

5932772289-6363206013969

1014343124116-5858198943364

15199061715402-5353480182809

202410292222638-4848493922304

252912432733561-4343534491849

303418323258624-3838696161444

3539329537121915-33331087351089

4044384142161322-2828107548784

4549760247357294-2323174846529

50541286652669032-1818231588324

55591595857909606-1313207454169

606416745621038190-8813396064

656925386671700862-33761589

70743532272254318422706444

7579432937733335617730305149

8084427938235090261212513516144

8589228218719854271717387957289

909410185929370202222224070484

9599284397275771272776761729

100 i peste 289105303453535101151225

total 251965-17715277309450126255

a) Amplitudinea variatiei(A):

-in marime absoluta: A =x - x= 100 - 0= 100

b) Abaterea individuala(d):

- in marime absoluta: d=x- , este calculata in tabelul nr 7 in coloana 6.c) Abaterea medie liniara():

Calcul: == 12,28147163

Interpretare: In medie, numarul de decese se abat de la valoarea medie (), in plus sau in minus, cu 12,28147163d) Varianta (dispersia,): Calcul: ==268,1277916

Interpretare: varianta,fiind o marime la patrat,este o marime abstracta, nu se interpreteaza.

e) Abaterea medie patratica():

Calcul: = =16,374608Interpretare: In medie, numarul de decese se abat de la valoarea medie (), in plus sau in minus, cu 16, 374608

f) Intervalul mediu de variatie:

= = , de aici rezulta ca 68.27 % dintre decese sunt cuprins intre varsta de 53,93 si 86,68 ani

g) Coeficientul de variatie():17,46797976 => este o colectivitate omogena iar media este moderat reprezentativa.

Indicatori ai formeiForma unei distributii statistice poate fi apreciata cu ajutorul a doua categorii de valori tipice: indicatori de asimetrie si indicatori de boltire.

Indicatori ai asimetriei dau informatii asupra modului de repartizare a frecventelor de o parte sau alta a valorii centrale a unei serii.

Asimetria reprezinta o deviatie de la forma simetrica de distributie. Ca valori central pentru aprecierea asimetriei, sunt folosite : media aritmetica (), modul si mediana (Me).Pentru calculul asimetriei vom folosi: a) Coeficientul de asimetrie Yule(C) masoara asimetria in functie de pozitia quartilelor ()C= = , unde: q=Me - Q si q=Q-Me

Q= 62,55676 ; Q= 81,47273 ; Me= - dupa cum am calculate anterior.

- 7,898303

C= distributia este moderat asimetrica la stanga

b) Coeficientul de asimetrie Pearson():

= , unde si

268,1277916 ; = 9315,013

= = 4,501336049 >0 - distributia este asimetrica la dreapta.

c) Coeficientul de asimetrie Fisher():

= = => distributia este asimetrica la dreapta.

Indicatori ai boltirii

Indicatorii boltirii exprima masura aglomerarii frecventelor in zona centrala, pe langa medie.

Boltirea se defineste prin raportarea unei distributii empirice la distributia normal sub aspectul variatiei variabile X si a frecventei relative

a) Coeficientul de boltire Pearson(:

= ;

= = 6,201828499b) Coeficientul de boltire Fisher():

= - 3 = 6,201828499 3 = 3,201828499

> 6,201828499 , > 3,201828499 => distributia este leptocurtica.

Indicatori ai concentrarii

Prin concentrare se exprima aglomerarea unitatilor unei colectivitati sau a valorilor globale ale unei distributii in jurul unei valori a caracteristicii de grupare.

Masurarea concentrarii se poate realiza prin calculul Indicelui de concentrare Gini.

Mod de calcul:

= 0,1210050149 Tabelul 8. Tabelul cu elementele necesare calcului a indicatorilor dispersieiGrupa de vrst (ani)

nr deceselor

--

304660920,0003440,0120890,00000571920,00000460350,0000011157

59327337383810,0004730,0133870,00000944350,00000697720,0000024663

10143433716124970,0007050,0147480,00002322610,00001294040,0000102857

15199064622278990,0015750,0183440,00005233010,00003532040,0000170096

202410295651505370,0028530,0224280,00010646890,00007805350,0000284154

252912436894840980,0047470,0273610,00022043170,00016440410,0000560276

3034183287261427220,0080560,0346320,00051734180,00038436460,0001329773

35393295120212646370,0149380,0477090,00114715010,00094041670,0002067333

40443841158624259590,0240450,0629530,00278337580,00223914220,0005442336

45497602234647832530,0442130,0931240,00763423870,00637498690,0012592518

5054128663633014522850,0819790,1441870,01922370460,01701240520,0022112994

5559159585228823618910,1333250,2075210,03982934170,03652821350,0033011282

6064167456903334000810,1919290,2739790,07888947250,07192179110,0069676814

6569253869441951009430,287940,3747310,16169594360,14826530870,0134306348

70743532212974176441270,4314990,5149170,31908027600,29632696700,0227533090

757943293173034109776880,6196740,6867380,56158198590,53079703970,0307849462

808442793215827144867140,8177530,8565750,79646676790,77453227560,0219344923

858922821238648164721410,9298270,9471470,93078092700,91826886930,0125120576

909410185248833174091610,982720,987570,98587806600,98159306000,0042850060

95992843251676176849320,9982870,9988530,99885301530,99828707170,0005659436

100peste2892519651771527711---

total251965------0,1210050149

Grafic 3. Diagrama box-and-wisker

IV.Inferenta statisticaa) Estimarea prin interval de incredere a unei medii

Estimarea punctuala a unui parametru presupune aflarea unei valori posibile a estimatorului parametrului pe baza datelor inregistrate la nivelul unui esantion.

Pentru estimarea prin interval de incredere am avut in vedere un esantion extras din Populatia Romaniei. . Am ales un esantion din totalul populatiei reprezentand decesele inregistrate pe categorii de varsta in Judetul Iasi.

Tabelul 9.Numarul deceselor pe grupa de varsta in anul 2007 in Judetul IasiGrupa de vrst (ani)nr deceselor

0 4 76

5942

101434

151955

202426

252931

303484

353982

404496

4549190

5054645

5559533

6064743

6569635

7074557

75791082

80841070

8589571

9094255

959971

100 i peste 15

total 6893

Media a populatiei se poate estima punctual prin media () obtinuta la nivelul unui esantion. Media este o valoare a estimatorului , calculata pe baza datelor la nivelul unui esantionMedia la nivelul esantionului este de = 67,77469897 ani , iar la nivelul populatiei este de

.

Estimarea mediei prin interval de incredere: I.C.(), ; ; unde s =

Tabelul 10. Tabelul cu elementele necesare calcului estimarii prin interval de incredere a medieiGrupa de vrst (ani)nr deceselor mijlocul intervalului

0 4 762152-65,774698974326,311025

59427294-60,774698973693,564035

10143412408-55,774698973110,817045

15195517935-50,774698972578,070055

20242622572-45,774698972095,323066

25293127837-40,774698971662,576076

303484322688-35,774698971279,829086

353982373034-30,77469897947,0820967

404496424032-25,77469897664,335107

4549190478930-20,77469897431,5881173

50546455233540-15,77469897248,8411276

55595335730381-10,77469897116,0941379

60647436246066-5,7746989733,34714819

65696356742545-0,774698970,600158494

707455772401044,2253010317,85316879

7579108277833149,22530103

80841070828774014,22530103202,3591894

8589571874967719,22530103369,6121997

9094255922346024,22530103586,86521

95997197688729,22530103854,1182203

100 i peste 15105157537,225301031385,723037

total 6893-467171-24690,01549

; , z = 1,96

=0,022795671

=1,96 *0,022795671 = 0,044679515

67,77469897 - 0,04467951567,77469897 + 0,044679515

67,73001945 < < 67,81937849

Se poate afirma ca intervalul de variatie a varstei din esantionul studiat este (67,73001945 - 67,81937849 ) ani in 95% din cazuri .Estimarea proportiei prin interval de increderePentru estimarea proportiei am ales un esantion format din numarul deceselor grupate pe cauze de deces si sexe inregistrat in Judetul Iasi in anul 2007Tabelul 11. Decesele grupate pe cauze de deces si sexe inregistrat in Judetul Iasi in anul 2007Sexul TOTAL

CAUZEMasculinFemininM+F

BOLI INFECTIOASE SI PARAZITARE8645131

TUMORI8038751678

BOLI ENDOCRINE DE NUTRITIE SI METABOLISM363672

TULBURARI MENTALE SI DE COMPORTAMNET24832

BOLI ALE SISTEMULUI NERVOS362662

BOLI ALE APARATULUI CIRCULATOR289614274323

BOLI ALE APARATULUI RESPIRATOR368142510

BOLI ALE APARATULUI DIGESTIV365199564

BOLI ALE APARATULUI GENITO-URINAR9612108

SARCINA NASTERE SI LAUZIE022

MALFORMATII CONGENITALE DEFORMATII SI ANOMALII161733

LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE EXTERNE267215482

ALTE CAUZE191130

TOTAL501230158027

Sursa: Anuarul statistic al Romaniei 2008Intervalul de incredere pentru parametrul p , la nivelul unui esantion este:

Proportia pentru cele doua sexe: = 0,6243927 in cazul sexului masculin

= 0,3756073 in cazul sexului masculine

IC: Testarea unei valori medii cu o valoare fixa

Admitem ca parametrul - nivelul mediu al distributiei unei populatii si un estimator al acesteia .Testarea ipotezei ca o valoare a estimatorului estimeaza valoarea parametrului , presupune parcurgerea urmatoarelor etape:

1.Formularea ipotezelor: H: = 70,30848

H: 70,30848

2. Alegem testul statistic:

-avand in vedere ca esantionul este de volum mare (n> 30) se foloseste statistica z, definit de relatia:

z =

3.Specificam un prag de semnificatie al testului

= 0,05

= 0,025 riscul pe care il admitem in respingerea ipotezei nule (H) cand aceasta este adevarata.

4.Definim regiunea de respingerePentru = 0,025 , citim in tabel valorile : si In acest caz, regiunea de respingere este z > 0,198 si z < - 0,198 . Pentru P( z > 0,198 = = 0,025 , respingem H daca z < -0,198 sau daca z > 0,198.

5.Calculam valoare numerica a statisticii z:

z = = = -111,152

6.Concluzie:

Spunem cu o incredere de 95% ca se repinge ipoteza H Deci, dupa rezultatele esantionului, se poate afirma, cu un risc de 5%, ca numarul deceselor din judetul Iasi difera semnificativ de media populatiei .Testarea unei proportii cu o valoare fixa

Admitem ca parametrul f - proportia unei populatii si un estimator al acesteia p. .Testarea ipotezei ca o valoare p a estimatorului f estimeaza valoarea parametrului f, presupune parcurgerea urmatoarelor etape:

1.Formularea ipotezelor: H: p = H: p

2. Alegem testul statistic:

-avand in vedere ca esantionul este de volum mare (n> 30) se foloseste statistica z, definit de relatia:

z =

3.Specificam un prag de semnificatie al testului

= 0,05

= 0,025 riscul pe care il admitem in respingerea ipotezei nule (H) cand aceasta este adevarata.

4.Definim regiunea de respingerePentru = 0,025 , citim in tabel valorile : si In acest caz, regiunea de respingere este z > 0,198 si z < - 0,198 . Pentru P( z > 0,198 = = 0,025 , respingem H daca z < -0,198 sau daca z > 0,198.

5.Calculam valoare numerica a statisticii z:

= =

6.Concluzie:

Spunem cu o incredere de 95% ca se repinge ipoteza H Deci, dupa rezultatele esantionului, se poate afirma, cu un risc de 5%, ca proportia deceselor din judetul Iasi difera semnificativ de proportia populatiei .V. Analiza statistica a legaturilor dintre variabile Analiza Variantei (ANOVA) este un procedeu de analiza a variatiei considerand un singur factor cauza. Tabelul 12. Decesele grupate dupa varsta si numarul lor inregistrate in Judetele Iasi, Suceava, Neamt in anul 2007Grupa de vrst (ani)mijlocul intervaluluinr decese iasinr decese suceavanr decese neamttotal decese

0 4 2766574215

597423236110

101412344556135

151917553582172

20242226154384

25292731244297

303432846559208

353937827285239

404442968539220

45494719010896394

5054526455927291966

5559575335648361933

6064627436755982016

6569676355357531923

7074725575536561766

75797710829789873047

808482107098310983151

8589875715424691582

909492255246291792

959997715968198

100 i peste 10515121643

total -68936285711320291

media mediilor----

In exemplul oferit ne aflam in cazul unei ANOVA pentru un factor (tipul zonei).Notam: Nr decese in Iasi: - Nr decese in Suceava -

Nr. Decese in Neamt - Numarul zonelor- k=3

Productia media pe zone: Esantionul n = 20291 persoane repartizat in grupe cu un volum de : 6893;6285; =7113

Ipoteze: cel putin varsta medie dintr doua judete diferite sa difere intre ele.

Varsta medie pe judete este reprezentata in ultima linie a tabelului!!!!!!!!!!!!!!!!

Pe baza acestor valori calculam media pe toate judetele observate:

ani

pentru verificarea ipotezei aplicam testul F,fiind indeplinite conditiile:

Esantioanele au fost selectate aleator si independent- conditia de independenta

Populatiile sunt distribuite normal- conditia de normalitate

Varianta distributiei deceselor dupa grupa de varsta este aceiasi pentru fiecare judet- conditia de homoscedasticitate

Regula de decizie: S-au admis tre judete, deci gradul de libertate .

Sunt n = 20291 persoane de observant, impartite in k=3 esantioane, deci Se respinge ipoteza , la un nivel de semnificatie de , daca are loc relatia .Tabelul 11. Tabel cu elementele de calcul pentru ANOVA :

276-654195,76176318877,8938

742-613752,14195157589,9618

1234-553046,11492103567,9072

17551728915895

22262248412584

27312772922599

328432102486016

3782371369112258

4296421764169344

47190472209419710

526455227041744080

575335732491731717

627436238442856092

676356744892850515

725577251842887488

7710827759296415178

8210708267247194680

875718775694321899

922559284642158320

9771979409668039

1051510511025165375

Total6893--34411824,76

265-664389,68925285329,8011

732-603623,03112115936,9958

1245121446480

17351728910115

2215224847260

27242772917496

326532102466560

377237136998568

4285421764149940

47108472209238572

525925227041600768

575645732491832436

626756238442594700

675356744892401615

725537251842866752

779787759295798562

829838267246609692

875428775694102398

922469284642082144

9759979409555131

1051210511025132300

Total 26285--31572755,8

274-654249,94732314496,1015

7367491764

1256121448064

17821728923698

22432248420812

27422772930618

325932102460416

3785371369116365

423942176468796

4796472209212064

527295227041971216

578365732492716164

625986238442298712

677536744893380217

726567251843400704

779877759295851923

8210988267247382952

874698775693549861

922919284642463024

9768979409639812

1051610511025176400

Total 37113--34688078,1

Total20291--100672658,7

Calculul Testului F

Calculul componentelor variatiei:

Variatia intergrupe:

21,462044+1804,3078+1977,736= 3803,506

Variatia intragrupe:

100672658,7

Variatia totala:

100676462,1672

Calculul estimatorilor variantei

1901,753

4962,1776

Calculul raportului Fisher

0,38325

Decizie: Pentru ; citim in tabelul F valoarea =4,605. Se compara valoarea calculate cu valoarea tabelata si se constata ca: ) se accepta ipoteza nula deci coeficientul de corelatie nu este semnificativ

Analiza de asociere

Tabelul 13. Decesele grupate pe judete si sexe inregistrate in Romania in anul 2007masculin feminintotal

IASI394629476893

NEAMT425628577113

total8202580414006

Coeficientul de asociere: -0,05327 = >intre distributia pe sexe si distributia pe judet la momentul considerat, exista o asociere negativa slaba.

Analiza de regresie

Analiza de regresie este o metoda statistica care permite studierea si masurarea relatiei care exista intre doua sau mai multe variabile, precum si descoperirea legii relative la forma legaturilor dintre variabile. Prin aceasta metoda se incearca pe baza datelor unui esantion sa se estimeze relatia matematica dintre doua sau mai multe variabile, adica sa se estimeze valorile unei variabile in functie de valorile altei variabile.Modelul de regresie liniara simpla exprima legatura dintre doua variabile si ia forma : .Daca : - legatura directa (pozitiva)

- nu exista legatura

legatura inversa (negativa)

Ecuatia estimate este:

= 328,2380952-(*52,14285714)= 62520844,23

= 62520844,23 + (x)Testarea semnificatiei coeficientului de regresie bFormularea ipotezelor:

Daca respingem ipoteza , cu un prag de semnificatie ales, atunci legatura dintre cele doua variabile X si Y este semnificativa.In practica se foloseste de regula , adica se considera un risc de 5% de a respinge pe nedrept ipoteza atunci cand aceasta ar fi adevarata.

Test: Pentru testarea semnificatiei coeficientului de regresie se foloseste statistica definite de testu t:

Estimatia variantei estimatorului parametrului de regresie la nivelul unui esantion se calculeaza:

= 1479937151753073.6842

Raportul Student:

==2.093

Estimarea prin interval de incredere = > = > Putem spune ca ne asumam un risc de 5% ca valoarea adevarata a coeficientului de regresie sa fie acoperita de intervalul [-1774758.5596457; -623289.4403543]

Concluzii In urma gruparii unor date preluate din Anuarul Statistic al Romanie 2008, care se refera la 2 variabile numerice -numarul deceselor dupa varsta in Romania in anul 2007 ,si 2 variabile categoriale- Decesele dupa sexe si cauze de deces am obtinut o distributie statistica bivariata.

Cu ajutorul indicatorilor tendintei centrale, ai dispersiei si ai formei am analizat si am interpretat rezultatele legate de aceasta.

Indicatorii tendintei centrale ne arata ca:

- varsta medie () de deces pe tara este egala cu 70,30 ani

- la nivelul esantionului cele mai multe decese au loc la varsta de 78,76 ani (Mo)

- 50% dintre persoanele decedate au varsta de pana la 73,57 ani si 50% varsta de peste 73,57 ani(Me);

- Cu ajutorul quartilelor am realizat diagrama box-and-wisker care arata ca distributia este asimetrica la dreapta.

Diagrama box-and-wisker

Cu ajutorul indicatorilor dispersiei aflam ca 68.27 % dintre decese sunt cuprins intre varsta de 53,93 si 86,68 ani . Indicatorii formei ne arata ca distributia este leptcurtica si moderat asimetrica la dreapta.

In urma testarii mediei putem afirma cu un coeficient de incredere de 95% ca numarul de decese inregistrate este egal cu 70,30 ani . Din analiza ANOVA aflam ca numarul deceselor din cele 3 judete nu influenteaza semnificativ variatia varstei medii, iar din analiza de corelatie asociere si regresie aflam ca avem o legatura negativa.Bibliografie

1. Anuarul Statistic al Romaniei din 2008

2.Elisabeta Jaba, Statistica, editia a 3 a revizuita, Editura Economica, Bucuresti, 2002

3.Elisabeta Jaba, Teste grila si probleme, Editura Sedcom Libris, Iasi, 2005Intervalul modal

Interval quartilic 1

Interval median

Interval quartilic 3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

_1353087366.unknown

_1353087399.unknown

_1353087417.unknown

_1353087434.unknown

_1353087442.unknown

_1353087446.unknown

_1353087450.unknown

_1353087455.unknown

_1353087457.unknown

_1353087458.unknown

_1353087456.unknown

_1353087453.unknown

_1353087454.unknown

_1353087451.unknown

_1353087448.unknown

_1353087449.unknown

_1353087447.unknown

_1353087444.unknown

_1353087445.unknown

_1353087443.unknown

_1353087438.unknown

_1353087440.unknown

_1353087441.unknown

_1353087439.unknown

_1353087436.unknown

_1353087437.unknown

_1353087435.unknown

_1353087426.unknown

_1353087430.unknown

_1353087432.unknown

_1353087433.unknown

_1353087431.unknown

_1353087428.unknown

_1353087429.unknown

_1353087427.unknown

_1353087422.unknown

_1353087424.unknown

_1353087425.unknown

_1353087423.unknown

_1353087420.unknown

_1353087421.unknown

_1353087418.unknown

_1353087409.unknown

_1353087413.unknown

_1353087415.unknown

_1353087416.unknown

_1353087414.unknown

_1353087411.unknown

_1353087412.unknown

_1353087410.unknown

_1353087403.unknown

_1353087405.unknown

_1353087407.unknown

_1353087408.unknown

_1353087406.unknown

_1353087404.unknown

_1353087401.unknown

_1353087402.unknown

_1353087400.unknown

_1353087383.unknown

_1353087391.unknown

_1353087395.unknown

_1353087397.unknown

_1353087398.unknown

_1353087396.unknown

_1353087393.unknown

_1353087394.unknown

_1353087392.unknown

_1353087387.unknown

_1353087389.unknown

_1353087390.unknown

_1353087388.unknown

_1353087385.unknown

_1353087386.unknown

_1353087384.unknown

_1353087375.unknown

_1353087379.unknown

_1353087381.unknown

_1353087382.unknown

_1353087380.unknown

_1353087377.unknown

_1353087378.unknown

_1353087376.unknown

_1353087371.unknown

_1353087373.unknown

_1353087374.unknown

_1353087372.unknown

_1353087369.unknown

_1353087370.unknown

_1353087368.unknown

_1353087334.unknown

_1353087350.unknown

_1353087358.unknown

_1353087362.unknown

_1353087364.unknown

_1353087365.unknown

_1353087363.unknown

_1353087360.unknown

_1353087361.unknown

_1353087359.unknown

_1353087354.unknown

_1353087356.unknown

_1353087357.unknown

_1353087355.unknown

_1353087352.unknown

_1353087353.unknown

_1353087351.unknown

_1353087342.unknown

_1353087346.unknown

_1353087348.unknown

_1353087349.unknown

_1353087347.unknown

_1353087344.unknown

_1353087345.unknown

_1353087343.unknown

_1353087338.unknown

_1353087340.unknown

_1353087341.unknown

_1353087339.unknown

_1353087336.unknown

_1353087337.unknown

_1353087335.unknown

_1353087318.unknown

_1353087326.unknown

_1353087330.unknown

_1353087332.unknown

_1353087333.unknown

_1353087331.unknown

_1353087328.unknown

_1353087329.unknown

_1353087327.unknown

_1353087322.unknown

_1353087324.unknown

_1353087325.unknown

_1353087323.unknown

_1353087320.unknown

_1353087321.unknown

_1353087319.unknown

_1353087310.unknown

_1353087314.unknown

_1353087316.unknown

_1353087317.unknown

_1353087315.unknown

_1353087312.unknown

_1353087313.unknown

_1353087311.unknown

_1353087306.unknown

_1353087308.unknown

_1353087309.unknown

_1353087307.unknown

_1353087304.unknown

_1353087305.unknown

_1353087303.unknown