proiect_analizadatelor_boboescudanalexandru

28
Academia de Studii Economice din Bucureşti Facultatea de Cibernetică, Statistică și Informatică Economică Proiect Analiza Datelor Student: Boboescu Dan Alexandru

Upload: dan-alexandru-boboescu

Post on 24-Dec-2015

37 views

Category:

Documents


0 download

DESCRIPTION

Proiect Analiza Datelor in SPSS

TRANSCRIPT

Page 1: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Academia de Studii Economice din Bucureşti

Facultatea de Cibernetică, Statistică și Informatică Economică

Proiect Analiza Datelor

Student: Boboescu Dan Alexandru

Profesor îndrumător: Andreea Muraru

Grupa: 1049

Seria: A – Informatica Economica

Page 2: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Introducere

Proiectul isi propune sa analizeze date legate de nivelul de investitie in sanatatea mamei si al copilului din diferite tari si efectul acestora asupra calitatii vietii.

Matricea de date conține 40 de observații reprezentând țări, pentru care am luat în considerare 5 caracteristici. Datele sunt preluate de pe site-ul Băncii Mondiale (http://databank.worldbank.org) și reprezintă diferiți indicatori macroeconomici ai țărilor respective pentru anul 2011.

Descrierea datelor

Variabilele luate in considerare au fost:

Cheltuieli cu sanatatea pe cap de locuitor (pretul pietei - $)

Cheltuielile totale cu sanatatea reprezinta suma de bani cheltuita de catre sectorul public sau privat cu scopul sanatatii, raportat la volumul populatiei. Acopera proviziile de servicii medicale (preventive si curative), activitati planificate de familie, activitati de nutritie si ajutor de urgenta de sanatate, dar nu include provizii de apa si salubritate. Numerele sunte exprimate in dolari americani.

Produs Intern Brut pe cap de locuitor (pretul pietei - $))

Produsul intern brut (prescurtat PIB) este un indicator macroeconomic care reflecta suma valorii de piata a tuturor marfurilor si serviciilor destinate consumului final, produse In toate ramurile economiei In interiorul unei tari In decurs de un an.

Speranta de viata la nastere

Speranta de viata la nastere reprezinta media duratelor de viata a unei generatii imaginare care ar fi supusa intreaga sa viata ratelor de mortalitate pe grupe de varsta ale anului de observare; reprezinta numarul mediu de ani pe care o persoana il poate trai in mod obisnuit, exprimat la nastere; difera in functie de sexul persoanei.

Speranta de viata la nastere constituie indicatorul corectat al mortalitatii si inregistreaza valori diferite pe regiuni si tari in functie de mai multi factorii.

Rata Mortalitatii infantile (Numarul nou-Nascutilor decedati/1000 nasteri vii)Rata mortalitatii infantile reprezinta numarul de nou-nascuti morti Intr-o perioada de un an de la nastere, raportat la un numar de 1000 de nasteri reusite, Intr-un anumit an.

Cea mai importanta cauza a mortalitatii infantile este deshidratarea din cauza diareei. Datorita succesului In raspandirea informatiei despre solutiile orale rehidratante (un amestec de saruri, zahar si apa), numarul copiilor care mor din cauza deshidratarii a scazut, ajungand pe locul doi spre sfarsitul anilor 1990. In prezent, cea mai comuna cauza a mortalitatii infantile este pneumonia.

Page 3: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Rata fertilitatii (nasteri pe femeie)

Rata fertilitatii reprezinta numarul de copii nascuti de o femeie, In ipoteza ca aceasta ar trai pana la dupa varsta procrearii si daca ar avea un numar de copii relevant cu specificul varstei.

Pentru a efectua acest studiu am avut în vedere 40 de tari : Argentina, Armenia, Australia, Austria, Azerbaijan, Belgium, Bulgaria, Bosnia and Herzegovina, Belarus, Brazil, Canada, Switzerland, Chile, China, Colombia, Cyprus, Czech Republic, Germany, Denmark, Ecuador, Spain, Estonia, Finland, France, United Kingdom, Georgia, Greece, Croatia, Hungary, Iceland, Israel, Italy, Japan, Lithuania, Luxembourg, Latvia, Mexico, Malta, Montenegro, Netherlands

Descrierea Statistica a datelor

Page 4: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Analiza indicatorilor tendinței centrale :

Indicatorii fundamentali ai tendinţei centrale sunt:

· media aritmetică (x)· mediana (Me) · modul (Mo)

Media

Mediile sunt marimi statistice care exprima In mod sintetic si generalizat ceea ce este normal, logic, esential, tipic pentru toate unitatile colectivitatii distribuite dupa o caracteristica.

Media se calculeaza dupa formula:

x=∑i=1

n

x i

N

Pentru ca o medie sa fie reprezentativa, trebuie sa Indeplineasca urmatoarele conditii:

· Sa fie calculata dintr-un numar suficient de mare de cazuri individuale · Valorile din care se calculeaza media trebuie sa fie omogene. Daca exista diferente

foarte mari Intre valori, media poate deveni fara sens.· Trebuie ales tipul de medie semnificativ pentru datele existente

Mediana

Mediana reprezintă valoarea din mijlocul unei serii de date ordonate.Este un indicator mediu de poziţie care face parte din categoria cuantilelor si ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea lor efectivă (nu este afectată de prezenţa valorilor extreme).

Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe axa absciselor a punctului de intersecţie dintre cele două curbe ale frecvenţelor cumulate (crescător şi descrescător).

Pentru a determina mediana se introduce noţiunea de ranguri, adică numere de ordine asociate observaţiilor, de la cea mai mică (cu rangul 1), până la cea mai mare (rangul n) .Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unităţii din mijlocul seriei.

Modul

Page 5: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Modulul este parametrul care corespunde celei mai mari frecvențe, adică este valoarea cea mai frecvent întâlnită.Valoarea modală se poate determina pentru orice tip de variabilă (nenumerică sau numerică), indiferent de scala de măsurare.

Grafic, într-o histogramă ori poligon al frecvenţelor, modul reprezintă valoarea de pe abscisă, corespunzătoare vârfului reprezentării.

Ținând cont de aceste caracteristici, media este recomandata în cazul variabilelor numerice care îndeplinesc conditiile parametrice (distributie normala, omogenitate s.a.). Mediana se recomanda pentru cazurile în care nu sunt îndeplinite conditiile parametrice (distributii asimetrice, etrogenitate crescuta etc) si în cazul variabilelor de tip ordinal. Modul este utilizat mai rar pentru date numerice, fiind însa foarte util în cazul variabilelor de tip categorial (date calitative, nominale), deoarece nu putem calcula ceilalti parametrii centrali.

Statistics

V1 V2 V3 V4 V5

N Valid 40 40 40 40 40

Missing 0 0 0 0 0

Mean 2,680046E

3

2,969099E

4

7,807597E

1

7,037500E

0

1,718725E

0

Median 1,722808E

3

2,200135E

4

7,938923E

1

4,250000E

0

1,633500E

0

Mode 1,2706E2a 3,2196E3a 7,0551E1a 3,4000 1,3900a

Indicatori ai împrăștierii datelor:Dispersia se determină ca medie aritmetică a pătratelor abaterilor individuale ale

valorilor de la tendinţa centrală, uzual de la medie deoarece cea mai mică sumă a pătratelor abaterilor individuale față de o constantă se obține pentru constanta :

-pentru un eşantion (sample variance, în engl.) - estimator

-pentru populaţia statistică – parametru

Abaterea Standard

∑i=1

n

( x i−x )2=mina∈ R

∑i=1

n

(xi−a)2 s2=∑i=1

n

(x i−x )2

n−1

σ 2=∑i=1

N

(x i−μ )2

N

Page 6: Proiect_AnalizaDatelor_BoboescuDanAlexandru

In teoria probabilitatilor, abaterea standard a unei variabile aleatoare reprezinta o masura a dispersiei acestei valorilor acesteia In jurul uneia considerate mijlocii. Se mai numeste si abatere medie patratica.

Abaterea standard caracterizeaza gradul de variabilitate a variantelor individuale ale caracteristicii de la valoarea medie. Cu cat abaterea medie patratica are o marime mai mica cu atat valorile caracteristicii sunt mai concentrate in jurul mediei si in consecinta colectivitatea statistica este mai omogena si invers, cu cat abaterea medie patratica are o marime mai mare cu atat valorile individuale ale caracteristicii sunt mai dispersate si deci colectivitatea este mai putin omogena.

Abaterea medie patratica are o aplicabilitate extinsa pentru dimensionarea sintetica a variatiei caracteristicii studiate deoarece se exprima in aceleasi unitati de masura in care sunt exprimate si variantele caracteristicii. Limita de aplicare se intalneste in cazul comparatiei pe baza marimii sale a gradului de variabilitate dintre doua colectivitati statistice ale caror caracteristici sunt exprimate in unitati de masura diferite sau sunt marimi cifrice de ordin diferit.

Abaterea standard se calculeaza prin extragerea radacinii patrate din dispersie, astfel:

σ x=E [ ( X−μ )2 ]=√∑ (x−x)2

n

Statistics

V1 V2 V3 V4 V5

N Valid 40 40 40 40 40

Missing 0 0 0 0 0

Std. Deviation 2,4469918

E3

2,4913599

E4

3,6626737

E0

6,2046173

E0,3733768

Variance 5,988E6 6,207E8 13,415 38,497 ,139

I. Analiza componentelor principale

Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept scop descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus de componente, fara ca aceasta forma sa contina redundante informationale.Aceste componente exprima atribute noi si sunt construite in asa fel incat sa fie necorelate intre ele, fiecare fiind o combinatie liniara de variabilele originale.

Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa indicatori relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a tarilor.

Page 7: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Standardizarea datelor

Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom efectua Analiza Componentelor Principale pe date standardizate.

Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cu o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a respectivei variabile:

x ti

s=x ti

c

si

=x t i

−xi

si

,t=1,2 ,…,T

unde x i reprezinta media celei de-a i-a variabile, iar si reprezinta abaterea standard a variabilei x i.

pentru cazul deplasat: si2= 1

T∑t=1

T

(x t i−x i)

2

pentru cazul nedeplasat: si2= 1

T−1∑t=1

T

(x ti−x i)

2

Page 8: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Matricea de corelatie

Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale si determina componentele pricipale.

Correlation Matrix

Zscore(V1) Zscore(V2) Zscore(V3) Zscore(V4) Zscore(V5)

Correlation Zscore(V1) 1,000 ,963 ,777 -,545 -,123

Zscore(V2) ,963 1,000 ,747 -,552 -,111

Zscore(V3) ,777 ,747 1,000 -,663 -,038

Zscore(V4) -,545 -,552 -,663 1,000 ,390

Zscore(V5) -,123 -,111 -,038 ,390 1,000

Identificam in matrice coeficientii de corelatie atat mari cat si mici. Spre exemplu putem observa cum cea mai puternica legatura este intre cheltuieli cu sanatatea pe cap de locuitor si produsul intern brut pe cap de locuitor (0.963). O alta legatura destul de puternica este cea dintre speranta de viata la nastere si cheltuielile pentru sanatate.

Exista si legaturi foarte slabe cum ar fi intre rata fertilitatii si produsul intern brut pe locuitor (-0.111) sau speranta de viata la nastere si rata fertilitatii (-0.038).Putem observa ca nici o legatura intre rata fertilitatii si celelalte categorii nu este una foarte puternica , deci putem trage concluzia ca aceasta categorie nu este destul de compatibila cu celelalte.

Cum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma unui vector de forma: w i=α 1

(i)¿ x1+α2(i)¿ x2+…+αn

(i )¿ xn, unde x1,x2… xnsunt

variabilele originale si α j(i) ponderile din tabelul de mai jos.

Influenţa variabilelor originale luate în studiu este dată de:

Page 9: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Communalities

Raw Rescaled

Initial Extraction Initial Extraction

Zscore(V1) 1,000 ,904 1,000 ,904

Zscore(V2) 1,000 ,891 1,000 ,891

Zscore(V3) 1,000 ,823 1,000 ,823

Zscore(V4) 1,000 ,736 1,000 ,736

Zscore(V5) 1,000 ,927 1,000 ,927

Extraction Method: Principal Component Analysis.

Acest tabel arătă procentul (coeficientul) din varianţa variabilei care poate fi explicat pe baza tuturor factorilor. Astfel că, cu cât acest coeficient e mai apoape de 1, cu atât variabila e mai bine explicată. Coloana “Initial” reprezintă varianţa sau dispersia iniţială a variabilelor, variabile care sunt normate, drept pentru care ele au iniţial abaterea 1. Analizând tabelul obţinut vom observa că variabilele rata fertilitatii şi cheltuielile pentru sanatate au o contribuţie majoră la explicarea variabilelor artificiale care se obţin ulterior. Cantiatea de informaţie recuperată de aceste două variabile este de 0,927 respectiv 0.904. De asemenea tot din analiza tabelului de mai sus obţinem fatul că variabila rata moratilitatii infantile are contribuţia cea mai mică în cadrul componentelor principale (0,736). Deoarece toţi coeficienţii au valori mai mari decât 0,4, rezultă că nu este nevoie să eliminăm din analiza noastră nicio variabilă. Pentru a stabili numărul de componente principale necesar în analiza ulterioara se folosesc datele din tabeleul :

Total Variance Explained

Compo

nent

Initial Eigenvaluesa Extraction Sums of Squared Loadings

Total % of Variance Cumulative % Total % of Variance Cumulative %

Raw 1 3,185 63,708 63,708 3,185 63,708 63,708

2 1,095 21,895 85,603 1,095 21,895 85,603

3 ,485 9,697 95,300

4 ,201 4,016 99,316

5 ,034 ,684 100,000

Rescaled 1 3,185 63,708 63,708 3,185 63,708 63,708

2 1,095 21,895 85,603 1,095 21,895 85,603

3 ,485 9,697 95,300

4 ,201 4,016 99,316

5 ,034 ,684 100,000

Page 10: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Vom observa că avem nevoie de două componente principale pentru a recupera o cantiate de informaţie cât mai mare, o cantitate care să nu fie mai mică de 80%. Acest lucru este confirmat şi de matricea de corelaţie. Aceste componente principale corespund valorilor proprii cele mai mari, valori care reprezintă varianţele corespunzătoare celor două componente reţinute. Utilizănd două componente principale , cantitatea de informaţie recuperată este de 85,603% din informaţia iniţială.Prima componentă principală îmi recuperează 63,708% din informaţia totaşă, iar cea de-a doua componentă îmi acopera 21,895%. Deoarece cantitatea totală de informaţie recuperată de cele două componente este mai mare de 75% rezultă faptul că aceste două componente sunt suficiente. De asemenea dimensiunea spaţiului iniţial, care a fost de 5 (dimensiunea spaţiului este egală cu numărul de variabile analizate) este redusă prin această tehnică la 2, lucru realizat cu o pierdere minimă de informaţie.

O altă modalitate de a stabili numărul de componente principale este utilizarea Scree Plot-ului. Acesta este de fapt reprezentarea criteriului “ grohotisurilor”. Conform acestui criteriu numărul de componente principale luate în studiu este dat de numărul de segmente care uneşte valorile proprii şi care au panata semnificativ diferite de zero.

Imaginea Scree Plot reprezintă în formă grafică valorile Eigenvalue pentru toate componentele prncipale rezultate din analiză şi care, numeric, sunt reprezentate în tabelul Total Variance Explained de mai sus.Reprezentarea grafică a valorilor eigen aferente factorilor, în ordinea extragerii lor, produce o curbă care poate da informaţii cu privire la numărul de factori care trebuie reţinuţi. În reprezentarea noastra observăm că forma curbei este împărţită în două zone, una în care panta este abruptă (este vorba de porţiunea din grafic corespunzătoare componentelor 1 şi 2) şi alta în care panta este lină (este vorba de porţiunea

Page 11: Proiect_AnalizaDatelor_BoboescuDanAlexandru

corespunzătoare componentelor 3,4,5). Punctului de intersecţie dintre cele două zone (este vorba de punctul dat de reprezentarea punctului 3) îi corespunde un factor care va fi considerat ca ultimul factor extras. Deci şi cu ajutorul acestei metode vom obţine tot două componente principale la fel ca în cazul utilizării tabelului Total Variance Explained.

În ceea ce urmează, în vederea caracterizării componentelor obţinute, se determină coeficientul de corelaţie între variabilele artificiale obţinute (componentele principale) şi variabilele originale luate în calcul. Coeficienţii de corelaţie dintre variabilele artificiale obţinute şi variabilele originale sunt daţi în tabelul care urmează:

Component Matrixa

Raw Rescaled

Component Component

1 2 1 2

Zscore(V1) ,932 ,188 ,932 ,188

Zscore(V2) ,924 ,191 ,924 ,191

Zscore(V3) ,888 ,183 ,888 ,183

Zscore(V4) -,780 ,356 -,780 ,356

Zscore(V5) -,254 ,929 -,254 ,929

Extraction Method: Principal Component Analysis.

a. 2 components extracted.

Datele din tabelul de mai sus se referă la soluţia factorială iniţială (înaintea procedurii

de rotaţie). Pentru ca interpretarea să fie facută cu usurinta se mai foloseşte şi tehnica rotirii

axelor( tehnica Varimax) ce are drept scop oţinerea unor coeficienţi de corelaţie cât mai mici

pe una din componentele principale. Însă interpretarea se face uşor şi pe prima matrice de

corelaţie (între componentele principale si variabilele iniţiale), obţinându-se aceeaşi

interpretare ca şi în cazul tehnicii Varimax, însă în cazul tehnicii Varimax rezutatele sunt mai

concludente.

Rotated Component Matrixa

Raw Rescaled

Component Component

1 2 1 2

Zscore(V1) ,948 -,070 ,948 -,070

Zscore(V2) ,941 -,065 ,941 -,065

Zscore(V3) ,905 -,063 ,905 -,063

Zscore(V4) -,656 ,553 -,656 ,553

Zscore(V5) ,006 ,963 ,006 ,963

Page 12: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Analizând aceşti coeficienţi de corelaţie, observăm că prima componentă principală este puternic influenţată de variabila care exprimă speranta de viata la nastere. A doua componentă principală este puternic influenţată de variabila care exprimă rata fertilitatii.

Matricea de rotaţie o regasim în Component Transformation Matrix:

Component Transformation

Matrix

Compo

nent 1 2

1 ,963 -,269

2 ,269 ,963

Extraction Method: Principal

Component Analysis.

Rotation Method: Varimax with

Kaiser Normalization.

Componentele principale sunt combinaţii liniare între variabilele iniţiale şi ponderi asociate acestor variabile, ponderi care sunt date în tabelul de mai jos:

De exemplu prima componentă principala poate fi scrisă în felul următor: 0,328*cheltuieli pentru sanatae+0,326*PIB + 0,314 * speranta de viata la nastere -0,148 * rata mortalitatii infantile + 0,152 * rata fertilitatii.

Component Score Coefficient

Matrixa

Component

1 2

Zscore(V1) ,328 ,086

Zscore(V2) ,326 ,090

Zscore(V3) ,314 ,086

Zscore(V4) -,148 ,379

Zscore(V5) ,152 ,839

Extraction Method: Principal

Component Analysis.

Rotation Method: Varimax with Kaiser

Normalization.

a. Coefficients are standardized.

Page 13: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Aceeaşi interpretare ca la Rotated Component Matrix o putem face şi cu ajutorul Component Plot in Rotated Space. Acesta ne arată că, cu cât o variabila este mai apropiată de axa corespunzătoare unei componente, cu atât variabila respectivă influenţează într-o mai mare măsură componenta respectivă.

II.Analiza Cluster

În continuare vom încerca realizarea unei clasificări a tarilor folosindu-ne de datele standardizate. Deci vom realiza analiza cluster utilizând mai întâi metoda celor mai apropiati vecini şi apoi metoda lui Ward. Această metodă este folosită pentru a grupa date multi-dimensionale (“puncte” ce reprezintă cazuri sau observaţii) în grupe (clusters) definite algoritmic. Analiza Cluster consta, de fapt, dintr-o colecţie de algoritmi ce exploatează mai multe euristici fundamentate în principal pe experienţa noastră vizuală în gruparea punctelor în “nori de puncte” . Pentru a putea folosi un algoritm de clasificare, este nevoie de precizarea:

Unei distanţe între punctele unui spaţiu multidimensional. În lucrarea de faţă vom utiliza distanţa Euclidiană;

O strategie de alegere a punctului reprezentativ (adică a centrului) pentru orice grupare de puncte. De cele mai mule ori se alege media aritmetică (centrul de greutate);

O distanţă între două grupe de puncte. Cele mai folosite asemenea distanţe sunt:-distanţa între centre (în algoritmul Ward);-distanţa între cei mai apropiaţi vecini (single linkage);-distanţa între cei mai depărtaţi vecini (complete linkage).

Page 14: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Rezultatele analizei cluster sunt diferite în funcţie de metoda aplicată, astfel, după cum se va putea observa din cele două dendograme precum şi din schemele de agregare, orinea în care are loc gruparea obiectelor este diferită.

Metoda celor mai apropiati vecini

Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First

Appears

Next StageCluster 1 Cluster 2 Cluster 1 Cluster 2

1 6 23 ,098 0 0 14

2 21 32 ,120 0 0 24

3 27 38 ,133 0 0 8

4 4 18 ,153 0 0 13

5 22 28 ,169 0 0 12

6 1 37 ,169 0 0 32

7 2 26 ,170 0 0 11

8 16 27 ,208 0 3 22

9 11 40 ,219 0 0 13

10 24 30 ,228 0 0 27

11 2 10 ,267 7 0 16

12 17 22 ,272 0 5 22

13 4 11 ,278 4 9 14

14 4 6 ,295 13 1 15

15 4 19 ,297 14 0 20

16 2 14 ,298 11 0 17

17 2 7 ,305 16 0 29

18 29 36 ,307 0 0 19

19 8 29 ,309 0 18 28

20 4 33 ,314 15 0 23

21 34 39 ,319 0 0 28

22 16 17 ,351 8 12 24

23 3 4 ,358 0 20 25

24 16 21 ,380 22 2 26

25 3 25 ,397 23 0 26

26 3 16 ,409 25 24 27

27 3 24 ,450 26 10 30

28 8 34 ,552 19 21 29

Page 15: Proiect_AnalizaDatelor_BoboescuDanAlexandru

29 2 8 ,586 17 28 30

30 2 3 ,616 29 27 31

31 2 9 ,813 30 0 33

32 1 15 ,819 6 0 33

33 1 2 1,532 32 31 34

34 1 20 1,587 33 0 35

35 1 13 1,600 34 0 37

36 12 35 1,763 0 0 37

37 1 12 3,406 35 36 38

38 1 31 7,439 37 0 39

39 1 5 8,958 38 0 0

În primul pas, se grupeaza tările 6 și 23 (clusterd combined), între acestea existând cea

mai mică distanță. Acestora li se adauga în etapa 14 (coloana Next Stage) o nouă țară (la pasul

14 se grupează 4 cu 6). Logica grupării este aceeași și pentru pașii următori.

                                       Rescaled Distance Cluster Combine

           C A S E             0         5        10        15        20        25  Label                   Num  +---------+---------+---------+---------+---------+

  Belgium                   6   ─┐  Finland                  23   ─┤  Austria                   4   ─┤  Germany                  18   ─┤  Canada                   11   ─┤  Netherlands              40   ─┤  Denmark                  19   ─┤  Japan                    33   ─┤  Australia                 3   ─┤  United Kingdom           25   ─┤  Spain                    21   ─┤  Italy                    32   ─┤  Greece                   27   ─┤  Malta                    38   ─┼─┐  Cyprus                   16   ─┤ │  Estonia                  22   ─┤ │  Croatia                  28   ─┤ │  Czech Republic           17   ─┤ │  France                   24   ─┤ │  Iceland                  30   ─┘ ├─┐  Armenia                   2   ─┐ │ │  Georgia                  26   ─┤ │ │  Brazil                   10   ─┤ │ │  China                    14   ─┼─┤ │  Bulgaria                  7   ─┘ │ ├───┐  Hungary                  29   ─┐ │ │   │  Latvia                   36   ─┼─┤ │   │  Bosnia and Herzegovina    8   ─┘ │ │   │  Lithuania                34   ─┬─┘ │   │  Montenegro               39   ─┘   │   │  Belarus                   9   ─────┘   │  Argentina                 1   ─┬───┐   │  Mexico                   37   ─┘   ├───┤

Page 16: Proiect_AnalizaDatelor_BoboescuDanAlexandru

  Colombia                 15   ─────┘   ├─────────┐  Ecuador                  20   ─────────┤         ├─────────────────────┐  Chile                    13   ─────────┘         │                     │  Switzerland              12   ─────────┬─────────┘                     ├───────┐  Luxembourg               35   ─────────┘                               │       │  Israel                   31   ─────────────────────────────────────────┘       │

  Azerbaijan                5   ─────────────────────────────────────────────────┘

Metoda lui Ward

Metoda celor mai apropiaţi vecini nu ilustrează foarte clar clustere de tări, motiv

pentru care metoda lui Ward este cea care va furniza numărul de clustere în care vom împărţii

cele 40 de state. Dendograma sugerează un număr de 7 mari grupe. Schema de grupare este

diferită fată de cea din cazul precedent

Agglomeration Schedule

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next StageCluster 1 Cluster 2 Cluster 1 Cluster 2

1 6 23 ,049 0 0 17

2 21 32 ,109 0 0 26

3 27 38 ,175 0 0 13

4 4 18 ,251 0 0 14

5 22 28 ,336 0 0 16

6 1 37 ,420 0 0 22

7 2 26 ,505 0 0 15

8 11 40 ,615 0 0 18

9 24 30 ,729 0 0 21

10 7 14 ,881 0 0 23

11 29 36 1,035 0 0 19

12 34 39 1,195 0 0 24

13 16 27 1,361 0 3 26

14 4 33 1,587 4 0 31

15 2 10 1,814 7 0 23

16 17 22 2,045 0 5 27

17 6 25 2,304 1 0 21

18 11 19 2,566 8 0 20

19 8 29 2,843 0 11 28

20 3 11 3,238 0 18 30

21 6 24 3,722 17 9 30

Page 17: Proiect_AnalizaDatelor_BoboescuDanAlexandru

22 1 15 4,294 6 0 29

23 2 7 4,919 15 10 33

24 9 34 5,607 0 12 28

25 12 35 6,488 0 0 37

26 16 21 7,376 13 2 31

27 13 17 8,609 0 16 32

28 8 9 10,088 19 24 32

29 1 20 11,608 22 0 34

30 3 6 13,527 20 21 35

31 4 16 16,624 14 26 35

32 8 13 19,835 28 27 33

33 2 8 27,073 23 32 38

34 1 5 35,371 29 0 36

35 3 4 44,734 30 31 37

36 1 31 57,377 34 0 38

37 3 12 72,039 35 25 39

38 1 2 101,167 36 33 39

39 1 3 195,000 38 37 0

 Dendrogram using Ward Method

                                       Rescaled Distance Cluster Combine

           C A S E             0         5        10        15        20        25  Label                   Num  +---------+---------+---------+---------+---------+

  Belgium                   6   ─┐  Finland                  23   ─┤  United Kingdom           25   ─┤  France                   24   ─┤  Iceland                  30   ─┼───┐  Canada                   11   ─┤   │  Netherlands              40   ─┤   │  Denmark                  19   ─┤   ├─┐  Australia                 3   ─┘   │ │  Austria                   4   ─┐   │ │  Germany                  18   ─┤   │ │  Japan                    33   ─┼───┘ │  Spain                    21   ─┤     ├─────────────────────────────────────────┐  Italy                    32   ─┤     │                                         │  Greece                   27   ─┤     │                                         │  Malta                    38   ─┤     │                                         │  Cyprus                   16   ─┘     │                                         │  Switzerland              12   ─┬─────┘                                         │  Luxembourg               35   ─┘                                               │  Bulgaria                  7   ─┐                                               │  China                    14   ─┼─┐                                             │  Armenia                   2   ─┤ │                                             │  Georgia                  26   ─┤ │                                             │

Page 18: Proiect_AnalizaDatelor_BoboescuDanAlexandru

  Brazil                   10   ─┘ │                                             │  Estonia                  22   ─┐ ├───────────┐                                 │  Croatia                  28   ─┤ │           │                                 │  Czech Republic           17   ─┤ │           │                                 │  Chile                    13   ─┤ │           │                                 │  Hungary                  29   ─┼─┘           │                                 │  Latvia                   36   ─┤             │                                 │  Bosnia and Herzegovina    8   ─┤             │                                 │  Lithuania                34   ─┤             ├─────────────────────────────────┘  Montenegro               39   ─┤             │  Belarus                   9   ─┘             │  Argentina                 1   ─┐             │  Mexico                   37   ─┤             │  Colombia                 15   ─┼───┐         │  Ecuador                  20   ─┘   ├─┐       │  Azerbaijan                5   ─────┘ ├───────┘

  Israel                   31   ───────┘

Cluster 1: Belgia, Finlanda, Regatul Unit, Franta, Islanda, Canada, Olanda, Danemarca, Australia

Cluster 2: Austria, Germania, Japonia, Spania, Italia, Grecia, Malta, Cipru,

Cluster 3: Elvetia, Luxemburg

Cluster 4:Bulgaria, China, Armenia, Georgia,Brazilia

Cluster 5:Estonia,Croatia,Letonia,Bosnia,Lituania,Muntenegru,Belarus

Cluster 6:Argentina,Mexic,Columbia,Ecuador

Cluster 7: Azerbaijan, Israel

În cazul de faţă, metoda lui Ward a dus la obţinerea unor rezultate mai bune, permiţând o diferenţieră mai clară a clusterelor. Folosind principiul minimizării varianţei în cadrul grupurilor, ilustrează mai bine profilul tărilor.

III.Analiza discriminantă

Prin conţinutul său şi prin natura procedurilor şi tehnicilor pe care le utilizează ,analiza discriminanta este echivalentă cu rezolvarea unei probleme de predicţie cu privire la apartenenţa la o anumită clasă a unor noi obiecte. Acesta constituie scopul principal al teoriei recunoaşterii formelor.

Există câteva scopuri ale acestei analize:-să clasifice cazurile în grupuri utilizând o ecuaţie de predicţie a discriminantului-să testeze teoria prin observarea faptului că cazurile sunt clasificate aşa cum au fost prevăzute-să investigheze diferenţele dintre sau din interiorul grupurilor-să determine cel mai posibil mod de a distinge între grupuri-să determine procentul variantei în variabila dependentă explicat de către independente-să se determine proporţia variabilei dependente explicat de către independente

Page 19: Proiect_AnalizaDatelor_BoboescuDanAlexandru

-prin sau deasupra variantei calculate prin variabila de control utilizând analiza discriminatului secvențială-să arate importanța relativă a variabilelor independente în clasificarea variabilei dependente-să precizeze variabilele care sunt într-o măsură mică legate de distincţiile grupului

Adăugăm o nouă coloană suplimentară, ce se referă la mărimea țării respective ca și populație, obținând astfel:

1.țări de dimensiune mica ( 0-10 milioane locuitori )2.țări de dimensiune medie ( 10-20 milioane locuitori )3.țări de dimensiune mare ( peste 20 milioane locuitori )

Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

Zscore(V1) ,987 ,237 2 37 ,790

Zscore(V2) ,997 ,052 2 37 ,949

Zscore(V3) ,912 1,775 2 37 ,184

Zscore(V4) ,997 ,047 2 37 ,954

Zscore(V5) ,962 ,724 2 37 ,492

În tabelul ”Test of Equality of Group Means” este prezentat rezultatul ”univariate

ANOVA” pentru fiecare variabilă în parte.

Classification Function Coefficients

Dimensiune

1 2 3

Zscore(V1) -,625 ,428 ,811

Zscore(V2) 1,008 -1,137 -1,104

Zscore(V3) -,902 1,175 ,915

Zscore(V4) -,406 ,339 ,499

Zscore(V5) -,077 ,147 ,057

(Constant) -1,255 -1,344 -1,279

Fisher's linear discriminant functions

În tabelul de mai sus, sunt prezentați coeficienții funcțiilor clasificatorilor, care sunt

combinații liniare de variabilele originale. Acești coeficienți sunt rezultatul unei probleme de

optim, ce presupune minimizrea varianței dintre grupe și reprezintă ecuația dreptei trasate

pentru a separa spațiul obiectelor în clasele de mai sus.

Page 20: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Eigenvalues

Functio

n Eigenvalue % of Variance Cumulative %

Canonical

Correlation

1 ,375a 97,7 97,7 ,522

2 ,009a 2,3 100,0 ,094

a. First 2 canonical discriminant functions were used in the analysis.

În tabelul Eigenvalues observăm valorile proprii associate funcțiilor, iar funcțiile cu

cele mai mari valori proprii sunt acele funcții cu o putere maximă de discriminanță. Se

observă în acest caz că prima funcție are o putere de discriminare mai mare, cumulând 52,2%

din varianța din interiorul grupei.

Wilks' Lambda

Test of

Function(s) Wilks' Lambda Chi-square df Sig.

1 through 2 ,721 11,459 10 ,323

2 ,991 ,308 4 ,989

Pe baza tabelului de mai sus, Wilks Lambda, putem verifica dacă există diferențe

majore între clasele propuse. Testul Wilks Lamda verifică semnificația tuturor funcțiilor de

discriminare pe un interval precizat. Pentru o discriminare cât mai bună este necesar ca

valoarea lui să fie mai mare decât 0.05 , criteriu ce se respectă în ambele cazuri( 0.721 și

0.991).

Page 21: Proiect_AnalizaDatelor_BoboescuDanAlexandru

Urmărind interpretarea grafică de mai sus asupra celor trei clase, vedem cum se

poziționează în jurul centroizilor și cam cum sunt de omogene. Nu se observă nicio clasă cu

un grad foarte redus de dispersie doarece toate trei au câte o componentă care se apropie de

alte clase.

Classification Resultsa

Dimensi

une

Predicted Group Membership

Total1 2 3

Original Count 1 14 3 4 21

2 1 3 2 6

3 3 6 4 13

% 1 66,7 14,3 19,0 100,0

2 16,7 50,0 33,3 100,0

3 23,1 46,2 30,8 100,0

a. 52,5% of original grouped cases correctly classified.

Tabelul Classification results arată un sumar al rezultatelor analizei discriminante,

comparând numărul de obiecte correct clasificate cu cele incorrect clasificate, propunând și

grupele unde ar fi trebuit să fie incluse. Pentru clasele originale I de pe linie și clasele

propuse j de pe coloană, elemental aij reprezintă numărul de component din clasa I ce ar fi

trebuit să fie în clasa j. Suma elementelor de pe diagonal principal este numărul de obiecte

corect clasificate.

Concluzii

Lumea se afla intr-o continua schimbare sau transformare. Asadar consider ca nivelul de investitie in sanatatea mamei si al copilului accelereaza ritmul de dezvoltare al sanatatii, dar si al economieic

Aceasta analiza ne sugereaza prin intermediul cifrelor , legatura ce o au anumite tari intre ele si nivelul de investitie in sanatate specifice celor 40 de tari observate.

Asadar precizez ca informatiile despre sanatate furnizate, pot fi utile in diverse domenii de activitate stiintifice sau practice.

Page 22: Proiect_AnalizaDatelor_BoboescuDanAlexandru