analiza factorială

ARC CURS #10 2.05.2012 1

Analiza factorial (I) Analiza factorial este o tehnic matematic/ statistic conceput pentru a lega un set de variabile observate de

un numr mai mic de dimensiuni latente permite folosirea mai multor msuri (variabile) pentru

operaionalizarea unui concept

Dimensiunea latent rezultat este definit de ce au n comun variabilele observate folosite

Folosirea variabilelor latente operaionalizate cu ajutorul mai multor indicatori/ variabile observate ofer

posibilitatea de a modela mai detaliat conceptele teoretice, n comparaie cu folosirea unui singur indicator

pentru fiecare dimensiune teoretic

De asemenea, poate fi o soluie n anumite cazuri pentru problemele de multicolinearitate a predictorilor n

analiza de regresie (un grad crescut de colinearitate a predictorilor n analiza de regresie creeaz o serie de

probleme legate de partiionarea varianei comune ntre predictori, soluii instabile ale ecuaiei, erori standard i

intervale de ncredere mrite). Dac variabilele cu grad mare de colinearitate msoar aceeai dimensiune/

construct teoretic, atunci soluia este fie construcia unei scale, fie folosirea unui factor latent.

n modelele de ecuaii structurale, folosirea factorilor lateni n astfel de situaii ofer avantaje fa de folosirea

scalelor, pentru c astfel de modele de msurare pot diferenia ntre variana care surprinde dimensiunea

teoretic de interes i variana unic (varian care surprinde alte concepte + varian determinat de erori de

msurare)

Analiza factorial exploratorie (EFA) Caracteristici ale EFA:

Nu se pornete de la un model care s specifice modul n care variabilele observate sunt legate de variabilele

latente structura relaiilor este inferat dup rularea analizei, din mrimea coeficienilor de saturaie

Nu este specificat numrul de variabile latente nainte de analiz numrul factorilor este determinat dup

rularea analizei, conform unor convenii (spre exemplu: valori proprii mai mari de 1 sau regula cotului)

n majoritatea tipurilor de EFA, att iniial, ct i dup extracie, toi factorii determin toate variabilele

observate din analiz

Termenii de eroare, dac sunt inclui n model, nu pot fi corelai (Principal Components Analysis PCA una

dintre cele mai des utilizate forme de EFA, nu include n model termenii de eroare)

n cele mai multe cazuri, factorii extrai sunt ortogonali (necorelai)

Modelul este sub-identificat nu exist o soluie unic, ci un numr infinit de soluii, fiecare avnd acelai

grad de adecvare la date dintre aceste soluii se alege o soluie care este considerat mai interpretabil

(numit structura simpl aceast soluie este una n care pentru fiecare variabil sunt maximizate

ncrcturile pe un singur factor i minimizate ncrcturile pe ceilali factori)

Nivel de msurare pentru variabilele observate: interval (+ ordinal acceptat)

PCA (lucreaz cu variabile standardizate, fiecare variabil avnd variana 1):

Modelul iniial toate variabilele observate se ncarc pe toi factorii, numr de factori egal cu numrul de

variabile observate. PCA caut un prim factor, care este o combinaie liniar de toate variabilele observate

analizate, i care explic maximul posibil din variana total a tuturor variabilelor observate (n modelul de

mai jos, variana total = 6). Dup gsirea primului factor, PCA caut al doilea factor (tot combinaie liniar

de toate variabilele observate analizate), care explic maximul posibil din ce a rmas neexplicat de primul

factor din variana total a tuturor variabilelor observate. Procedeul se repet pn la ultimul factor.

ARC CURS #10 2.05.2012 2

Modelul n form de ecuaii:

Var1 = p11F1 + p12F2 + + p16F6

Var2 = p21F1 + p22F2 + + p26F6

.

.

. Var6 = p61F1 + p62F2 + + p66F6

Extragerea factorilor (conform unor criterii convenionale):

Se pstreaz factorii cu valori proprii (= cantitatea de varian explicat de factor din variana total a

variabilelor observate) mai mari de 1

Regula cotului se exclud factorii plasai dup cot n scree plot

ARC CURS #10 2.05.2012 3

Reprezentarea grafic a celor 2 factori extrai:

Cele 2 axe reprezint cei doi factori extrai n exemplul de mai sus; variabilele sunt plasate n spaiul

determinat de axe conform coeficienilor de saturaie care rezult din PCA

Aceast soluie rezultat nu este unica soluie posibil. Prin rotirea axelor se ajunge la alte soluii, la fel

de adecvate datelor ca i soluia iniial.

Rotirea axelor (factorilor) din numrul infinit de soluii posibile, este cutat o soluie mai interpretabil.

n rotirea VARIMAX, se caut soluia n care factorii sunt mai interpretabili (o variabil are o ncrctur

mare pe un factor i ncrcturi mici pe restul de factori)

ARC CURS #10 2.05.2012 4

Factorii dup rotire:

Modelul pentru calcularea scorurilor factoriale:

Scorurile factoriale sunt scoruri prezise ale dimensiunii latente - pot fi folosite ca scale n ecuaiile de

regresie

Pentru a calcula scorurile factoriale, modelul analizei factoriale este inversat:

= b11Var1 + b12Var2 + + b16Var6

= b21Var1 + b22Var2 + + b26Var6

ARC CURS #10 2.05.2012 5

SPSS Analiz factorial exploratorie (PCA cu rotire VARIMAX) Variabile folosite:

Ct de mult ncredere avei n foarte mult destul de mult nu prea mult foarte puin/deloc NS NR

v131. Biseric 4 3 2 1 8 9

v132. Armat 4 3 2 1 8 9

v138. Guvern 4 3 2 1 8 9

v139. Partide politice 4 3 2 1 8 9

v140. Parlament 4 3 2 1 8 9

Aranjarea datelor: missing pe 8,9 + nlocuirea valorilor missing cu mediile variabilelor

Comenzi SPSS pentru analiza factorial:

Analyze Data Reduction Factor Descriptives Correlation coefficients; KMO & Bartletts test of sphericity

KMO = test pentru a determina dac corelaiile pariale ntre variabilele folosite sunt mici; valori mai mici de aproximativ 0,6 sugereaz c variabilele nu se vor grupa bine pe factori

testul Bartlett testeaz ipoteza de nul: matricea de corelaii ntre variabilele folosite este o matrice identitate (elementele de pe diagonal sunt 1, celelalte elemente sunt 0); dac ipoteza de nul nu poate fi respins, modelul factorial nu este potrivit n cazul variabilelor folosite

Extraction Principal Components, Display Scree Plot Rotation Varimax (rezult n factori ortogonali, cu variabilele grupate pe factori astfel nct

factorii s fie ct mai interpretabili) Scores Save as variables (Regression method); Display Factor Score Coefficient Matrix Options (Missing Values Replaced with Mean)

Coefficients Sorted by Size

Outputul SPSS: KMO i Bartlett testeaz dac analiza factorial este potrivit pentru variabilele folosite Communalities (comunaliti) similare cu R2 din modelul de regresie; arat proporia din variana unei

variabilei observate care este explicat de toi factorii extrai Eigenvalues (valori proprii) arat ce cantitate din variana total a tuturor variabilelor observate este

explicat de un factor Component Matrix (matricea componentelor) conine saturaiile (factor loadings) factorilor extrai; un

coeficient de saturaie este echivalent cu corelaia dintre variabila observat i factorul extras atunci cnd factorii extrai sunt ortogonali

Rotated Component Matrix (matricea componentelor dup rotire) conine saturaiile factorilor extrai dup rotire (= corelaiile dintre variabilele observate i factorii rotii atunci cnd metoda de rotire rezult n factori ortogonali) matricea arat ce variabile se ncarc pe fiecare factor i rezultatele sunt folosite pentru etichetarea i interpretarea factorilor

Component Score Coefficient Matrix (matricea coeficienilor pentru calcularea scorurilor factoriale) conine coeficienii ecuaiilor de regresie folosite pentru calcularea scorurilor factoriale

ARC CURS #10 2.05.2012 6

Analiz factorial (II)

AMOS Exemplul #8 Analiz factorial confirmatorie (CFA) n principiu, CFA pornete de la un model care stabilete:

Numrul de factori

Ce variabile se ncarc pe ce factori

Dac factorii sunt sau nu corelai

Dac exist sau nu corelaii ntre termenii de eroare ai modelului

n cele mai multe cazuri, ntr-un model CFA, o parte din ncrcturile posibile n model sunt constrnse s fie 0

(ex: n modelul de mai jos, BIS_1 nu se ncarc pe F1). Exist ns situaii n care o variabil observat poate fi

legat de mai multe variabile latente din model.

n practic, exist un grad de analiz exploratorie i n CFA pe baza rezultatelor modelului (saturaii, msuri de

adecvare a modelului la date, comparaii de modele subsumate, indici de modificare a modelului ) se mai pot

introduce modificri la modelul iniial

Un model EFA poate fi rulat n prealabil construirii modelului pentru CFA

Modelele CFA sunt de obicei supra-identificate (soluie unic, teste de adecvare a modelului sunt posibile)

Pentru ca modelul s fie identificat, fiecare factor latent trebuie s primeasc o scal (se realizeaz prin

constrngerea unui coeficient de saturaie per variabil latent la 1 prin aceast constrngere, variabila

latent mprumut scala variabilei ctre care a fost constrns coeficientul); aceast variabil este aleas n mod

arbitrar, iar alegerea unei variabile diferite nu schimb rezultatele modelului

Nivel de msurare pentru variabilele observate: interval (+ ordinal acceptat)

Analysis Properties: Standardized Estimates, Squared Multiple Correlations, Factor Score Weights

Ipoteze: Ci factori exist? Ce variabile se ncarc pe ce factori? Ce msoar fiecare variabil latent? Variabilele latente sunt corelate sau necorelate? Dac da, sunt corelate pozitiv sau negativ?

Gradele de libertate se calculeaz n mod similar cu cazul modelelor cu variabile observate:

# Momente statistice ale eantionului se calculeaz lund n calcul doar variabilele observate cu 5 variabile observate, exist 10 covariane i 5 variane (total = 15 momente statistice ale eantionului)

# Parametri de estimat = 1 covarian ntre cei 2 factori + 3 coeficieni de saturaie + 2 variane pentru factorii lateni + 5 variane ale termenilor de eroare = 11

DF = 15-11 = 4

Output: Adecvarea modelului (Model goodness of fit): Interpretai adecvarea modelului la date folosind Chi-ptrat,

GFI, TLI, RMSEA Unstandardized Regression weights coeficienii se interpreteaz la fel ca n cazul modelelor de regresie Standardized Regression Weights saturaii factoriale/ coeficieni de saturaie (ex: variabila care msoar

ncrederea n Parlament se ncarc pe dimensiunea de ncredere n instituiile statutului F1 cu un coeficient de saturaie de 0,91)

Covariana i corelaia dintre cei doi factori se interpreteaz la fel ca n cazul variabilelor observate Squared multiple correlations arat proporia din variana variabilei observate care este explicat de

factorul latent Interpretarea msurilor de goodness of fit: Discutai adecvarea modelului la date. Dac testul chi-ptrat sugereaz c modelul nu este adecvat datelor, acest

lucru poate fi datorat mrimii mari a eantionului. Datorit sensibilitii acestui test la mrimea eantionului,

F1

F2

GUV_1 e111

PPOL_1 e21

PARL_1 e31

BIS_1 e511

ARM_1 e61

ARC CURS #10 2.05.2012 7

trebuie prezentate i discutate i cteva msuri alternative de adecvare a modelului la date (cum ar fi TLI, GFI, RMSEA).

Chi-ptrat (CMIN) arat ct de bine se potrivete modelul datelor (msur de goodness of fit); compar matricea de covariane observat n eantion cu matricea de covariane prezis de modelul folosit.

H0: modelul se potrivete perfect datelor; p este testul de semnificaie asociat acestei H0 Folosind nivelul de semnificaie =0,05, dac p < 0,05 H0 este respins (modelul nu se potrivete

perfect datelor) GFI este tot o msur de goodness of fit, bazat pe discrepana dintre covarianele prezise de modelul de

interes i covarianele din populaie GFI variaz ntre 0 i 1, unde 1 indic o adecvare perfect a modelului la date Convenional, valori ale GFI mai mari dect 0,85 indic o adecvare bun a modelului la date

AGFI - GFI ajustat pentru complexitatea modelului AGFI poate lua valoarea maxim 1 (indic adecvare perfect), dar nu are limit inferioar Convenional, valori mai mari dect 0,90 indic o adecvare bun a modelului

Tucker-Lewis Index: este o msur ajustat pentru complexitatea modelului i estimeaz adecvarea modelului de interes n comparaie cu un model de baz (modelul de independen)

n cele mai multe cazuri, TLI variaz ntre 0 i 1, dar poate lua valori i n afara acestui interval Dac modelul se potrivete perfect datelor, TLI are valoarea 1 Convenional, o valoare de cel puin 0,90 indic o adecvare acceptabil a modelului Convenional, o valoare de cel puin 0,95 e necesar pentru a categoriza modelul ca avnd o

adecvare bun la date RMSEA (Root Mean Square Error of Approximation) ia n calcul eroarea de aproximare n populaie i ine

cont de numrul de grade de libertate ale modelului (ajusteaz pentru complexitatea modelului) Dac aproximarea este bun, RMSEA ia valori mici Convenional, o valoare de aproximativ 0,05 sau mai puin indic un model adecvat H0: RMSEA n populaie nu este mai mare dect 0,05; P test for close fit (PCLOSE) este testul de

semnificaie asociat acestei H0 Folosind nivelul de semnificaie =0,05, dac p < 0,05 H0 este respins (RMSEA n populaie este mai

mare dect 0,05 modelul nu este adecvat) Not: Putei gsi o descriere a tuturor testelor de goodness of fit prezente n outputul AMOS n Apendixul C al User

Guide-ului AMOS.

analiza factorială

Documents