analiza factorială
DESCRIPTION
Analiza factorialăTRANSCRIPT
-
ARC CURS #10 2.05.2012 1
Analiza factorial (I) Analiza factorial este o tehnic matematic/ statistic conceput pentru a lega un set de variabile observate de
un numr mai mic de dimensiuni latente permite folosirea mai multor msuri (variabile) pentru
operaionalizarea unui concept
Dimensiunea latent rezultat este definit de ce au n comun variabilele observate folosite
Folosirea variabilelor latente operaionalizate cu ajutorul mai multor indicatori/ variabile observate ofer
posibilitatea de a modela mai detaliat conceptele teoretice, n comparaie cu folosirea unui singur indicator
pentru fiecare dimensiune teoretic
De asemenea, poate fi o soluie n anumite cazuri pentru problemele de multicolinearitate a predictorilor n
analiza de regresie (un grad crescut de colinearitate a predictorilor n analiza de regresie creeaz o serie de
probleme legate de partiionarea varianei comune ntre predictori, soluii instabile ale ecuaiei, erori standard i
intervale de ncredere mrite). Dac variabilele cu grad mare de colinearitate msoar aceeai dimensiune/
construct teoretic, atunci soluia este fie construcia unei scale, fie folosirea unui factor latent.
n modelele de ecuaii structurale, folosirea factorilor lateni n astfel de situaii ofer avantaje fa de folosirea
scalelor, pentru c astfel de modele de msurare pot diferenia ntre variana care surprinde dimensiunea
teoretic de interes i variana unic (varian care surprinde alte concepte + varian determinat de erori de
msurare)
Analiza factorial exploratorie (EFA) Caracteristici ale EFA:
Nu se pornete de la un model care s specifice modul n care variabilele observate sunt legate de variabilele
latente structura relaiilor este inferat dup rularea analizei, din mrimea coeficienilor de saturaie
Nu este specificat numrul de variabile latente nainte de analiz numrul factorilor este determinat dup
rularea analizei, conform unor convenii (spre exemplu: valori proprii mai mari de 1 sau regula cotului)
n majoritatea tipurilor de EFA, att iniial, ct i dup extracie, toi factorii determin toate variabilele
observate din analiz
Termenii de eroare, dac sunt inclui n model, nu pot fi corelai (Principal Components Analysis PCA una
dintre cele mai des utilizate forme de EFA, nu include n model termenii de eroare)
n cele mai multe cazuri, factorii extrai sunt ortogonali (necorelai)
Modelul este sub-identificat nu exist o soluie unic, ci un numr infinit de soluii, fiecare avnd acelai
grad de adecvare la date dintre aceste soluii se alege o soluie care este considerat mai interpretabil
(numit structura simpl aceast soluie este una n care pentru fiecare variabil sunt maximizate
ncrcturile pe un singur factor i minimizate ncrcturile pe ceilali factori)
Nivel de msurare pentru variabilele observate: interval (+ ordinal acceptat)
PCA (lucreaz cu variabile standardizate, fiecare variabil avnd variana 1):
Modelul iniial toate variabilele observate se ncarc pe toi factorii, numr de factori egal cu numrul de
variabile observate. PCA caut un prim factor, care este o combinaie liniar de toate variabilele observate
analizate, i care explic maximul posibil din variana total a tuturor variabilelor observate (n modelul de
mai jos, variana total = 6). Dup gsirea primului factor, PCA caut al doilea factor (tot combinaie liniar
de toate variabilele observate analizate), care explic maximul posibil din ce a rmas neexplicat de primul
factor din variana total a tuturor variabilelor observate. Procedeul se repet pn la ultimul factor.
-
ARC CURS #10 2.05.2012 2
Modelul n form de ecuaii:
Var1 = p11F1 + p12F2 + + p16F6
Var2 = p21F1 + p22F2 + + p26F6
.
.
. Var6 = p61F1 + p62F2 + + p66F6
Extragerea factorilor (conform unor criterii convenionale):
Se pstreaz factorii cu valori proprii (= cantitatea de varian explicat de factor din variana total a
variabilelor observate) mai mari de 1
Regula cotului se exclud factorii plasai dup cot n scree plot
-
ARC CURS #10 2.05.2012 3
Reprezentarea grafic a celor 2 factori extrai:
Cele 2 axe reprezint cei doi factori extrai n exemplul de mai sus; variabilele sunt plasate n spaiul
determinat de axe conform coeficienilor de saturaie care rezult din PCA
Aceast soluie rezultat nu este unica soluie posibil. Prin rotirea axelor se ajunge la alte soluii, la fel
de adecvate datelor ca i soluia iniial.
Rotirea axelor (factorilor) din numrul infinit de soluii posibile, este cutat o soluie mai interpretabil.
n rotirea VARIMAX, se caut soluia n care factorii sunt mai interpretabili (o variabil are o ncrctur
mare pe un factor i ncrcturi mici pe restul de factori)
-
ARC CURS #10 2.05.2012 4
Factorii dup rotire:
Modelul pentru calcularea scorurilor factoriale:
Scorurile factoriale sunt scoruri prezise ale dimensiunii latente - pot fi folosite ca scale n ecuaiile de
regresie
Pentru a calcula scorurile factoriale, modelul analizei factoriale este inversat:
= b11Var1 + b12Var2 + + b16Var6
= b21Var1 + b22Var2 + + b26Var6
-
ARC CURS #10 2.05.2012 5
SPSS Analiz factorial exploratorie (PCA cu rotire VARIMAX) Variabile folosite:
Ct de mult ncredere avei n foarte mult destul de mult nu prea mult foarte puin/deloc NS NR
v131. Biseric 4 3 2 1 8 9
v132. Armat 4 3 2 1 8 9
v138. Guvern 4 3 2 1 8 9
v139. Partide politice 4 3 2 1 8 9
v140. Parlament 4 3 2 1 8 9
Aranjarea datelor: missing pe 8,9 + nlocuirea valorilor missing cu mediile variabilelor
Comenzi SPSS pentru analiza factorial:
Analyze Data Reduction Factor Descriptives Correlation coefficients; KMO & Bartletts test of sphericity
KMO = test pentru a determina dac corelaiile pariale ntre variabilele folosite sunt mici; valori mai mici de aproximativ 0,6 sugereaz c variabilele nu se vor grupa bine pe factori
testul Bartlett testeaz ipoteza de nul: matricea de corelaii ntre variabilele folosite este o matrice identitate (elementele de pe diagonal sunt 1, celelalte elemente sunt 0); dac ipoteza de nul nu poate fi respins, modelul factorial nu este potrivit n cazul variabilelor folosite
Extraction Principal Components, Display Scree Plot Rotation Varimax (rezult n factori ortogonali, cu variabilele grupate pe factori astfel nct
factorii s fie ct mai interpretabili) Scores Save as variables (Regression method); Display Factor Score Coefficient Matrix Options (Missing Values Replaced with Mean)
Coefficients Sorted by Size
Outputul SPSS: KMO i Bartlett testeaz dac analiza factorial este potrivit pentru variabilele folosite Communalities (comunaliti) similare cu R2 din modelul de regresie; arat proporia din variana unei
variabilei observate care este explicat de toi factorii extrai Eigenvalues (valori proprii) arat ce cantitate din variana total a tuturor variabilelor observate este
explicat de un factor Component Matrix (matricea componentelor) conine saturaiile (factor loadings) factorilor extrai; un
coeficient de saturaie este echivalent cu corelaia dintre variabila observat i factorul extras atunci cnd factorii extrai sunt ortogonali
Rotated Component Matrix (matricea componentelor dup rotire) conine saturaiile factorilor extrai dup rotire (= corelaiile dintre variabilele observate i factorii rotii atunci cnd metoda de rotire rezult n factori ortogonali) matricea arat ce variabile se ncarc pe fiecare factor i rezultatele sunt folosite pentru etichetarea i interpretarea factorilor
Component Score Coefficient Matrix (matricea coeficienilor pentru calcularea scorurilor factoriale) conine coeficienii ecuaiilor de regresie folosite pentru calcularea scorurilor factoriale
-
ARC CURS #10 2.05.2012 6
Analiz factorial (II)
AMOS Exemplul #8 Analiz factorial confirmatorie (CFA) n principiu, CFA pornete de la un model care stabilete:
Numrul de factori
Ce variabile se ncarc pe ce factori
Dac factorii sunt sau nu corelai
Dac exist sau nu corelaii ntre termenii de eroare ai modelului
n cele mai multe cazuri, ntr-un model CFA, o parte din ncrcturile posibile n model sunt constrnse s fie 0
(ex: n modelul de mai jos, BIS_1 nu se ncarc pe F1). Exist ns situaii n care o variabil observat poate fi
legat de mai multe variabile latente din model.
n practic, exist un grad de analiz exploratorie i n CFA pe baza rezultatelor modelului (saturaii, msuri de
adecvare a modelului la date, comparaii de modele subsumate, indici de modificare a modelului ) se mai pot
introduce modificri la modelul iniial
Un model EFA poate fi rulat n prealabil construirii modelului pentru CFA
Modelele CFA sunt de obicei supra-identificate (soluie unic, teste de adecvare a modelului sunt posibile)
Pentru ca modelul s fie identificat, fiecare factor latent trebuie s primeasc o scal (se realizeaz prin
constrngerea unui coeficient de saturaie per variabil latent la 1 prin aceast constrngere, variabila
latent mprumut scala variabilei ctre care a fost constrns coeficientul); aceast variabil este aleas n mod
arbitrar, iar alegerea unei variabile diferite nu schimb rezultatele modelului
Nivel de msurare pentru variabilele observate: interval (+ ordinal acceptat)
Analysis Properties: Standardized Estimates, Squared Multiple Correlations, Factor Score Weights
Ipoteze: Ci factori exist? Ce variabile se ncarc pe ce factori? Ce msoar fiecare variabil latent? Variabilele latente sunt corelate sau necorelate? Dac da, sunt corelate pozitiv sau negativ?
Gradele de libertate se calculeaz n mod similar cu cazul modelelor cu variabile observate:
# Momente statistice ale eantionului se calculeaz lund n calcul doar variabilele observate cu 5 variabile observate, exist 10 covariane i 5 variane (total = 15 momente statistice ale eantionului)
# Parametri de estimat = 1 covarian ntre cei 2 factori + 3 coeficieni de saturaie + 2 variane pentru factorii lateni + 5 variane ale termenilor de eroare = 11
DF = 15-11 = 4
Output: Adecvarea modelului (Model goodness of fit): Interpretai adecvarea modelului la date folosind Chi-ptrat,
GFI, TLI, RMSEA Unstandardized Regression weights coeficienii se interpreteaz la fel ca n cazul modelelor de regresie Standardized Regression Weights saturaii factoriale/ coeficieni de saturaie (ex: variabila care msoar
ncrederea n Parlament se ncarc pe dimensiunea de ncredere n instituiile statutului F1 cu un coeficient de saturaie de 0,91)
Covariana i corelaia dintre cei doi factori se interpreteaz la fel ca n cazul variabilelor observate Squared multiple correlations arat proporia din variana variabilei observate care este explicat de
factorul latent Interpretarea msurilor de goodness of fit: Discutai adecvarea modelului la date. Dac testul chi-ptrat sugereaz c modelul nu este adecvat datelor, acest
lucru poate fi datorat mrimii mari a eantionului. Datorit sensibilitii acestui test la mrimea eantionului,
F1
F2
GUV_1 e111
PPOL_1 e21
PARL_1 e31
BIS_1 e511
ARM_1 e61
-
ARC CURS #10 2.05.2012 7
trebuie prezentate i discutate i cteva msuri alternative de adecvare a modelului la date (cum ar fi TLI, GFI, RMSEA).
Chi-ptrat (CMIN) arat ct de bine se potrivete modelul datelor (msur de goodness of fit); compar matricea de covariane observat n eantion cu matricea de covariane prezis de modelul folosit.
H0: modelul se potrivete perfect datelor; p este testul de semnificaie asociat acestei H0 Folosind nivelul de semnificaie =0,05, dac p < 0,05 H0 este respins (modelul nu se potrivete
perfect datelor) GFI este tot o msur de goodness of fit, bazat pe discrepana dintre covarianele prezise de modelul de
interes i covarianele din populaie GFI variaz ntre 0 i 1, unde 1 indic o adecvare perfect a modelului la date Convenional, valori ale GFI mai mari dect 0,85 indic o adecvare bun a modelului la date
AGFI - GFI ajustat pentru complexitatea modelului AGFI poate lua valoarea maxim 1 (indic adecvare perfect), dar nu are limit inferioar Convenional, valori mai mari dect 0,90 indic o adecvare bun a modelului
Tucker-Lewis Index: este o msur ajustat pentru complexitatea modelului i estimeaz adecvarea modelului de interes n comparaie cu un model de baz (modelul de independen)
n cele mai multe cazuri, TLI variaz ntre 0 i 1, dar poate lua valori i n afara acestui interval Dac modelul se potrivete perfect datelor, TLI are valoarea 1 Convenional, o valoare de cel puin 0,90 indic o adecvare acceptabil a modelului Convenional, o valoare de cel puin 0,95 e necesar pentru a categoriza modelul ca avnd o
adecvare bun la date RMSEA (Root Mean Square Error of Approximation) ia n calcul eroarea de aproximare n populaie i ine
cont de numrul de grade de libertate ale modelului (ajusteaz pentru complexitatea modelului) Dac aproximarea este bun, RMSEA ia valori mici Convenional, o valoare de aproximativ 0,05 sau mai puin indic un model adecvat H0: RMSEA n populaie nu este mai mare dect 0,05; P test for close fit (PCLOSE) este testul de
semnificaie asociat acestei H0 Folosind nivelul de semnificaie =0,05, dac p < 0,05 H0 este respins (RMSEA n populaie este mai
mare dect 0,05 modelul nu este adecvat) Not: Putei gsi o descriere a tuturor testelor de goodness of fit prezente n outputul AMOS n Apendixul C al User
Guide-ului AMOS.