analiza factorială

7
ARC – CURS #10 – 2.05.2012 1 Analiza factorială (I) Analiza factorială este o tehnică matematică/ statistică concepută pentru a lega un set de variabile observate de un număr mai mic de dimensiuni latente permite folosirea mai multor măsuri (variabile) pentru operaționalizarea unui concept Dimensiunea latentă rezultată este definită de ce au în comun variabilele observate folosite Folosirea variabilelor latente operaționalizate cu ajutorul mai multor indicatori/ variabile observate oferă posibilitatea de a modela mai detaliat conceptele teoretice, în comparație cu folosirea unui singur indicator pentru fiecare dimensiune teoretică De asemenea, poate fi o soluție în anumite cazuri pentru problemele de multicolinearitate a predictorilor în analiza de regresie (un grad crescut de colinearitate a predictorilor în analiza de regresie creează o serie de probleme legate de partiționarea varianței comune între predictori, soluții instabile ale ecuației, erori standard și intervale de încredere mărite). Dacă variabilele cu grad mare de colinearitate măsoară aceeași dimensiune/ construct teoretic, atunci soluția este fie construcția unei scale, fie folosirea unui factor latent. În modelele de ecuații structurale, folosirea factorilor latenți în astfel de situații oferă avantaje față de folosirea scalelor, pentru că astfel de modele de măsurare pot diferenția între varianța care surprinde dimensiunea teoretică de interes și varianța unică (varianță care surprinde alte concepte + varianță determinată de erori de măsurare) Analiza factorială exploratorie (EFA) Caracteristici ale EFA: Nu se pornește de la un model care să specifice modul în care variabilele observate sunt legate de variabilele latente structura relațiilor este inferată după rularea analizei, din mărimea coeficienților de saturație Nu este specificat numărul de variabile latente înainte de analiză numărul factorilor este determinat după rularea analizei, conform unor convenții (spre exemplu: valori proprii mai mari de 1 sau „regula cotului”) În majoritatea tipurilor de EFA, atât inițial, cât și după extracție, toți factorii determină toate variabilele observate din analiză Termenii de eroare, dacă sunt incluși în model, nu pot fi corelați (Principal Components Analysis – PCA – una dintre cele mai des utilizate forme de EFA, nu include în model termenii de eroare) În cele mai multe cazuri, factorii extrași sunt ortogonali (necorelați) Modelul este sub-identificat nu există o soluție unică, ci un număr infinit de soluții, fiecare având același grad de adecvare la date dintre aceste soluții se alege o soluție care este considerată mai interpretabilă (numită „structura simplă” – această soluție este una în care pentru fiecare variabilă sunt maximizate încărcăturile pe un singur factor și minimizate încărcăturile pe ceilalți factori) Nivel de măsurare pentru variabilele observate: interval (+ ordinal acceptat) PCA (lucrează cu variabile standardizate, fiecare variabilă având varianța 1): „Modelul” inițial – toate variabilele observate se încarcă pe toți factorii, număr de factori egal cu numărul de variabile observate. PCA caută un prim factor, care este o combinație liniară de toate variabilele observate analizate, și care explică maximul posibil din varianța totală a tuturor variabilelor observate (în modelul de mai jos, varianța totală = 6). După găsirea primului factor, PCA caută al doilea factor (tot combinație liniară de toate variabilele observate analizate), care explică maximul posibil din ce a rămas neexplicat de primul factor din varianța totală a tuturor variabilelor observate. Procedeul se repetă până la ultimul factor.

Upload: jennifer-parker

Post on 17-Nov-2015

12 views

Category:

Documents


0 download

DESCRIPTION

Analiza factorială

TRANSCRIPT

  • ARC CURS #10 2.05.2012 1

    Analiza factorial (I) Analiza factorial este o tehnic matematic/ statistic conceput pentru a lega un set de variabile observate de

    un numr mai mic de dimensiuni latente permite folosirea mai multor msuri (variabile) pentru

    operaionalizarea unui concept

    Dimensiunea latent rezultat este definit de ce au n comun variabilele observate folosite

    Folosirea variabilelor latente operaionalizate cu ajutorul mai multor indicatori/ variabile observate ofer

    posibilitatea de a modela mai detaliat conceptele teoretice, n comparaie cu folosirea unui singur indicator

    pentru fiecare dimensiune teoretic

    De asemenea, poate fi o soluie n anumite cazuri pentru problemele de multicolinearitate a predictorilor n

    analiza de regresie (un grad crescut de colinearitate a predictorilor n analiza de regresie creeaz o serie de

    probleme legate de partiionarea varianei comune ntre predictori, soluii instabile ale ecuaiei, erori standard i

    intervale de ncredere mrite). Dac variabilele cu grad mare de colinearitate msoar aceeai dimensiune/

    construct teoretic, atunci soluia este fie construcia unei scale, fie folosirea unui factor latent.

    n modelele de ecuaii structurale, folosirea factorilor lateni n astfel de situaii ofer avantaje fa de folosirea

    scalelor, pentru c astfel de modele de msurare pot diferenia ntre variana care surprinde dimensiunea

    teoretic de interes i variana unic (varian care surprinde alte concepte + varian determinat de erori de

    msurare)

    Analiza factorial exploratorie (EFA) Caracteristici ale EFA:

    Nu se pornete de la un model care s specifice modul n care variabilele observate sunt legate de variabilele

    latente structura relaiilor este inferat dup rularea analizei, din mrimea coeficienilor de saturaie

    Nu este specificat numrul de variabile latente nainte de analiz numrul factorilor este determinat dup

    rularea analizei, conform unor convenii (spre exemplu: valori proprii mai mari de 1 sau regula cotului)

    n majoritatea tipurilor de EFA, att iniial, ct i dup extracie, toi factorii determin toate variabilele

    observate din analiz

    Termenii de eroare, dac sunt inclui n model, nu pot fi corelai (Principal Components Analysis PCA una

    dintre cele mai des utilizate forme de EFA, nu include n model termenii de eroare)

    n cele mai multe cazuri, factorii extrai sunt ortogonali (necorelai)

    Modelul este sub-identificat nu exist o soluie unic, ci un numr infinit de soluii, fiecare avnd acelai

    grad de adecvare la date dintre aceste soluii se alege o soluie care este considerat mai interpretabil

    (numit structura simpl aceast soluie este una n care pentru fiecare variabil sunt maximizate

    ncrcturile pe un singur factor i minimizate ncrcturile pe ceilali factori)

    Nivel de msurare pentru variabilele observate: interval (+ ordinal acceptat)

    PCA (lucreaz cu variabile standardizate, fiecare variabil avnd variana 1):

    Modelul iniial toate variabilele observate se ncarc pe toi factorii, numr de factori egal cu numrul de

    variabile observate. PCA caut un prim factor, care este o combinaie liniar de toate variabilele observate

    analizate, i care explic maximul posibil din variana total a tuturor variabilelor observate (n modelul de

    mai jos, variana total = 6). Dup gsirea primului factor, PCA caut al doilea factor (tot combinaie liniar

    de toate variabilele observate analizate), care explic maximul posibil din ce a rmas neexplicat de primul

    factor din variana total a tuturor variabilelor observate. Procedeul se repet pn la ultimul factor.

  • ARC CURS #10 2.05.2012 2

    Modelul n form de ecuaii:

    Var1 = p11F1 + p12F2 + + p16F6

    Var2 = p21F1 + p22F2 + + p26F6

    .

    .

    . Var6 = p61F1 + p62F2 + + p66F6

    Extragerea factorilor (conform unor criterii convenionale):

    Se pstreaz factorii cu valori proprii (= cantitatea de varian explicat de factor din variana total a

    variabilelor observate) mai mari de 1

    Regula cotului se exclud factorii plasai dup cot n scree plot

  • ARC CURS #10 2.05.2012 3

    Reprezentarea grafic a celor 2 factori extrai:

    Cele 2 axe reprezint cei doi factori extrai n exemplul de mai sus; variabilele sunt plasate n spaiul

    determinat de axe conform coeficienilor de saturaie care rezult din PCA

    Aceast soluie rezultat nu este unica soluie posibil. Prin rotirea axelor se ajunge la alte soluii, la fel

    de adecvate datelor ca i soluia iniial.

    Rotirea axelor (factorilor) din numrul infinit de soluii posibile, este cutat o soluie mai interpretabil.

    n rotirea VARIMAX, se caut soluia n care factorii sunt mai interpretabili (o variabil are o ncrctur

    mare pe un factor i ncrcturi mici pe restul de factori)

  • ARC CURS #10 2.05.2012 4

    Factorii dup rotire:

    Modelul pentru calcularea scorurilor factoriale:

    Scorurile factoriale sunt scoruri prezise ale dimensiunii latente - pot fi folosite ca scale n ecuaiile de

    regresie

    Pentru a calcula scorurile factoriale, modelul analizei factoriale este inversat:

    = b11Var1 + b12Var2 + + b16Var6

    = b21Var1 + b22Var2 + + b26Var6

  • ARC CURS #10 2.05.2012 5

    SPSS Analiz factorial exploratorie (PCA cu rotire VARIMAX) Variabile folosite:

    Ct de mult ncredere avei n foarte mult destul de mult nu prea mult foarte puin/deloc NS NR

    v131. Biseric 4 3 2 1 8 9

    v132. Armat 4 3 2 1 8 9

    v138. Guvern 4 3 2 1 8 9

    v139. Partide politice 4 3 2 1 8 9

    v140. Parlament 4 3 2 1 8 9

    Aranjarea datelor: missing pe 8,9 + nlocuirea valorilor missing cu mediile variabilelor

    Comenzi SPSS pentru analiza factorial:

    Analyze Data Reduction Factor Descriptives Correlation coefficients; KMO & Bartletts test of sphericity

    KMO = test pentru a determina dac corelaiile pariale ntre variabilele folosite sunt mici; valori mai mici de aproximativ 0,6 sugereaz c variabilele nu se vor grupa bine pe factori

    testul Bartlett testeaz ipoteza de nul: matricea de corelaii ntre variabilele folosite este o matrice identitate (elementele de pe diagonal sunt 1, celelalte elemente sunt 0); dac ipoteza de nul nu poate fi respins, modelul factorial nu este potrivit n cazul variabilelor folosite

    Extraction Principal Components, Display Scree Plot Rotation Varimax (rezult n factori ortogonali, cu variabilele grupate pe factori astfel nct

    factorii s fie ct mai interpretabili) Scores Save as variables (Regression method); Display Factor Score Coefficient Matrix Options (Missing Values Replaced with Mean)

    Coefficients Sorted by Size

    Outputul SPSS: KMO i Bartlett testeaz dac analiza factorial este potrivit pentru variabilele folosite Communalities (comunaliti) similare cu R2 din modelul de regresie; arat proporia din variana unei

    variabilei observate care este explicat de toi factorii extrai Eigenvalues (valori proprii) arat ce cantitate din variana total a tuturor variabilelor observate este

    explicat de un factor Component Matrix (matricea componentelor) conine saturaiile (factor loadings) factorilor extrai; un

    coeficient de saturaie este echivalent cu corelaia dintre variabila observat i factorul extras atunci cnd factorii extrai sunt ortogonali

    Rotated Component Matrix (matricea componentelor dup rotire) conine saturaiile factorilor extrai dup rotire (= corelaiile dintre variabilele observate i factorii rotii atunci cnd metoda de rotire rezult n factori ortogonali) matricea arat ce variabile se ncarc pe fiecare factor i rezultatele sunt folosite pentru etichetarea i interpretarea factorilor

    Component Score Coefficient Matrix (matricea coeficienilor pentru calcularea scorurilor factoriale) conine coeficienii ecuaiilor de regresie folosite pentru calcularea scorurilor factoriale

  • ARC CURS #10 2.05.2012 6

    Analiz factorial (II)

    AMOS Exemplul #8 Analiz factorial confirmatorie (CFA) n principiu, CFA pornete de la un model care stabilete:

    Numrul de factori

    Ce variabile se ncarc pe ce factori

    Dac factorii sunt sau nu corelai

    Dac exist sau nu corelaii ntre termenii de eroare ai modelului

    n cele mai multe cazuri, ntr-un model CFA, o parte din ncrcturile posibile n model sunt constrnse s fie 0

    (ex: n modelul de mai jos, BIS_1 nu se ncarc pe F1). Exist ns situaii n care o variabil observat poate fi

    legat de mai multe variabile latente din model.

    n practic, exist un grad de analiz exploratorie i n CFA pe baza rezultatelor modelului (saturaii, msuri de

    adecvare a modelului la date, comparaii de modele subsumate, indici de modificare a modelului ) se mai pot

    introduce modificri la modelul iniial

    Un model EFA poate fi rulat n prealabil construirii modelului pentru CFA

    Modelele CFA sunt de obicei supra-identificate (soluie unic, teste de adecvare a modelului sunt posibile)

    Pentru ca modelul s fie identificat, fiecare factor latent trebuie s primeasc o scal (se realizeaz prin

    constrngerea unui coeficient de saturaie per variabil latent la 1 prin aceast constrngere, variabila

    latent mprumut scala variabilei ctre care a fost constrns coeficientul); aceast variabil este aleas n mod

    arbitrar, iar alegerea unei variabile diferite nu schimb rezultatele modelului

    Nivel de msurare pentru variabilele observate: interval (+ ordinal acceptat)

    Analysis Properties: Standardized Estimates, Squared Multiple Correlations, Factor Score Weights

    Ipoteze: Ci factori exist? Ce variabile se ncarc pe ce factori? Ce msoar fiecare variabil latent? Variabilele latente sunt corelate sau necorelate? Dac da, sunt corelate pozitiv sau negativ?

    Gradele de libertate se calculeaz n mod similar cu cazul modelelor cu variabile observate:

    # Momente statistice ale eantionului se calculeaz lund n calcul doar variabilele observate cu 5 variabile observate, exist 10 covariane i 5 variane (total = 15 momente statistice ale eantionului)

    # Parametri de estimat = 1 covarian ntre cei 2 factori + 3 coeficieni de saturaie + 2 variane pentru factorii lateni + 5 variane ale termenilor de eroare = 11

    DF = 15-11 = 4

    Output: Adecvarea modelului (Model goodness of fit): Interpretai adecvarea modelului la date folosind Chi-ptrat,

    GFI, TLI, RMSEA Unstandardized Regression weights coeficienii se interpreteaz la fel ca n cazul modelelor de regresie Standardized Regression Weights saturaii factoriale/ coeficieni de saturaie (ex: variabila care msoar

    ncrederea n Parlament se ncarc pe dimensiunea de ncredere n instituiile statutului F1 cu un coeficient de saturaie de 0,91)

    Covariana i corelaia dintre cei doi factori se interpreteaz la fel ca n cazul variabilelor observate Squared multiple correlations arat proporia din variana variabilei observate care este explicat de

    factorul latent Interpretarea msurilor de goodness of fit: Discutai adecvarea modelului la date. Dac testul chi-ptrat sugereaz c modelul nu este adecvat datelor, acest

    lucru poate fi datorat mrimii mari a eantionului. Datorit sensibilitii acestui test la mrimea eantionului,

    F1

    F2

    GUV_1 e111

    PPOL_1 e21

    PARL_1 e31

    BIS_1 e511

    ARM_1 e61

  • ARC CURS #10 2.05.2012 7

    trebuie prezentate i discutate i cteva msuri alternative de adecvare a modelului la date (cum ar fi TLI, GFI, RMSEA).

    Chi-ptrat (CMIN) arat ct de bine se potrivete modelul datelor (msur de goodness of fit); compar matricea de covariane observat n eantion cu matricea de covariane prezis de modelul folosit.

    H0: modelul se potrivete perfect datelor; p este testul de semnificaie asociat acestei H0 Folosind nivelul de semnificaie =0,05, dac p < 0,05 H0 este respins (modelul nu se potrivete

    perfect datelor) GFI este tot o msur de goodness of fit, bazat pe discrepana dintre covarianele prezise de modelul de

    interes i covarianele din populaie GFI variaz ntre 0 i 1, unde 1 indic o adecvare perfect a modelului la date Convenional, valori ale GFI mai mari dect 0,85 indic o adecvare bun a modelului la date

    AGFI - GFI ajustat pentru complexitatea modelului AGFI poate lua valoarea maxim 1 (indic adecvare perfect), dar nu are limit inferioar Convenional, valori mai mari dect 0,90 indic o adecvare bun a modelului

    Tucker-Lewis Index: este o msur ajustat pentru complexitatea modelului i estimeaz adecvarea modelului de interes n comparaie cu un model de baz (modelul de independen)

    n cele mai multe cazuri, TLI variaz ntre 0 i 1, dar poate lua valori i n afara acestui interval Dac modelul se potrivete perfect datelor, TLI are valoarea 1 Convenional, o valoare de cel puin 0,90 indic o adecvare acceptabil a modelului Convenional, o valoare de cel puin 0,95 e necesar pentru a categoriza modelul ca avnd o

    adecvare bun la date RMSEA (Root Mean Square Error of Approximation) ia n calcul eroarea de aproximare n populaie i ine

    cont de numrul de grade de libertate ale modelului (ajusteaz pentru complexitatea modelului) Dac aproximarea este bun, RMSEA ia valori mici Convenional, o valoare de aproximativ 0,05 sau mai puin indic un model adecvat H0: RMSEA n populaie nu este mai mare dect 0,05; P test for close fit (PCLOSE) este testul de

    semnificaie asociat acestei H0 Folosind nivelul de semnificaie =0,05, dac p < 0,05 H0 este respins (RMSEA n populaie este mai

    mare dect 0,05 modelul nu este adecvat) Not: Putei gsi o descriere a tuturor testelor de goodness of fit prezente n outputul AMOS n Apendixul C al User

    Guide-ului AMOS.