document6_

7
Analiza datelor 1 Corelaţia liniară Utilitate Corelaţia evaluează gradul de asociere dintre două variabile măsurate pe scală de interval/raport. Aceasta se referă la intensitatea şi sensul de variaţie concomitentă a valorilor unei variabile în raport cu cealaltă, după un model de tip liniar. Dacă valorile unei variabile urmează, în sens direct, crescător, sau invers, descrescător, valorile celeilalte variabile, atunci cele două variabile corelează între ele. Pentru caracterizarea corelaţiei se foloseşte coeficientul de corelaţie al lui Pearson. Domeniul de variaţie a coeficientului de corelaţie Pearson (r) este între r = -1 (corelaţie perfectă inversă) şi r= +1 (corelaţie perfectă directă). Absenţa oricărei legături (corelaţii) dintre variabile se traduce prin r = 0. Analiza corelaţiei este o procedură care implică valori pentru două variabile măsurate pentru aceiaşi subiecţi, situaţie care corespunde aşa numitului model de cercetare „intrasubiecţi” (within- subjects). Acelaşi model se întâlneşte însă şi atunci când aplicăm testul t pentru eşantioane dependente, deoarece şi în acest caz avem două măsurări pentru fiecare subiect. Testarea corelaţiei este o metodă care permite probarea existenţei unei asocieri între aceste de variabile, ca urmare a faptului că, principial, procedura de calcul se bazează pe transformarea în valori z, libere de unitatea de măsură. Testul de corelaţie implică două variabile dar, adesea, într-o cercetare numărul variabilelor supuse corelaţiei este mai mare de două. Acest fapt conduce la ceea ce se numeşte o matrice de corelaţii, care este un tabel ale cărui celule cuprind corelaţiile dintre perechile de variabile. Condiţii Condiţia principală pentru calcularea coeficientului de corelaţie liniară Pearson este ca variabilele implicate să fie măsurate pe scală de interval/raport (alături de existenţa unei forme a distribuţiei care nu se abate sever de la curba normală). Testele neparametrice alternative, pentru cazul în care condiţiile pentru utilizarea testului Pearson nu se îndeplinesc, sunt: testul chi-pătrat (pentru date nominale) sau coeficienţii de corelaţie Spearman sau Kendall (pentru date ordinale). Realizarea testării corelaţiei cu ajutorul SPSS Înregistrarea datelor în foaia de calcul se face prin se crearea variabile distincte pentru fiecare caracteristică supusă testării. De exemplu, dacă dorim să testăm existenţa unei corelaţii între cheltuielile totale şi veniturile totale ale gospodăriilor dintr-o anumite regiune administrativă. putem folosi datele din fişierul Exemplu_1.sav. Succesiunea de comenzi utilizată va fi: Analyze -Corelate-Bivariate.... Aceasta va permite deschiderea ferestrei următoare:

Upload: sandoi-ionut

Post on 27-Sep-2015

2 views

Category:

Documents


1 download

DESCRIPTION

ddddddddddddd

TRANSCRIPT

  • Analiza datelor

    1

    Corelaia liniar

    Utilitate Corelaia evalueaz gradul de asociere dintre dou variabile msurate pe scal de

    interval/raport. Aceasta se refer la intensitatea i sensul de variaie concomitent a valorilor unei variabile n raport cu cealalt, dup un model de tip liniar. Dac valorile unei variabile urmeaz, n sens direct, cresctor, sau invers, descresctor, valorile celeilalte variabile, atunci cele dou variabile coreleaz ntre ele. Pentru caracterizarea corelaiei se folosete coeficientul de corelaie al lui Pearson. Domeniul de variaie a coeficientului de corelaie Pearson (r) este ntre r = -1 (corelaie perfect invers) i r= +1 (corelaie perfect direct). Absena oricrei legturi (corelaii) dintre variabile se traduce prin r = 0.

    Analiza corelaiei este o procedur care implic valori pentru dou variabile msurate pentru aceiai subieci, situaie care corespunde aa numitului model de cercetare intrasubieci (within-subjects). Acelai model se ntlnete ns i atunci cnd aplicm testul t pentru eantioane dependente, deoarece i n acest caz avem dou msurri pentru fiecare subiect.

    Testarea corelaiei este o metod care permite probarea existenei unei asocieri ntre aceste de variabile, ca urmare a faptului c, principial, procedura de calcul se bazeaz pe transformarea n valori z, libere de unitatea de msur.

    Testul de corelaie implic dou variabile dar, adesea, ntr-o cercetare numrul variabilelor supuse corelaiei este mai mare de dou. Acest fapt conduce la ceea ce se numete o matrice de corelaii, care este un tabel ale crui celule cuprind corelaiile dintre perechile de variabile.

    Condiii Condiia principal pentru calcularea coeficientului de corelaie liniar Pearson este ca

    variabilele implicate s fie msurate pe scal de interval/raport (alturi de existena unei forme a distribuiei care nu se abate sever de la curba normal).

    Testele neparametrice alternative, pentru cazul n care condiiile pentru utilizarea testului Pearson nu se ndeplinesc, sunt: testul chi-ptrat (pentru date nominale) sau coeficienii de corelaie Spearman sau Kendall (pentru date ordinale).

    Realizarea testrii corelaiei cu ajutorul SPSS nregistrarea datelor n foaia de calcul se face prin se crearea variabile distincte pentru

    fiecare caracteristic supus testrii. De exemplu, dac dorim s testm existena unei corelaii ntre cheltuielile totale i

    veniturile totale ale gospodriilor dintr-o anumite regiune administrativ. putem folosi datele din fiierul Exemplu_1.sav.

    Succesiunea de comenzi utilizat va fi: Analyze -Corelate-Bivariate.... Aceasta va permite deschiderea ferestrei urmtoare:

  • Analiza datelor

    2

    Variabilele ce vor fi testate vor fi trecute n lista Variables. n cazul nostru sunt:

    Venituri_totale i Cheltuieli_totale. Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un altul

    (Kendall sau Spearman), dac datele sunt ordinale (ranguri). Tipul implicit de testare a ipotezei este bilateral (Two-tailed), dar se poate alege i unilateral. Flag significant correlations, determin marcarea cu un asterisc a coeficienilor

    semnificativi la p = 0,05, i cu dou asteriscuri a celor semnificativi la p = 0,01. Acest lucru este util atunci cnd matricea de corelaie este mare, pentru a scoate n eviden valorile semnificative ale lui r.

    Rezultate n fereastra SPSS viewer, dup rularea procedurii se va afia un tabel ca cel de mai jos:

    Correlations

    Venituri_totale Chelt_totale

    Pearson Correlation 1,000 ,973**

    Sig. (2-tailed) ,000

    Venituri_totale

    N 10,000 10

    Pearson Correlation ,973** 1,000

    Sig. (2-tailed) ,000 Chelt_totale

    N 10 10,000

    **. Correlation is significant at the 0.01 level (2-tailed).

    Tabelul rezultatelor cuprinde matricea de corelaii a variabilelor analizate. El este redundant, deoarece prezint aceleai corelaii de dou ori, odat deasupra diagonalei i, din nou, sub diagonala tabelului. Corelaiile variabilelor cu ele nsele sunt perfecte i pozitive (r = 1) i nu prezint, desigur, nici un interes.

    Fiecare celul include urmtoarele informaii: valoarea lui r (Pearson Correlation): 0,973 nivelul p Sig. 2-tailed (probabilitatea cu care valoarea calculat a lui r apare pe

    distribuia de nul): 0,000 numrul de subieci (N): 10

  • Analiza datelor

    3

    Interpretarea rezultatelor n cazul nostru, se observ o corelaie direct foarte intens i semnificativ ntre

    Cheltuieli_totale i Venituri_totale (r = 0,973, p = 0,000). Altfel spus, cheltuielile totale ale gospodriilor sunt foarte strns legate de veniturile totale pe care au acestea.

    Dezavantajul acestui tip de tabel const n faptul c avem, de fapt, o dubl prezentare a corelaiilor, deasupra diagonalei i sub diagonal. Pentru corelaii implicnd multe variabile tabelul se va citi cu relativ dificultate.

    Expresia grafic a corelaiei (Scatterplot) Caracterul i intensitatea corelaiei dintre dou variabile se evideniaz extrem de sugestiv

    cu ajutorul unei proceduri grafice specifice, numit scatterplot. Aceasta se lanseaz din meniul principal Graphs-Chart builder Scatter... care deschide

    urmtoarea fereastr:

    De aici, se alege din lista Choose from: Scatter/Dot, iar din lista de grafice de acest tip prima variant. Apoi din lista Variables se trage pe axa Ox variabila Venituri_totale, iar pe axa Oy variabila Cheltuieli_totale. Dup apsarea butonului OK n fereastra SPSS View se va vedea rezultatul urmtor:

  • Analiza datelor

    4

    Tot aici se poate ajunge dac din meniul Graphs se alege Legacy Dialogs...- Scatter/Dot, caz n care se deschide fereastra urmtoare :

    De aici se alege Simple scatter i se apas Define iar n fereastra care apare

    se trag n casetele corespunztoare axelor cele dou variabile Cheltuieli_totale i Venituri_totale.

  • Analiza datelor

    5

    Regresia liniar Cunoatere existenei unei corelaii liniare ntre dou variabile nu este suficient de cele mai multe ori, deoarece n practic este necesar i cunoaterea chiar cu aproximaie cunoscut a relaiei care s-ar putea stabili ntre dou variabile. Aceast relaie poart denumirea de model de regresie. n general un astfel de model de regresie liniar poate fi scris astfel:

    ++++++= nnii xxxxaY ...2211 , unde a - coeficientul liber al modelului (constanta). i - coeficienii de regresie ai modelului - reziduul modelului

    Deoarece n practic, de cele mai multe ori se lucreaz cu eantioane pentru determinarea corelaiei i nu cu toate datele populaiei studiate, se ncearc determinarea unui model care s estimeze modelul real de regresie. Acest model ar putea arta astfel:

    +++++= nnii xbxbxbxbaY ...2211 , unde a - coeficientul liber al modelului (constanta). bi - coeficienii de regresie estimai ai modelului - reziduul modelului Astfel se ridic ntrebarea dac modelul de regresie determinat pe baza datelor din eantion este cel real sau nu. Datorit acestui fapt este necesar testarea semnificaiei modelului ca ntreg folosind un test specific (testul F) dar i dac fiecare coeficient are corespondent o estimaie b semnificativ.

    De remarcat c un model de regresie liniar poate avea mai multe variabile cauz (independente) i o singur variabil efect (dependent). n cazul nostru exist doar o cauz i un efect. Pentru determinarea acestei relaii SPSS pune la dispoziie o procedur apelabil prin intermediul urmtoarei succesiuni de comenzi: Analyze-Regression-Linear... care deschide urmtoarea fereastr:

    S presupunem c dorim s determinm dac gospodriile au tendina de a cheltui total veniturile pe care le ctig sau de a le economisi i dac cheltuielile totale sunt influenate la fel de diferitele categorii de venituri.

    n acest caz vom completa n caseta Dependent, prin tragere, cu variabila Cheltuieli_totale (Y), iar n lista Independent(s) cu variabila Venituri_din salariu (x1), respectiv Alte_venituri (x2), mergnd pe ipoteza c gospodriile cheltuie n limita veniturilor pe care la ctig i nu ctig n funcie de ce cheltuieli fac. Deci posibilul model ar arta cam aa:

    +++= venituriAltebsalariudinVenituribatotaleCheltuieli _*__*_ 21 Dac ntre cheltuielile totale i veniturile obinute de o gospodrie exist o corelaie puternic direct atunci vom putea spune c gospodriile cheltuie att ct au la dispoziie. Dac nu

  • Analiza datelor

    6

    se manifest o corelaie sau aceasta este slab este posibil s observm o tendin de economisire a diferitelor categorii de venituri. Mai pot fi setate i alte opiuni, folosind butoanele Statistics... - pentru calcularea i afiarea a mai multor parametri pentru corelaie, cum ar fi coeficienii de regresie, intervalele de ncredere pentru acetia, etc. Plots... - pentru reprezentarea grafic a rezultatelor regresiei Save... - Parametrii modelului de regresie Options... - alte opiuni privind pragul de semnificaie pentru testul F aplicabil coeficienilor de regresie Ca de obicei, opiunile setate predefinit sunt de cele mai multe ori suficiente. Dup apsarea butonului OK n fereastra SPSS Viewer vor fi afiate urmtoarele tabele:

    Variables Entered/Removedb

    Model Variables Entered

    Variables Removed Method

    1 Alte venituri, Venituri din salariua

    . Enter

    a. All requested variables entered. b. Dependent Variable: Chelt_totale

    Primul tabel arat cte dintre variabilele independente au fost selectate n urma testelor s

    fac parte din modelul de regresie. n cazul modelului din exemplul nostru, toate variabilele independente au fost selectate n model.

    Model Summary

    Model R R Square Adjusted R

    Square Std. Error of the

    Estimate

    1 ,987a ,973 ,966 307,24989 a. Predictors: (Constant), Alte venituri, Venituri din salariu

    Al doilea tabel prezint valoarea coeficientului de corelaie liniar (R r), a coeficientului de determinaie (R square R2), a coeficientului de determinaie corectat, respectiv a erorii standard a estimaiei .

    Valoarea 0,987 arat c ntre cele dou variabile exist o corelaie liniar direct (semnul + al coeficientului), foarte puternic (valoarea coeficientului foarte aproape de 1).

    ANOVAb Model Sum of Squares df Mean Square F Sig.

    Regression 2,399E7 2 1,200E7 127,088 ,000a

    Residual 660817,462 7 94402,495 1

    Total 2,466E7 9 a. Predictors: (Constant), Alte venituri, Venituri din salariu b. Dependent Variable: Chelt_totale

    Al treilea tabel arat rezultatele testului F de semnificaie a modelului de regresie. n cazul de fa modelul este semnificativ (Sig. < 0.05).

  • Analiza datelor

    7

    Coefficientsa

    Unstandardized Coefficients Standardized Coefficients

    Model B Std. Error Beta t Sig.

    (Constant) -2,253 206,495 -,011 ,992 Venituri din salariu ,746 ,174 ,459 4,289 ,004

    1

    Alte venituri ,199 ,037 ,575 5,375 ,001 a. Dependent Variable: Chelt_totale

    Ultimul tabel prezint estimatorii b ai coeficienilor de regresie ai modelului de regresie estimat i rezultatele testului t pentru semnificaia fiecruia. Modelul estimat obinut ar putea fi scris astfel:

    venituriAltesalariudinVenituritotaleCheltuieli _*199.0__*746.0253.2_ ++= Dar testarea semnificaiei fiecrui coeficient de regresie prin testul t a artat c semnificativi

    sunt doar b1 (Sig.=0.004