cursul 3 corelatia si regresia liniara

Post on 18-Apr-2017

306 Views

Category:

Documents

12 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Aplicații computerizate ale datelor

Exemple de studii corelaţionale:

Există vreo legătură între scorurile la testele de inteligenţă şi performanţa şcolară?

Există asociere între înălţime şi greutate?

Există asociere între inteligenţa părinţilor şi inteligenţa copiilor?

Există o relaţie între numărul orelor de studiu la statistică şi punctajul obţinut la evaluări?

Corelaţia nu implică o cauzalitate

Ce fel de date au fost colectate?Care sunt condiţiile de aplicare?

• Date numerice

• Variabile măsurate pe scale de interval sau de raport

• Variabile normal distribuite

• Numărul de subiecţi este mai mare de 30

• Absenţa outlierilor sau a valorilor extreme

• Relaţia dintre variabile este liniară

• Norul de puncte indică homoscedasticitate

Folosim corelaţia Spearman, atunci când…

• Cel puţin una dintre variabile este măsurată pe scală ordinală

• Cel puţin una dintre variabile nu este normal distribuită

• Numărul de subiecţi este mai mic de 30

7) Cum interpretăm asocierea dintre două variabile?

Coeficient de corelatie

Indică puterea asocierii

Indică direcția sau relația (pozitivă sau negativă)

r = +.37

Corelația pozitivă arată relaţia de directă proporţionalitate între cele două variabile: cu cât creşte x, cu atât creşte şi Y.

Corelația negativă arată relaţia de inversă proporţionalitate: cu cît creşte X, cu atât scade Y.

Coeficient de corelație Interpretare 0.0-0.1 Foarte mic, negliabil0.1-0.3 Mic, minor0.3-0.5 Moderat, mediu0.5-0.7 Mare, ridicat0.7-0.9 Foarte mare, foarte ridicat0.9-1 Aproape perfect

Coeficient de corelație (r)

Prag de semnificație (p)

Număr de participanți (N)

Norul de puncte ca modalitate a a testa normalitatea distribuției

• Norul de puncte evidențiază patternul de organizare a datelor, fiind și o modalitate de a testa normalitatea distribuției.

• Atunci când normalitatea este încălcată, norul de puncte tinde să fie asimetric la unul dintre capete (Tabachnick, & Fidell, 2007).

• Forma norului de puncte ne oferă detalii şi despre variabilitatea datelor. Cu cât variabilitatea creşte, cu atât corelaţia scade.

• Variabilitatea scăzută se obţine în cazul datelor omogene, leptocurtice, asimetrice pozitiv sau negativ.

• De asemenea, norul de puncte este o modalitate eficientă de a depista outlierii bivarați sau valorile aberante.

Norul de puncte ca modalitate a a testa normalitatea distribuției

Intensitatea asocierii dintre variabile – coeficientul de determinare

r 2 x 100 –coeficientul de determinare

- procentul din dispersia variabilei depndente explicat evoluția variabilei independente (cât

de mare este influența variabilei

independente asupra celei

dependente)

Cauzele care pot afecta precizia unui coeficient de corelaţie

• Presupunerea că între x şi y există coliniaritate, adică faptul că norului de puncte ce materializează corelaţia i-ar putea fi ajustată o linie dreaptă numită linia de regresie a lui y în raport cu x.

• Distribuţiile atipice care, prezintă valori atipice la extremele seriei de variaţie

• Erorile de introducere a datelor

• Erorile de eşantionare: cu cât omogenitatea grupului este mai mare, cu atât corelaţia descreşte

• Erorile de măsurătoare sau de tastare

Corelația și mărimea eșantionului• O corelație slabă poate fi semnificativă statistic dacă

eșantionul este mare → cu cât creşte numărul de subiecţi, creşte variabilitatea eşantionului → scăderea coeficientului de corelaţie dar → creşte semnificaţia statistică. Este greşit să afirmăm că am obţinut o corelaţie slabă din cauza numărului mic de subiecţi!!!

• D.p.d.v teoretic și corelațiile slabe pot fi importante• Exemplu: un grup de cercetători a demonstrat că între

consumul aspirinei şi atacul de cord există o corelație de -.034, ceea ce înseamnă că folosirea aspirinei explică doar 1% din variația apariției atacului de cord, → adică dintr-un grup de 20.000 persoane care nu consumau aspirină, 72 făceau atac de cord !!!

Corelația parțială

• Relaţia dintre două variabile este afectată de o a treia variabilă. Acest lucru este evident în cazul unor relaţii false sau a unor relaţii de moderare.

Relaţii false între două variabileC

X

Y X

C

Y

Exemplul 1: Zilele ploioase duc la o dispoziție afectivă negativă.In realitate, există alţi factori precum presiunea atmosferică, gradul de luminozitate pot influenţa dispoziţia afectivă, nu ploaia propriu-zis. Exemplul 2: Persoanele mai scunde au părul mai lung. Dacă avem în vedere variabila gen care corelează atât cu lungimea părului cât şi cu înălţimea, obţinem un alt rezultat. Femeile au păr mai lung şi sunt mai scunde, iar relaţia dintre X şi Y devine nesemnificativă, dacă ţinem cont de gen.

Relaţie între X şi Y moderată de a treia variabilă

X

C

Y

Exemplul 3: Relația dintre timpul stat la soare şi nivelul de bronzare.Dacă avem în vedere variabila tip de ten, rezultatele sunt diferite.

Relaţia între X şi Y mediată de a treia variabilă

X C Y

Exemplul 4: Relația dintre motivația pentru învățare şi performanțele şcolare este mediată de strategiile de învățare.Motivaţia pentru învăţare duce la alegerea unor strategii mai eficiente care, la rândul lor, duc la rezultate şcolare ridicate.

Paşi SPSS pentru calculul corelaţiei parţiale

Paşi SPSS pentru calculul corelaţiei parţiale

1. există o corelație bivariată (Pearson) puternică semnificativă statistic între reprezentări spațiale și calcul aritmetic.

2. ! QI corelează semnificativ cu ambele variabile!

3. In partea a doua a tabelului (Controlling for QI) observăm că de această dată corelația dintre Reprezentarea spațială și calculul aritmetic devine nesemnificativă legătura dintre cele două variabile nu era decât efectul influenței pe care o exercita inteligența asupra lor.

(Marian Popa, 2009, Statistică psihologică – nivel intermediar, note de curs).

• Dacă relația dintre Reprezentarea spațială și Calculul aritmetic ar fi rămas semnificativă, în condițiile în care influența QI este eliminată, am fi putut vorbi despre existența uni corelații parțiale.

Regresia liniară

Regresia liniară• frecvent utilizată în cercetarea psihologică – pentru validarea unor modele teoretice– pentru scopuri practice, precum selecția.

ExempluCunoscând nivelul inteligenței unui elev, putem prezice

performanța sa şcolară. • permite să estimăm rezultatele viitoare pe baza unor

indicatori din prezent

• Variabila ale cărei valori dorim să le prezicem, se numeşte criteriu,

• Variabila ale cărei valori le utilizăm pentru a prezice valorile criteriului, se numeşte predictor

Regresia liniară• pleacă de la premisa unei corelaţii puternice între predictor

şi criteriu

• Măsura în care norul de puncte descrie o relaţie liniară între variabile poate fi ilustrată prin trasarea unei drepte prin acest nor de puncte care conturează patternul norului de puncte şi care se numeşte linie de regresie

• Regresia liniară simplă - există un singur predictor (variabila independentă) şi un singur criteriu (variabila dependentă)

• Regresia multiliniară sau multiplă presupune mai multe surse de variaţie, ecuaţia de regresie include mai mulţi factori ce intervin cu ponderi diferite în predicţia criteriului.

Ecuația de regresie

Ecuația de regresie

Linia de regresie

Regresia liniară multiplă

• Regresia liniară multiplă presupune folosirea mai multor predictori.

• Ecuaţia de regresie este următoarea:

Y = B0 + B1·X1 + B2·X2 + ... + Bn·Xn

Condiţii de aplicare pentru regresia liniară

simplă şi multiplă 1. Variabila dependentă (VD) și variabila independentă (VI)

să fie variabile cantitative normal distribuite.

2. Relaţia dintre VD şi VI să fie liniară (scatterplot - matrix).

3. Erorile (reziduurile) să fie normal distribuite (histogramă sau Kolmogorov-Smirnov).

4. Evitarea multicoliniarităţii (corelaţii mari 0,50 – 0,60 între oricare două VI).

5. Evitare cazurilor extreme şi a cazurilor influente (inspectarea tabelului Residuals statitics).

6. Evitarea homoscedasticităţii : reziduurile vor avea aceeaşi varianţă pentru fiecare nivel al variabilelor predictor (VI).

Calculul regresiei liniare simple (Pasul 1)

Calculul regresiei liniare simple (Pasul 2)

• Primul tabel arată variabilele din modelul de predicție.

• Al doilea tabel, Model Summary, oferă coeficientul de corelație dintre variabila dependentă și variabila independentă (R – coeficientul de corelație multiplă, pentru regresia multiliniară), coeficientul de determinare (R2) care arată procentul de variație al variabilei criteriu explicat de variabila predictor.

• Al treilea tabel, ANOVA, testul F arată în ce măsură există diferențe semnificative statistic între estimările oferite pe baza ecuației de regresie implicate în comparație cu estimările bazate pe valoarea mediei (Sava, 2004). Pentru un model eficient, F este semnificativ statistic.

• Al patrulea tabel, Coefficients, conține coeficienții standardizați și nestandardizați de regresie și valoarea constantei. Testul t de pe ultima coloană arată dacă fiecare coeficient de regresie este semnificativ diferit de 0. Pragul de semnificație mai mic de 0,05 arată că predictorul ales este un predictor semnificativ.

top related