Transcript

PAGE 2Statistic II - Seminarul 13

PREDICIA. ECUAII DE REGRESIE

1. PREDICIA LINIAR SIMPLSe bazeaz pe corelaia Pearson.

Corelaia vizeaz descrierea relaiei dintre VI (predictor, notat cu X) i VD (criteriu, notat cu Y).Cu ajutorul unei ecuaii de regresie putem prezice scorul la criteriu cunoscnd scorul la predictor i putem determina procentul din variana criteriului explicat de variana predictorului (R2).

Ecuaia de regresie: Forma general: Y = a + bX

a este constanta / interceptul (punctul de intersecie dintre linia de regresie i axa OY)

b este coeficientul de regresie / panta (arat cu ct crete Y cnd X se modific cu o unitate)

Cnd rxy este pozitiv valoarea lui b este pozitiv, iar dreapta este cresctoare.

Cnd rxy este negativ valoarea lui b este negativ, iar dreapta este descresctoare.

SHAPE \* MERGEFORMAT

a) pentru note brute: Y= a + bXY * X, unde Y este scorul prezis (criteriul),

X este scorul la testul predictor,

a este se calculeaz dup formula: ,

bXY este coeficientul de regresie nestandardizat i are formula: , (unde rXY este coeficientul de corelaie ntre predictor i criteriu)

Exemplu:

test de inteligen (predictor X): ; sX=7,8

performana la matematic (criteriu Y): ; sY=1,3

corelaia: rXY=0,71;

nota unui subiect la testul de inteligen: X=43

= 0,71*1,3/7,8 = 0,12

= 7,25 48,2*0,12 = 1,55Y= a + bXY * X = 1,55 + 0,12*43 = 6,63

Deci, putem prognoza nota la matematic 6,63 pentru un subiect care are nota brut de 43 la testul de inteligen. Eroarea standard de estimare: = 1,3 0,92

Putem spune c din subiecii care au 43 nota brut la predictor:

68% vor avea nota la matematic n intervalul: 6,630,92 adic (5,71; 7,55)

95% vor avea nota n intervalul: 6,631,96*0,92;

99% din subieci n intervalul 6,632,58*0,92

b) Pentru note standard ecuaia devine: ZY = * ZX, unde = rXYzX = (43 48,2)/7,8 = 0,67zY = 0,71*(-0,67) = 0,47

Y = (-0,47)*1,3 + 7,25 = 6,632. REGRESIA MULTIPL

Se realizeaz predicia unei VD (criteriu) n funcie de mai multe VI (predictori):

Identificarea celui mai bun set de VI pentru estimarea VD (cel mai bun model de predicie)

Introducerea unei noi VI aduce un plus explicativ? Ct anume?

Ecuaia de regresie multipl: Y= a + b1X1 + b2X2 +.............+ bnXn

ZY=1 zX1 + 2 zX2 + ...........+ n zXn

- coeficientul de corelatie multiplaSe urmrete predicia notei pe semestrul I a unor studeni la Informatic pe baza unei Baterii de teste, care cuprinde urmtoarele probe:

Comprehensiune Verbal (CV);

Raionament (RA);

Operatori Logici (OL);

Aptitudine Numeric (AN);

Diagrame (DG)

Matricea de corelaii ntre probe (predictori) + corelaiile probelor cu media pe sem I (criteriul):

CVRAOLANDG

CV10.7750.670.6250.733

.0000

4747474747

RA0.77510.60.5710.593

0.000

4747474747

OL0.670.610.4890.608

00.00

4747474747

AN0.6250.5710.48910.295

000.0.044

4747474747

DG0.7330.5930.6080.2951

0000.044.

4747474747

medie semestrul 10.6670.6260.3690.4470.655

Algoritmul lui Aitken pentru aflarea coeficienilor beta redui:

1 (CV)2 (RA)3 (OL)4 (AN)5 (DG)678910

11.000.820.860.750.831.000.000.000.000.00

20.821.000.630.600.690.001.000.000.000.00

30.860.631.000.840.780.000.001.000.000.00

40.750.600.841.000.640.000.000.001.000.00

50.830.690.780.641.000.000.000.000.001.00

60.670.630.370.450.660.000.000.000.000.00

7(3.03)0.33-0.07-0.020.01-0.821.000.000.000.001-2

81.00-0.22-0.050.03-2.483.030.000.000.00

9-0.070.270.200.07-0.860.001.000.000.001-3

10-0.020.200.440.02-0.750.000.001.000.001-4

110.010.070.020.31-0.830.000.000.001.001-5

120.08-0.20-0.050.10-0.670.000.000.000.001-6

13(4.01)0.250.200.07-1.040.221.000.000.008-9

141.000.790.29-4.170.904.010.000.00

150.200.440.02-0.790.050.021.000.008-10

160.07-1.04-0.79-0.81-0.030.000.001.008-11

17-0.18-0.050.10-0.47-0.240.000.000.008-12

18(3.52)0.28-0.040.03-0.13-0.771.000.0014-15

191.00-0.130.10-0.44-2.713.520.00

20-0.04-0.81-0.51-0.09-0.290.001.0014-16

210.100.15-1.24-0.080.740.000.0014-17

22(-0,16)-0.82-0.51-0.11-0.380.131.0019-20

231.000.620.130.47-0.16-1.22

240.16-1.25-0.031.00-0.340.0019-21

25-1.35-0.060.92-0.310.2023-24

12345

R = 0,984Y

2.00

4.00

6.00

8.00

X

5

10

15

20

25

30

35

35

30

25

20

15

10

5

X

10.00

8.00

6.00

4.00

2.00

Y

_1114847266.unknown

_1114847819.unknown

_1114848529.unknown

_1114849605.unknown

_1114847276.unknown

_1114846829.unknown


Top Related