regr logistica

13
Ținând cont că în cele ce urmează se dorește observarea variabilelor ce au o influență asupra adecvării la locul de muncă, nu se va putea utiliza regresia liniară, deoarece variabilele ce intră în analiză sunt calitative dihotomice sau politohomice. În acest sens, în cele ce urmează va fi folosită regresia logistică. Gradul de adecvare la piața muncii este o variabilă dihotomică, având două valori posibile: 1 (Adecvat) în cazul în care persoanele din eșantion au studiat un domeniu asemănător sau identic cu cel implicat la locul de muncă sau 0 (Neadecvat) dacă persoanele analizate au studiat un domeniu diferit de cel necesar la locul de muncă avut. Variabilele explicative vor oferi, astfel, detalii despre importanța lor în diferențierea claselor și despre clasificarea unei observații într-o anumită grupă. Diferențele dintre regresia liniară și regresia logistică sunt multiple. Printre acestea, se poate aminti faptul că regresia logistică se bazează pe metoda verosimilității maxime, pe când regresia liniară utilizează metoda celor mai mici pătrate. În plus, cunoașterea variabile independente va determina în regresia liniară predicția variabilei dependente, însă în regresia logistică se va estima o probabilitate de apariție a fiecăreia dintre cele două categorii posibile ale variabilei depdendente. Ecuația de regresie liniară care ar fi fost analizată este: Y i =α +βX i +u i .

Upload: lori-mg

Post on 03-Oct-2015

216 views

Category:

Documents


0 download

DESCRIPTION

h

TRANSCRIPT

innd cont c n cele ce urmeaz se dorete observarea variabilelor ce au o influen asupra adecvrii la locul de munc, nu se va putea utiliza regresia liniar, deoarece variabilele ce intr n analiz sunt calitative dihotomice sau politohomice. n acest sens, n cele ce urmeaz va fi folosit regresia logistic. Gradul de adecvare la piaa muncii este o variabil dihotomic, avnd dou valori posibile: 1 (Adecvat) n cazul n care persoanele din eantion au studiat un domeniu asemntor sau identic cu cel implicat la locul de munc sau 0 (Neadecvat) dac persoanele analizate au studiat un domeniu diferit de cel necesar la locul de munc avut. Variabilele explicative vor oferi, astfel, detalii despre importana lor n diferenierea claselor i despre clasificarea unei observaii ntr-o anumit grup.Diferenele dintre regresia liniar i regresia logistic sunt multiple. Printre acestea, se poate aminti faptul c regresia logistic se bazeaz pe metoda verosimilitii maxime, pe cnd regresia liniar utilizeaz metoda celor mai mici ptrate. n plus, cunoaterea variabile independente va determina n regresia liniar predicia variabilei dependente, ns n regresia logistic se va estima o probabilitate de apariie a fiecreia dintre cele dou categorii posibile ale variabilei depdendente.Ecuaia de regresie liniar care ar fi fost analizat este: . Vom considera variabila Adecvare ca fiind Y n cele ce urmeaz, aadar se dorete estimarea probabilitii ca aceast variabil s ia valoarea corespunztoare uneia dintre categorii. innd cont c variabila este dihotomic i de restricia c aceast variabil trebuie s urmeze o distribuie de tip Bernoulli, se constat c ipotezele de homoscedasticitate i de normalitate a erorilor sunt nclcate dac vorbim despre regresie liniar. Funcia de repartiie logistic are forma urmtoare: , unde zi= +Xi Se observ c i c . Se consider un model pentru care . Pentru acest model se remarc faptul c pi este inclus n intervalul [0,1] i c modelul este neliniar att n X, ct i n . Astfel, metoda celor mai mici ptrate nu mai poate fi folosit.tiind c pi este probabilitatea ca evenimentul studiat s se realizeze, atunci 1-pi va fi egal cu , iar raportul dintre cele dou probabiliti (ezi) arat ansele de realizare ale evenimentului.Logaritmndu-se, se va obine forma: n continuare, se utilizeaz metoda verosimilitii maxime pentru estimarea probabilitii cu care un eveniment se realizeaz. Din cele prezentate anterior, aceast probabilitate este egal cu: . tiind c n problema analizat exist date la nivel de individ i nu probabiliti pentru un anumit eantion i c variabila aleatoare Yi urmeaz o distribuie de tip Bernoulli, se consider c: (probabilitatea ca respondentul s fie adecvat la locul de munc din punct de vedere al studiilor) (probabilitatea ca respondentul s nu fie adecvat la locul de munc din punct de vedere al studiilor)Totodat, variabilele Yi sunt independente i au aceeai densitate de probabilitate. Astfel, densitatea comun de probabilitate, care se numete funcia de verosimilitate, este: Se logaritmeaz aceast funcie i se obine: Se cunoate c , aadar relaia anterioar devine: . Punndu-se condiiile de maxim impuse acestei funcii, se vor obine rezultatele metodei verosimilitii maxime.

1.1. Construirea modelului

Pentru a identifica factorii care au rol n adecvarea la locul de munc a respondenilor, se va construi un model de regresie logistic, unde variabila dependent este Adecvarea. Aceasta poate avea valorile 0 i 1, adic Neadecvat, respectiv Adecvat. Variabilele independente considerate n acest model sunt urmtoarele: Internship va avea valoarea 0 dac respondentul nu a participat la un program de internship i valoarea 1 dac respondentul a participat la cel puin un program de internship; Note variabil care reflect atitudinea fa de note a respondentului: primete valoarea 0 dac respondentul a rspuns c nu a studiat astfel nct s obin note ct mai mari i 1 dac respondentul a studiat astfel nct s obin cele mai mari note. Studiu variabil continu, care cuantific numrul de ore dedicate sptmnal studiului; Voluntariat va avea valoarea 0 dac respondentul nu a deinut nicio funcie ntr-o organizaie studeneasc i valoarea 1 n caz contrar; Gen se refer la genul respondentului; primete valoarea 1 n cazul n care respondentul este brbat i valoarea 2 n cazul n care respondentul este femeie.

Pentru fiecare dintre cele 5 ri analizate, s-a construit un model de regresie logistic pe baza variabilelor prezentate anterior, apoi acesta a fost rulat n R. Rezultatele pot fi vizualizate n cele ce urmeaz.1.2. Rezultatele rulrii modelului

n cazul Lituaniei, se observ n Figura 28 coeficienii estimai pentru modelul de regresie logistic. Astfel, se poate spune c ansa de a fi adecvat la locul de munc, adic log(: scade cu 0,244 n cazul n care respondentul particip la un program de internship fa de situaia n care nu particip; crete cu 0,003 pentru o or de studiu n plus pe sptmn; se mrete cu 0,426 dac respondentul nva astfel nct s obin note mari fa de situaia n care respondentul nu are acest scop; crete cu 0,232 dac respondentul a avut o funcie ntr-o organizaie de voluntariat fa de situaia contrar; scade cu 0,132 dac respondentul este de gen feminin fa de situaia n care respondentul este de gen masculin.Se poate observa, totui, c niciunul dintre aceti coeficieni nu este semnificativ statistic cu excepia coeficientului termenului liber. Acest lucru a fost verificat cu ajutorul statisticii z i a probabilitii asociate. Niciuna dintre variabilele incluse n model nu determin o inserie de succes pe piaa muncii. n literatura de specialitate, nu s-au identificat nc factorii care s garanteze adecvarea absolvenilor de studii superioare la piaa muncii. Evident, aceti factori sunt specifici fiecrei ri n funcie de contextul economic, specificitile pieei muncii i ale sistemului de educaie.

Figura 28 Regresie logistic pentru LituaniaPentru o interpretare mai facil a modelului, se va utiliza output-ul din Figura 29, care indic estimaiile coeficienilor variabilelor incluse n analiz.

Figura 29 Aplicarea unei funcii exponeniale (Lituania)Aplicnd o funcie exponenial, se obine c ansa de a fi adecvat la locul de munc va scdea cu aproximativ 22% dac respondentul particip la un stagiu de internship, va crete cu mai mult de 0,3% pentru o or n plus de studiu, cu 53% n cazul respondenilor ce studiaz n plus pentru a obine note mari, cu 26% dac respondenii au deinut o funcie ntr-o organizaie de voluntariat i va scdea cu aproximativ 13% dac respondenii sunt de gen feminin fa de situaia n care sunt brbai.Pentru a testa bonitatea modelului, se va folosi statistica p-value. Aceasta poate fi observat n Figura 30. Acest test arat dac modelul este mai bun dect un model nul. Statistica testului utilizat urmeaz o distribuia 2. Valoarea statisticii calculate este 4.282722, iar valoarea p-value asociat este 0.50. Aceast valoare ne situeaz ntr-o zon de indecizie, mai aproape ns de zona de acceptare a ipotezei nule conform creia modelul nu ar fi valid.

Figura 30 Testarea bonitatea modelului (Lituania)n cazul Poloniei, rezultatele rulrii modelului de regresie logistic pot fi observate n figura 31. Se remarc faptul c variabila care cuantific orele dedicate sptmnal studiului este semnificativ statistic, ceea ce nseamn c log( (unde p reprezint probabilitatea de a fi adecvat la locul de munc) va crete cu 0,03 pentru o or n plus de studiu pe sptmn. Valoarea testului z i a probabilitii asociate indic faptul c acest coeficient are semnificaie din punct de vedere statistic.

Figura 31 Regresie logistic pentru PoloniaAplicnd o funcie exponenial, se obin rezultatele din Figura 32. Aadar, ansa de a fi adecvat la locul de munc va crete cu aproximativ 8% dac respondentul desfoar un stagiu de practic, va crete cu aproximativ 3,1% pentru o or n plus de studiu, va scdea cu aproape 50% dac respondentul nva astfel nct s obin note mari, crete cu 29% pentru respondenii care dein funcii de conducere ntr-o organizaie de voluntariat i scade cu 21% pentru respondenii de sex feminin fa de cei de gen masculin.

Figura 32 Aplicarea unei funcii exponeniale (Polonia)n continuare, se testeaz bonitatea modelului. Statistica testului urmeaz o distribuie 2. Valoarea statisticii calculate este de 26,79237; pentru aceasta se obine un rezultat pentru p-value foarte mic, ceea ce indic faptul c modelul este valid.

Figura 33 Testarea bonitii modelului pentru Polonian cazul Sloveniei, n Figura 34 se observ care sunt coeficienii rezultai n urma rulrii modelului de regresie logistic. Astfel, orele de studiu sptmnale, dar i dorina de a obine note mari concretizat n studiu suplimentar sunt semnificative statistic. Astfel, log( crete cu 0,011 pentru o or de studiu n plus i cu 0,457 pentru persoanele nclinate spre a obine note mari fa de cele care nu au acest scop.

Figura 34 Regresie logistic pentru SloveniaDup aplicarea unei funcii exponeniale, se obin rezultatele din Figura 35. Astfel, ansa de a fi adecvat la locul de munc scade cu aproximativ 9% pentru persoanele care au desfurat un stagiu de internship, crete cu aproximativ 1% pentru o or n plus de studiu pe sptmn, crete cu 58% pentru persoanele care vor s aib note mari fa de cele ce nu doresc acest lucru, crete cu 16% pentru persoanele care au avut o funcie de conducere ntr-o structur de voluntariat i scade cu 16% pentru femei fa de brbai.

Figura 35 Aplicarea unei funcii exponeniale (Slovenia)

Valoarea mic obinut pentru p-value indic faptul c acest model este valid statistic. Rezultatele pot fi vizualizate n Figura 36.

Figura 36 Testarea bonitii modelului (Slovenia)

n cazul Turciei, statistica z i probabilitatea asociat indic faptul c niciun coeficient rezultat n urma rulrii modelului de regresie logistic nu este semnificativ statistic. Acest lucru poate fi observat n Figura 37.

Figura 37 Regresie logistic pentru Turcian Figura de mai jos, se pot vizualiza rezultatele aplicrii unei funcii exponeniale. n cazul variabilelor Internship, Voluntariat i Note, aceste valori sunt foarte mici, ceea ce ar arta c nu sunt schimbri foarte mari de la o categorie la alta.

Figura 38 Aplicarea unei funcii exponeniale (Turcia)Testnd bonitatea modelului, se observ c acesta nu este valid n cazul Turciei, cci p-value are o valoare ce indic acceptarea ipotezei nule conform creia modelul nu este valid.

Figura 39 Testarea bonitii modelului (Turcia)Pentru Ungaria, rezultatele rulrii regresiei logistice n R se observ n Figura 40. n cazul acestei ri doar panta are o valoare a coeficientului asociat semnificativ statistic, iar celelalte valori nu sunt semnificative statistic, fapt indicat de valoarea statisticii z i a probabilitii asociate.

Figura 40 Regresie logistic pentru UngariaDac se aplic o funcie exponenial, se observ c ansa de a fi adecvat la locul de munc va crete cu 27% pentru persoanele care au desfurat un stagiu de internship, cu aproximativ 0,4% pentru o or n plus de studiu, cu 24% pentru respondenii nclinai spre a obine note mari, cu aproape 40% pentru cei care au deinut o funcie de conducere ntr-o structur de voluntariat fa de situaia contrar. i va scdea cu aproximativ 5% pentru femei fa de brbai.

Figura 41 Aplicarea unei funcii exponeniale (Ungaria)Testnd semnificaia modelului cu ajutoul testului 2, se observ c testul nu are o semnificaie global valid statistic.

Figura 42 Testarea bonitii modelului (Ungaria)