01. tehnici de explorare a datelor

30
Capitolul 1. Tehnici de explorare a datelor Într-o cercetare a lumii înconjurătoare ne bazăm, de regulă, pe existenţa unui număr de indivizi distincţi ai unei populaţii studiate. În legătură cu aceşti indivizi (obiecte sau cazuri) urmărim una sau mai multe mărimi care, credem noi, îi caracterizează; acestea sunt numite caracteristici. Cercetarea poate fi făcută fie în mod exhaustiv, luând în studiu toată populaţia – ceea ce este foarte costisitor atunci când populaţia este numeroasă – fie prin eşantion alegând, după reguli bine precizate, un grup „reprezentativ” al populaţiei. Cercetătorul în analiza datelor nu este însă interesat de aceste detalii; lui i se oferă „nişte informaţii” prezentate în general sub forma unui tabel (matrice) de date. El are ca sarcină să extragă din acest tabel de date cât mai multă „informaţie semnificativă” – sub formă numerică şi/sau grafică şi s-o prezinte într-o formă cât mai restrânsă – cât mai puţine linii şi coloane. Odată acest deziderat realizat, orice decizie viitoare privind comportamentul populaţiei studiate poate fi explicată prin argumente ştiinţifice. 1.1 Matrice de date – exemple practice În această secţiune ne vom referi la exemplele prezentate în Anexele 1 şi 2 ale materialului. Toate acestea conţin informaţii primare, din diverse domenii economice, prezentate sub forma unei matrice de date. Vom descrie natura informaţiei din aceste exemple şi posibile analize efectuate asupra lor. Exemplul 1. Problema unui dealer de autoturisme Informaţiile de care dispune un dealer de autoturisme sunt prezentate în tabelul 1 din Anexa 1. Acest tabel conţine caracteristicile unor mărci de autoturisme oferite spre vânzare. Tabelul (matrice) are 26 de linii – corespunzătoare mărcilor de autoturisme analizate şi 7 coloane, reprezentând preţul şi alte caracteristici tehnice şi de confort ale autoturismelor. Dealerul doreşte să afle, folosind tabelul de date, ce caracteristici ale maşinilor sunt definitorii în decizia unui client de a cumpăra un autoturism. Există oare în viziunea cumpărătorului clase (grupuri) de autoturisme? Dacă da, care sunt acestea? Exemplul 2. Problema unui investitor Un investitor are informaţii privind principalii indicatori financiar- contabili calculaţi din bilanţurile contabile ale unui lot de firme

Upload: carol-popescu

Post on 19-Nov-2015

239 views

Category:

Documents


1 download

TRANSCRIPT

  • Capitolul 1. Tehnici de explorare a datelor

    ntr-o cercetare a lumii nconjurtoare ne bazm, de regul, pe existena unui numr de indivizi distinci ai unei populaii studiate. n legtur cu aceti indivizi (obiecte sau cazuri) urmrim una sau mai multe mrimi care, credem noi, i caracterizeaz; acestea sunt numite caracteristici. Cercetarea poate fi fcut fie n mod exhaustiv, lund n studiu toat populaia ceea ce este foarte costisitor atunci cnd populaia este numeroas fie prin eantion alegnd, dup reguli bine precizate, un grup reprezentativ al populaiei. Cercettorul n analiza datelor nu este ns interesat de aceste detalii; lui i se ofer nite informaii prezentate n general sub forma unui tabel (matrice) de date. El are ca sarcin s extrag din acest tabel de date ct mai mult informaie semnificativ sub form numeric i/sau grafic i s-o prezinte ntr-o form ct mai restrns ct mai puine linii i coloane. Odat acest deziderat realizat, orice decizie viitoare privind comportamentul populaiei studiate poate fi explicat prin argumente tiinifice.

    1.1 Matrice de date exemple practice n aceast seciune ne vom referi la exemplele prezentate n Anexele

    1 i 2 ale materialului. Toate acestea conin informaii primare, din diverse domenii economice, prezentate sub forma unei matrice de date. Vom descrie natura informaiei din aceste exemple i posibile analize efectuate asupra lor.

    Exemplul 1. Problema unui dealer de autoturisme Informaiile de care dispune un dealer de autoturisme sunt

    prezentate n tabelul 1 din Anexa 1. Acest tabel conine caracteristicile unor mrci de autoturisme oferite spre vnzare. Tabelul (matrice) are 26 de linii corespunztoare mrcilor de autoturisme analizate i 7 coloane, reprezentnd preul i alte caracteristici tehnice i de confort ale autoturismelor. Dealerul dorete s afle, folosind tabelul de date, ce caracteristici ale mainilor sunt definitorii n decizia unui client de a cumpra un autoturism. Exist oare n viziunea cumprtorului clase (grupuri) de autoturisme? Dac da, care sunt acestea?

    Exemplul 2. Problema unui investitor Un investitor are informaii privind principalii indicatori financiar-

    contabili calculai din bilanurile contabile ale unui lot de firme

  • (vezi tabelul 2 din Anexa 1). Acetia pot fi ns foarte numeroi. Investitorul nu ar renuna n analiza lui, fr argumente bine precizate, la nici unul dintre indicatori. Singur, nu are capacitatea de a-i selecta pe cei mai importani, i nici nu poate s ordoneze firmele dup potenialul (bonitatea) lor innd seama de toi indicatorii. Dac, s-ar putea calcula nite scoruri ale firmelor pe seama unor indicatori sintetici dedui din indicatorii iniiali, atunci decizia investitorului nu ar mai fi pur subiectiv, ea ar avea un suport tiinific i probabil c riscul asociat deciziei de a investi ar fi mai mic.

    Exemplul 3. Studiul indicatorilor de calitate a vieii n plin proces de globalizare este important s tim la ce distan

    suntem de alte ri ale Europei sau chiar fa de alte ri ale lumii. Indicatorul sintetic numit calitatea vieii, bine definit de specialiti, ne poate ajuta s rspundem la aceast ntrebare. Putem folosi informaii ca cele din tabelul 3 al Anexei 1 n care sunt prezentate principalele elemente ce stau la baza calculului indicatorului de calitate a vieii pentru un numr de 23 de ri ale lumii. n tabel (matrice) sunt prezentate urmtoarele date (la nivelul anului 1992): sporul natural al populaiei, mortalitatea infantil, gradul de urbanizare, numrul de medici la mia de locuitori, numrul de receptoare de televiziune la mia de locuitori, rata inflaiei, cheltuielile pentru educaie, cele pentru aprare, importul i exportul precum i consumul de energie pe locuitor. Oare toi aceti indicatori au aceeai importan n exprimarea indicatorului sintetic calitatea vieii? Dac nu, se pot identifica doi sau trei indicatori sintetici pe baza crora s putem ordona rile din punctul de vedere al calitii vieii locuitorilor? Care ar fi poziionarea Romniei n aceast clasificare, ce ri ne-ar fi apropiate din acest punct de vedere?

    Exemplul 4. Studiul repartiiei bugetului Dac dispunem de informaii anuale pe o perioad mare de timp

    privind repartiia bugetului unei ri, putem oare identifica momentele strategice importante privind politica rii respective? Ca exemplu tipic vom folosi datele prezentate n tabelul 4 al Anexei 1, tabel (matrice) ce conine repartiia bugetului Franei n perioada 1872-1971. Folosind tehnicile analizei datelor pot fi puse n eviden momentele premergtoare celor dou rzboaie mondiale, care au fost precedate de alocri mai mari din buget spre cheltuielile militare, dar i momentele de acalmie ntre cele dou rzboaie mondiale i dup al doilea rzboi mondial, cnd bugetul a fost repartizat cu predilecie spre activiti de nvmnt i asisten social.

  • Exemplul 5. Analiza rentabilitii unui portofoliu n constituirea unui portofoliu putem s folosim informaii de tipul

    celor coninute n tabelul 5 al Anexei 1. Dispunem de un numr de 13 companii din domeniul ITC, companii

    listate pe S&P 500. Ele apar ca linii n tabelul de date; fiecare linie conine informaii privind evoluia tranzaciilor aciunilor pe piaa de capital n doi ani consecutivi, adic: preul la deschidere, preul la nchidere, preul minim i preul maxim, volumul tranzaciilor, ctigul (n %) etc. (toate ca valori medii ale anului respectiv). Ne mai intereseaz s estimm rentabiliti ale activelor i eventualele riscuri n constituirea unui portofoliu. n acest scop putem apela tehnici de clasificare care s evidenieze factorii lateni care au guvernat tranzacia activelor din portofoliu pe perioada analizat, de asemenea putem clasifica companiile n grupuri ct mai omogene n ceea ce privete evoluia indicatorilor analizai n dinamic, etc.

    Exemplul 6. Analiza riscului returnrii unui credit Tabelul 6 din Anexa 1 conine informaii sub forma unei matrice de

    date. Pe linii sunt clienii unei bnci (selecie din totalul clienilor) ) ce au solicitat credite. Pe coloane avem o serie de elemente privind informaii financiare i demografice pentru fiecare client. n matricea datelor o importan aparte o are coloana nou n care se specific, ntr-o form codificat, dac clientul a avut nainte probleme de rambursare a vreunui credit sau nu. Astfel, din start clienii sunt grupai n dou clase: una a celor cu probleme de rambursare, iar cealalt a celor fr antecedente. Tehnicile de clasificare i analiz a discriminrii ne permit s precizm prin ce combinaii de atribute financiare i demografice pot fi caracterizai clienii din fiecare clas i s facem previziuni asupra comportrii unor clieni noi al bncii privind ncadrarea lor ntr-o clas sau alta.

    Exemplul 7. Informaii dintr-un chestionar Analiza datelor constituie un suport foarte important pentru deciziile

    privind marketingul tiinific. Perceperea unui produs de ctre un segment de cumprtori, gradul de saturare al pieei produsului i decizia de lansare a unui produs nou (sau ntr-o form nou) sunt materializate folosind tehnica chestionarului i analiza datelor. Prezentm n Anexa 2 un asemenea chestionar realizat n scopul identificrii strii actuale privind dotarea populaiei cu aparate audio-video, mrcile de televizoare mai cunoscute i cele preferate la o eventual achiziionare de ctre cumprtori.

  • 1.2 Scri de msurare ale caracteristicilor Putem afirma c toate exemplele date anterior conin informaii ntr-

    un tabel matrice de date (vezi tabelul 1). n general, fiecare linie reprezint un individ (obiect) din mulimea celor studiai, pe coloane regsindu-se caracteristicile urmrite. S presupunem c avem n indivizi asupra crora studiem p caracteristici notate C1, C2, , Cp. Matricea de date o putem scrie ( )

    pjniijxX

    ,...,2,1;,...,2,1 === . n aceast matrice un element

    exprim valoarea caracteristicii j msurat pentru individul i. De exemplu, dac folosim datele din tabelul 1 al Anexei 1, autoturismul Opel Corsa Swing este al 10-lea individ (obiect) n tabelul de date, iar elementul

    13050 reprezint caracteristica pre (n $) a mainii respective.

    ijx

    =1,10xDatele din tabelul 1 al Anexei 1 sunt, prin urmare, un exemplu de

    matrice (tabel) de forma indivizi caracteristici.

    Tabelul 1. Forma general a matricei indivizi caracteristici Caracteristicile

    C1 C2 Cj Cp 1 x11 x12 x1j x1p 2 x21 x22 x2j x2p i xi1 xi2 xij xip

    Ind

    iviz

    ii

    n xn1 xn2 xnj xnp

    Precizarea scrilor de msurare ale caracteristicilor observate, pe grupul de indivizi, este esenial n identificarea tehnicii de modelare i analiz. Fiecrei caracteristici i se asociaz o scar de msurare conform cu natura informaiei coninute i cu modul n care o percepem. Dup precizarea scrii de msurare, caracteristica respectiv va fi reprezentat printr-o aa numit variabil. Explornd tabelele de date prezentate n exemplele anterioare putem afirma c exist o mare diversitate n a exprima ansamblul indivizi caracteristici. n exemplul 1 avem ca indivizi tipurile de autoturisme, iar caracteristicile sunt preul, viteza, consumul de carburant etc. Remarcm faptul c aceste caracteristici sunt transformate n variabile prin exprimarea n uniti clasice de msur: monetare, kilometri la or, litri la suta de kilometri etc. n exemplul 2 indicatorii de bonitate calculai pentru firme sunt rate, adic rapoarte ale diverselor mrimi din documentele contabile. Aceste mrimi indicatorii devin variabile numerice

  • cantitative; evident, ncadrarea valorilor fiecrui indicator ntr-un anumit interval este foarte important. Bineneles, exemplele pot continua.

    n general, variabilele pot fi clasificate n: variabile continue (cantitative) i variabile categoriale (calitative).

    A) Variabilele continue provin din caracteristici ce exprim atribute cantitative ale indivizilor. Scara lor de msur este continu, putnd acoperi n general un interval de valori. De exemplu, preul unui autoturism sau unui activ financiar este o variabil continu; de obicei ia valori numerice (exprimate n lei, euro etc.) cuprinse ntre un minim i un maxim. Cu aceste valori se pot efectua cele patru operaii aritmetice clasice, iar indicatorii statistici relevani, calculai pe baza valorilor observate, sunt media i abaterea medie ptratic. i variabilele ale cror valori sunt exprimate n procente sau n rate (vezi aplicaia 2) sunt variabile continue.

    B) Variabilele categoriale provin din caracteristici care exprim atribute calitative. Aceste variabile au dou sau mai multe nivele de valori, nivele numite modaliti sau categorii. Exist o subclasificare a lor n trei grupe, astfel:

    B1) Variabilele nominale au de obicei mai mult de dou nivele. De exemplu, caracteristica Nivelul educaiei din Exemplul 6 al Anexei 1, este o variabil nominal avnd modalitile:

    Fr liceu codificat prin 1 Doar cu liceu codificat prin 2 Facultate neterminat codificat prin 3 Liceniat codificat prin 4 Postuniversitare codificat prin 5

    B2) Variabilele binare au doar dou valori-nivele. n Exemplul 6 din Anexa 1 variabila Probleme anterioare de rambursare are dou nivele (modaliti):

    Nu codificat prin 0 Da codificat prin 1.

    B3) Variabilele ordinale sunt variabile ale cror nivele, de obicei mai mult de dou, pot fi comparate ntre ele. n general, n situaiile ntlnite n cercetarea de marketing, la aceste variabile respondentul unui chestionar alege un rspuns din cteva rspunsuri posibile, ordonate calitativ; el i exprim astfel, n mod preferenial, opinia sa despre un anumit atribut.

  • Putem da ca exemplu de variabil ordinal rspunsul la o ntrebare din chestionarul din Anexa 2, i anume la ntrebarea:

    n alegerea unei anumite mrci de aparat, n ce msur v influeneaz reclama? M influeneaz

    foarte mult mult potrivit puin deloc 1 2 3 4 5 Se observ c acestor rspunsuri de natur calitativ li se asociaz cte

    un cod numeric (1, 2 .a.m.d.).

    1.3 Explorarea variabilelor continue n exemplele prezentate n 1.2 apar o serie de caracteristici ale unor

    grupuri de indivizi crora li se asociaz scri de msurare continue. O asemenea scar acoper, de regul, un interval de valori. Putem vorbi n acest sens de preul (n lei sau valut) al unor autoturisme, de preul n dinamic al unui activ financiar tranzacionat pe piaa de capital dar i de ratele financiare asociate n analiza bonitii unor firme sau de diverse valori procentuale. n exemplele prezentate informaiile apar ca matrice de date de forma indivizi caracteristici iar prelucrarea lor primar se realizeaz, de regul, n dou etape i anume:

    A) prelucrarea independent a cte unei variabile; B) prelucrarea comun a dou sau mai multe variabile. S analizm, pe rnd, cele dou etape.

    A) Prelucrarea independent a cte unei variabile presupune selectarea, din matricea de date ( )

    pjniijxX

    ,...,2,1;,...,2,1 === , a cte unei

    coloane ce reprezint valori observate asupra unei variabile de tip continuu. Pentru simplificare, s notm elementele matricei corespunztoare acestei variabile selectate cu . Secvena aleas reprezint valori observate asupra celor n indivizi din analiza noastr. Primele informaii statistice legate de valorile se refer la evaluri ale tendinei centrale; acestea sunt:

    T21 ),...,,( nxxx

    nxxx ,...,, 21

    a) Media, notat , se calculeaz cu formula xm =

    n

    iixn

    1

    1 , ea fiind un

    indicator important al tendinei centrale.

  • b) Mediana este asociat secvenei ce reprezint valorile ordonate cresctor. Ea este acea valoare (nu neaprat dintre valorile ) pentru care numrul valorilor din secvena care-i sunt mai mici este acelai cu numrul valorilor care-i sunt mai mari.

    )()2()1( ,...,, nxxx

    nxxx ,...,, 21nxxx ,...,, 21

    )()2()1( ,...,, nxxx

    c) Modul este acea valoare cu frecvena cea mai mare de apariie. (El nu este n mod necesar unic.)

    Figura 1. Evaluri ale tendinei centrale

    modul

    mediamediana

    media

    modul

    mediana

    a) Repartiie asimetric (right skewed) b) Repartiie asimetric (left skewed)

    modul=mediana=media

    c) Repartiie simetric

    Pentru a evalua mprtierea datelor se folosesc urmtorii indicatori:

    a) Variana (dispersia), notat , este calculat cu formula 2xs

    =

    n

    ixi mxn

    1

    2)(1

    1 . (1)

    b) Abaterea standard, notat , este calculat cu formula xs

    =

    n

    ixi mxn

    1

    2)(1

    1 . (2)

  • c) Amplitudinea este calculat ca diferen ntre valoarea maxim i valoarea minim a valorilor . nxxx ,...,, 21Este important ca, pentru diverse tipuri de distribuii ale frecvenelor

    valorilor , s punem n eviden relaii de ordine ntre cei trei indicatori ai tendinei centrale. Prezentm n figura 1 cele trei situaii posibile. Astfel, n figura 1 c) prezentm o repartiie simetric pentru care cei trei indicatori ai tendinei centrale coincid. n figura 1 a) i 1 b) avem repartiii asimetrice, prima fiind skewed dreapta iar cea de-a doua fiind skewed stnga. Relaiile de ordine ntre cele trei valori pentru mod, median i medie sunt evideniate clar n graficele menionate.

    nxxx ,...,, 21

    Exemplu: Fie secvena de ase numere 2, 5, 0, 9, 0, 7 reprezentnd observaii asupra a ase indivizi. Secvena ordonat cresctor o obinem imediat, ea este 0, 0, 2, 5, 7, 9. Valorile ce msoar tendina central sunt: media = 3.83, mediana se afl ntre valorile 2 i 5, prin interpolare putem lua valoarea 3.5. Se observ faptul c mediana separ secvena de valori ordonate n jumtate, 50% dintre valori fiind mai mici dect ea i 50% dintre valori fiind mai mari dect ea. Modul valorilor 2, 5, 0, 9, 0, 7 adic valoarea cu frecvena cea mai mare este 0 (aici frecvena maxim este 2).

    Media, mediana i modul sunt trei indicatori ai localizrii centrului valorilor dintr-o secven de date. n analiza repartiiei valorilor observate, la fel de importante sunt i alte msuri ale localizrii datelor. Acestea sunt cunoscute sub numele de percentile i cuartile, i sunt asociate secvenei de valori . )()2()1( ,...,, nxxx

    1) Percentila de ordinul p este acea valoare, notat aici , care are proprietatea c p% dintre valorile secvenei sunt mai mici dect ea i (100 p)% dintre valori sunt mai mari dect ea.

    pP

    2) Cuartila inferioar, notat , este percentila 25. 1Q

    3) Cuartila de mijloc, notat , este percentila 50. Se observ faptul c cuartila este tocmai mediana.

    2Q

    2Q4) Cuartila superioar, notat este percentila 75. 3Q

    Cuartilele se folosesc pentru a analiza dispersia valorilor secvenei calculndu-se cu ajutorul lor aa-numitul indicator inter-

    quartile (notat IQR). El este calculat ca diferena dintre percentila 75 ( ) i percentila 25 ( ). n cazul unei repartiii normale a datelor acest interval trebuie s fie aproximativ 1.35 din abaterea standard a datelor.

    nxxx ,...,, 213Q

    1Q

  • Tratarea punctelor aberante. Uneori, n secvena de valori este semnalat prezena unor valori outliers (aberante ca

    mrime n raport cu celelalte). n aceste situaii unii indicatori de localizare central sunt mult denaturai (deplasai) i este indicat s calculm aa numitele medii robuste. Acestea ncearc s elimine efectul valorilor aberante (fr a afecta rezultatele). Dintre mediile robuste amintim:

    nxxx ,...,, 21

    1) Media winsorizat 95%, n calculul creia primele 2.5% dintre valorile ordonate sunt nlocuite cu percentila 2.5 i ultimele 2.5% dintre valori sunt nlocuite cu percentila 97.5.

    2) Media trunchiat 95%, trimmed mean, este calculat excluznd primele 2.5% i ultimele 2.5% dintre valorile secvenei ordonate. Tehnicile grafice sunt foarte relevante i n cazul variabilelor

    continue. Putem reprezenta datele sub form de histograme, box plot-uri (vezi figura 3), high-low plot-uri.

    Exemplu. S considerm variabila Preul la deschidere (coloana corespunztoare anului 2000 din Exemplul 5, Anexa 1). Aceasta este o variabil continu, valorile ei exprimnd preul la deschiderea bursei pentru aciunile celor 13 companii (sunt valori medii anuale). Pentru a face o apreciere general asupra evoluiei unui portofoliu compus din aceste aciuni, ne intereseaz indicatorii de centrare i de mprtiere ai variabilei pre. Prezentm n tabelul 2 valorile indicatorilor prezentai mai sus, outputul fiind de tip SPSS.

    Tabelul 2. Preul la deschidere indicatori statistici

    N Valid 13 Mean 60.63 Median 50.16 Mode 14.93 Percentiles 25 38.43 50 50.16 75 92.68

    a) Media, mediana, modul i cuartilele

    N Minimum Maximum Mean Std. Dev. Variance Open 2000 13 14.93 109.14 60.6344 30.4471 927.026 Valid N (listwise) 13

    b) Valoarea minim, maxim, media, abaterea medie ptratic i variana

  • Evident, ne-ar interesa i repartiia valorilor de pre, prezentat sub form de histogram, evideniind frecvena pe subintervale date. Lund subintervale constante (de mrime de exemplu 20), prezentm n figura 2 o histogram a frecvenelor valorilor variabilei Preul la deschidere.

    Se observ c cele mai multe dintre valorile preului au fost ntre 40 i 60 iar n subintervalul 60 80 nu avem nici o valoare de pre.

    Figura 2. Preul la deschidere histograma frecvenelor

    B) Prelucrarea a dou variabile continue presupune selectarea, din matricea de date ( )

    pjniijxX

    ,...,2,1;,...,2,1 === , a cte dou coloane ce

    reprezint valori observate asupra celor dou variabile. S notm aceste variabile cu x i y iar valorile observate asupra lor cu i

    respectiv. ),...,,( 21 nxxx

    ),...,,( 21 nyyy1) Pentru a studia corelaia (legtura liniar) ntre aceste dou

    variabile considerm cele n perechi de valori cu ajutorul crora calculm aa-numitul coeficient de corelaie Pearson. Acesta se calculeaz cu formula:

    niii yx ,...,2,1),( =

    yx

    yxyx ss

    sr ,, = (3)

    n care i sunt abaterile standard iar este covariana dintre valorile x i valorile y calculat cu formula:

    xs ys yxs ,

    ))((1

    1, yixiyx mymxn

    s

    = (4)

  • Valorile coeficientului de corelaie sunt cuprinse n intervalul [1, 1].

    Cele n perechi de valori pot fi reprezentate prin puncte ntr-un plan. Atunci cnd avem impresia c punctele au tendina de a se alinia unei drepte, ne exprimm spunnd c exist o corelaie liniar ntre variabilele x i y. Dac valorile lui y au acelai sens de cretere cu valorile lui x, se spune c avem o corelaie pozitiv. Dimpotriv, dac valorile lui y descresc atunci cnd valorile lui x cresc, se vorbete despre o corelaie negativ.

    ),( ii yx

    2000 2001

    year

    0.00

    20.00

    40.00

    60.00

    80.00

    100.00

    120.00

    IBM

    Figura 3. Preul la deschidere (box-plot)

    Coeficientul Pearson este folosit pentru a msura gradul de corelare ntre variabilele x i y; anume, lipsa corelrii este indicat de valori apropiate de 0, corelarea pozitiv este indicat printr-o valoare a coeficientului apropiat de 1, n timp ce corelarea negativ este indicat printr-o valoare a coeficientului apropiat de 1.

    2) Pentru compararea comportamentului comun al celor dou variabile, pe baza percentilelor (calculate pentru fiecare variabil), se folosete graficul de tip box-plot i graficul de tip Q-Q plot. Pe graficul box-plot se marcheaz, de regul, valorile minim, maxim i mediana alturi

  • de cuantilele Q1 i Q3 pentru secvenele de valori i .

    ),...,,( 21 nxxx),...,,( 21 nyyy

    Pe graficul Q-Q plot se prezint n plan perechile de valori coninnd percentile calculate pentru cele dou variabile. O aliniere a acestora aproximativ pe o dreapt nseamn c repartiiile celor dou variabile sunt asemntoare.

    0 20 40 60 80 100

    Observed Value120

    0

    20

    40

    60

    80

    100

    120

    Expe

    cted

    Nor

    mal

    Val

    ue

    Normal Q-Q Plot of O pen 2000

    Figura 4. Preul la deschidere (Q-Q plot)

    Observaie. Graficul Q-Q plot poate fi folosit i pentru a verifica faptul c o secven de valori, de exemplu ( , urmeaz sau nu o repartiie normal. n aceste situaii se analizeaz perechile de valori constnd din percentilele variabilei normale i percentilele secvenei

    .

    ),...,, xxx

    ),...,,( xxx

    21 n

    )()2()1( n

    Exemplu. Putem continua analiza grafic din exemplul anterior prezentnd sub form de box-plot (pentru cei doi ani 2000 i 2001) evoluia n ansamblu a principalilor indicatori de centrare i mprtiere. Prezentm n figura 3 un asemenea box-plot n care au fost evideniate minimul, maximul, percentilele de 25, 50 (mediana) i 75 pentru valorile preurilor n

  • cei doi ani consecutivi. O analiz important asupra valorilor preurilor este i cea dat de graficul Q-Q plot (vezi figura 4); acesta permite compararea valorilor observate pentru anul 2000 cu cele care ar rezulta dintr-o repartiie (teoretic) normal.

    n analiz putem folosi funcia grafic high-low plot (vezi figura 5 i apoi figura 6).

    AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS

    Trading symbol

    0.00

    20.00

    40.00

    60.00

    80.00

    100.00

    120.00Mean

    Low 2000 -High 2000Low 2001 -High 2001

    Figura 5. Evoluia preului minim i maxim (n anii 2000 i 2001), pe companii

    Prelucrarea a mai mult de dou variabile continue presupune analizarea simultan a tuturor coloanelor din matricea de date

    ( )pjniij

    xX,...,2,1;,...,2,1 ==

    = . Asociem n acest fel matricei X (de dimensiune

    n p) o alt matrice, notat de obicei cu R, de dimensiune p p, ce conine coeficienii de corelaie liniar Pearson, calculai ntre toate perechile de variabile. Avem, prin urmare, matricea R de forma:

    =

    1...rr............r...1rr...r1

    R

    2p1p

    p221

    p112

    (5)

  • cu toate elementele de pe diagonala principal egale cu unu ( pentru ) i pentru

    1=iirpi ,...,2,1= jiij rr = pi ,...,2,1= i pj ,...,2,1= .

    AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS

    Trading symbol

    -2.00

    -1.50

    -1.00

    -0.50

    0.00

    0.50

    1.00Mean

    Fund avg % gain 2000 -zeroFund avg % gain 2001 -zero

    Figura 6. Rentabilitile companiilor n anii 2000 i 2001

    Se urmrete n principal identificarea perechilor de variabile ce corespund coloanelor din matricea X pentru care, n matricea R a corelaiilor, coeficienii

    ji xx ,jiij rr = sunt mari (adic peste 0.8 n valoare

    absolut). S facem observaia c, n cazul apariiei unei valori mai mari de

    0.95 n valoare absolut, corelaia foarte puternic constatat ntre variabilele respective ne permite s eliminm din studiu una dintre ele (ea fiind reprezentat foarte bine de cealalt).

    ijr

  • 1.4 Explorarea variabilelor categoriale

    n prelucrarea variabilelor categoriale aflate ntr-o matrice de date de forma indivizi caracteristici distingem de asemenea dou etape, i anume:

    A) Analiza, pe rnd, a cte unei variabile categoriale; B) Analiza comportamentului comun a dou sau mai multe variabile

    categoriale.

    A) Aa cum am mai menionat, o variabil categorial este descris prin modaliti (nivele de valori). S notm cu k numrul acestor modaliti i s presupunem c dispunem de n observaii asupra variabilei analizate.

    Primele informaii obinute despre variabila categorial sunt date de frecvenele pe modaliti i apoi de frecvenele relative observate. Sintetic,

    dac notm cu frecvena observat i cu in nni frecvena relativ pe

    modalitatea i (evident, ), putem construi un tabel ca cel de mai jos. ki 1

    Modalitatea 1 2 i k Total (valori observate) Frecvena absolut 1

    n 2n in kn n

    Frecvena relativ (proporia) n

    n1 n

    n2 nni

    nnk 1

    Exemplul 1. O firm dorete s estimeze cota de pia a produsului su. S presupunem c piaa este concurenial existnd 6 competitori (firme) care comercializeaz produsul respectiv. Departamentul de cercetare n marketing al firmei efectueaz un studiu pe baza de chestionar pe un eantion reprezentativ de n consumatori (alei independent unul de cellalt) crora li se cere s-i exprime preferina unic fa de cele 6 firme.

    Identificm n experimentul nostru o variabil categorial cu 6 modaliti numrul firmelor. Dac dispunem de observaii pe un eantion de volum n = 120, rezultatul experimentului poate fi cel din tabelul urmtor:

    Firma 1 2 3 4 5 6 Total Valori observate (preferine) 16 22 15 23 24 20 120

  • Grafic, informaia privind rspunsul consumatorilor, adic profilul dat de linia frecvenelor, este important pentru cercettorul n marketing (vezi figura 7).

    0

    5

    10

    15

    20

    25

    30

    1 2 3 4 5 6

    Figura 7. Histograma preferinelor cumprtorilor

    Analiznd graficul din figura 7 i cunoscnd rezultatele unor cercetri anterioare privind cotele de pia, pe alte eantioane, cercettorul de marketing se poate ntreba dac preferinele consumatorilor sunt sau nu egal repartizate spre cele 6 firme. Oare diferenele ntre frecvenele observate pentru modaliti sunt semnificative statistic? n general, considernd ntreaga populaie de consumatori, s notm cu probabilitatea ca s fie selectat firma i (pentru 1

    ip6 i

    6). Evident,

    i putem s considerm perechea de ipoteze: 11

    = ipH0 : 6

    1621 ... ==== ppp (adic preferinele sunt echiprobabile)

    H1 : cel puin o probabilitate are o valoare ce difer de ip 61 .

    Ce argumente avem pentru a accepta sau a respinge ipoteza H0 ?

    n cele ce urmeaz vom ncerca s rspundem la aceast ntrebare, prezentnd un test hi-ptrat de verificare a bonitii ajustrii.

  • 1.4.1 Test de bonitate a ajustrii

    S considerm o variabil categorial cu k modaliti. Teoretic, o putem considera variabil aleatoare discret, dat de tabelul de forma

    n care .

    kppp ...21

    k...21 k1

    1

    = ipPractic, putem face orice ipoteze legate de valorile probabilitilor

    . Sunt ns aceste ipoteze susinute de realitate? Folosind eantioane reprezentative, pe baza frecvenelor relative care estimeaz probabilitile sau folosind un test de bonitate a ajustrii putem accepta sau respinge ipotezele fcute. Pentru a avea un suport statistic al deciziei, trebuie ca experimentul realizat n scopul obinerii informaiilor despre variabil s fie un experiment multinomial, adic:

    kpp ,...,1

    1) Cele n observaii din eantion s fie independente. 2) Rezultatul fiecrei observaii s fie clasificat doar ntr-unul dintre

    cele k nivele posibile. (Fiecare nivel este numit celul.)

    Dac frecvenele observate n cele k nivele sunt , atunci evident avem

    knnn ,...,, 21nnnn k =+++ ...21 .

    Atunci cnd efectum un test de bonitate a ajustrii, bazat pe un experiment multinomial, asociem nivelelor (celulelor) aa-numitele frecvene ateptate. Dac ele sunt notate cu , atunci formula de calcul este

    keee ,..,, 21ii pne = unde ip este valoarea precizat a probabilitii .

    (Avem

    ip

    ki 1 i 11

    =k

    ip ). Evident, suma frecvenelor ateptate va fi

    egal cu n, adic neee k =+++ ...21 . Tabelul asociat experimentului multinomial este urmtorul.

    Nivelul (celula) 1 2 i k Total Valori observate 1n 2n in kn n Valori ateptate 1e 2e ie ke n

    Observaie. Pentru 2=k experimentul este de tip binomial, avem doar dou nivele, cu probabilitile asociate p i respectiv p1 .

  • n general, ntr-un experiment multinomial valorile observate difer de cele ateptate i trebuie s decidem cnd diferenele sunt semnificative i cnd nu. Putem folosi urmtoarea formul, ce d o msur a abaterii ntre valorile observate i cele ateptate

    in

    ie

    =i i

    iie

    enX2

    2 )( . (6)

    Evident, n caz c 0 , rezult c n fiecare celul valorile i coincid i, n consecin, exist identitate deplin ntre cele dou serii de

    valori (adic ntre cele observate i cele ateptate) iar ipoteza fcut asupra valorilor probabilitilor este adevrat. Aceast situaie este ns

    foarte rar, de regul 0 . Pentru a discerne (ntre abateri mici i mari), ne folosim de faptul c, ntr-un experiment multinomial, valorile urmeaz la limit o repartiie de tip cu

    2 =X inie

    kpp ,...,12 >X

    2X2 1k grade de libertate. Aceast

    afirmaie este susinut de urmtoarea

    Teorem. Presupunem c ) este un vector aleator repartizat multinomial cu parametrii n, . Atunci cnd n tinde spre infinit, repartiia la limit a statisticii

    ,...,,( 21 kXXX

    kppp ,...,, 21

    =

    =

    k

    i i

    iinp

    npXnV

    1

    2)()(

    este o variabil aleatoare cu 2 1k grade de libertate.

    Testul statistic clasic este bazat prin urmare pe o distan , iar etapele sunt urmtoarele:

    2

    1) Se formuleaz cele dou ipoteze statistice (ipoteza nul H0 i ipoteza alternativ H1).

    H0 : kk pppppp === ,...,, 2211 (adic probabilitile au valorile precizate kppp ,...,, 21 )

    H1 : cel puin o probabilitate are o valoare ce difer de valoarea specificat

    ip

    ip pentru ea n ipoteza nul.

  • 2) Se fixeaz un nivel al erorii respingerii ipotezei nule atunci cnd ea este de fapt adevrat, fie acesta = 0.05, i se identific n tabelele statistice cuantila a repartiiei cu 2

    2 1k grade de libertate.

    3) Se calculeaz valoarea a abaterilor, adic: 2X

    =

    =

    k

    i i

    iinp

    npnX

    1

    22 )( . (7)

    4) Valoarea se compar cu . 2X 2

    Regula de decizie este urmtoarea:

    Dac acceptm ipoteza nul; dimpotriv, dac nu avem motive s-o acceptm (vezi i figura 8).

    22X

    Figura 8. Ilustrarea regulii de decizie pentru testul de

    bonitate a ajustrii

    Revenind la studierea cotei de pia pe un eantion de 120 de respondeni precum i la ansamblul de ipoteze

    H0 : 61

    621 ... ==== ppp (adic preferinele sunt echiprobabile)

    H1 : cel puin o probabilitate are o valoare ce difer de ip 61 ,

    tabelul obinut este urmtorul.

  • Firma 1 2 3 4 5 6 Total Valori observate (preferine) in

    16 22 15 23 24 20 120

    Valori ateptate ie 20 20 20 20 20 20 120 Prin aplicarea testului hi-ptrat de bonitate a ajustrii obinem

    valoarea statisticii . Pentru un nivel de eroare acceptat de 5%, cuantila corespunztoare repartiiei cu 5 grade de libertate este

    . Cum , suntem n zona de neacceptare a ipotezei H0, prin urmare, pe baza experimentului respingem ipoteza conform creia toate firmele au aceeai cot de pia.

    5.32 =X2

    145.12 =22>X

    B) S considerm acum matricea de date de forma indivizi caracteristici n care avem informaii despre variabile categoriale. Cnd dorim s analizm comportamentul comun a cte dou asemenea variabile, construim aa-numitele tabele de contingen (tabele cu dubl, tripl intrare).

    Mai concret, s presupunem c analizm comportamentul comun a dou variabile categoriale notate X1 i X2, variabila X1 avnd r modaliti iar variabila X2 avnd c modaliti. Asupra acestei perechi de variabile se fac n observaii de tip multinomial adic observaiile sunt independente una de alt iar rspunsurile se ncadreaz unic pe celule. Un tabel de contingen asociat va conine o matrice cu r linii i respectiv c coloane, fiecare celul a matricei coninnd frecvena absolut pentru celula respectiv. De exemplu, celula (i, j) va conine numrul de observaii pentru care variabila X1 are modalitatea i iar variabila X2 are modalitatea j.

    Prin urmare, pentru variabilele selectate dispunem de n observaii ce se distribuie n celulele tabelului cuantificnd n acest mod frecvenele n celule; s le notm cu (

    ijn ri ,...,2,1= i cj ,...,2,1= ).

    Tabelul de contingen se obine prin bordarea matricei cu o coloan ce conine totalurile pe linii i cu o linie ce conine totalurile pe coloane

    calculate astfel: jn

    in

    =

    =c

    jiji nn

    1

    i =

    =r

    iijj nn

    1

    pentru ( i ). ri ,...,2,1= cj ,...,2,1=

  • n tabel mai introducem celula totalului general ce conine

    (vezi i tabelul 3). nnnr

    i

    c

    jij ==

    = =

    1 1

    Tabelul 3. Tabel de contingen

    Modaliti X1\X2

    1 2 j c Total pe linii 1

    11n

    12n

    jn

    1 cn1 1n

    2 21

    n 22

    n j

    n2

    cn 2 2n

    i

    1in

    2in

    ijn icn in

    r

    1rn

    2rn

    rjn rcn rn

    Total coloane 1

    n 2

    n j

    n

    cn n

    Pentru exemplificare, s revenim la Exemplul 1 privind analiza cotei de pia pentru produsul firmei. n chestionarul lansat, respondenii s-au identificat i prin categoria de vrst i categoria socio-profesional (repartiia n celule fiind cea din tabelul urmtor).

    Categoria de vrst Variabila 2 Modaliti

    X1\X2 1 2 3 4 5 Total

    1 1 5 4 2 3 15 2 1 7 12 3 3 26 3 2 4 4 2 4 16 4 1 2 2 3 2 10 5 2 1 2 8 1 14 6 4 2 3 3 2 14 7 2 1 9 10 3 25

    Cat

    egor

    ia so

    cio-

    prof

    esio

    nal

    V

    aria

    bila

    1

    Total 13 22 36 31 18 120

    Exemplul 2. S revenim la Exemplul 6 din Anexa 1, ce se refer la analiza riscului returnrii unui credit. Printre variabilele financiare i demografice ce caracterizeaz clienii selectm dou variabile care sunt categoriale, i anume Nivelul educaiei (cu 5 modaliti) i Probleme

  • anterioare cu rambursarea ? (cu 2 modaliti). Tabelul urmtor conine pe linii modalitile variabilei Nivelul educaiei i pe coloane modalitile variabilei Probleme anterioare cu rambursarea?. Celulele tabelului conin frecvenele absolute pe modaliti.

    Probleme anterioare

    de rambursare Total linie Valori observate Nu Da

    Fr liceu 293 79 372 Doar cu liceu 139 59 198 Facultate neterminat 57 30 87

    Facultate 24 14 38

    Nivelul educaiei Postuniversitare 4 1 5 Total coloane 517 183 700

    n analiza riscului returnrii unui credit ar fi interesant s identificm toi factorii de risc mpreun cu gradul lor de implicare. n acest context, dorim s vedem n ce msur antecedentele privind rambursarea unui credit depind sau nu de nivelul educaiei. Vom folosi datele din tabelul de contingen aplicnd un test de verificare a independenei statistice a celor dou variabile Nivelul educaiei i Probleme anterioare cu rambursarea?

    1.4.2 Test de independen S considerm cele dou variabile categoriale X1 i X2 prima avnd r

    modaliti iar cea de a doua avnd c modaliti. Putem considera vectorul aleatoriu discret (X1, X2) descris prin urmtorul tabel:

    Modaliti X1\X2 1 2 j c

    Probabiliti marginale

    1 11p 12p jp1 cp1 1p

    2 21p 22p jp2 cp2 2p

    i 1ip 2ip ijp icp ip

    r 1rp 2rp rjp rcp rp

    Probabiliti marginale 1p 2p

    jp cp

  • Am folosit urmtoarele notaii relativ la populaia studiat: 1) este probabilitatea ca un individ ales la ntmplare s aparin

    celulei (i, j). Evident avem ; ij

    p

    = =

    =r

    1i

    c

    1j1p

    ij

    2) este probabilitatea ca un individ ales la ntmplare s aparin

    liniei i; avem ; ip

    =

    =c

    1jiji pp

    3) este probabilitatea ca un individ ales la ntmplare s aparin

    coloanei j; avem

    jp

    =

    =r

    1iijj pp

    Putem formula urmtoarele ipoteze statistice, i anume: ipoteza de independen (statistic) a celor dou variabile are forma:

    H0 : pentru orice jiij ppp = ri ,...,2,1= i cj ,...,2,1=

    iar ipoteza alternativ o putem exprima astfel: H1 : pentru cel puin o celul (i, j). jiij ppp

    S presupunem acum c efectum un experiment multinomial de volum n i dispunem de informaiile din tabelul de contingen. Putem s calculm expresia

    = =

    =

    r

    1i

    c

    1j ij

    2ijij

    np)npn(

    V

    care, atunci cnd ipoteza nul este adevrat, se scrie

    = =

    =r

    1i

    c

    1j ji

    2jiij

    pnp)pnpn(

    V

    Vom folosi, pentru probabilitile i respectiv estimaiile (de verosimilitate maxim)

    ip jp

    nn

    p ii

    = i nn

    p jj

    =

    caz n care putem estima valoarea V prin statistica:

    = =

    =r

    1i

    c

    1j ji

    2jiij2

    n/nn)n/nnn(

    X (8)

  • Valoarea , atunci cnd n tinde la infinit, este repartizat cu grade de libertate.

    2X 2)1)(1( cr

    Observaie: Pentru fiecare celul (i, j) putem identifica valoarea ateptat atunci cnd ipoteza nul este adevrat. Astfel, dac H0 este

    adevrat, valoarea n

    ji nn

    ,...,2,1

    este valoarea ateptat pentru celula (i, j).

    Figura 9. Ilustrarea regulii de decizie pentru testul de independen

    Testul statistic clasic pentru verificarea independenei statistice a dou variabile, test bazat pe repartiia hi-ptrat, presupune:

    1) Formularea celor dou ipoteze statistice (ipoteza nul H0 i ipoteza alternativ H1), adic.

    H0 : pentru orice ijiij ppp = r= i cj ,...,2,1= iar ipoteza alternativ o putem exprima astfel:

    H1 : pentru cel puin o celul (i, j). jiij ppp

    2) Fixarea unui nivel al erorii respingerii ipotezei nule atunci cnd ea este de fapt adevrat, fie acesta = 0.05; identificarea n tabelele statistice a cuantilei repartiiei cu 21

    2 1k grade de libertate.

  • 3) Calcularea valorii a abaterilor, adic: 2X

    = =

    =r

    i

    c

    j ji

    jiij

    nnnnnnn

    X1 1

    22

    /)/(

    .

    4) Valoarea se compar cu . 2X 21

    Regula de decizie este urmtoarea:

    Dac atunci respingem ipoteza nul, dimpotriv dac

    atunci acceptm ipoteza nul (vezi i figura 9).

    21

    2>X

    21

    2

  • Suntem n situaia (11.49 > 9.49) adic respingem ipoteza nul i acceptm alternativa, concluzionnd c:

    21

    2>X

    a) variabila Probleme anterioare la rambursare? depinde statistic de variabila Nivelul educaiei i

    b) valorile variabilei Nivelul educaiei influeneaz valorile variabilei Probleme anterioare la rambursare?

    1.5 Explorarea variabilelor ordinale Variabilele categoriale de tip ordinal pot fi analizate numeric i

    grafic ca i cele de tipul categorii nominal sau binar. Totui, asupra lor se pot aplica i alte analize. Parte din ele le vom prezenta n cele ce urmeaz.

    Relaii de preordine i de ordine S presupunem c n dorina de a ordona indicatorii financiar-

    contabili I1 - I7 urmtori (vezi i datele din Anexa 1)

    I1: Total datorii/capital social; I2: Cifr de afaceri/total activ; I3: Profit brut/total activ; I4: Capital social/cifr de afaceri; I5: Datorii/total activ; I6: log(Activ); I7: Rata de cretere a activului.

    se folosete un grup de experi n domeniu. Un expert l oarecare din acest grup, prin preferinele sale (evident subiective dar bazate pe experiena sa) va determina o relaie de preordine POl n clasificarea indicatorilor, de exemplu urmtoarea:

    POl : I1 > I2 = I3 > I4 = I5 > I6 > I7 (ceea ce nseamn c expertul l prefer indicatorul I1 indicatorului I2 care este la fel apreciat ca i I3, care este preferat lui I4 etc.).

    Relaia stabilit pentru indicatorii financiar-contabili, prin preferinele expertului l, este o relaie de preordine deoarece oricare doi indicatori i i j se pot afla, n preferina expertului, doar n urmtoarele situaii: sau i este preferat lui j, sau j este preferat lui i, sau i este preferat la fel ca i j.

  • Aceste preferine pot fi exprimate completnd o matrice U ale crei elemente sunt: Uij = 1 i Uji = 0 dac indicatorul i este preferat lui j i Uij = Uji = dac i i j sunt apreciai la fel (vezi tabelul 4).

    Tabelul 4. Scoruri medii i ranguri

    I1 I2 I3 I4 I5 I6 I7 Scor mediu u(i) Rang mediu

    r(i) I1 1 1 1 1 1 1 6 1 I2 0 1 1 1 1 4,5 2,5 I3 0 1 1 1 1 4,5 2,5 I4 0 0 0 1 1 2,5 4,5 I5 0 0 0 1 1 2,5 4,5 I6 0 0 0 0 0 1 1 6 I7 0 0 0 0 0 0 0 7

    Aadar, pentru fiecare expert putem s construim o matrice a preferinelor. Pe baza preferinelor expertului se poate calcula un scor mediu i apoi un rang mediu pentru indicatorul respectiv, astfel:

    scorul mediu al indicatorului i este =j

    ijUiu )( iar rangul mediu asociat

    este )()( iukir = . (Aici k este numrul de indicatori analizai, n exemplul nostru k = 7. Se observ c un rang mic indic o bun apreciere!)

    O relaie de ordine total ntre indicatorii analizai se obine atunci cnd expertul alege doar una dintre situaiile: indicatorul i este preferat indicatorului j sau indicatorul j este preferat indicatorului j. Similar situaiei anterioare, putem asocia o matrice U ale crei elemente sunt Uij = 1 i Uji = 0 dac indicatorul i este preferat lui j. Analog, se calculeaz un scor mediu i apoi un rang mediu pentru fiecare indicator.

    Dac dorim s msurm corelarea a dou variabile ordinale pentru care observaiile sunt ranguri, vom calcula aa-numitul coeficient de corelaie Spearman:

    = 22 )1(11 id

    nnro (9)

    unde este diferena rangurilor obinute de ctre individul i. Coeficientul de corelaie Spearman, la fel ca i coeficientul de corelaie Pearson, are valori ntre 1 i 1, valori apropiate de 1 indicnd concordana celor dou aprecieri, iar valori apropiate de 1 indicnd o discordan.

    id

  • 1.6 Transformri n matricele de date S revenim la exprimarea informaiilor n forma unei matrice

    ce reprezint n indivizi asupra crora s-au evaluat p caracteristici, de fapt p variabile. Matricea X o putem privi fie pe linii, obinnd informaii despre cei n indivizi, fie pe coloane obinnd informaii despre cele p variabile. Prin urmare :

    )( pnX

    (1) fiecrui individ i i corespunde n matricea X o linie, adic un vector cu p elemente; acesta va fi scris: pipiii RxxxL = ),...,,( 21

    (2) fiecrei variabile j i corespunde n matricea X o coloan cu n elemente, care va fi notat: . nTnjjjj RxxxC = ),...,,( 21

    1.6.1 Transformri pe coloane: standardizarea

    Este normal s calculm, pentru fiecare variabil din tabelul de date, valoarea medie i respectiv abaterea medie ptratic (abaterea standard).

    S notm cu media i cu abaterea medie ptratic pentru variabila j, pentru care putem scrie formulele clasice:

    jm js

    =

    =n

    iijj xn

    m1

    1 i =n

    jijj mxns

    1

    2)(1

    1

    Din orice matrice X se poate obine o nou matrice, fie ea ,

    ale crei elemente sunt calculate astfel:

    )(' 'ijxX =

    j

    jijij s

    mxx

    =' pentru orice linie i i

    coloan j Aceast transformare asupra variabilelor este recomandat pentru a

    evita discrepanele ntre valori ce ar putea fi datorate unitilor de msur diferite. Se obinuiete a se spune c, prin aceast transformare, exprimm informaiile n form standardizat, n uniti de abatere medie ptratic (uniti standard). Se observ c, prin aceast transformare, centrm mai nti valoarea (adic scdem din ea media) iar apoi o mprim la abaterea medie ptratic.

    Observaie: Un calcul matematic simplu ne conduce la faptul c media valorilor standardizate este zero, iar dispersia este unu.

    Exemplu: Fie datele din tabelul 1 al Anexei 1. S considerm doar primele 4 caracteristici ale autoturismelor exprimate prin variabilele: preul,

  • capacitatea cilindric, viteza i consumul. Printr-un calcul elementar obinem mediile i respectiv abaterile medii ptratice ale acestor variabile (folosind datele tuturor celor 26 mrci de autoturisme):

    Preul Capacitatea cilindric Viteza Consumul

    Media 16118 1172 155 7.18 Abaterea medie

    ptratic 4148 205 22.17 1.13

    Folosim acum formula de standardizare pe care o aplicm fiecrui element al matricei. Obinem ca rezultat informaiile standardizate prezentate n tabelul 5. Se observ c, dei cele 4 variabile selectate se exprim n uniti de msur diferite, n forma standard valorile sunt perfect comparabile ntre ele.

    Tabelul 5. Valori standardizate

    Preul

    standardizat Cap. cil.

    standardizat Viteza

    standardizatConsumul

    standardizat 1.A -0.99 -0.85 -0.67 -0.86 2.C -0.681 -1.06 -0.44 -1.39 3.D -0.364 -0.87 -0.44 -0.42 4.Fl -0.64 -0.84 -0.44 -0.86 5.F2 2.14 0.63 2.04 1.52 6.F3 0.42 0.63 0.46 0.46 7.F4 -0.74 -0.27 -0.80 -0.15 8.FS 1.36 2.07 1.13 1.87 9.N -0.89 -0.89 -0.66 -0.68

    10.O -0.74 -0.87 -0.53 0.02 11.P1 -0.69 -1.06 -0.94 -0.33 12.P2 -0.08 -0.23 -0.58 -1.21 13.P3 0.67 0.91 0.68 1.78 14.P4 2.18 1.99 1.59 1.34 15.Ri -0.76 -1.05 -1.79 -0.77 16.R2 -0.56 -0.31 -1.57 -0.77 17.R3 -0.47 -0.31 -0.53 -1.21 18.R4 0.27 1.09 0.55 0.64 19.RS 2.22 1.09 2.04 1.34 20.SI 0.76 1.41 0.91 1.43 21.S2 -1.24 -1.31 -1.07 0.11

  • Preul

    standardizat Cap. cil.

    standardizat Viteza

    standardizatConsumul

    standardizat 22.S3 -0.96 -0.87 -0.44 -0.681 23.S4 -0.35 0.74 0.37 -0.59 24.Ti -0.51 -0.84 -0.22 -0.95 25.T2 0.18 0.59 0.68 -0.33 26.V 0.46 0.49 0.68 0.72

    1.6.2 Matricea corelaiilor Aa cum am mai spus, corelaia (liniar) ntre dou variabile este

    msurat prin coeficientul de corelaie Pearson. Pentru dou variabile i i j extragem din matricea de date ( )

    pjniijxX

    ,...,2,1;,...,2,1 === coloanele i i j apoi

    calculm coeficientul de corelaie Pearson . Calculnd pe rnd, pentru toate cele p variabile, coeficienii de corelaie liniar, putem nlocui matricea iniial cu o matrice de dimensiune p p (reamintim c am notat-o R) avnd ca elemente coeficienii de corelaie respectivi. (Matricea este simetric i are toate elementele de pe diagonala principal egale cu unu).

    jir ,

    Analiza elementelor matricei corelaiilor este foarte important n prelucrarea informaiilor din matricea X de date. Astfel, analiznd elementele extra-diagonale ale matricei, identificm perechi de variabile ntre care exist dependene liniare puternice (n general, extragem acele variabile pentru care coeficientul de corelaie depete 0,8), dar identificm i perechi de variabile cu coeficieni de corelaie foarte mici (aproape de zero). Aceste informaii ne sunt utile n prelucrrile ulterioare!

    Matricea corelaiilor poate fi tratat ns algebric prin proprietile sale (de simetrie i pozitivitate), ea fiind o surs de alte informaii utile n prelucrarea ulterioar a datelor. Reamintim urmtoarele dou teoreme:

    Teorema 1 (descompunerea Jordan). Fie o matrice ptratic A (p p). Ea poate fi scris sub forma: 1=A unde matricea conine vectori proprii ai matricei A iar matricea

    este o matrice diagonal ce

    conine valorile proprii ale matricei A.

    Teorema 2. Fie o matrice simetric A (p p). Ea poate fi scris sub forma TA = unde matricea conine vectori proprii ai matricei A, matricea este o matrice diagonal ce conine valorile proprii ale matricei A iar este transpusa matricei

    T .

    Capitolul 1. Tehnici de explorare a datelor1.1 Matrice de date exemple practice1.2 Scri de msurare ale caracteristicilor1.3 Explorarea variabilelor continue1.4 Explorarea variabilelor categoriale1.5 Explorarea variabilelor ordinale1.6 Transformri n matricele de date