analiza datelor_rezolvari

Upload: tishuletz183420228

Post on 06-Jul-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/17/2019 Analiza Datelor_rezolvari

    1/4

    Ce este analiza componentelor principale.Evidentiati 5

    categorii de pb care pot fi solutionate cu ajutorul

    tehnicilor de analiza a componentelor principale.

    ACP este o tehnica de analiza multidimensionala careare ca scop d escompunerea variabilitatii totale dinspatiul cauzal initial sub forma unui nr. redus decomponente si fara ca aceasta descompunere sa continaredundante informationale.ACP este o tehnica deanaliza multidimensionala care are ca scop reducereadimensionalitatii spatiului cauzal initial,in conditiile uneipierderi informationale minime.ACP repr.proceduraalgoritmica de analiza multidimensional ace consta indeterminarea unor noi variabile,numite componenteprincipale,definite sub forma combinatiilor liniare de

    variabile initiale cu varianta maxima.5 categorii deprobleme sol.cu ACP:a)reducerea complexitatiidatelor(data reduction)poate fi inlocuit un masiv de datede mari dimensiuni prin masive de dimensiuni maimici.b)evidentierea si fixarea patternului asocierilordintre variabile.c)det.variab.latente care se afla inspatele variab.masurate.

    Interpretati logica analizei componentelor

    principale(inclusiv d.p.d.v geometric).

    D.p.d.v geometric,variabilele numite componenteprincipale definesc un nou spatiu al obiectelor.Cele maiinteresante si mai utile aspect ale analizeicomponentelor principale sunt in primul rand legate,nude aparatul mathematic pe care aceasta analiza sebazeaza,ci de multiplele si nuantele interpretari posibilepe care aceasta le of era.Logica analizei componentelorprincipale se bazeaza pe ideea fundamentala ca se pot

    face anumite transformari asupra observatiilorinitiale,care sa determine maximizarea varianteiindividuale pt.anumite variabile si minimizarea varianteipt.alte variabile.Et.1:se det.val.proprii cor espunz.matriciide covarianta atasata var.initiale prin rezolvareaecuatiilor.caracteristice:det|ԑ- λI|=0.Et.2:Cele nval.proprii anterior determ.sunt ordonate descrescatorλ1≥ λ2≥ λ3≥ λ4≥…≥ λn.Et.3:Pt fiecare val.proprie luata inordine descresc.se det.vectorul propriu atasat:ԑ*αi=λi*αi.Et.4:Se det.noile variab.drept combinatii liniare alevar.originale avand coef.dati de comp.vectorului propriuidentificat la et.3.

    Definiti componentele principale si mentionati

    proprietatile acestora:

    Componentele principale sunt variabile vectorialeabstracte,definite sub forma unor combinatii liniare devariabile initiale si care au urmatoarele 2 proprietatifundamentale: a)sunt necorelate 2 cate 2 si suma

    patratelor coeficientilor care definesc combinatia liniarace corespunde unei component principale este egala cuunitatea;b)prima componenta principala este ocombinatie liniara normalizata a carei varianta estemaxima,cea de-a doua componenta principala este ocombinatie liniara necorelata cu prima componentprincipal si care are o variant cat mai mare posibila,insamai mica decat cea a primei componente.Proprietati:a)axele noului spatiu sunt ortogonale 2 cate2 si definesc noile variabile numite componenteprincipale;b)coordonatele obiectelor(generate prinproiectii pe axele noului spatiu)sunt denumite scoruriprincipale si au proprietatea ca pastreaza canfigurareainitiala a acestora;c)nr de componente principale esteegal cu nr.de variabile originale;nu toate comp.princ. auinsa o semnificatie info rmationala considerabila,astfelincat cele mai putin semnificative d.p.d.v informationalsunt eliminate;d)componentele principale suntcombinatii liniare de varianta maximal ale variabilelor

    originale;e)componentele principale sunt scalate infunctie de magnitudinea variantei acestora,prima fiindcomponenta principala cu varianta maxima,iar ultimacomponent principal cu variant minima;f)componenteleprincipale sunt necorelate 2 cate 2;g)suma variantelorcomp. princ.coincide cu suma variantelor variabilelororiginale,a.i. componentele principale preiau intotalitate variabilitatea continuta in variabilele originale.

    Formulati modelul matematic al ACP,definiti si

    interpretati marimile definitorii ale acestora.

    Opt ф (x,w)AεMn*k , unde criteriul de optim poate fi demaxim sau minim, in functie de natura functiei ф SR: w=At * t

    Daca functia ф este de tip distanta,atunci criteriul deoptim va fi reprezentat de minimizarea functiei ф. Dacafunctia ф este o masura a cantitatii de informative adusade noua modelitate de repr. a obiectelor,criteriul deoptim va fi repr. de max. functiei ф.Combinatiile liniarecare definesc comp. princ. pot fi scrie de forma :w1=α1

    1 x1+α21x2+…+αn

    1xn =>modelul matematic alACP:w2= α1

    2 x1+α22x2+…+αn

    2xn max Var(w)wn=α1

    n x1+α2nx2+…+αn

    nxn AεMn*nw=At *x 

    Cele n coloane ale matricii A repr. vectorii propriinormalizati ai matricii de covarianta ∑,iar variantafiecarei comp.princ. wi,care este o varianta maximala in

    raport cu variantele comp.princ anterioare,este repr. devaloarea proprie λi a aceleeasi matrici decovarianta.Spatiul cauzal initial supus investigarii estedet.de un nr.de n variabile explicative notate x1,x2,…xn.Ptdet.comp. princ. wi este necesara det.coef.α j

    i,caredefines combinatia liniara coresp.acestei comp.princ.

    Ilustrati modul de deducere a componentelor

    principale.

    Determinarea coeficientilor combinatiei liniare cedefineste comp.principala w,in conditiile maximizariivariantei acestei comp.principale,este echivalenta cu aalege dintre cele n valori proprii ale mattricii decovarianta ∑ pe cea mai mare si a determinacomponentele vectorului de ponderi α ce definesterespective comp.principala prin calculul vectoruluipropriu al matricii ∑ asociat cu acea valoare proprie.

    Pt.fiecare valoare proprie λi din cele n valori proprii alematricii de covarianta ∑,avem cate o solutie a pb.demax: max αt * ∑ * α ,adica cate un vector αi si cate ocomp.principala wi. α Presupunand ca cele n valori proprii ale matricii decovarianta ∑ sunt SR: αt *α=1 ordonate in asa fel incat:λ1≥λ2≥…≥ λn,prima component principal w1,care va aveavariant maxima λ1,este data de combinatia liniara:w1=(α

    1)t * x.Vectorul α1este acel vector propriu al matricii decovarianta ∑ caruia ii corespunde valoarea proprie ceamai mare, λ1,adica este vectorul care verifica restrictiileurmatoare:

    (∑-λ1*I)*α1=0

    (α1)t*α1=1 ,valoarea proprie λ1 esteradacina a ecuatiei caracteristice: |∑- λi *I|=0 iar I estenotatia pt matricea unitate.Determinarea in acest fel acomponentei principale w1,face ca aceasta sa aibaproprietatile illustrate prin relatiile urm.: E(w1)=(α

    1)t*μ.

    Dupa det.primei comp.princ.w1,urmeaza det.celei de-adoua comp. princ.w,component care trb.caracterizatade urm.proprietati:sa aiba variant maximala si sa fienecorelata cu prima comp.princ.w1.

    Definiti si justificati 3 dintre componentele principale

    Componentele principale sunt vectori ortogonali carepreiau cât mai mult din varianta variabilelor vectororiginale astfel :prima component principal preiamaximul posibil din varianta variabilelor originale, adoua component principal preia maximul din variantaramasa dupa ce este eliminata varianta preluata deprima componentaa)sunt coordinate obiectilor(generate prin proiectii peaxele noului spatiu)sunt denumite scoruri principale siau proprietatea ca pastreaza configuratia initiala aacestora.b) componentele principale conserva variant totala avariab initiale.

    Var initiale x1,x2,..xn Var(t)=var(x1)+var(x2)+..+var(xn)Var(call) (x1,x2,..xn)=var(t)(w1,w2,…wn)c) dependent de unitatile de masura.Componentele principale sunt dependente de ordinal demasura asociat scalei variabilelor .aceasta inseamna caorice schimbare a ordinului de masura pe scare asociatavariabilelor, determina modificare a structuriicomponentelor principale.d) sunt necorelate 2 cate 2 w1,w2…wp p

  • 8/17/2019 Analiza Datelor_rezolvari

    2/4

    grafica a valorilor proprii atasate matricii de covariantainitiale.4)Criteriul lui Kaiser: nr de componente principale ceurmeaza a fi luat in calcul e dat de valorile porprii maimari sau egale cu 1.5)Criteriul statistic: este cel mai riguros.

    Analiza factoriala (definitii+tipuri de probleme ce pot fi

    rezolvate cu aceasta): Def: O analiza de tip multidimensional care are dreptobiectiv evidentierea corelatiilor existente la nivelul uneimultimi de indicatori cu ajutorul unui nr redus de factorinecorelati si ordonati, in fct de variabilitatea impusa deei. Tipuri de probleme ce pot fi tratate cu ajutorul

    analizei factoriale: detectarea structurii in relatiile dintrevariabile; reducerea numarului variabilelor; rezolvareamulticoliniaritatii in regresia multipla; validareaconstructiei unei scale compuse din mai multi itemi;

    Structura generala a modelului de analiza factoriala:

    Modelul analizei factoriale are la baza doua ipotezefundamentale: prima ipoteza se refera la presupunereaca nivelul sau valorile unui ansamblu de variabilealeatoare X1,X2,...,Xn se formeaza ca rezultat exclusiv alinfluentei a 3 categorii de factori:O multime formata din p factori comuni, f1,f2,...,fp, acaror influenta se considera a se exercita asuprafiecareia dintre cele n variabile considerateO multime formata din n factori unici, U1,U2,...,Un, acaror influenta se considera a se exercita in modindividual, fiecare factor unic influentand una si numaiuna din variabilele considerateO multime de n factori reziduali, ε1,ε2,...εn a carorinfluenta se considera a fi exercitata tot in modindividual, fiecare factor rezidual influentand cate osingura variabilaDpdv. Statistic, se considera ca influentele semnificative,care trebuie retinute in analiza, sunt cele exercitatedefactorii comuni si unici, in timp ce influentele factorilorreziduali, se considera a avea caracter accidental,nesemnificativ. La nivelul fiecarei variabile, influentafactorului rezidualcorespunzator poate fi considerata a fi neglijabila și esteasimilabila erorilor de masurare. Din acest motiv, factoriireziduali se mai numesc si erori.In ceea ce priveste factorii comuni, exista posibilitatea cain cazul anumitor variabile influenta lor asupra acestorvariabile sa fie neglijabila sau chiar nula, ceea ceinseeamna ca factorii respectivi pot fi eliminati din listafactorilor pentru variabila respectiva. In aceste conditii,este posibil ca schema de influenta pt anumite variabile

    sa contina mai multi factori comuni, iar pt alte variabilemai putini. Nr de factori comuni cu influentasemnificativa asupra variabilei indicator determinacomplexitatea variabilei indicator respective.

    Defiiti si interpretati descompunerea variabilitatii in

    contextul analizei factoriale:

    In mod similar cu analiza componentelorprincipala,analiza factoriala isi propune sa reexprimevariabilitatea continuta in spatiul initial intr-o manieradiferentiata in functie de rolul pe care il au in formareaacesteia factorii comuni, pe deoparte factorii unici pe dealta parte factorii . Vom trata modul in care variantaunei variabile aleatoare poate fi descompusa incomponentele relevante dpdvd al interdependentelorcauzale. Prin utilizarea tehnicilor de analizamultidimensionala care au ca scop reducereadimensionalitatii, variabilitatea spatiului cauzal ndimensional determinat de multimea variabilelor

    indicator x1,x2,…xn este conservata intr-o proportie maimare sau mai mica prin intermediul variabilitatii indusede un numar mai redus de factori abstracti f1,f2…fp ,p

  • 8/17/2019 Analiza Datelor_rezolvari

    3/4

    care sunt cele mai apropiate între ele în sensul distanteiutilizate.Metoda celor mai departati vecini evalueaza distantadintre doua clustere ca distanta între doua obiecte, unuldin primul cluster, iar celalalt din cel de-al doilea cluster,care sunt cel mai departate între ele în sensul distanteiutilizate.Metoda distantei medii dintre perechi evalueaza distantadintre dou| clustere ca medie a distantelor dintreoricare doua obiecte care apartin celor doua clustere,unul primului cluster, iar celalalt din celui de-al doileacluster.Metoda centroidului evalueaza distanta dintre douaclustere ca distanta între centroizii celor doua clustere.Metoda lui Ward evalueaza distanta dintre doua clusteresuma totaa| a patratelor abaterilor la nivelulconfiguratiei cluster rezultate din comasarea celor douaclustere pentru care se evalueaza distanta.

    Formulati criteriul general al clasificarii si aratati cum

    se evalueaza variab inter si intra clasa (Cazul uni-

    demns)

    Criteriu general de clasificare:Clasificarea obiectelor înclase se face în asa fel încât sa se asigure o variabilitateminima în interiorul claselor si o variabilitate maxima între clase. Metoda Ward este metoda de evaluare a dis tantelordintre clustere care urmareste maximizarea gradului deomogenitate din interiorul clusterelor, ceea ce eechivalent cu minimizarea variabilitatii intraclusterelor.Minimizarea variabilitatii intracluster conduce automatla maximinizarea variabilitatii intercluster.O problema dificila care apare în analiza cluster, estelegata de necesitatea evaluarii distantelor dintre clasesau clustere. Dificultatea acestei probleme este data defaptul ca distantele dintre clase sau clustere sunt, defapt, distante între multimi de obiecte sau distante întremultimi de variabile.Problema evaluarii distantelor dintre clustere apare înspecial în cazul analizei cluster de tip ierarhic, în careconstruirea arborelui de clustere poate fi facut pe bazacomasarii succesive sau divizarii succesive a clusterelor.Comasarea clusterelor este numita amalgamare sauagregare, iar divizarea clusterelor este numitadezagregare .Teoretic, procesul de agregare sau dezagregaresuccesiva a clusterelor se bazeaza pe definirea uneidistante limita între clustere, distanta numita si prag deagregare, respectiv prag de dezagregare. În principiu,decizia de comasare a doua clustere sau de divizare aunui cluster este luata numai daca distanta dintre aceste

    clustere este mai mica, respectiv mai mare decâtdistanata limita fixata.

    Formulati criteriul general al clasificarii si aratati cum

    se evalueaza variab inter si intra clasa (Cazul n-dimens)

    Criteriu general de clasificare: Clasificarea obiectelor înclase se face în asa fel încât sa se asigure o variabilitate minima în interiorul claselor si o variabilitate maxima între clase.

    Analiza cluster de tip ierarhic

    Analiza cluster de tip ierarhic este o metoda declasificare bazata pe gruparea obiectelor pe baza deagregare succesiva în clase din ce în ce mai largi deobiecte sau de dezagregare succesiva în clase din ce înce mai mici.Ipoteza de baza a clasificarii ierarhice: În cadrulmultimilor de obiecte analizate se diferentiaza omultitudine destructuri de tip latent, care sunt caracterizate printr-oimbricare de natura arborescenta În cea mai mare partea lor, algoritmii de clasifi care ierahica sunt algoritmi detip euristic. Exista însa si o categorie aparte de algoritmide clasificare ierarhica, reprezentata de algoritmii de tipmodel formal, care genereaza structurile cluster pe bazamaximizarii verosimilitatii.Rezultatul utilizarii analizei cluster de tip ierarhic îlreprezinta o multime de structuri particulare de clustere,numita arbore ierarhic.structurile cluster de tip ierarhic sunt caracterizate prinnivele diferite de agregare, cuprinse între un nivel minimsi un nivel maxim.Algoritmii de clasificare de tip ierarhic pot fi impartiti indoua catelogii :• algoritmi de clasificare prin agregare, amalgamare saucombinare;• algoritmi de clasificare prin dezagregare sau divizare.

    Metoda agregarii simple de analiza cluster

    Reprezinta metoda de clasificare ierarhica de tipascendant care in fiecare etapa a procesului declasificare comaseaza 2 dintre clusterele pentru caredistanta intre cei mai apropiati vecini e minima incomparative cu alte perechi de clustere.

    Metoda agregarii complete de analiza cluster

    Este de tip ascendant, care in fiecare etapa a clasificariicomaseaza 2 clustere pentru care di stanta dintre cei maiindepartati vecini din acele clustere. Clusterizarea deacest tip se mai numeste si analiza cluster de distantamaxima sau analiza cluster de tip MAX.

    Metoda centroidului de analiza cluster

    Este metoda dupa care distanta dintre doua clustereeste masurata ca distanta între centroizii celor douaclustere. Centroidul sau centrul de greutate al unuicluster reprezinta obiectul, real sau abstract, ale caruicaracteristici au ca valori chiar mediile caracteristicilorobiectelor care compun clusterul respectiv.Definitie: Metoda centroidului evalueaza distanta dintredoua clustere ca distanta între centroizii celor douaclustere.Evaluarea distantei dintre doua clustere cu ajutorulmetodei centroidului se face calculând mai întâicentroizii celor doua clustere, dupa care se evalueazadistanta dintre clustere ca di stanta între acesti centroizi.

    Metoda lui Ward

    Este o metoda de evaluare a distantei dintre douaclustere, care se bazeaza pe maximizarea gradului deomogenitate a clusterelor. De regula, gradul deomogenitatea unui cluster se considera a fi cu atât mai mare, cu câtsuma totala a patratelor abaterilor in tracluster este maimica.Elementul caracteristic al metodei lui Ward estereprezentat de faptul ca prin comasarea a doua clusterese urmareste obtinerea unei omogenitati maxime lanivelul tuturor clusterelor care apartin unei configuratiidate a obiectelor pe clustereDefinitie: Metoda lui Ward evalueaza distanta dintredoua clustere suma totala a patratelor abaterilor lanivelul configuratiei cluster rezultate din comasareacelor doua clustere pentru care se evalueaza distanta.Spre deosebire de alte metode de calcul a distantelor între clustere, distanta Ward ofera o serie de avantaje.Aceste avantaje decurg din faptul ca ea este singuradintre metodele de evaluare a dis tantelor dintre

    clustere, care exprima distantele din punctde vedere al minimizarii variabilitatii intracluster sau,ceea ce înseamna acelasi lucru, din punct de vedere almaximizarii variabilitatii intercluster.

    K-means

    Algoritmul K-means este o metodă de determinare aclusterelor pe care le formează mai multe pattern-uri.Procedura este una de instruire nesupervizată. Sepresupune cunoscut numărul K al clusterelor. Fiecarecluster are un centroid. Algoritmul lucrează cu Kclustere, deci K dintre punctele folosite la instruire vor ficentriozii celor K clustere. Întrucât initializareacentroizilor se face aleator, există posibilitatea ca maimulte rulări ale algoritmului să conducă la rezultatediferite.Fiecare punct este asociat clusterului determinat de celmai apropiat centriod.Distanta dintre punct şi centriod poate fi calculată, de

    exemplu, ca distantă euclidiană. 

    Dendrograma Ca rezultat al algoritmului se obţinearborele de clasificare (dendrograma).Prin secţionarea orizontală a dendrogramei se obţine opartiţie a mulţimii elementelor clasificate.Componentele partiţiei sunt clasele căutate.Pe axa orizontală sunt elementele iniţiale (ordinea estecea care permite desenarea arborelui). Pe axa verticalăsunt distanţele dintre obiecte, de exemplu, întreobiectele 4 şi 6 este o di stanţă egală cu 4.

    Cum se alege numarul de clustere in cazul clasificarilor

    de tip ierarhic?

     Algoritmii sau metodele de tip ierarhic au ca scopproducerea mai multor soluţii cluster, soluţii numiteierarhii cluster . În cazul metodelor de clasificare ierarhică, numărul declustere nu este cunoscut aprioric.Algoritmii de clasificare ierarhică furnizează mai multesoluţii , de tip multinivel , care se numesc ierarhii cluster şicare diferă între ele prin numărul de clustere pe care leinclud şi prin gradul de agregare al clusterelor. Cea mai sintetică soluţie a unei structuri cluster obţinutecu ajutorul metodelor de clasificare ierarhică esteformată dintr-un singur cluster , care include toateobiectele analizate. Cea mai detaliată soluţie a unei

    structuri cluster de acest fel include un număr maxim declustere, egal cu numărul de obiecte analizate, fiecarecluster conţinând un singur obiect. Aceasta înseamnă cănumărul posibil de soluţii dintr-o structură clusterobţinută cu ajutorul algoritmilor ierarhici este mai miccu unu decât numărul de obiecte supuse clasificării.Acest număr este determinat de numărul de niveleierarhice ale solutieisŞi este dat de relaŢia următoare: 

    NC=T-1Alegerea dintre cele T-1 soluţii ale unei structuri clustera celei mai potrivite soluţii cluster rămâne la latitudineacercetătorului şi se face, în principal, în funcţie deobiectivele urmărite în analiză. 

    37.Formulati problema generala a recunoasterii

    supervizate a formelor si mentionati cateva domenii de

    activitate.

     În mod frecvent,în analiza datelor apare necesitateastudierii unor populaţii care sunt eterogene d.p.d v. alcaracteristicilor analizate,fapt care complică procesul decunoaştere a acestor populaţii şi impune efectuarea unuidemers ştiinţific specific. Expresia cea mai semnificativăa populaţilor de tip eterogen este întâlnită în special îndomeniul statisticii, econometriei şi analizei datelor,fiindrepr. chiar de cantităţile foarte mari de informaţie caretrebuie prelucrată,sintetizată şi interpretată.În cazulcercetării unor populaţii de acest tip,pentru carezultatele investigării să capete consistenţă şirelevanţă,este necesară o împărţire, o divizare a acestorpopulaţii în subpopulaţii cu un anumit grad deomogenitate,urmând ca analizele şi procesul demodelare implicate în studierea respectivei populaţii săse facă în mod diferenţiat, pentru fiecare subpopulaţie în parte.Formularea unor concluzii corecte şi robuste cuprivire la manifestarea populaţiilor caracterizate de ungrad mai mare sau mai mic de eterogenitate nu esteposibilă decât dacă analiza ia în considerare structurareaacestor populaţii pe categorii. în alte situaţii, cum suntcele în care sunt analizate diverse entităţi economico-sociale, considerate a proveni din populaţii cucaracteristici foarte diferite, există interesul de aidentifica,de a recunoaşte, originea acestor entităţi, şi dea obţine o încadrare corectă a acestora în anumite claseReprezentative pentru populaţia de origine. situaţiileacest fel depăşesc sfera economico financiară, ele întâlnindu-se în mod frecvent într-o mare varietate dealte domenii importante ale ştiinţei, cum ar fi:informatica, biologia,antropologia,medicina, sociologia,geologia, meteorologia etc.

    Ce sunt clasificatorii de tip liniar?Un clasificator liniar este o combinaţie liniară detrăsături, care sunt componentele unui vector x.Clasificatorul poate fi scris ca:g(x) = wT x + w0 = ∑wi xi + w0Unde• w este vectorul de ponderi• w0 este deplasamentul (bias), sau ponderea pragului.Definiţia unui clasificatorFie S o mulţime de exemple {S1, S2,…, Sn} ce aparţinunor clase diferite {c1, c2, … , cm}. Fiecare exemplu are dtrăsături associate x = {x1, x2,…, xd}. Un clasificator esteo corespondenţă între spaţiul trăsăturilor şi eticheteleclaselor, {c1, c2,…,cm}. 

    Definiti functiile discriminant liniare,variabilele

    discriminant si scorurile discriminant.

    Functiile discriminant (Fisher ) sunt combinaţii liniare devariabilele descriptor, de forma:

    D(x)=B0+Bt*xunde x este vectorul variabilelor descriptor, iar B estevector propriu al matricii . Valorile funcţiilordiscriminant senumesc scoruri discriminanVariabilele discriminant sunt combinaţii liniare devariabilele descriptor, de forma:d=B0+B

    T*xunde x si B au semnificaŢia din definiţia precedentă.Media şi varianţa variabilelor discriminant sunt: E(d)= B0+B

    t*uVar(d)=BT*EPSILON*BOdată ce funcţiile discriminat au fost estimate, ele pot fiutilizate pentru efectuarea de predicţii cu privire laapartenenţa unor noi obiecte la clasele de predicţie.t .Variabilele discriminant d1,d2…dp determină un nouspaţiu p-dimensional, numit spaţiu discriminant , alecărui axe sunt reprezentate de vectorii B(i) Si în contextulcăruia se va face clasificarea efectivă obiectelor. Valorilevariabilelor discriminant di sunt rezultatul evaluăriifuncţiilor discriminate Di pentru un anumit obiect fixatşi se numesc scoruri discriminat. Scorurilediscriminantsunt utilizate ca indicatori în clasificarea propriu-zisă aobiectelor.

  • 8/17/2019 Analiza Datelor_rezolvari

    4/4

    Descrieti clasif. Bayesian si aratati cum poate fi utilizat

    in predictia apartenentei formelor.

    Principala probl care trebuie rezolvata in cadrulrecunoasterii supervizate a formelor este aceea adeterminarii criteriilor (regulilor) de clasificare astfelincat noi forme a caror apartenenta nu este cunoscutasa poata fi incadrate in clase in care acestea se grupeazain mod natural.Regulile de clasificare sunt numite generic clasificatori inteoria recunoasterii formelor.Determinarea clasificatorilor au o natura algoritmica,numindu-se proces de formare a clasificatorului.In cadrul discriminarii mai multor obiecte, se poateutiliza una dintre abordarile:Clasif de cost minim (Bayes)Clasif bazat pe distanta Mahalanobis (clasif metric)Clasif bazat pe raport de verosimilitate (NeymanPearson)Clasif bazat pe entropie

    Ω-colectivitatea initiala a obiectelor, care se structureazain k clase: ω1, ω2,.. ωk. Colecticitatea initiala genereaza spatiul formelor R Ω.  In mod similar, cele k clase din Ω genereaza in spatiulformelor k regiuni de decizie (R1,R2,....Rk)Problema recunoasterii formelor poate fi definita ca

    fiind echivalenta cu identificarea regiunilor de decizie ̃  in spatiul formelor in functie de care se grupeazaobiectele din Ω. ̃   – regiune de decizie estimataGeometric, determinare regiunilor de decizie estimate(̃ ) este similara cu determinarea regiunilor deseparare care sunt det pt acele forme ∈ Ω pt care se

    verifica o relatie functionala de tipul Dij(x) = 0Identificarea regiunilor de decizie se realizeaza in celemai multe cazuri prin minimizarea costului total alclasificarii din Ω, adica minimizarea erorii totale aclasificarii.

    Descrieti clasificatorul liniar fisher si aratati cum poate

    fi utilizat acesta in predictia apartenetei formelor.

    Prima modalitate de abordare a problemelor de clasif.cu ajutorul tehnicilor de analiza discriminanta dateazadin anul 1933 si a fost propusa de Fisher.Metoda de analiza discriminanta propusa de Fisher este

    o metoda parametrica care nu n ecesita evaluarea distribde probabilitate ale claselor ci numai estimatii ale unorparametrii la nivelul populatiei analizate (media,variatia, covarianta). Potrivit acestor metode desolutionare ale probl de clasificare supervizata,multimeainitiala de obiecte Ω este impartita in ω1, ω2,.. ωk pebaza comparatiei dintre variabilitatea intraclasa sivariabilitatea interclasa, inregistrate in cadrul claselordin populatia analizata.Analiza discriminanta pp. det.functiei discriminant care sa asigure separabilitatea catmai buna a claselor si fiecare clasa sa fie caract. printr-un grad de o mogenitate cat mai mare, echivalent cuvariab intraclasa cat mai mica.Criteriul lui Fisher ptanaliza discriminanta este caract. prin robustete sisimplitate, informatiile furnizate fiind utilizate ptidentificarea evolutiei fenomenelor analizate.In cadrulanalizei discriminant de tip Fisher se urmareste det.aunei noi axe sau directii, avand la baza urm. criteriu mixt:maximizare variabilitatii interclasa si minimizarea variab

    intraclasa.

    Descrieti modul de stabilire a abilitatii predictive a unui

    clasificator si matricea corectitudinii clasificarii.

    Modul în care un clasificator asigura clasif. obiectelor cuapartenenta cunoscuta poate fi descris prin intermediulunei matrici, numita matricea corectitudinii clasificariisau, mai simplu, matricea clasificarii, care contineinformatiile necesare pentru a aprecia corectitudineaclasificarii obiectelor.Daca vom considera un esantion format din Tobiecte,care apartin claselor ω1, ω2,... Ωk,atunci varezulta o matricea de clasificare.Un element  al

    matricii de clasif.arata nr. de obiecte apartinând în modreal clasei ωi care, prin utiliz.  tehnicilor de recunoastere a formelor, sunt clasif. înclasa ωj.Definind în acest fel elem. matricii de

    clasificare,rezulta ca nr. de o biecte clasificate corect esterepr. de suma elem. de pe diagonala principala a matriciiclasificarii, respectiv:

    Similar,nr de obiecte clasif. incorect este repr. de sumaelemen. aflate în afara diagonalei principale a matriciiclasificarii :

    Suma valorilor dintr-o linie a matricii de clasif. repr. nr.de obiecte din clasa de provenienta ce coresp. linieirespective, indiferent de clasele în care au fost clasif.acestea.Astfel, repr. nr. de ob. din clasa deprovenienta,indiferent de clasa în care acestea au fostclasif.În mod similar,suma valorilor dintr-o coloana amatricii de clasif. repr.nr. de ob. clasif.în clasa coresp.coloanei,indiferent de clasa de provenienta a obiectelor.Rezulta ca repr. nr. de obiecte clasificate înclasa,indiferent declasa de provenienta a acestora.

    Popula ţ ia sau colectivitatea general ă estereprezentată de mulţimea tuturor măsurătorilor efectivesau conceptuale care prezintă interes pentru cercetătorsau experimentator.E  şantionul reprezintă o submulţime de măsurătoriselectate dintr-o populaţie, o submulţime a populaţieistatistice supusă investigaţiei ştiinţifice. 

    Variabila reprezintă o abstractizare a mul ţ imii de valori posibile pe care le poate înregistra o caracteristică a unui

    anumit fenomen. După natura pe care o au, variabilelepot fi de două tipuri: variabile calitative şi variabilecantitative.

    Scala nominală  este o scală non-metrică, pe bazacăreia valorile variabilelor sunt definite prin intermediulsimbolurilor nenumerice. Măsurarea variabilelor pe scalanominală este echivalentă cu procesul de codificare avariabilelor.

    Scala ordinală este o scală non-metrică, prin

    intermediul căreia valorilor posibile ale caracteristicilor lise atribuie numere de ordine sau ranguri, în funcţie depoziţia acestor valori într-o ierarhieScala raport este o scală metrică, prin intermediulcăreia valorilor posibile pe care le pot lua caracteristicilemăsurate li se atribuie numere definite in raport cu oorigine prestabilită. 

    Tendinta centrala poate fi evidentiata prin intermediulunor indicatori statistici, între care cei mai importantisunt: media, mediana si modulul . Fiecare dintre acestiindicatori exprima, într-un fel sau altul, mai mult sau maiputin sugestiv, nivelul caracteristicii analizate de-a lungulobiectelor.Media - se obţine împărţind suma valorilor individuale laefectivul populaţiei sau al eşantionului Mediana - este valoarea care, în cadrul seriei statistice,separă efectivul populaţiei în două părţi egale. Nu are o

    formulă atît de simplă cum este cea a mediei; mai mult, ovaloare mediană propriu-zisă nu există decît dacănumărul n este fără soţ, cînd există, de fapt, un individmijlociu (al [n+1]/2 lea) a cărui valoare este mediana.Dacă n este par, se iau indivizii de rang n/2 şi n/2 + 1, cuvalori, să zicem, Xi şi xi+1, iar mediana poate fi oricevaloare din intervalul (Xi,Xi+1); de regulă se ia mediaaritmetică a celor două valori. Modulul   - se utilizează numai cînd se lucrează cufrecvenţe, fiind valoarea luată cu cea mai mare frecvenţă.Se poate vorbi şi de valori modale relative atunci cîndfrecvenţele mai multor clase, neînvecinate, le întrec pecele din imediata lor vecinătate; avem de a face atunci cuserii bimodale (cu două moduri) sau plurimodale.  

    Varianta simpla este o masura pt devierea de la medie,deviatie standard fata de medie. Vs=Σi=1

    n (xi- xmediu)2  .

    Varianta totala masoara variabilitateace caracterizeazaobservatiile unei multimi de variabile si se defineste ca

    suma a variantelor individuale ale variabilelor: Vt=ΣSi2

     Varianta totala ofera o imagine cuprinzatoare asupravariabilitatii globale ce carac observatiile var analizate, camasoara aceasta variabilitate doar in sens individual,neluand in considerare variabilitatea comuna, simultanaa observatiilor, adica variabili tatea generalizata.Varianta generalizata masoara variabilitatea ce caracobservatiile multimii de variabile, atat din pct de vedereindividual, cat si din pct de vedere al simultanietatii, alinteraxtivitatii informationale variabilele.

    Covarianta este o masura a variatiei simultane a douavariabile, ea fiind, in valoare absoluta, cu atat mai marecu cat valorile absolute ale variatiilor celor douavariabile in jurul mediei sunt mai apropiate camagnitudine, evidentiind o anumita proportionalitate pemultimea subiectilor studiati.

    Definiti conceptul de distanta si descrieti cateva

    modalitati de evaluare a distantelor dintre formeIndicatorii de disimilaritate sunt marimi numerice careexprima cât de deosebite sau cât de departate sunt douaobiecte sau doua variabile. Indicatorii de disimilaritate semai numesc si indicatori sau coeficienti de deosebire saude distantare a obiectelor sau variabilelor. Cu câtvaloarea unui indicator de disimilaritate este mai mare,cu atât cele doua obiecte sau cele doua variabile pentru

    care se calculeaza sunt mai diferite, adica mai distantate între ele. Cea mai importanta si cea mai utilizata categoriede indicatori de disimilaritate este reprezentata deindicatorii de tip distanta.Prin natura lor numerica, variabilele de tip cantitativ,adica variabilele masurate pe scalele de tip raport,interval si, eventual, ordinal, permit o definire mainaturala a conceptului de distanta. Pentru variabilele detip nominal, inclusiv variabilele de tip binar, distantele secalculeaza într-un mod specific, compatibil cu naturaacestor variabile. Pentru evaluarea disimilaritatilor dintreobiectele ale caror caracteristici sunt de tip cantitativ saudintre variabile de tip cantitativ, pot fi folosite mai multetipuri de distante, cum ar fi: distanta Euclidiana (simpla,

    ponderata sau patrata), distanta Manhattan, distantaCebîsev , distanta Minkovski , distanta Camberra, distantaMahalanobis,distanta Pearson, distanta Jambu etc.Distant a Euclidiana

    Distanta Euclidiana, care mai este cunoscuta si subnumele de norma de tip , este distanta cea mai frecventutilizata în problemele de analiza cluster. Ea se calculeazaca radacina patrata a sumei patratelor diferentelorcoordonatelor celor doua obiecte sau variabile pentrucare se evalueaza distansa.

    Distanta Manhattan, numita si distanta rectangulara ,distanta “City-Block “ sau norma de tip , se calculeaza casuma a valorilor absolute ale diferentelor coordonatelorcelor doua obiecte sau celor doua variabile analizateDeoarece diferentele de coordonate utilizate în calcululsau nu sunt amplificate printr-o ridicare la o putere,distanta Manhattan este mai robusta în raport cuprezenta în date a valorilor aberante. DistanyaManhattan poate fi calculata si în varianta  ponderata,calculul facându-se în mod similar cu cel al distanteiEuclidiene ponderate. De asemenea, distanta Manhattanpoate fi utilizata în cazul în care obiectele au caracteristicicare sunt masurate pe scala de tip interval si pe scala detip raport.

    Distanta Cebî sevDistanta Cebîsev , cunoscuta si sub numele de “maxim aldimensiunilor “ sau norma de tip , este o distanta de tipvaloare absoluta si se determina ca fiind valoarea maximaa valorilor absolute ale diferentelor dintre coordonateleobiectelor sau  variabilelor.  Distanta Cebîsev poate fiutilizata atunci când se doreste ca doua obiecte sauvariabile sa apara ca fiind diferite, daca ele difera chiar sidoar din punct de vedere al unei caracteristici, respectival unui obiect.Distanta Mahalanobis

    Distanta Mahalanobis este una dintre cele maicunoscute, mai importante si mai frecvent utilizatedistante. Ea este o forma generalizata a conceptului dedistanta. Distanta Mahalanobis reprezinta singurul tip dedistanta care ia în considerare, într-o maniera completa,gradul de dispersare al multimii de obiecte sau almultimii de variabile analizate, precum si gradul decorelare al respectivelor entitati informationale.

    Utilizarea distantei Mahalanobis este recomandata, maiales în situatiile în care variabilele care descriu obiectelesunt corelate între ele. Distanta Mahalanobis esteutilizata si în cazul tehnicilor de clasificare controlata, pebaza acestei distante fiind dezvoltat chiar un criteriuoperational de discriminare