content

7
Introducere Atât procesul dezvoltării cât şi cel al globalizării, fac referire la economia unei naţiuni şi bunăstarea oamenilor din întreaga lume, constituind subiecte de actualitate pentru diferite organizaţii. Realitatea economică şi nivelul de trai al oamenilor, pot fi descrise prin intermediul unei mulţimi de variabile. Problema apare atunci numărul variabilelor este semnificativ si apare nevoia manevrării acestui volum imens de informaţii. O soluţie la această problemă, poate fi aplicarea unei metode de analiză factorială, aşa numita Analiza Componentelor Principale , cu scopul final de a stabilii şi a analiza acele variabile care influenţeazăîntr-o manieră semnificativă, dezvoltarea umană. Bunăstarea oamenilor este influenţată de mai mulţi factori, precum: speranţa de viaţă, produsul intern brut, nivelul de sărăcie, media anuală a schimbării în preţul consumatorului, dezvoltarea legatăde gen, activitatea economică a femeilor, nivelul dezvoltării umane, etc. Există un număr mare de variabile cu o anumită influenţă asupra calităţii vieţii oamenilor, dar unele dintre aceste variabile sunt mai importante decât celelalte, astfel încât este utilă identificarea acelor variabile pentru o mai bună înţelegere a factorilor care pot conduce la creşterea sau descreşterea calităţii vieţii. Analiza factorială este folosită pentru a rezolva două tipuri de probleme: reducerea numărului de variabile pentru a creşte viteza de procesare a datelor şi identificarea şabloanelor ascunse în relaţiile existente între date.

Upload: petru-binzari

Post on 17-Nov-2015

213 views

Category:

Documents


0 download

DESCRIPTION

desc

TRANSCRIPT

Introducere

Att procesul dezvoltrii ct i cel al globalizrii, fac referire la economia unei naiuni i bunstarea oamenilor din ntreaga lume, constituind subiecte de actualitate pentru diferite organizaii. Realitatea economic i nivelul de trai al oamenilor, pot fi descrise prin intermediul unei mulimi de variabile. Problema apare atunci numrul variabilelor este semnificativ si apare nevoia manevrrii acestui volum imens de informaii. O soluie la aceast problem, poate fi aplicarea unei metode de analiz factorial, aa numita Analiza Componentelor Principale , cu scopul final de a stabilii i a analiza acele variabile care influeneazntr-o manier semnificativ, dezvoltarea uman.

Bunstarea oamenilor este influenat de mai muli factori, precum: sperana de via, produsul intern brut, nivelul de srcie, media anual a schimbrii n preul consumatorului, dezvoltarea legatde gen, activitatea economic a femeilor, nivelul dezvoltrii umane, etc. Exist un numr mare de variabile cu o anumit influen asupra calitii vieii oamenilor, dar unele dintre aceste variabile sunt mai importante dect celelalte, astfel nct este util identificarea acelor variabile pentru o mai bun nelegere a factorilor care pot conduce la creterea sau descreterea calitii vieii. Analiza factorial este folosit pentru a rezolva dou tipuri de probleme: reducerea numrului de variabile pentru a crete viteza de procesare a datelor i identificarea abloanelor ascunse n relaiile existente ntre date. Explorarea datelor este un ansamblu de metode care se ocup cu descrierea i analiza datelor multidimensionale. Unele dintre metode, ajut la evidenierea relaiilor care pot exista ntre diferite date i elaboreaz informaii statistice care permit o descriere mai succint a informaiei coninute n aceste date. Altele, permit regrupri ale datelor n scopul de a face s apar clar ceea ce le face omogene i astfel de a le nelege i de a le defini mai bine.Explorarea datelor permite prelucrarea unui numr mare de date i identificarea celor mai interesante aspecte ale structurii acestora, computerele fiind acelea care au fcut aceste metode operaionale i care le-au permis o utilizare foarte extins. Succesul din ultimii ani al acestora se datoreaz n mare msur reprezentrilor grafice oferite. Aceste reprezentri pot evidenia relaii dificil de sesizat de o analiz direct a datelor dar, mai important i n contrast cu metodele statistice clasice, aceste reprezentri nu sunt legate de nicio ipotez privind legile fenomenelor analizate.Explorarea datelor se bazeaz pe un set de metode descriptive, n cea mai mare parte geometrice, al cror instrument matematic major este algebra matricial i care se exprim fr s presupun priori un model probabilist. Aceste metode permit, n special, prelucrarea i sinteza informaiei din tabelele de date de mari dimensiuni pe baza estimrii corelaiilor dintre variabilele studiate, instrumentele statistice utilizate fiind matricea corelaiilor sau matricea de varian-covarian.

Fundamentele matematice ale explorrii datelor au nceput s se dezvolte la nceputul secolului al XX-lea dar tehnici de baz privind analiza datelor erau deja cunoscute cu mult nainte. Tabelele de contingen, de exemplu, sunt prezente [4] nc din 1588, cnd Alvarez Paz Salas descrie "Invincibila Armada" sub forma unui tabel n care rndurile reprezint flote de nave, iar coloanele diverse caracteristici ale navelor cum ar fi tonajul, numrul de soldai, etc. sau din 1696, cnd Nicolas Lamoignon Basville, intendent al regelui Ludovic al XIV-lea, enumer i caracterizeaz mnstiri i biserici din regiunea Languedoc. Printre fondatorii metodelor moderne de analiz a datelor se regsesc Jean-Paul Benzcri, Louis Guttman, Chikio Hayashi, Douglas Carroll i R.N. Shepard [2].

ntr-un proces de explorare a datelor i descoperire a cunotinelor ("data mining") un prim demers, inevitabil, const n efectuarea unei explorri a acestor date: alura distribuiilor, prezena datelor atipice, corelaii i coeren, transformri eventuale ale datelor. Demersul descriptiv i exploratoriu permite realizarea de rezumate i grafice mai mult sau mai puin elaborate, descrierea mulimilor de date i stabilirea de relaii ntre variabile, fr a acorda un rol privilegiat vreunei variabile i care, folosite n mod adecvat, se pot dovedi extrem de utile pentru numeroase probleme i situaii din domeniul decizional [5, 6, 12]. Concluziile obinute privesc doar datele studiate, fr a fi generalizate la o populaie mai larg. Demersul exploratoriu se sprijin, n mod esenial, pe noiuni elementare (medie i dispersie), pe reprezentri grafice i pe tehnici descriptive multidimensionale. Metodele exploratorii determin subspaii de reprezentare (sau factoriale), de dimensiuni mici, care aproximeaz cel mai bine norii de puncte-indivizi sau de puncte-variabile, astfel nct vecintile msurate n aceste spaii s reflecte ct mai exact proximitile reale.

Demesul exploratoriu i permite deci prospectorului de date s abordeze unul dintre principalele obiective ale "data mining" i anume explorarea multidimensional a datelor sau reducerea de dimensiune: reprezentarea grafic, deducerea unei submulimi de variabile reprezentative sau a unei mulimi de componente prealabile pentru alte metode. Cele mai frecvent utilizate metode, n funcie de tipurile variabilelor, sunt [1, 3, 8, 13, 17]:analiza n componente principale(ACP),analiza factorial discriminant(AFD),analiza corespondenelor simple(ACS),analiza corespondenelor multiple(ACM) ianaliza canonic(AC).Analiza factorial se referla o gam larg de tehnici statistice folosite pentru a reprezenta un set de variabile nconcordan cu un numr redus de variabile ipotetice, numite factori. Acest tip de analiz este folosit intens n diferite domenii, precum: psihologie, tiine sociale, managementul produciei, cercetare operaional, domeniul dezvoltrii, etc. Cteva din pachetele software dedicate acestui tip de analiz, sunt: Statistics, SAS, SPSS.

Analiza componentelor principale(ACP), cunoscut i sub denumirea de transformarea Hotelling sau transformarea Karhunen-Loeve, este o tehnic de analiz factorial, n care, scopul este acela de a reduce numrul de variabile folosite iniial, lund n considerare un numr redus de variabile reprezentative(Gorunescu, 2006). ACP este cea mai simpl analiz dintre analizele bazate pe vectori proprii. Deoarece n date de mari dimensiuni, abloanele sunt foarte greu de identificat, metoda ACP este foarte util deoarece prin reducerea numrului de dimensiuni, abloanele pot fi identificate fr o pierdere important de informaie (Smith, 2002). ACP are aplicaii n domenii precum recunoaterea feei i compresia imaginii.

Capitolul I. Noiuni de baz ale metodei componentelor principale.

1. Tablouri mari de date. Exemple.

Aceasta metoda este utilizata pentru descrierea datelor continute de un tabel indivizi- caracteristici numerice: p caracteristici sunt masurate pe n indivizi. Prin intermediul acestui tip de analiza, un ansamblu de date poate fi redus ntr - o forma compacta, dar care totusi poate scoate n relief anumite structuri fundamentale ale datelor respective. Metoda permite evidentierea unor relatii semnificative de interdependenta, care nu ar putea fi cunoscute numai prin examinarea datelor de intrare. Scopul acestei ana lizei este de a reduce complexitatea, prin identificarea unui numar mic de factori ale caror caracteristici care stau la baza numeroaselor evaluari ale unui produs , utilaj sau element de mediu.n cazul n care exista doar doua caract eristici x1 si x2, datele pot fi prezentate usor cu ajutorul geometriei plane: fiecare individ ei va fi un punct de coordonate x1i si x2i iar simpla vizualizare a alurii norului de puncte permite studierea intensitatii legaturii dintre x1 si x2 precum si stabilirea indivizilor sau grupurilor de indivizi care prezinta caracteristici apropiate. Daca exista trei caracteristici, studiul vizual va fi nca posibil daca se recurge la geometria n spatiu. Daca numarul caracte risticilor va fi mai mare sau egal cu patru, studiul vizual va deveni imposibil.

Bibliografie

http://rria.ici.ro/ria2013_1/