analizĂ de date pentru afaceri -...
TRANSCRIPT
ANALIZĂ DE DATE PENTRU AFACERIAdministrarea Afacerilor, anul III Curs 1 din 5 octombrie 2015
1UB - FAA, Prof. Univ. Dr. Elena Druică, email: [email protected]
INFORMAȚII GENERALE
Curs – 2 ore pe săptămână
Titular de curs: Prof. Univ. Dr. Elena Druică
Email: [email protected]
Seminar – 2 ore pe săptămână
Titular de seminar: Lect. Univ. Dr. Mihaela Sandu
Email: [email protected]
EVALUARE ȘI PUNCTAJ FINAL
Examen final: maxim 6 puncte;
Examenul final constă dintr-un subiect format din 30 de grile (deschise, sau cu un singur răspuns corect)
Evaluare pe parcurs (curs și seminar): maxim 3 puncte
Un punct se acordă din oficiu
Activitatea de seminar nu poate fi recuperată în afara semestrului.
3
MATERIAL DIDACTIC
Materialul didactic poate fi accesat online, gratuit, la www.teoriadeciziei.ro, sectiunea destinată resurselor educaționale
Materialul didactic constă în:
Prezentări ppt
Seturi de date
Coduri pentru prelucrarea datelor (in R) 4
STRUCTURA GENERALĂ A CURSULUI
Elemente introductive despre analiza de date și R
Statistici descriptive pentru distribuții univariate și bivariate
Testarea ipotezelor statistice pentru date numerice și categoriale
Aplicații ale:
Modelelor liniare de regresie, cu una sau mai multe variabile
Modele neliniare de regresie
Modele de regresie logistică
Arbori de clasificare, ca metode de data mining
Serii de timp și analize de date panel5
CURSUL 1
Motivația cursului. Analiza de date în viața de zi cu zi.
Tipuri de date și modelele aferente de analiză și prelucrare
Unde găsim date? Surse credibile și surse lipsite de credibilitate.
Rolul analizei de date într-o lucrare de licență.
Între analiza de date structurală și data mining.
Micro și macro date. Micro și macro instrumental.6
MOTIVAȚIA CURSULUI
Lucrarea de licență
O privire mai… obiectivă asupra lucrurilor. ☺
7
ÎNTREBAREA 1
Considerați că oamenii din ziua de azi sunt mai înclinați să cheltuiască, sau să economisească?
8
ÎNTREBAREA 2:
Considerați că românii sunt mai cheltuitori decât nemții?
9
ÎNTREBAREA 3:
Considerați că pentru un student la Afaceri este mai ușor să își gestioneze banii decât pentru un student la Filosofie?
10
ÎNTREBAREA 4:
Considerați că pentru tinerii cu studii superioare din ziua de azi este mai greu să se integreze pe piața muncii?
11
COMENTARII
Ceea ce este comun pentru toate cele patru cazuri este caracterul foarte general al întrebării
Nevoia de a defini un cadru mai specific.
Nevoia de a identifica indicatori prin intermediul cărora să ne putem raporta la ceea ce vrem să aflăm.
12
OBSERVAȚII
Adesea, la baza opiniilor noastre stau credințe subiective, mai degrabă decât informații obiective
Instrumentele analizei de date permit o verificare “la rece” a credințelor pe care le avem
13
EXEMPLE
Întrebarea 1: Se poate analiza procentul din venit care este alocat consumului. Diferența până la 100% este considerată economisire?
Întrebarea 2: Se poate analiza procentul din venit care este alocat cheltuielilor gospodăriilor în fiecare dintre cele două țări și se pot compara rezultatele. Este suficient?
14
COMENTARIU
Analiza de date, între știință și pseudoștiință
15
16
17
– Tom Peters, “Thriving on Chaos” -
“Sntem înecați în informație, dar lucrul de care nevoie vitală este cunoașterea”
18
19
TIPURI DE ANALIZĂ
Supervised learning
Unsupervised learning
20
TIPURI DE DATE
Cross - sectional: se referă la unități diferite analizate la același moment în timp
Serii de timp: se referă la o aceeași unitate ale cărei caracteristici (una sau mai multe) sunt înregistrate la momente succesive de timp (de obicei, intervale egale).
Date panel: se mai numesc și date longitudinale și combină componenta cross - sectional cu cea de serie de timp
21
EXEMPLE:
Cross - sectional: înălțimea persoanelor aflate în clasă, măsurată în acest moment
Serie de timp: înălțimea unui student, măsurată anual în ultimii 15 ani
Date panel: înălțimea fiecărui student aflat în clasă acum (componenta cross - sectional), măsurată anual în ultimii 15 ani (componenta de serie de timp)
22
MODELE FOLOSITE ÎN ANALIZĂ
Pentru datele cross - sectional: modelele de regresie
Pentru seriile de timp: modele specifice seriilor de timp (ex. proiecția trendului, analiza de sezonalitate, modele autoregresive etc.)
Pentru datele panel: modele de tip analiză panel (modele cu efecte fixe, cu efecte aleatorii, de tip “between”, sau de tip “first difference”)
23
TIPURI DE VARIABILE
cantitative
calitative, sau categoriale
24
DE UNDE OBȚINEM DATELE?
date experimentale: în economie, sunt destul de puține pentru că se obțin foarte greu
date observate: reprezintă ponderea maximă a datelor cu care lucrează un economist.
EXEMPLE DE SURSE:
World Bank
Eurostat
Institutul National de Statistică25
SUNT GARANTATE? EXEMPLU
Date pentru Romania (slide 26)
GDP exprimat în “current USD” - proxy pentru venit
Households consumption expenditures exprimate în “current USD” - proxy pentru consum
Sursa: World Bank
26
27
An 2000 2001 2002 2003 2004
GDP 373050999282 405858867690 459885108135 594660177055 757947335251
HCE 28745314143 31718784903 35363539364 44998638934 58676205796
An 2005 2006 2007 2008 2009
GDP 991726137159 1226951228195 1706134601977 2043352256938 1643457186895
HCE 77884596079 95564720541 128459705533 151299416412 118191748926
28
Consum = 0.073 * Venit + 2603000000
ALTE DATE
Date pentru Romania (slide 29)
GDP exprimat în “USD 2005” - proxy pentru venit
Households consumption expenditures exprimate în “USD 2005” - proxy pentru consum
Sursa: World Bank
29
30
An 2000 2001 2002 2003 2004
GDP 74659324662
78899950997 82871199517 87142617156 95094333148
HCE 50486571380
54747587390 57684999969 62517042448 71068604740
An 2005 2006 2007 2008 2009
GDP 99172613716
107816765292
114565776634
123572601833
115171185299HCE 7788459607
987322875585 96949016165 10609142661
695590300027
31
Consum = 1.162 * Venit - 37760000000
ANALIZA DE DATE ȘI LUCRAREA DE LICENȚĂ
Parte teoretică
Parte aplicativă:
studii de caz
analize de date
sau analize de date pe baza studiului de caz :-)
32
detalii și particularități
Între analiza structurală și data mining
33
ÎNTRE DATE MICRO ȘI DATE MACRO
nivel de agregare diferit
instrumental de analiză similar doar până la un punct
!
avantaje și dezavantaje (Camerer&Trivedi, 2009)
34
Pentru lucrarea voastră de licență: (Gujarati, 2004)
1. Enunțarea teoriei la care ne referim, sau stabilirea ipotezei
2. Specificarea modelului matematic care descrie teoria, sau pe care l-am construit pe baza ipotezei formulate.
3. Specificarea modelului statistic sau econometric
4. Obținerea datelor
5. Estimarea parametrilor modelului econometric
6. Testarea ipotezei referitoare la coeficienții variabilelor predictor
7. Prognoză sau predicție
8. Utilizarea modelului pentru elaborarea de politici sau pentru fundamentarea unor decizii
35
CURSUL URMĂTOR:
Elemente introductive de R și statistici descriptive univariate…
… sau prima parte din partea a doua a licenței voastre.
36
TEMA PENTRU SEMINARUL NR. 1
37
ÎN VARIANTA 1
Căutați indicatorii relevanți pentru tema vostră de licență
Găsiți cea mai de încredere sursă de date pentru a putea obține informațiile
Recapitulați fundamentul teoretic al investigației pe care doriți să o faceți și aflați cine s-a mai ocupat de ceva similar. Căutați autori relevanți și reprezentativi ai domeniului.
Stabiliți natura datelor de care dispuneți, conform clasificărilor discutate la curs. Ce tipuri de modele anticipați că veți putea folosi?
Pregătiți un fișier de date, pe care o să începeți să îl analizați la seminarul 2.
38
ÎN VARIANTA DOI:
Dacă ezitați să includeți în lucrarea de licență o analiză de date…
căutați pe World Bank și alegeți un set de indicatori care vă atrag.
Extrageți datele aferente pentru 5 țări, pe întreaga perioadă disponibilă.
Extrageți definirea indicatorilor și căutați în literatura economică posibile relații între aceștia.
Pregătiți fișierul de date pentru a fi analizat în seminarul 2. :-)39
BIBLIOGRAFIE (ACCESABILĂ PE INTERNET)
Cameron, Colin; Trivedi, Pravin (2009) Microeconometrics, Methods and Applications, p. 3- 9
Gujarati Damodar, (2004) “Basic Econometrics”, Fourth Edition, Introducere, p. 1-14.
Date de pe World Bank: www.worldbank.org
40
SĂ (NE) ANALIZĂM SĂNĂTOȘI! 41