statistic aplicatstoleriu/salabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod...

38

Upload: others

Post on 29-Nov-2019

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Iulian STOLERIU

Statistic  Aplicat 

Page 2: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

1 Statistic  Aplicat  (Laborator 1)

Organizarea ³i reprezentarea datelor statistice

Scurt istoric

Statistica este o ramur  a ³tiinµelor ce se preocup  de procesul de colectare de date ³i informaµii,de organizarea ³i interpretarea lor, în vederea explic rii unor fenomene reale. În general, prin date(sau date statistice) înµelegem o mulµime de numere ce au o anumit  însemn tate. Aceste numerepot � legate între ele sau nu. Suntem interesaµi de studiul acestor date, cu scopul de a înµelegeanumite relaµii între diverse tr s turi ce m soar  datele culese. De regul , oamenii au anumiteintuiµii despre realitatea ce ne înconjoar , pe care le doresc a � con�rmate într-un mod cât maiexact. De exemplu, dac  într-o anumit  zon  a µ rii rata somajului este ridicat , este de a³teptatca în acea zon  calitatea vieµii persoanelor de acolo s  nu �e la standarde ridicate. Totu³i, ne-amdori s  �m cât mai preci³i în evaluarea leg turii dintre rata somajului ³i calitatea vieµii, de aceeane-am dori s  construim un model matematic ce s  ne con�rme intuiµia. Un alt gen de problem :ardem de ner bdare s  a� m cine va � noul pre³edinte, imediat ce secµiile de votare au închis porµile(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea ³i uni�carea tuturor datelorîntr-un timp record nu este o m sur  deloc practic . În ambele probleme menµionate, observaµiile³i culegerea de date au devenit prima treapt  spre înµelegerea fenomenului studiat. De cele maimulte ori, realitatea nu poate � complet descris  de un astfel de model, dar scopul este de a oferio aproximare cât mai �del  ³i cu costuri limitate. În ambele situaµii menµionate apar erori înaproximare, erori care µin de întâmplare. De aceea, ne-am dori s  putem descrie aceste fenomenecu ajutorul variabilelor aleatoare. Plecând de la colecµiile de date obµinute dintr-o colectivitate,Statistica introduce metode de predicµie ³i prognoz  pentru descrierea ³i analiza propriet µilorîntregii colectivit µi. Aria de aplicabilitate a Statisticii este foarte mare: ³tiinµe exacte sau sociale,umanistic  sau afaceri etc. O disciplin  strâns legat  de Statistic  este Econometria. Aceastaramur  a Economiei se preocup  de aplicaµii ale teoriilor economice, ale Matematicii ³i Statisticiiîn estimarea ³i testarea unor parametri economici, sau în prezicerea unor fenomene economice.

Statistica a ap rut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date desprepopulaµiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei maibune administr ri. Datorit  originii sale, Statistica este considerat  de unii ca �ind o ³tiinµ  de sinest t toare, ce utilizeaz  aparatul matematic, ³i nu este privit  ca o subramur  a Matematicii. Darnu numai originile sale au fost motivele pentru care Statistica tinde s  devin  o ³tiinµ  separat de Probabilit µi. Datorit  revoluµiei computerelor, Statistica a evoluat foarte mult în direcµiacomputaµional , pe când Teoria Probabilit µilor foarte puµin. A³a cum David Williams scria în[18], "Teoria Probabilit µilor ³i Statistica au fost odat  c s torite; apoi s-au separat; în cele dinurm  au divorµat. Acum abia c  se mai întâlnesc".Din punct de vedere etimologic, cuvântului statistic  î³i are originile în expresia latin  statisticumcollegium (însemnând consiliul statului) ³i cuvântul italian statista, însemnând om de stat saupolitician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnatpentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair aextrapolat termenul la colecµii ³i clasi�c ri de date.

1

Page 3: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Metodele statistice sunt ast zi aplicate într-o gam  larg  de discipline. Amintim aici doar câtevaexemple:

• în Agricultur , de exemplu, pentru a studia care culturi sunt mai potrivite pentru a � folositepe un anumit teren arabil;

• în Economie, pentru studiul rentabilit µii unor noi produse introduse pe piaµ , pentru core-larea cererii cu ofert , sau pentru a analiza cum se schimb  standardele de viaµ ;

• în Biologie, pentru clasi�carea din punct de vedere ³tiinµi�c a unor specii de plante saupentru selectarea unor noi specii;

• în �tiinµele educaµiei, pentru a g si cel mai e�cient mod de lucru pentru elevi sau pentru astudia impactul unor teste naµionale asupra diverselor caregorii de persoane ce lucreaz  înînv µ mânt;

• în Meteorologie, pentru a prognoza vremea într-un anumit µinut pentru o perioad  de timp,sau pentru a studia efectele înc lzirii globale;

• în Medicin , pentru testarea unor noi medicamente sau vaccinuri;

• în Psihologie, în vederea stabilirii gradului de corelaµie între timiditate ³i singur tate;

• în Politologie, pentru a veri�ca dac  un anumit partid politic mai are sprijinul populaµiei;

• în �tiinµele sociale, pentru a studia impactul crizei economice asupra unor anumite clasesociale;

• etc.

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identi�ca mai întâicare este colectivitatea asupra c reia se dore³te studiul. Aceast  colectivitate (sau populaµie)poate � populaµia unei µ ri, sau numai elevii dintr-o ³coal , sau totalitatea produselor agricolecultivate într-un anumit µinut, sau toate bunurile produse într-o uzin . Dac  se dore³te studiulunei tr s turi comune a tuturor membrilor colectivit µii, este de multe ori aproape imposibil dea observa aceast  tr s tur  la �ecare membru în parte, de aceea este mult mai practic de astrânge date doar despre o submulµime a întregii populaµii ³i de a c uta metode e�ciente de aextrapola aceste observaµii la toat  colectivitatea. Exist  o ramur  a statisticii ce se ocup  cudescrierea acestei colecµii de date, numit  Statistic  descriptiv . Aceast  descriere a tr s turilorunei colectivit µi poate � f cut  atât numeric (media, dispersia, mediana, cuantile, tendinµe etc),cât ³i gra�c (prin puncte, bare, histograme etc). De asemenea, datele culese pot � procesate într-un anumit fel, încât s  putem trage concluzii foarte precise despre anumite tr s turi ale întregiicolectivit µi. Aceast  ramur  a Statisticii, care trage concluzii despre caracteristici ale întregiicolectivit µi, studiind doar o parte din ea, se nume³te Statistic  inferenµial . În contul Statisticiiinferenµiale putem trece ³i urm toarele: luarea de decizii asupra unor ipoteze statistice, descriereagradului de corelare între diverse tipuri de date, estimarea caracteristicilor numerice ale unortr s turi comune întregii colectivit µi, descrierea leg turii între diverse caracteristici etc.

Statistica Matematic  este o subramur  a Matematicii ce se preocup  de baza teoretic  abstract a Statisticii. Din datele culese pe cale experimental , Statistica Matematic  va c uta s  extrag 

2

Page 4: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

informaµii ³i s  le interpreteze. Un cercet tor într-un domeniul teoretic al Statisticii, cum este ³iStatistica Matematic , va c uta s  îmbun t µeasc  metodele teoretice existente sau s  introduc altele noi. Aceasta va utiliza noµiuni din Teoria probabilit µilor, dar ³i noµiuni din alte ramuri aleMatematicii, cum ar �: Algebra liniar , Analiza matematic , Teoria optimiz rii. De asemenea,partea computaµional  este deosebit de util  în studiul Statisticii moderne, f r  de care cercetareaar � îngreunat  sau, uneori, chiar imposibil de realizat. În aceast  lucrare vom utiliza pachetele deprograme Matlab pentru efectuarea calculelor, în versiunea Matlab 7.1. Acest software esteintrodus ³i dezvoltat de compania The MathWorks (vezi [9]).

Modelare Statistic 

De obicei, punctul de plecare este o problem  din viaµa real , e.g., care partid are o susµineremai bun  din partea populaµiei unei µ ri, dac  un anumit medicament este relevant pentru boal pentru care a fost creat, dac  este vreo corelaµie între num rul de ore de lumina pe zi ³i depresie.Apoi, trebuie s  decidem de ce tipuri date avem nevoie s  colect m, pentru a putea da un r spunsla întrebarea ridicat  ³i cum le putem colecta. Modurile de colectare a datele pot � diverse: putemface un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Estenevoie de o metod  bine stabilit  de colectare a datelor ³i s  construim un model statistic potrivitpentru analiza acestora. În general, date culese de noi pot � potrivite într-un model statistic princare

Data observat  = f(x, θ) + eroare de aproximare, (1.1)

unde f este o funcµie ce veri�c  anumite propriet µi ³i este caracteristic  modelului, x este vectorulce conµine variabilele m surate ³i θ e un parametru (sau un vector de parametri), care poate �determinat sau nedeterminat. Termenul de eroare apare deseori în pratic , deoarece unele dateculese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, ³i eventualrevizuit, astfel încât s  se potriveasc  într-o m sur  cât mai precis  datelor culese.

De�nim o populaµie (colectivitate) statistic  ca �ind o mulµime de elemente ce posed  o trasatur comun . Aceasta poate � �nit  sau in�nit , real  sau imaginar . Elementele ce constituie o colec-tivitate statistic  se vor numi unit µi statistice sau indivizi. Volumul unei colectivit µi statisticeeste dat de num rul indivizilor ce o constituie. Caracteristica (variabila) unei populaµii statisticeeste o anumit  proprietate urm rit  la indivizii ei în procesul prelucr rii statistice. Caracteristi-cile pot �: cantitative (m surabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) ³i calitative (nem surabilesau atribute) (e.g., ro³u, verde, albastru etc). La rândul lor, variabilele cantitative pot � discrete(num rul de sosiri ale unui tramvai în staµie) sau continue (timpul de a³teptare între dou  sosiriale tramvaiului în staµie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii�ind astfel caracteristici numerice ale colectivit µii.Suntem interesaµi în a m sura una sau mai multe variabile relative la o populaµie, îns  aceasta s-arputea dovedi o munc  extrem de costisitoare, atât din punctul de vedere al timpului necesar, cât³i din punctul de vedere al depozit rii datelor culese, în cazul în care volumul colectivit µii estemare sau foarte mare (e.g., colectivitatea este populaµia cu drept de vot a unei µ ri ³i caracteristicaurm rit  este candidatul votat la alegerile prezidenµiale). De aceea, este foarte întemeiat  alegereaunei selecµii de date din întreaga populaµie ³i s  urm rim ca pe baza datelor selectate s  putemtrage o concluzie în ceea ce prive³te variabila colectivit µii.

O selecµie (sau e³antion) este o colectivitate parµial  de elemente extrase (la întâmplare sau nu) din

3

Page 5: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

colectivitatea general , în scopul cercet rii lor din punctul de vedere al unei caracteristici. Dac extragerea se face la întâmplare, atunci spunem c  am facut o selecµie întâmpl toare. Num rulindivizilor din selecµia aleas  se va numi volumul selecµiei. Dac  se face o enumerare sau o listarea �ec rui element component al unei a populaµii statistice, atunci spunem c  am facut un recen-s mânt. Selecµia ar trebui s  �e reprezentativ  pentru populaµia din care face parte. Numit oselecµie repetat  (sau cu repetiµie) o selecµie în urma c reia individul ales a fost reintrodus din nouîn colectivitate. Altfel, avem o selecµie nerepetat . Selecµia nerepetat  nu prezint  interes dac volumul colectivit µii este �nit, deoarece în acest caz probabilitatea ca un alt individ s  �e alesîntr-o extragere nu este aceea³i pentru toµi indivizii colectivit µii. Pe de alt  parte, dac  volu-mul întregii populaµii statistice este mult mai mare decât cel al e³antionului extras, atunci putempresupune c  selecµia efectuat  este repetat , chiar dac  în mod practic ea este nerepetat . Spreexemplu, dac  dorim s  facem o prognoz  a cine va � noul pre³edinte la alegerile din toamn ,e³antionul ales (de altfel, unul foarte mic comparativ cu volumul populaµiei cu drept de vot) seface, în general, f r  repetiµie, dar îl putem considera a � o selecµie repetat , în vederea aplic riitestelor statistice.Selecµiile aleatoare se pot realiza prin diverse metode, în funcµie de urm torii factori: disponibil-itatea informaµiilor necesare, costul operaµiunii, nivelul de precizie al informaµiilor etc. Mai josprezent m câteva metode de selecµie.

• selecµie simpl  de un volum dat, prin care toµi indivizii ce compun populaµia au aceea³i³ans  de a � ale³i. Aceast  metod  mininimizeaz  riscul de a � p rtinitor sau favorabilunuia dintre indivizi. Totu³i, aceast  metod  are neajunsul c , în anumite cazuri, nu re�ect componenµa întregii populaµii. Se aplic  doar pentru colectivit µi omogene din punctul devedere al tr s turii studiate.

• selecµie sistematic , ce presupune aranjarea populaµiei studiate dup  o anumit  schem  or-donat  ³i selectând apoi elementele la intervale regulate. (e.g., alegerea a �ec rui al 10-leanum r dintr-o carte de telefon, primul num r �ind ales la întâmplare (simplu) dintre primele10 din list ).

• selecµie strati�cat , în care populaµia este separat  în categorii, iar alegerea se face la întâm-plare din �ecare categorie. Acest tip de selecµie face ca �ecare grup ce compune populaµia s poata � reprezentat în selecµie. Alegerea poate � facut  ³i în funcµie de m rimea �ec rui grupce compune colectivitatea total  (e.g., aleg din �ecare judeµ un anumit num r de persoane,proporµional cu num rul de persoane din �ecare judeµ).

• selecµie ciorchine, care este un e³antion strati�cat construit prin selectarea de selecµii dinanumite straturi (nu din toate).

• selecµia de tip experienµ , care µine cont de elementul temporal în selecµie. (e.g., diver³i timpide pe o encefalogram ).

• selecµie de convenienµ : de exemplu, alegem dintre persoanele care trec prin faµa universit µii.

• selecµie de judecat : cine face selecµia decide cine ramâne sau nu în selecµie.

• selecµie de cot : selecµia ar trebui s  �e o copie a întregii populaµii, dar la o scar  mult maimic . A³adar, putem selecta proporµional cu num rul persoanelor din �ecare ras , de �ecare

4

Page 6: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

gen, origine etnic  etc) (e.g., persoanele din Parlament ar trebui s  �e o copie reprezentativ a persoanelor întregii µ ri, într-o scar  mult mai mic ).

Organizarea ³i descrierea datelor

Presupunem c  avem o colectivitate statistic , c reia i se urm re³te o anumit  caracteristic .(e.g., colectivitatea este mulµimea tuturor studenµilor dintr-o universitate înrolaµi într-un anumitan de studii, iar caracteristica este num rul de credite obµinute de studenµi în decursul acelui an).Vom numi date informaµiile obµinute în urma observaµiei valorilor acestei caracteristici. Datelepot � calitative sau cantitative, dup  cum caracteristica (sau variabila) observat  este calitativ sau, respectiv, cantitativ . Aceste date pot � date discrete, dac  sunt obµinute în urma observ riiunei caracteristici discrete (o variabila aleatoare discret ), sau date continue, dac  aceast  carac-teristic  este continu  (o variabil  aleatoare de tip continuu). În cazul din exemplu, datele vor �cantitative ³i discrete.Primul pas în analiza datelor proasp t culese este de a le ordona ³i reprezenta gra�c, dar ³i de acalcula anumite caracteristici numerice pentru acestea. Datele înainte de prelucrare, adic  exacta³a cum au fost culese, se numesc date negrupate. De exemplu, num rul de apeluri la 112 în lunaIulie, speci�cat zilnic, este:

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948

598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

De cele mai multe ori, enumerarea tuturor datelor culese este di�cil de realizat, de aceea se ur-m re³te a se grupa datele, pentru o mai u³oar  gestionare. Imaginaµi-v  c  enumer m toatevoturile unei selecµii întâmpl toare de 15000 de votanµi, abia ie³iµi de la vot. Mai degrab , esteutil s  grup m datele dup  numele candidaµilor, precizând num rul de voturi ce l-a primit �ecare.

Gruparea datelor

Datele prezentate sub form  de distribuµie (tabel) de frecvenµe se numesc date grupate. Datelede selecµie obµinute pot � date discrete sau date continue, dup  cum caracteristicile studiate suntvariabile aleatoare discrete sau, respectiv, continue.

(1) Dac  datele de selecµie sunt discrete (e.g., {x1, x2, . . . , xn}) ³i au valorile distinctex′1, x

′2, . . . , x

′r, r ≤ n, atunci ele pot � grupate într-un a³a-numit tabel de frecvenµe (vezi exemplul

din Figura 1.1) sau într-un tablou de frecvenµe, dup  cum urmeaz :

data :

(x′1 x′2 . . . x′rf1 f2 . . . fr

)unde fi este frecvenµa apariµiei valorii x′i, (i = 1, 2, . . . , r), ³i se va numi distribuµia empiric  deselecµie a lui X. Aceste frecvenµe pot � absolute sau de relative. Un tabel de frecvenµe (sau odistribuµie de frecvenµe) conµine toate categoriile ce sunt observate din datele colectate ³i num rulde elemente ce aparµine �ec rei categorii în parte, adic  frecvenµa absolut . O frecvenµ  relativ se obµine prin împ rµirea frecvenµei absolute a unei categorii la suma tuturor frecvenµelor din tabel.

5

Page 7: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

nota frecvenµa frecvenµa relativ 2 2 2.22%3 4 4.44%4 8 8.89%5 15 16.67%6 18 20.00%7 17 18.89%8 15 16.67%9 7 7.78%10 4 4.44%

Total 90 100%

Tabela 1.1: Tabel cu frecvenµe pentru date discrete.

Astfel, suma tuturor frecvenµelor relative este egal  cu 1. Elementele unui tabel sunt, de regul :valori pentru variabile, frecvenµe sau frecvenµe relative.

În Tabelul 1.1, sunt prezentate notele studenµilor din anul al III-lea la examenul de Statistic .Acesta este exemplu de tabel ce reprezent  o caracteristic  discret .

Observaµia 1.1 (o glum  povestit  de G. Pólya,1 despre cum NU ar trebui interpretat  frecvenµarelativ )Un individ suferind merge la medic. Medicul îl examineaz  îndelung ³i, balansând dezam gitcapul, îi spune pacientului:"O�f... drag  domnule pacient, am dou  ve³ti: una foarte proast  ³i una bun . Mai întâi v  aducla cuno³tinµ  vestea proast : suferiµi de o boal  groaznic . Statistic vorbind, din zece pacienµi cecontracteaz  aceast  boal , doar unul scap ."Pacientul, deja în culmea disper rii, este totu³i consolat de doctor cu vestea cea bun :"Dar, �µi pe pace! Dumneavoastr  aµi venit la mine, ³i asta v  face tare norocos", continu optimist doctorul."Am avut deja nou  pacienµi ce au avut aceea³i boal  ³i toµi au murit, a³a c ... veµi supravieµui!"

(2) Dac  X este de tip continuu, atunci se obi³nuieste s  se fac  o grupare a datelor de selecµie înclase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentând timpi (în min.sec) de a³teptarepentru primii 100 de clienµi care au a³teptat la un ghi³eu pân  au fost serviµi.

Putem grupa datele de tip continuu într-un tablou de distribuµie de forma:

data :

([a0, a1) [a1, a2) . . . [ar−1, ar)f1 f2 . . . fr

),

sau sub forma unui tabel de distribuµie (vezi Tabelul 1.3). A³adar, putem grupa datele de tipcontinuu de mai sus în tablou de distribuµie:(

[0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)14 17 21 18 16 14

). (1.2)

1György Pólya (18871985), matematician ungur

6

Page 8: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76

0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14

2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28

0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89

1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85

3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12

3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88

5.36 1.32

Tabela 1.2: Date statistice negrupate

clasa frecvenµa valoare medie[a0, a1) f1 x′1[a1, a2) f2 x′2

......

...[ar−1, ar) fr x′r

Tabela 1.3: Tabel cu frecvenµe pentru date continue.

Uneori, tabelul de distribuµie pentru o caracteristic  de tip continuu mai poate � scris ³i sub forma:

data :

(x′1 x′2 . . . x′rf1 f2 . . . fr

)unde

• x′i =ai−1 + ai

2este elementul de mijloc al clasei [ai−1, ai);

• fi este frecvenµa apariµiei valorilor din [ai−1, ai), (i = 1, 2, . . . , r),r∑i=1

fi = n.

A³adar, dac  ne este dat  o în³iruire de date ale unei caracteristici discrete sau continue, atuncile putem grupa imediat în tabele sau tablouri de frecvenµe. Invers (avem tabelul sau tabloul derepartiµie ³i vrem s  enumer m datele) nu este posibil, decât doar în cazul unei caracteristici detip discret. De exemplu, dac  ni se d  Tabelul 1.4, ce reprezint  rata somajului într-o anumit regiune a µ rii pe categorii de vârste, nu am putea ³ti cu exactitate vârsta exact  a persoanelorcare au fost selecµionate pentru studiu.

Observ m c  acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numivaloare de mijloc pentru o clas , valoarea obµinut  prin media valorilor extreme ale clasei. Încazul Tabelului 1.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenµa cumulat a unei clase este suma frecvenµelor tuturor claselor cu valori mai mici.

Vom numi o serie de timp (sau serie dinamic  ori cronologic ) un tablou de forma

data :

(x1 x2 . . . xnt1 t2 . . . tn

),

7

Page 9: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

vârsta frecvenµa frecvenµa relativ  frecvenµa cumulat  vârsta medie[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60Total 385 100% - -

Tabela 1.4: Tabel cu frecvenµe pentru rata somajului.

unde xi sunt variabile de r spuns, iar ti momente de timp (e.g., r spunsurile citite de un electro-cardiograf).

Motive serioase pentru care merit  s  devii statistician

(top 10)

(10) Pentru statisticienii, deviaµiile sunt considerate a � normale.

(9) Statisticienii lucreaz  discret ³i continuu.

(8) Putem concluziona orice dorim, la un nivel de semni�caµie potrivit.

(7) Nu trebuie s  spunem niciodat  ca suntem siguri; e su�cient doar 95%.

(6) Normalitatea nu este o condiµie sine qua non.

(5) Suntem semni�cativ diferiµi.

(4) Putem testa, f r  probleme ³i folosind o lege bine stabilit , distribuµia posterioar  a cuiva.

(3) Statistica este arta de a nu � nevoit s  spui vreodat  c  ai gre³it.

(2) Un statistician poate sta cu capul într-un cuptor incandescent ³i cu picioarele în�pte îngheaµ  ³i s  spun  c , în medie, se simte bine.

(1) Aproape nimeni nu dore³te jobul nostru important, deci nu vei avea emoµii c  vei r mâne³omer.

Reprezent ri gra�ce

Un tabel de frecvenµe sau o distribuµie de frecvenµe (absolute sau relative) sunt de cele mai multeori baza unor reprezent ri gra�ce, pentru o mai bun  vizualizare a datelor. Aceste reprezent ripot � f cute în diferite moduri, dintre care amintim pe cele mai uzuale.

Reprezentare prin puncte

8

Page 10: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

5 6 7 8 9 100

0.2

0.4

0.6

Figura 1.1: Reprezentarea cu puncte.

Reprezentarea prin puncte (en., dot plot) este folosit  pentru selecµii de dimensiuni mici. Suntreprezentate puncte a³ezate unul peste celalalt, reprezentând num rul de apariµii ale unei valoripentru caracteristica dat . Un astfel de gra�c este reprezentat în Figura 1.1. Aceste reprezent risunt utile atunci când se dore³te scoaterea în evidenµ  a anumitor pâlcuri de date (en., clusters) sauchiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric  a datelor reprezentate.

O funcµie Matlab util  pentru reprezentarea datelor discrete este funcµia stem. Aceast  funcµiereprezint  datele sub forma unor linii verticale terminate cu un un cerculeµ gol (în mod implicit)la extremitatea opus  axei. Are formatul general:

stem(X, Y, 'fill', 'type') % deseneaza pe Y vs. X

Opµiunea 'fill' poate lipsi; dac  ea apare, atunci coloreaz  cercurile din gra�c. Opµiunea 'type'se refer  la tipul de linie folosit; poate � linie continu  (în mod implicit), punctat  (:) sau de tiplinie-punct (−.). Spre exemplu, linia de cod

x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')

produce Figura 1.2.

Reprezentarea stem-and-leaf

S  presupunem c  urm toarele date sunt punctajele (din 100 de puncte) obµinute de cei 20 deelevi ai unei grupe la o testare semestrial :

50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 1.5 reprezint  aceste date sub forma stem-and-leaf (ramur -frunz ). Se observ  c  acesttabel arat  atât cum sunt repartizate datele, cât ³i forma repartiµiei lor (a se privi gra�cul c având pe OY drept axa absciselor ³i OX pe cea a ordonatelor). A³adar, 7|5 semni�c  un punctaj

9

Page 11: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Figura 1.2: Reprezentarea datelor discrete.

de 75. Pentru un volum prea mare de date, aceast  reprezentare nu este cea mai bun  metod  devizualizare a datelor. În secµiunile urm toare vom prezenta ³i alte metode utile.

stem leaf109 2 68 1 5 6 87 3 5 7 7 7 96 1 2 2 4 8 85 0 3 5 94 1 4 83 4 921 80

Tabela 1.5: Tabel stem-and-leaf reprezentând punctajele studenµilor.

Reprezentarea cu bare

Este util  pentru reprezentarea variabilelor discrete cu un num r mic de valori diferite. Barele suntdreptunghiuri ce reprezint  frecvenµele ³i nu sunt unite între ele. Fiecare dreptunghi reprezint o singur  valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regul , pe orizontal iar frecvenµele pe vertical . În Figura 1.31 sunt reprezentate datele din tabelul cu note. Se poateschimba orientarea categoriilor ³i a claselor; în acest caz barele vor ap rea pe orizontal  (veziFigura 1.32). Pentru reprezent ri gra�ce vom folosi aplicaµia Matlab. În capitolul urm tor vomprezenta o scurt  introducere în Matlab. Pentru mai multe detalii, se poate consulta ghidulonline de utilizare [9].Comenzile Matlab uzuale pentru reprezentarea cu bare sunt:

10

Page 12: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Figura 1.3: Reprezent rile cu bare.

bar(X, Y, 'style'); % deseneaza vectorul Y vs. vectorul X

barh(X, Y); % deseneaza pe orizontala vectorul Y vs. vectorul Xbar(X, w); % deseneaza vectorul X vs. 1:N (N este lungimea lui X);bar3(Y, w, 'style') % deseneaza vectorul Y prin bare 3D

% w este latimea barelor, 'style' este modul reprezentarii

Mai sus, 'style' poate � una dintre urm toarele: 'detached' (bare separate), 'grouped' (bare grupateal turat), sau 'stacked' (bare suprapuse).

Exemplu 1.2 (1) Comanda care produce primul gra�c din Figura 1.3 este:

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)

Aici, vectorul X este vectorul linie [2 3 4 5 6 7 8 9 10], scris prescurtat prin [2:10], iar vectorul Yeste [2 4 8 15 18 17 15 7 4]. L µimea barelor este 0.5.

(2) Comanda Matlab urm toare realizeaz  al doilea gra�c din Figura 1.3, corespunz tor datelor dinTabelul 1.5:

barh(5:9, [3 5 6 4 2], 0.5)

(3) În Figura 1.4, am reprezentat prin bare 3D trei vectori: X (numerele naturale de la 1 la 7), Y(permutare aleatoare a elementelor lui X) ³i Z (numere naturale pare, de la 14 la 2). Cei trei vectoriformeaz  coloanele matricei M . Comanda subplot(m,n,p) divizeaz  fereastra gra�c  în m × n zonedreptunghiulare ³i se poziµioneaz  pe zona de rang p, unde va executa comanda ce urmeaz . Figura 1.4este generat  de codul urm tor:

X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z'];

subplot(1,3,1); bar3(M, 0.75, 'detached')

11

Page 13: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

subplot(1,3,2); bar3(M, 0.75, 'grouped')

subplot(1,3,3); bar3(M, 0.75, 'stacked')

Figura 1.4: Reprezentare 3D prin bare.

Histograme

Cuvântul "histogram " a fost introdus pentru prima oar  de Karl Pearson2 în 1895. Acesta deriv  dincuvintele grece³ti histos (gr., ridicat în sus) ³i gramma (gr., desen, înregistrare). O histogram  este oform  pictorial  a unui tabel de frecvenµe, foarte util  pentru selecµii mari de date de tip continuu. Seaseam n  cu reprezentarea prin bare, cu urm toarele dou  diferenµe: nu exist  spaµii între bare (de³i, potap rea bare de înalµime zero ce arat  a � spaµiu liber) ³i ariile barelor sunt proporµionale cu frecvenµelecorespunz toare. Num rul de dreptunghiuri este egal cu num rul de clase, l µimea dreptunghiului esteintervalul clasei, iar în lµimea este a³a încât aria �ec rui dreptunghi reprezint  frecvenµa. Aria total  atuturor dreptunghiurilor este egal  cu num rul total de observaµii. Dac  barele unei histograme au toateaceea³i l µime, atunci în lµimile lor sunt proporµionale cu frecvenµele. În lµimile barelor unei histogrameise mai numesc ³i densit µi de frecvenµ .În cazul în care l µimile barelor nu sunt toate egale, atunci în lµimile lor satisfac:

în lµimea = k · frecvenµal µimea clasei

, k = factor de proporµionalitate.

Comenzile Matlab uzuale pentru crearea histogramelor sunt:

hist(X, n); % unde X este un vector, n este numarul de bare

hist(X, Y); % deseneaza distributia vectorului X, cu numarul de bare egal cu

% lungimea vectorului Y, centrate in elementele lui Y

N = histc(X,E); % returneaza numarul N de valori ale vectorului X, care se afla

2Karl Pearson (1857− 1936), statistician, avocat ³i eugenist britanic

12

Page 14: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 25) 10[25, 30) 2

Tabela 1.6: Tabel cu în lµimile plantelor.

Tabela 1.7: Histograme pentru datele din Tabelul 1.6.

% intre elementele vectorului E

bar(E,N,'histc') % reprezinta grafic pe N determinat anterior

hist3(Y) % realizeaza o histogram 3D, unde Y este vector bidimensional

Datele din Tabelul 1.6 reprezint  în lµimile unui e³antion de plante culese de un cercet tor dintr-o anu-mit  regiune a µ rii. Reprezentarea cu histograme asociat  acestor date este cea din Figura 1.7. CodulMatlab care produce acest gra�c este:

X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ...

5*rand(10,1)+20; 5*rand(2,1)+25]; % genereaza un vector X ca in Tabelul 1.6C = [2.5 7.5 12.5 17.5 22.5 27.5]; % mijloacele latimilor barelor

hist(X,C); % deseneaza 6 histograme

axis([-1 31 0 30]) % fixeaza axele

S  presupunem c  altcineva ar � grupat datele din Tabelul 1.6 într-o alt  manier , în care clasele nusunt echidistante (vezi Tabelul 1.8). În Tabelul 1.8, datele din ultimele dou  clase au fost cumulateîntr-o singur  clas , de l µime mai mare decât celelalte, deoarece ultima clas  din Tabelul 1.6 nu aveasu�ciente date. Histograma ce reprezint  datele din Tabelul 1.8 este cea din Figura 1.9. Conform curegula proporµionalit µii ariilor cu frecvenµele, se poate observa c  primele patru bare au în lµimi egalecu frecvenµele corespunz toare, pe când în lµimea ultimei bare este jum tate din valoarea frecvenµeicorespunz toare, deoarece l µimea acesteia este dublul l µimii celorlalte.În general, pentru a construi o histogram , vom avea în vedere urm toarele:− datele vor � împ rµite (unde este posibil) în clase de lungime egal . Uneori aceste diviz ri sunt naturale,alteori va trebui s  le fabric m.− num rul de clase este, în general, între 5 ³i 20.− înregistraµi num rul de date ce cad în �ecare clas  (numite frecvenµe).− �gura ce conµine histograma va avea clasele pe orizontal  ³i frecvenµele pe vertical .

Liniile de cod urm toare simuleaz  histograma reprezentat  în Figura 1.5:

x = randn(1000, 2); % numere repartizate normal

hist3(x)

13

Page 15: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Figura 1.5: Histogram  3D.

Observaµia 1.3 (1) Dac  lungimea unei clase este in�nit  (e.g., ultima clas  din Tabelul 1.8 este[20, ∞)), atunci se obi³nuie³te ca l µimea ultimului interval s  �e luat  drept dublul l µimii intervalu-lui precedent.(2) În multe situaµii, capetele intervalelor claselor sunt ni³te aproxim ri, iar în locul acestora vom puteautiliza alte valori. Spre exemplu, s  consider m clasa [15, 20). Aceast  clas  reprezint  clasa acelor plantece au în lµimea cuprins  între 15cm ³i 20cm. Deoarece valorile în lµimilor sunt valori reale, valorile 15³i 20 sunt, de fapt, aproxim rile acestor valori la cel mai apropiat întreg. A³adar, este posibil ca aceast clas  s  conµin  acele plante ce au în lµimile situate între 14.5cm (inclusiv) ³i 20.5cm (exclusiv). Amputea face referire la aceste valori ca �ind valorile reale ale clasei, numite frontierele clasei. În cazul încare am determinat frontierele clasei, l µimea unei clase se de�ne³te ca �ind diferenµa între frontierele ce-icorespund. În concluzie, în cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, l µimea 6 ³i densitateade frecvenµ  17

6 . Pentru exempli�care, în Tabelul 1.10 am prezentat frontierele claselor, l µimile lor ³idensit µile de frecvenµ  pentru datele din Tabelul 1.4.

Reprezentare prin sectoare de disc

Se poate desena distribuµia unei caracteristici folosind sectoare de disc (diagrame circulare) (en., pie

charts), �ecare sector de disc reprezentând câte o frecvenµ  relativ . Aceast  variant  este util  în specialla reprezentarea datelor calitative. Comanda Matlab pentru un pie chart pentru un vector X estepie(X). De exemplu, comanda care produce Figura 1.6 este:

T = [10 11.11 15.56 25.55 22.22 15.56];

pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})

14

Page 16: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 30) 12

Tabela 1.8: Tabel cu în lµimile plantelor.

Tabela 1.9: Histograme pentru datele din Tabelul 1.8.

în lµimea (în cm) frontierele l µimea frecvenµa densitatea de frecvenµ [18, 25) 17.5− 25.5 8 34 4.25[25, 35) 24.5− 35.5 11 76 6.91[35, 45) 34.5− 45.5 11 124 11.27[45, 55) 44.5− 55.5 11 87 7.91[55, 65) 54.5− 65.5 11 64 5.82

Tabela 1.10: Tabel cu frontierele claselor.

10%

11%

16%

26%

22%

16%

Nota 5Nota 6Nota 7Nota 8Nota 9Nota 10

Figura 1.6: Reprezentarea pe disc a frecvenµelor relative ale notelor din tabelul cu note

.

15

Page 17: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

2 Statistic  Aplicat  (Laborator 2)

Experienµe aleatoare în Matlab

Generarea de numere (pseudo-)aleatoare

Numerele generate de Matlab sunt rezultatul compil rii unui program deja existent în Matlab, a³adarel vor � pseudo-aleatoare. Putem face abstracµie de modul programat de generare ale acestor numere ³is  consider m c  acestea sunt numere aleatoare.

Generarea de numere uniform repartizate într-un interval, U(a, b)

Funcµia rand

• Funcµia rand genereaz  un num r aleator repartizat uniform în [0, 1].De exemplu, comanda

X = (rand < 0.5)

simuleaz  aruncarea unei monede ideale. Mai putem spune ca num rul X astfel generat este unnum r aleator repartizat B(1, 0.5).

• De asemenea, num rul

Y = sum(rand(10,1) < 0.5)

urmeaz  repartiµia B(10, 0.5) (simularea a 10 arunc ri ale unei monede ideale).

• rand(m, n) genereaz  o matrice aleatoare cu m× n componente repartizate U(0, 1).

• Comanda a+ (b− a) ∗ rand genereaz  un num r pseudo-aleator repartizat uniform în [a, b].

• Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente,reprezentând starea actual  a generatorului de numere aleatoare uniform (distribuite). Pentrua schimba starea curent  a generatorului sau iniµializarea lui, putem folosi comanda

rand(method, s)

unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate � 'state','seed' sau 'twister'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµial-izatorului. De exemplu,

rand('state', 125)

�xeaz  generatorul la starea 125.

16

Page 18: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Observaµia 2.1 Printr-o generare de numere aleatoare uniform distribuite în intervalul (a, b) înµelegemnumere aleatoare care au aceea³i ³ans  de a � oriunde în (a, b), ³i nu numere la intervale egale.

Figura 2.1 reprezint  cu histograme date uniform distribuite în intervalul [−2, 3], produse de comandaMatlab:

hist(5*rand(1e4,1)-2,100)

Figura 2.1: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (µ, σ)

Funcµia randn

• Funcµia randn genereaz  un num r aleator repartizat normal N (0, 1).

• randn(m, n) genereaz  o matrice aleatoare cu m× n componente repartizate N (0, 1).

• Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea genera-torului, folosim comanda:

randn(method, s)

unde unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate � 'state'

sau 'seed'), iar s este un num r natural între 0 ³i 232 − 1, reprezentând starea iniµializatorului.

• Comanda m+σ∗randn genereaz  un num r aleator repartizat normal N (m, σ). De exemplu, codulurm tor produce Figura 2.2:

x = 0:0.05:10;

y = 5 + 1.1*randn(1e5,1); % date distribuite N (5, 1.1)hist(y,x)

17

Page 19: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

0 2 4 6 8 100

50

100

150

200

250

Figura 2.2: Reprezentarea cu histograme a datelor normale.

Generarea de numere aleatoare de o repartiµie dat 

Comenzile Matlab

legernd(<param>, m, n)

³i

random('lege', <param>, m, n).

Oricare dintre cele dou  comenzi genereaz  o matrice aleatoare, cu m linii ³i n coloane, având componentenumere aleatoare ce urmeaz  repartiµia lege. În loc de lege putem scrie oricare dintre expresiile din tabeluldin Figura ??. De exemplu,

normrnd (5, 0.2, 100, 10);

genereaz  o matrice aleatoare cu 100× 10 componente repartizate N (5, 0.2).

random ('poiss',0.01, 200, 50);

genereaz  o matrice aleatoare cu 200× 50 componente repartizate P(0.01).

Utilizând comanda

randtool

putem reprezenta interactiv selecµii aleatoare pentru diverse repartiµii. Comanda deschide o interfaµ gra�c  ce reprezint  prin histograme selecµiile dorite, pentru parametrii doriµi (vezi Figura 2.3). Datelegenerate deMatlab pot � exportate în �³ierul Workspace cu numele dorit. De exemplu, folosind dateledin Figura 2.3, am generat o selecµie aleatoare de 10000 de numere ce urmeaz  repartiµia lognormal  deparametri µ = 2 ³i σ = 0.5 ³i am salvat-o (folosind butonul Export) într-un vector L.

18

Page 20: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Figura 2.3: Interfaµ  pentru generarea de numere aleatoare de o repartiµie dat .

Simularea arunc rii unei monede

• Comanda

X = (rand < 0.5);

simuleaz  aruncarea unei monede ideale. Vom mai spunem c  num rul X astfel generat este unnum r aleator repartizat B(1, 0.5) (similar cu schema bilei revenite, în cazul în care o urn  are bilealbe ³i negre în num r egal ³i extragem o bil  la întâmplare)

• Num rul

Y = sum (rand(30,1)<0.5)

urmeaz  repartiµia B(30, 0.5) (simularea a 30 arunc ri ale unei monede ideale).

• Acela³i experiment poate � modelat ³i prin comanda

round(rand(30,1))

Pentru a num ra câte feµe de un anumit tip au ap rut, folosim

sum(round(rand(30,1)))

Exemplu 2.2 Dorim s  scriem o funcµie MATLAB care s  simuleze aruncarea repetat  a unei monedem sluite, pentru care probabilitatea teoretic  de a obµine o anumit  faµ  este p ∈ (0, 1). S  se determine

19

Page 21: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

probabilitatea ca la aruncarea monedei s  obµinem faµa cu stema ³i s  deseneze o �gur  care s  justi�cegra�c convergenµa ³irului frecvenµelor relative la aceast  probabilitate.

function moneda(N,p); % functia moneda.m

x = rand(1, N); % aruncam moneda

V = (x < p); % valoarea de adevar a lui (x<p)

Sn = cumsum(V); % suma cumulata

A = 1:N; % vectorul nr de aruncari

Fn = Sn./A; % frecventa relativa a stemei

semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); % reprezinta grafic Fn

axis([0 N 0 1]); % axele

title('moneda') % numele figurii

xlabel('aruncari');ylabel('probabilitatea') % numele axelor

101

102

103

104

105

0

1/4

0.5

3/4

1

aruncari

prob

abili

tate

a

moneda

101

102

103

104

105

0

1/6

0.5

5/6

1

aruncari

prob

abili

tate

a

zar

Figura 2.4: Simularea arunc rii unei monede corecte (a) ³i a unui zar corect (b)

O rulare a funcµiei, e.g., moneda(1e5,0.5), produce gra�cul din Figura 2.4(a). De asemenea, se poatesimula ³i aruncarea unei monede m sluite, dac  alegem ca parametrul p al funcµiei s  �e diferit de 0.5.

Simularea arunc rii unui zar

Pentru început, s  consider m o variabil  aleatoare ce poate avea doar 3 rezultate posibile, A, B ³i C,cu probabilit µile de realizare 0.5, 0.2 ³i, respectiv, 0.3. Pentru a modela aceast  variabil  aleatoare înMatlab, proced m astfel: alegem uniform la întâmplare un num r x din intervalul [0, 1]. Dac  x ≤ 0.5,atunci convenim c  rezultatul A s-a realizat, dac  5 < x ≤ 0.7, atunci rezultatul B s-a realizat. Altfel,rezultatul v.a. X este C. Dac  acest experiment se repet  de multe ori, atunci rezultatele pot � folositeîn estimarea probabilit µilor de realizare a variabilei aleatoare. Cum cât vom face mai multe experimente,cu atât vom aproxima mai bine valorile teoretice ale probabilit µilor, deci putem spune c  am aproximatvariabila aleatoare X.

20

Page 22: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

La aruncarea unui zar ideal, avem 6 rezultate posibile, ³i anume, apariµia unei feµe cu 1, 2, 3, 4, 5 sau 6puncte. Pentru a simula acest experiment, modi�c m în mod convenabil problema. Vom considera c punctele din intervalul [0, 1] formeaz  mulµimea tuturor cazurilor posibile ³i împ rµim intervalul [0, 1] în6 subintervale de lungimi egale:{

(0,1

6), (

1

6,

2

6), (

2

6,

3

6), (

3

6,

4

6), (

4

6,

5

6), (

5

6, 1)

}.

corespunz toare, respectiv, celor ³ase feµe, s  zicem în ordinea cresc toare a punctelor de pe ele. Vomvedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete închise, deschisesau mixte nu are efect practic asupra calculului probabilit µii dorite. Acum, dac  dorim s  simul m înMatlab apariµia feµei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un num r "laîntâmplare" din intervalul [0, 1] ³i veri�c m dac  acesta se a�  în intervalul (2

6 ,36). A³adar, comanda

Matlab

u = rand; (u < 3/6 & u > 2/6)

simuleaz  aruncarea unui zar ideal. Ca o observaµie, deoarece cele 6 feµe sunt identice, putem simpli�caaceast  comanda ³i scrie

(rand < 1/6).

Exemplu 2.3 Dorim s  simuleze înMatlab aruncarea repetat  a unui zar corect. S  se determine prob-abilitatea ca la aruncarea zarului s  obµinem faµa cu trei puncte ³i s  deseneze o �gura care s  justi�cegra�c convergenµa ³irului frecvenµelor relative la aceast  probabilitate (vezi Figura 2.4(b)).

function dice(N); % functia dice.m

u = rand(1, n); % probabilitatea aparitiei fetei ∴Z1 = (u < 3/6 & u > 2/6); % aparitia fetei ∴freq = cumsum(Z1)./(1:n); % frecventa relativa

subplot(1,2,2); % activeaza fereastra din stanga

semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:');

axis([0 n 0 1]); % axele

title('zar') % numele figurii

xlabel('aruncari');ylabel('probabilitatea')

Fi³ierul dice.m simuleaz  aruncarea unui zar corect de un num r N de ori. O rulare a funcµiei, e.g.,dice(1e5) produce gra�cul din Figura 2.4(b).

21

Page 23: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

3 Anexa 1

Scurt  introducere în Matlab

Matlab este un pachet comercial de programe de înalt  performanµ  produs de The MathWorks, Inc.,dedicat calculului numeric ³i reprezent rilor gra�ce în domeniul ³tiinµelor ³i ingineriei. Elementul de baz cu care opereaz Matlab-ul este matricea (Matlab este acronim de laMATrix LABoratory). Matlabeste un software standard în mediile universitare, precum ³i în domeniul cercet rii ³i rezolv rii practice aproblemelor legate de procesarea semnalelor, identi�carea sistemelor, calculul statistic, prelucrarea datelorexperimentale, matematici �nanciare, matematici aplicate în diverse domenii etc. Cea mai important caracteristic  a Matlab-ului este u³urinµa cu care poate � extins. La programele deja existente înMatlab, utilizatorul poate ad uga propriile sale coduri, dezvoltând aplicaµii speci�ce domeniului în carelucreaz . Matlab-ul include aplicaµii speci�ce, numite Toolbox-uri. Acestea sunt colecµii extinse defuncµii Matlab (�³iere M) care dezvolt  mediul de programare de la o versiune la alta, pentru a rezolvaprobleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz , cuinterpretor propriu, în jurul c ruia sunt construite toolbox-urile.

Prezent m mai jos o scurt  introducere în Matlab a principalelor funcµii ³i comenzi folosite în aceast lucrare. Pentru o tratare mai detaliat , puteµi consulta un manual de utilizare sau [9]. Mai menµion maici ³i lucrarea [1], unde puteµi g si diverse modalit µi de implementare în Matlab ale unor noµiuni deTeoria Probabilit µilor ³i Statistic  matematic .Folosind comanda demo din Matlab, puteµi urm ri o demonstraµie a principalelor facilit µi din Matlab,cât ³i a pachetelor de funcµii (toolbox) de care aµi putea � interesaµi. Dintre acestea, amintim Statistics

Toolbox, care este o colecµie de funcµii folosite pentru analiza, modelarea ³i simularea datelor. Conµine:analiza gra�celor (GUI), diverse repartiµii probabilistice (beta, binomial , Poisson, χ2), generarea nu-merelor aleatoare, analiza regresional , descrieri statistice.

• ComenzileMatlab pot � scrise în �³iere cu extensia .m, ce urmeaz  apoi a � compilate. Un �³ier-mconst  dintr-o succesiune de instrucµiuni, cu posibilitatea apel rii altor �³iere-M precum ³i a apel riirecursive. De asemenea, Matlab poate � folosit ca pe un mediu computaµional interactiv, caz încare �ecare linie este prelucrat  imediat. Odat  introduse expresiile, acestea pot � vizualizate sauevaluate imediat. De exemplu, introducând la linia de comand 

>> a = sqrt((sqrt(5)+1)/2)

Matlab de�ne³te o variabil  de memorie a, c reia îi atribuie valoareaa =

1.2720

• Variabilele sunt de�nite cu ajutorul operatorului de atribuire, =, ³i pot � utilizate f r  a declarade ce tip sunt. Valoarea unei variabile poate �: o constant , un ³ir de caractere, poate reie³i dincalculul unei expresii sau al unei funcµii.

• Pentru a g si informaµii imediate despre vreo funcµie prede�nit , comanda help va vine în ajutor.De exemplu,

22

Page 24: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

>> help length

a�³eaz  urm toarele:

LENGTH Length of vector.

LENGTH(X) returns the length of vector X. It is equivalent

to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.

See also numel.

• Comanda help poate � utilizat  doar dac  se cunoa³te exact numele funcµiei. Altfel, folosireacomenzii lookfor este recomandat . De exemplu, comanda

>> lookfor length

produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name.

VARARGIN Variable length input argument list.

VARARGOUT Variable length output argument list.

LENGTH Length of vector.

• Matlab este un mediu computaµional orientat pe lucru cu vectori ³i matrice. O linie de cod deforma

>> v = [1,3,5,7,9] % sau v = [1 3 5 7 9]

de�ne³te un vector linie ce are componentele 1, 3, 5, 7, 9. Aceasta poate � realizat  ³i folosindcomanda v = 1:2:9 adic  a�³eaz  numerele de la 1 la 9, cu pasul 2. Pentru un vector coloan ,folosim punct-virgul  între elemente, adic 

>> v = [1;3;5;7;9] % vector coloana

O alt  variant  de a de�ni un vector este

>> v = linspace(x1,x2,n)

adic  v este un vector linie cu n componente, la intervale egale între x1 ³i x2.

• De�nirea matricelor se poate face prin introducerea explicit  a elementelor sale sau prin instrucµi-uni ³i funcµii. La de�nirea explicit , trebuie µinut cont de urm toarele: elementele matricei suntcuprinse între paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaµii libere sauvirgule, liniile se separ  prin semnul punct-virgul . De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

23

Page 25: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

de�ne³te matriceaA =

1 2 3

4 5 6

• Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele decoloan  j) sau A(i,:) (elementele de linia i);

• Funcµia Matlab ones(m,n) de�ne³te o matrice m × n, având toate componentele egale cu 1.Funcµia zeros(m,n) de�ne³te o matrice zero m× n. Funcµia eye(n) de�ne³te matricea unitate deordin n.

• Dup  cum vom vedea mai jos,Matlab permite de�nirea unor funcµii foarte complicate prin scriereaunui cod. Dac  funcµia ce o avem de de�nit este una simpl , atunci avem varianta utiliz rii comenziiinline. Spre exemplu, de�nim funcµia f(x, y) = e5x sin 3y:

>> f = inline('exp(5*x).*sin(3*y)')

f =

Inline function:

f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula f(7, π) prin

>> f(7,pi)

0.5827

• Un program Matlab poate � scris sub forma �³ierelor script sau a �³ierelor de tip funcµie. Am-bele tipuri de �³iere sunt scrise în format ASCII. Aceste tipuri de �³iere permit crearea unor noifuncµii, care le pot completa pe cele deja existente. Un �³ier script este un �³ier extern care conµineo secvenµ  de comenzi Matlab. Prin apelarea numelui �³ierului, se execut  secvenµa Matlabconµinut  în acesta. Dup  execuµia complet  a unui �³ier script, variabilele cu care acesta a operatr mân în zona de memorie a aplicaµiei. Fi³ierele script sunt folosite pentru rezolvarea unor prob-leme care cer comenzi succesive atât de lungi, încât ar putea deveni greoaie pentru lucrul în modinteractiv, adic  în modul linie de comand .

Pentru a introduce date în Matlab, putem copia datele direct într-un �³ier Matlab, prin de�nirea unuivector sau a unei matrice de date. De exemplu, urm toarele date au fost introduse prin "copy-paste" înmatricea data:

>> data = [ % atribuirea valorilor matricei data

21.3 24.1 19.9 21.0 % prima linie a datelor copiate

18.4 20.5 17.5 23.2

22.1 16.6 23.5 19.7 % ultima linie a datelor copiate

]; % inchidem paranteza ce defineste matricea de date

Datele din Matlab pot � salvate astfel:

24

Page 26: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

>> cd('c:\fisierul_de_lucru'); % alegem fisierul unde salvam datele

>> save Timpi_de_reactie data; % salveaza in fisierul Timpi_de_reactie.mat

Datele pot � reînc rcate folosind comanda

load Timpi_de_reactie % incarca datele din fisier

Timpi_de_reactie % afiseaza datele incarcate

Fi³ierele funcµie

Matlab creaz  cadrul propice extinderii funcµiilor sale, prin posibilitatea cre rii de noi �³iere. Astfel,dac  prima linie a �³ierului .m conµine cuvântul function, atunci �³ierul respectiv este declarat ca �ind�³ier funcµie. Variabilele de�nite ³i manipulate în interiorul �³ierului funcµie sunt localizate la nivelulacesteia. Prin urmare, la terminarea execuµiei unei funcµii, în memoria calculatorului nu r mân decâtvariabilele de ie³ire ale acesteia. Forma general  a primei linii a unui �³ier este:

function[param_iesire] = nume_functie(param_intrare)

unde:

• function este este cuvântul care declar  �³ierul ca �³ier funcµie;

• nume_functie este numele funcµiei, care este totuna cu numele sub care se salveaz  �³ierul;

• param_iesire sunt parametrii de ie³ire;

• param_intrare sunt parametrii de intrare.

Comenzile ³i funcµiile care sunt utilizate de nou  funcµie sunt �nregistrate într-un �³ier cu extensia .m.

Exemplu 3.1 Fisierul medie.m calculeaz  media aritmetic  a sumei p tratelor componentelor unui vec-tor X (alternativ, aceast lucru poate � realizat prin comanda mean(X.^2)):

function m2 = medie(X)

n = length(X); m2 = sum(X.^2)/n;

Matlab-ul include aplicaµii speci�ce, numite Toolbox-uri. Acestea sunt colecµii extinse de funcµiiMatlab(�³iere-m) care dezvolt  mediul de programare de la o versiune la alta, pentru a rezolva probleme dindomenii variate. Statistics Toolbox reprezint  o colecµie de funcµii folosite pentru analiza, modelarea ³isimularea datelor ³i conµine: generarea de numere aleatoare; distribuµii, analiza gra�c  interactiv  (GUI),analiza regresional , descrieri statistice, teste statistice.

În Tabelul 3.1 am adunat câteva comenzi utile în Matlab.

25

Page 27: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

% % permite adaugarea de comentarii in codhelp rand % help speci�c pentru funcµia randlookfor normal % cauta intrarile în Matlab pentru normalX=[2 4 6 5 2 7 10] % vector linie cu 7 elementeX=[3; 1; 6.5 ;0 ;77] % vector coloan  cu 5 elementeX = -10:2:10 % vector cu numerele intregi de la −10 la 10, din 2 în 2length(X) % lungimea vectorului Xt=0:0.01:3*pi % de�ne³te o diviziune a [0, 3π] cu diviziunea 0.01X.^2 % ridic  toate componentele vectorului X la puterea a douaX.*Y % produsul a doi vectoricumsum(X) % suma cumulat  a elementelor vectorului Xcumprod(X) % produsul cumulativ al elementelor vectorului Xmin(X) % realizeaz  minimum dintre componentele lui Xmax(X) % realizeaz  maximum dintre componentele lu Xsort(X) % ordoneaz  componentele lui X în ordine crescatoaresort(X, 'descend') % ordoneaz  componentele lui X în ordine descrescatoareerf(X) % funcµia eroareexp(x) % calculeaz  exponenµial  ex

log(x) % calculeaz  logaritmul natural ln(x)sqrt(x) % calculeaz  radicalul ordinului doi dintr-un num rnum2str(x) % furnizeaz  valoarea numeric  a lui xfactorial(n) % n!A = ones(m,n) % A e matrice m× n, cu toate elementele 1B = zeros(m,n) % matrice m× n zeroI = eye(n) % matrice unitate, n× nA = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] % matrice 3× 3size(A) % dimensiunea matricei Adet(A) % determinantul matricei Ainv(A) % inversa matricei AA' % transpusa matricei AA(:,7) % coloana a 7-a a matricei AA(1:20,1) % scoate primele 20 de linii ale lui Anchoosek(n,k) % combin ri de n luate câte k1e5 % numarul 105

exp(1) % numarul ebar(X) sau barh(X) % reprezentarea prin barehist(X) % reprezentarea prin histogramehist3(x,y,z) % reprezentarea prin histograme 3-Dplot(X(1:5),'*m') % deseneaz  primele 5 componente ale lui X, cu * magenta

plot(t,X,'-') % deseneaz  gra�cul lui X versus t, cu linie continuaplot3(X,Y,Z) % deseneaz  un gra�c în 3-Dstairs(X) % deseneaz  o funcµie scarasubplot(m,n,z) % împarte gra�cul în m× n zone & deseneaz  în zona zsemilogx ³i semilogy % logaritmeaz  valorile de pe absci , resp., ordonatahold on % reµine gra�cul pentru a realiza o nou  �guraclf % ³terge �guraclear all % ³terge toate variabilele de�nitetitle('Graficul functiei') % adaug  titlu �guriifind % g se³te indicii elementelor nenule ale unui vectorlegend % ata³eaz  o legend  la un gra�c

Tabela 3.1: Funcµii Matlab utile26

Page 28: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

4 Anexa 2

Exemple de repartiµii discrete

În dreptul �ec rei repartiµii, în parantez , apare numele cu care aceasta care poate � apelat  în Matlab.

(1) Repartiµia uniform  discret , U(n) (unid)

Scriem c  X ∼ U(n), dac  valorile lui X sunt {1, 2, . . . , n}, cu probabilit µile

P (X = k) =1

n, k = 1, 2, . . . , n.

Media ³i dispersia sunt: E(X) = n+12 , D2(X) = n2−1

12 .Exemplu: num rul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat  U(6).

(2) Repartiµia Bernoulli3, B(1, p) (bino)

Scriem X ∼ B(1, p). V.a. de tip Bernoulli poate lua doar dou  valori, X = 1 (succes) sau X = 0(insucces), cu probabilit µile P (X = 1) = p; P (X = 0) = 1− p.Media ³i dispersia sunt: E(X) = p; D2(X) = p(1− p).Exemplu: aruncarea o singur  dat  a unei monede ideale poate � modelat  ca �ind o v.a. B(1, 0.5).

(3) Repartiµia binomial , B(n, p): (bino)

Scriem X ∼ B(n, p) (schema bilei revenite sau schema extragerilor cu repetiµie) (n > 0, p ∈ (0, 1)),dac  valorile lui X sunt {0, 1, . . . , n}, cu probabilit µile

P (X = k) = Cknpk(1− p)n−k, k = 0, 1, . . . , n.

Media ³i dispersia sunt: E(X) = np; D2(X) = np(1− p).

Dac  (Xk)k=1,n ∼ B(1, p) ³i (Xk)k independente stochastic, atunci X =

n∑k=1

Xk ∼ B(n, p).

Exemplu: aruncarea de 15 ori a unei monede ideale poate � modelat  ca �ind o v.a. binomial  B(15, 0.5).

(4) Repartiµia hipergeometric , H(n, a, b) (hyge)

X ∼ H(n, a, b) (schema bilei nerevenite sau schema extragerilor f r  repetiµie) (n, a, b > 0) dac 

P (X = k) =CkaC

n−kb

Cna+b

, pentru orice k ce satisface max(0, n− b) ≤ k ≤ min(a, n).

3Jacob Bernoulli (1654− 1705), matematician elveµian

27

Page 29: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Media ³i dispersia sunt: EX =n∑i=0

E(Xi) = np; D2(X) = np(1− p)a+ b− na+ b− 1

.

Observaµia 4.1 (i) Dac  (Xk)k=0,n ∼ B(1, n), cu p = aa+b (v.a. dependente stochastic), atunci

X =

n∑i=1

Xi ∼ H(n, a, b).

În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între D2(X) ³in∑i=0

D2(Xi), deoarece (Xi)i

nu sunt independente stochastic.(ii) Pentru N = a+ b� n, putem face aproximarea a+b−n

a+b−1 ≈a+b−na+b = 1− n

N , de unde

D2(X) ≈ np(1− p)(

1− n

N

). (4.1)

Observ m c  repartiµiile binomial  ³i hipergeometric  au aceea³i medie, îns  dispersiile difer  prin ter-menul N−nN−1 . În cazul în care num rul de bile este mult mai mare decât num rul de extrageri (N � n),atunci acest termen devine aproximativ

(1− n

N

). În plus, dac  N este foarte mare, atunci trecând N →∞

în (4.1), g sim c  ³i dispersiile celor dou  repartiµii coincid. Cu alte cuvinte, când num rul de bile dinurn  este foarte mare, nu mai conteaz  dac  extragerea bilelor se face cu repetiµie sau nu. Acest fapt îlvom utiliza în Teoria selecµiei, când extragerile se fac dintr-o colectivitate de volum foarte mare.

(5) Repartiµia Poisson4, P(λ) (poiss)

Valorile sale reprezint  num rul evenimentelor spontane (cu intensitatea λ) realizate într-un anumit inter-val de timp. Pentru un λ > 0, spunem c  X ∼ P(λ) (legea evenimentelor rare) dac  X ia valori naturale,cu probabilit µile

P (X = k) = e−λλk

k!, ∀k ∈ N.

E(X) = λ; D2(x) = λ.

(6) Repartiµia geometric , Geo(p) (geo)

Valorile sale reprezint  num rul de insuccese avute pân  la obµinerea primului succes,stiind probabilitatea de obµinere a unui succes, p.

Spunem c  X ∼ Geo(p), (p ∈ (0, 1)) dac  X ia valori în N, cu probabilit µile

P (X = k) = p(1− p)k, pentru orice k ∈ N, unde p ≥ 0.

E(X) =1− pp

; D2(X) =1− pp2

.

Observaµia 4.2 Dac  X ∼ Geo(p), atunci variabila aleatoare Y = X + 1 reprezint  a³teptarea pân  la

primul succes.

4Siméon-Denis Poisson (1781− 1840), matematician ³i �zician francez, student al lui Laplace

28

Page 30: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

(7) Repartiµia binomial  cu exponent negativ, BN (m, p) (nbin)

Valorile sale reprezint  num rul de insuccese obµinute înainte de a se realiza succesul de rang m.În cazul particular m = 1, obµinem repartiµia geometric .

Pentru m ≥ 1, p ∈ (0, 1), spunem c  X ∼ BN (m, p) dac  X ia valorile {m, m + 1, m + 2, . . . }, cuprobabilit µile

P (X = k) = Cm−1m+k−1p

m(1− p)k, ∀k ≥ m, p ≥ 0.

Media ³i dispersia sunt: E(X) =m(1− p)

p; D2(X) =

m(1− p)p2

.

Exemple de repartiµii continue

(1) Repartiµia uniform , U(a, b) (unif)

V.a. X ∼ U(a, b) (a < b) dac  funcµia sa de densitate este

f(x; a, b) =

{1b−a , dac  x ∈ (a, b)

0 , altfel.

E(X) =a+ b

2, D2(X) =

(b− a)2

12.

Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), în cazul în care orice valoare areaceea³i ³ans  de a � aleas , urmeaz  o repartiµie U(0, 1). Comanda rand din Matlab realizeaz  acestexperiment (vezi capitolul urm tor).

(2) Repartiµia normal , N (µ, σ) (norm)

Spunem c  X ∼ N (µ, σ), dac  X are densitatea:

f(x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

E(X) = µ ³i D2(X) = σ2.Se mai nume³te ³i repartiµia gaussian . În cazul µ = 0, σ2 = 1 densitatea de repartiµie devine:

f(x) =1√2πe−

x2

2 , x ∈ R. (4.2)

În acest caz spunem c  X urmeaz  repartiµia normal  standard, N (0, 1).Gra�cul densit µii de repartiµie pentru repartiµia normal  este clopotul lui Gauss (vezi Figura 4.1). Dingra�c (pentru σ = 1), se observ  c  majoritatea valorilor nenule ale repartiµiei normale standard se a� în intervalul (µ− 3σ, µ+ 3σ) = (−3, 3). Aceast  a�rmaµie se poate demonstra cu ajutorul relaµiei (??).

Dac  Z ∼ N (0, 1), atunci X = σZ + µ ∼ N (µ, σ). În mod similar, dac  X ∼ N (µ, σ), atunci Z =X−µσ ∼ N (0, 1). Pentru o v.a. N (0, 1) funcµia de repartiµie este tabelat  (valorile ei se g sesc în tabele)

³i are o notaµie special , Θ(x). Ea e de�nit  prin:

Θ(x) =1√2π

∫ x

−∞e−

y2

2 dy. (4.3)

29

Page 31: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Figura 4.1: Clopotul lui Gauss pentru X ∼ N (0, σ), (σ = 1, 2, 3)

Funcµia de repartiµie a lui X ∼ N (µ, σ) este dat  prin

F (x) = Θ(x− µσ

), x ∈ R. (4.4)

(3) Repartiµia log-normal , logN (µ, σ) (logn)

Repartiµia log-normal  este foarte util  în Matematicile Financiare, reprezentând o repartiµie de preµuriviitoare pentru un activ �nanciar. Dac  X ∼ N (µ, σ), atunci Y = eX este o v.a. nenegativ , avânddensitatea de repartiµie

f(x; µ, σ) =

{1

xσ√

2πe−

(ln x−µ)2

2σ2 , dac  x > 0

0 , dac  x ≤ 0

A³adar, Y ∼ logN (µ, σ) dac  lnY ∼ N (µ, σ).Media ³i dispersia sunt date de E(X) = eµ+σ2/2, D2(X) = e2µ+σ2

(eσ2 − 1).

(4) Repartiµia exponenµial , exp(λ) (exp)

Valorile sale sunt timpi realizaµi între dou  valori spontane repartizate P(λ).

Spunem c  X ∼ exp(λ) (λ > 0) dac  are densitatea de repartiµie

f(x; λ) =

{λe−λx , dac  x > 00 , dac  x ≤ 0

Media ³i dispersia sunt: E(X) =1

λ³i D2(X) =

1

λ2.

Observaµia 4.3 Repartiµia exponenµial  satisface proprietatea a³a-numitei lips  de memorie, i.e.,

P ({X > x+ y}|{X > y}) = P ({X > x}), ∀x, y ≥ 0.

30

Page 32: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Este unica distribuµie continu  cu aceast  proprietate. Distribuµia geometric  satisface o variant  discret a acestei propriet µi. [Veri�caµi!]

(5) Repartiµia Gamma, Γ(a, λ) (gam)

O v.a. X ∼ Γ(a, λ), a, λ > 0, dac  densitatea sa de repartiµie este:

f(x; a, λ) =

{λa

Γ(a)xa−1e−λx , dac  x > 0,

0 , dac  x ≤ 0.

unde Γ este funcµia lui Euler,

Γ : (0, ∞)→ (0, ∞), Γ(a) =

∫ ∞0

xa−1e−xdx.

Media ³i dispersia sunt: E(X) =a

λ, D2(X) =

a

λ2.

Observaµia 4.4 (i) Γ(1, λ) ≡ exp(λ).

(ii) Dac  v.a. {Xk}k=1,n ∼ exp(λ) sunt independente stochastic, atunci suma lorn∑k=1

Xk ∼ Γ(n, λ).

(6) Repartiµia Weibull5, Wbl(k, λ) (wbl)

Aceast  repartiµie este asem n toare cu repartiµia exponenµial  (aceast  obµinându-se în cazul particulark = 1) ³i poate modela repartiµia m rimii particulelor. Când k = 3.4, distribuµia Weibull este asem n -toare cu cea normal . Când k →∞, aceast  repartiµie se apropie de funcµia lui Dirac.Vom spune c  X ∼Wbl(k, λ) (k > 0, λ > 0) dac  are densitatea de repartiµie

f(x; k, λ) =

{kλ

(xλ

)k−1e−( xλ)

k

, dac  x ≥ 00 , dac  x < 0.

Media pentru repartiµia X ∼Wbl(k, λ) este E(X) = λΓ

(1 +

1

k

).

(7) Repartiµia χ2, χ2(n) (chi2)

O v.a. X ∼ χ2(n) (se cite³te repartiµia hi-p trat cu n grade de libertate) dac  densitatea sa de repartiµieeste:

f(x; n) =

1

Γ(n2

)2n2xn2−1e−

x2 , dac  x > 0,

0 , dac  x ≤ 0.

unde Γ este funcµia lui Euler. Gra�cul acestei repartiµii (pentru diverse valori ale lui n) este reprezentatîn Figura 4.2.Media ³i dispersia sunt: E(χ2) = n, D2(χ2) = 2n.

5Ernst Hjalmar Waloddi Weibull (1887− 1979), matematician ³i inginer suedez

31

Page 33: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Observaµia 4.5 (a) Repartiµia χ2(n) este, de fapt, repartiµia Γ(n2 ,12).

(b) Dac  v.a. independente Xk ∼ N (0, 1) pentru k = 1, 2, . . . , n, atunci

X21 +X2

2 + · · ·+X2n ∼ χ2(n).

În particular, dac  X ∼ N (0, 1), atunci X2 ∼ χ2(1).

Figura 4.2: Repartiµia χ2(n) pentru patru valori ale lui n.

(8) Repartiµia Student (W. S. Gosset6), t(n) (t)

Spunem c  X ∼ t(n) (cu n grade de libertate) dac  densitatea de repartiµie este:

f(x; n) =Γ(n+1

2

)√nπ Γ

(n2

) (1 +x2

n

)−n+12

, x ∈ R.

E(X) = 0, D2(X) =n

n− 2.

(9) Repartiµia Fisher7, F(m, n) (f)

Spunem c  X ∼ F(m, n) (cu m, n grade de libertate) dac  densitatea de repartiµie este:

f(x) =

(mn )m2 Γ(m+n

2 )Γ(m2 )Γ(n2 )

xm2−1(1 + m

n x)−m+n

2 , x > 0;

0 , x ≤ 0.

E(X) =n

n− 2, D2(X) =

2n2(n+m− 2)

m(n− 2)2(n− 4).

6William Sealy Gosset (1876− 1937), statistician britanic, care a publicat sub pseudonimul Student7Sir Ronald Aylmer Fisher (1890− 1962), statistician, eugenist, biolog ³i genetician britanic

32

Page 34: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

(10) Repartiµia Cauchy8, C(λ, µ) (f r  corespondent în Matlab)

Spunem c  X ∼ C(λ, µ) dac  densitatea de repartiµie este:

f(x; λ, µ) =λ

π[(x− µ)2 + λ2], x ∈ R.

NU admite medie, dispersie sau momente!!!

8Augustin Louis Cauchy (1789− 1857), matematician francez

33

Page 35: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

5 Anexa 3

Aproximarea lui π prin metoda acului lui Bu�on

Exemplu 5.1 (aproximarea lui π folosind problema acului lui Bu�on9)Consider m un parchet format din lame paralele, având l µimea a. S  se a�e probabilitatea ca un acde lungime l (l < a), aruncat la întâmplare pe parchet, s  ating  una dintre liniile desp rµitoare aleparchetului. Simulaµi în Matlab aruncarea de 100 de ori a acului.

Soluµie: Putem reformula problema astfel:Pe un plan sunt trasate drepte paralele, astfel încât distanµa dintre oricare dou  drepte al turate s  �e a.Pe acest plan, se arunc  la întâmplare un ac de lungime l < a. Se cere probabilitatea ca acul sa întretaie

una dintre drepte.

Poziµia acului faµ  de dreptele reµelei este dat  de distanµa d a mijlocului s u la o dreapt  ³i unghiul θpe care îl face direcµia acului cu cea a dreptelor. Va trebui s  avem d ∈ [0, a] ³i θ ∈ [0, π]. Din punct devedere teoretic, acul poate � reprezentat ca un punct în planul (θ 0 d).Mulµimea cazurilor egal posibile este:

D = {(d, θ) | 0 ≤ d ≤ a, 0 ≤ θ ≤ π}.

Mulµimea cazurilor favorabile este:

D′ = {(d, θ) ∈ D | 0 ≤ d ≤ l sin θ}.

Probabilitatea ca acul s  întretaie una dintre drepte este:

P (A) =aria(D′)

aria(D)=

2l

aπ.

Din rezultatul de mai sus, se întrevede obµinerea pe cale experimental  de aproxim ri ale lui π. Deexemplu, dac  lu m a = 2l, atunci P (A) = 1

π . Arunc m acul de N ori ³i observ m c  în m cazuri a t iatuna dintre linii. Pentru N su�cient de mare,

P (A) =1

π≈ m

N.

Bu�on a efectuat experimentul de 2000 de ori, în urma c ruia l-a aproximat pe π prin π ≈ 3.1430. ÎnMatlab, putem aproxima pe π prin problema acului lui Bu�on astfel:

function Pi = buffon(N)

clf; l = 1; a = 2;

d = a*rand(N,1); theta = pi*rand(N,1);

T = sum(d<1*sin(theta)); % contabilizeaza numarul de taieturi

Prob = T/N; % frecventa relativa

9Georges-Louis Leclerc, Comte de Bu�on (1707− 1788), naturalist ³i matematician francez

34

Page 36: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

approxpi = 2*l/(a*Prob); % aproximarea lui pi

disp('Aproximarea lui pi este '); disp(approxpi);

Rulând codul, buffon(1e6), obµinem:

Aproximarea lui pi este 3.1421

Observaµia 5.2 (1) Secvenµa T = sum(d<1*sin(theta)); calculeaz  num rul cazurilor favorabile ast-fel:(d<1*sin(theta)) furnizeaz  un vector cu N componente. Componenta i a acestui vector este valoareade adev r a Propoziµiei di < l*sin(thetai). Vom obµine valoarea 1 dac  propoziµia este adev rat  ³i0 dac  nu este. Funcµia sum calculeaz  suma componentelor vectorului, adic  exact num rul cazurilorfavorabile.

Figura 5.1: Problema acului lui Bu�on (N = 100).

(2) Pentru a ilustra aceste arunc ri într-un gra�c, nu vom mai putea utiliza scrierea vectorial  a coordo-natelor. Pentru a obµine o �gura de genul Figura 5.1, vom modi�ca programul anterior astfel:

function Pi = buff(N)

clf; l = 1; a = 2;

L = 5 % lungimea retelei de drepte

T = 0; % initializare numar de taieturi;

for i=1:N

x = L*rand % abscisa centrului acului

d = a*rand; % ordonata centrului acului

theta = pi*rand; % unghiul theta

% ~~~~~~~~~~~~~ deseneaza acul ~~~~~~~~~~~~~~~~~~~~~~~~~~~~

plot([x-l*cos(theta)/2,x+l*cos(theta)/2],[d-l*sin(theta)/2,d+l*sin(theta)/2],'b-')

hold on;

if (d<1*sin(theta)/2 | a-d < l*sin(theta)/2) % acul taie o linie

T = T+1; % contabilizeaza nr. de taieturi

35

Page 37: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

end

end

plot([-0.5 L+0.5] , [0,0], 'g-'); % deseneaza y = 0

plot([-0.5 L+0.5] , [a,a], 'g-'); % deseneaza y = 1

axis ([-0.5 L+0.5 -0.5 a+0.5]); % deseneaza axele

approxpi = 2*l*N/(a*T); % aproximarea lui pi

title (['Problema acului lui Buffon (n = ', num2str(N), ')']); √

(3) Dac  not m cu X num rul de intersecµii ale acului cu liniile reµelei în N arunc ri (X este o variabil aleatoare), atunci aceast  problem  ne poate furniza un estimator statistic pentru π, acesta �ind

π̂ =2 l N

aE(X).

În Figura 5.1 am reprezentat o simulare a 100 de arunc ri ale acului pe o reµea de linii paralele.

36

Page 38: Statistic Aplicatstoleriu/SAlabs.pdf · în tiinµele educaµiei, pentru a g si cel mai e cient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra

Bibliogra�e

[1] Petru Blaga, Statistic . . . prin Matlab, Presa universitar  clujean , Cluj-Napoca, 2002.

[2] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[3] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[4] Gheorghe Ciucu, Virgil Craiu, Teoria estimaµiei ³i veri�carea ipotezelor statistice, Editura Didactic ³i Pedagogic , Bucure³ti, 1968.

[5] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.

[6] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),

Duxbury Press, 2006.

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical Statistics, PrenticeHall, 6th edition, 2004.

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic  enciclopedie de

statistic , Editura ³tiinµi�c  ³i enciclopedic , Bucure³ti, 1985.

[9] http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu, Teoria probabilit µilor ³i statistica matematic , Bucuresti, 1980.

[11] Elena Nenciu, Lecµii de statistic  matematic , Universitatea A. I. Cuza, Ia³i, 1976.

[12] Octavian Petru³, Probabilit µi ³i Statistica matematic  - Computer Applications, Ia³i, 2000.

[13] Sanford Weisberg, Applied Linear Regression, Wiley series in Probability and Statistics, 3rd ed.,2005.

[14] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum's Outline Series, 2nd ed.,The McGraw-Hill Companies, Inc., 1998.

[15] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econometrics, Schaum'sOutline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002.

[16] Iulian Stoleriu, Statistic  prin Matlab. MatrixRom, Bucure³ti, 2010.

[17] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Mathematics and itsApplications), Springer Verlag, 1987.

[18] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge UniversityPress, 2001.

37