in drum at orr mu re san

118
  UNIVERSITATEA DE VEST DIN TIMI ŞOARA FACULTATEA DE MATEMATIC Ă ŞI INFORMATICĂ Raluca Mureşan Statistică descriptivă cu  Mathematica şi  Excel  ÎNDRUMĂTOR DE LABORATOR 2010

Upload: raluca-muresan

Post on 08-Jul-2015

1.197 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 1/118

UNIVERSITATEA DE VEST DIN TIMIŞOARA

FACULTATEA DE MATEMATICĂ ŞI INFORMATICĂ

Raluca Mureşan

Statistică descriptivă cu Mathematica şi Excel

ÎNDRUMĂTOR DE LABORATOR

2010

Page 2: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 2/118

2

Cuprins

PREFAłĂ ...................................................................................... 4

INTRODUCERE............................................................................ 5

Capitolul 1. Utilizarea programelor Mathematica şi Excel. ......... 7

1. Descriere generală a programului Mathematica ............................................ ....................... 7

2. Descrierea modului de lucru cu Mathematica................................................ ....................... 8

3. Descriere generală a programului Microsoft Excel ................................................ ............. 14

4. Descrierea modului de lucru cu Excel-ul ............................................................................ 15

Capitolul 2. GeneralităŃi privind culegerea datelor statistice. ..... 20 1. Câteva aplicaŃii privind construirea unor eşantioane nealeatoare. ...................................... 22

AplicaŃii practice .................................................. .................................................. ............. 23

2. Tabele de numere aleatoare şi metode de generare a şirurilor de numere aleatoare ceurmează o lege de repartiŃie dată. ............................................... ............................................. 32

2.1 Procedee analitice de generare a numerelor aleatoare.............................. ..................... 33

2.2. Utilizarea numerelor sau tabelelor de numere aleatoare pentru construirea deeşantioane aleatoare.............................................. .................................................. ............. 43

2.3. GeneralităŃi privind generarea unor variabile aleatoare. ......................................... ..... 46

2.4. Unele consideraŃii privind generarea vectorilor aleatori ......................................... ..... 59

3. ConstrucŃia eşantioanelor aleatoare cu ajutorul unor scheme probabiliste ......................... 64

3.1. SelecŃii aleatoare simple cu revenire şi unităŃi echiprobabile. .................................... 64

3.2. SelecŃii aleatoare simple f ără revenire şi unităŃi echiprobabile. .................................. 66

3.3 SelecŃii sistematice din populaŃii simple ......................................... ............................. 68

Capitolul 3. Elemente privind descriereaşi analiza datelor deselecŃie .......................................................................................... 70

1. Tabele statistice........................................... .................................................. ..................... 70

2. Metode grafice de reprezentare a datelor statistice ....................................... ..................... 77

2.1. Histograme şi poligoane asociate frecvenŃelor seriilor statistice ................................. 78

Page 3: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 3/118

3

2.2. RepartiŃii de frecvenŃe cumulative (şi retrocumulative). Ogiva. FuncŃia empirică derepartiŃie. .............................................. .................................................. ............................. 83

2.3. Curba lui Gini-Lorenz ........................................... .................................................. ..... 88

2.4. Diagrama Stem-and-Leaf (tulpină şi frunze)................................................... ............. 91

2.5. Prelucrarea şi reprezentarea seriilor statistice prin diagrame de diferite tipuri. ........... 93

3. Caracteristici numerice de sondaj .................................................. ..................................... 96

3.1 Caracteristici ale tendinŃei centrale sau parametrii de poziŃie ....................................... 96

3.2 Indicatorii variaŃiei (împrăştierii) valorilor .............................................. ................... 104

4. Caracteristici de formă ale graficului repartiŃiei de frecvenŃe. ......................................... 113

Bibliografie................................................................................. 118

Page 4: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 4/118

4

PREFAłĂ

Ideea introducerii în cultura de bază a absolvenŃilor de matematică a unormodalităŃii de exersare a utilizării softurilor matematice în statistică este mai vechepentru colectivul de teoria probabilităŃilor şi statistică matematică de la Facultatea deMatematica şi Informatica de la Universitarea de Vest din Timisoara, dar nu şi-a găsitrezolvarea în planurile de învăŃământ existente până de curând. Numai o dată cu apariŃia

în profilul de matematică a specializării de masterat „Statistică Aplicată şi Informatică”,cu durata de 2 ani, s-a introdus cursul de Software Statistic. Acest fapt a permisconcentrarea eforturilor cadrelor didactice şi ale masteranzilor în găsirea de căi adecvateatât cu cerinŃele moderne de asistare cu calculatorul a statisticii matematice, cât şi cuposibilităŃi concrete oferite de dotările existente şi resursele umane interesate înrezolvarea acestui deziderat.

În plus, în cadrul cursului amintit şi a celui de Regresie şi corela Ń ie, prevăzute lamasteratul precizat mai sus, s-a considerat oportun să se propună cursanŃilor şaseproiecte de aplicaŃii concrete şi probleme specifice softurilor şi pachetelor statisticedestinate analizei datelor statistice.

În cadrul activităŃilor specifice de canalizare a pasiunilor şi strădaniilormasteranzilor în perfecŃionarea lor în domeniul precizat, a apărut în persoana autoareiacestor texte şi îndrumări pentru implementarea unor probleme de statistică un viitorspecialist caracterizat printr-un nivel superior de pregătire profesională, prin pasiune şiconsecvenŃă, care a finalizat un îndrumător sub o formă detaliată, ca variantă de lucru cu

masteranzii în cadrul orelor de laborator. Ulterior a avut şansa să-şi verifice utilitateaacestui demers direct la orele de laborator, cu masteranzii de la specializarea „Statistică Aplicată şi Informatică”.

MenŃionez competenŃa şi efortul dovedit, în calitate de masterandă, înelaborarea, pentru prima dată în facultatea şi universitatea noastră, a acestui materialdidactic atât de necesar. Dovada competenŃei sale s-a reflectat şi prin unele soluŃiipersonale în construcŃia de eşantioane sistematice, în îmbunătăŃirea algoritmilor şiprodusului informatic numit „cutia cu antene”, mai detaliat decât cel oferit de softul

Mathematica sau Excel.

Forma prezentată aici, ca material didactic la dispoziŃia tuturor cursanŃilor dinuniversitate interesaŃi de aprofundarea şi de aplicaŃiile statisticii descriptive, este maisistematizată şi mai adecvată cerinŃelor didactice. Am convigerea că acest îndrumator vafi folositor masteranzilor de la specializarea „Statistică Aplicată şi Informatică” şi de laalte specializări, mai ales cele de la Facultatea de Economie şi Administrarea Afacerilor.

Prof. dr. Gheorghe Constantin

Page 5: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 5/118

5

INTRODUCERE

Statistica matematică are ca obiect studiul cantitativ al fenomenelor de masă care, datorită întinderii, diversităŃii şi variabilităŃi lor, nu apar cu exactitatea dorită decâtprin intermediul unor numeroase observaŃii şi măsurători. Asemenea fenomene rezultă printr-o împletire inextricabilă de cauze, principale şi secundare, esenŃiale şi neesenŃiale,de natură să imprime o mare variabilitate a cazurilor singulare. Fenomenele de masă nupot fi percepute pe căi directe, individuale, ci se impune considerarea în masă a acŃiuniicomune a numeroase elemente omogene şi tratarea lor statistică. Ele se întâlnesc în

aproape toate domeniile ştiinŃei şi ale activităŃilor sociale, fiind generate de cauzemultiple şi complexe.

Aplicarea calculelor statistice la datele empirice, oferite de observaŃiile efectuateasupra fenomenelor de masă, permite desprinderea „legilor statistice” care descriurelaŃiile cauzale statistice şi care au statut propriu şi obiectivitate ce le sporeşte

însemnătatea.Particularitatea esenŃială a legilor statistice izvorâtă din aceea că ele acŃionează

în fenomenele de masă, unde întregul este determinat de unitatea părŃilor componente, oconstituie exprimarea comportării ansamblului de unităŃi omogene şi nu a fiecăreiunităŃi în parte. Ca exemplu menŃionăm punctul de vedere al şcolii de statistică descriptivă de la Gıttingen din secolul 18, referitor la statistica socială, care priveştestatistica drept istorie în repaus şi istoria statistică în mişcare; „statistica arată bogăŃia

sau sărăcia, ştiinŃa sau ignoranŃa, fericirea sau nefericirea, moralitatea sau corupŃia,civilizaŃia sau barbaria, puterea sau slăbiciunea naŃiunii” iar filosofia statisticii este„cunoaşterea raŃională a normelor generale de cercetare, a surselor de date, a criteriilorde verificare, a principiilor de a judeca, a aplicaŃiilor la elementele care privesc stareanaŃiunilor”.

Legile statistice se realizează ca „o tendinŃă predominantă”, ca o necesitate care î şi croieşte drum printr-un număr foarte mare de contingenŃe şi care se manifestă înaceste contingenŃe ca medie a unui număr mare de „abateri întâmplătoare”. EvidenŃierealegilor statistice nu poate fi f ăcută decât cu ajutorul observării unui număr suficient demare de unităŃi elementare din ansamblul respectiv. Statistica modernă a deplasatgândirea statistică spre „interpretarea analitică” a fenomenelor de masă şi obŃinerea deconcluzii inductive pe baza observaŃiilor empirice, concluzii obŃinute prin metodele deinferenŃă statistică.

Desf ăşurea cercetărilor statistice are ca primă treaptă observarea unităŃilorcolectivităŃii respective care oferă „materia primă” pe baza căreia se obŃine cunoaştereastatistică. Observarea poate fi exhaustivă sau parŃială, prin varianta sa de sondaj statisticcare poate oferi informaŃia dorită, prin investigarea unui eşantion reprezentativ dinpopulaŃia respectivă şi extrapolarea rezultatelor obŃinute. Sondajele corect proiectate şidesf ăşurate permit „estimarea preciziei” şi „credibilităŃii” rezultatelor. Mărimea eroriicomise oferă garanŃia calităŃii rezultatelor obŃinute.

Page 6: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 6/118

6

Obiectul acestui îndrumător este de a oferi un cadru teoretic minimal şi o caleconcretă de utilizare a două softuri, Mathematica şi Excel, care conŃin pachete statisticesuficient de bogate care să permită prelucrarea şi analiza statistică pe baza selecŃiilorefectuate.

ConstrucŃia eşantioanelor aleatoare se face pe baza unei scheme probabiliste carene ajută să asociem la mulŃimea eşantioanelor o structură de câmp de probabilitate careva permite ca prin intermediul unor funcŃii de datele de observare să definim estimatoripentru caracteristicile numerice de bază ale populaŃiei. Pentru asigurarea unei precizii

cât mai bune a estimaŃiilor dorite şi optimizarea costurilor introduse de procedeul ales,vom folosi instrumentele moderne oferite de softurile statistice şi de teoriaprobabilităŃilor în cadrul căreia î şi găsesc explicaŃia diferite demersuri statistice. Amconsiderat util să abordăm mai în detaliu unele aspecte din tehnica simulării atât pentruobŃinerea de numere şi şiruri de numere aleatoare ce urmează o lege de repartiŃie dată,cât şi ca instrument deosebit de eficace pentru proiectarea realităŃii prin numerealeatoare şi ca instrument de modelare statistică cu numeroase aplicaŃii. În acest fel dămo semnificaŃie specială Capitolului 2 destinat eşantionării aleatoare şi teoriei selecŃiei îngeneral.

Capitolul 1 este conceput ca un sprijin direct adresat cursanŃilor şi oricărorutilizatori de statistică matematică asistată de calculator prin oferirea unui scurt ghidprivind utilizarea pachetului statistic din softul Mathematica şi a funcŃiilor statistice din

Excel.Capitolul 3 este consacrat prelucrărilor primare ale seriilor statistice prin

instrumentul tabelărilor, care preiau rezultatul primei operaŃii din demersul statistic,acela de grupare în grupe omogene de unităŃi, conform cu accepŃiunile discriminante aleuneia sau mai multor caracteristici. Se ştie că tabelarea este cea mai plastică reprezentare a statisticii care presupune o operaŃie de ordonare logică, de sistematizarece conferă materialului statistic posibilităŃi de reflectare a unor situaŃii sau procese reale.Un tabel statistic bine întocmit este un instrument de lucru deosebit pentru specialişti şide aceea tehnica de prezentare a datelor sub formă tabelară a devenit foarte răspândită

încât anuarele statistice şi publicaŃiile periodice ale diverselor oficii statistice naŃionaleşi internaŃionale o preferă ca instrument de bază.

Reprezentarea grafică a unor aspecte importante sugerate de seriile statistice dedate prin combinaŃii de linii, curbe sau diagrame specifice transmit vizual informaŃiistatistice. Ele înf ăŃişează legături, tendinŃe, structuri sub formă ilustrativă şi care

înlesnesc cunoaşterea şi previziunea. După unii autori ele imprimă în memorie, în cinciminute şi durabil, informaŃii a căror culegere şi tabelare ar cere zile întregi şi devin unsuport al gândirii statistice când oferă o reprezentare simplă şi clară. Dintre acesteamenŃionăm histogramele, poligoanele de frecvenŃe, curbele de frecvenŃe cumulate şidiagrama „stem-and-leaf” care oferă rezumări utile altor demersuri statistice.

Prelucrarea seriilor statistice cu ajutorul caracteristicilor numerice asigură parametrii de bază ai legilor de repartiŃie ce urmează a fi confirmate ca model pentruvariabilele sub cercetare. Ele reprezintă un pas înainte spre cercetarea statistică prininferenŃa statistică cu ajutorul estimaŃiilor, al verificării ipotezelor statistice, al analizei

corelaŃiilor sau al metodei regresiei.Beneficiind de audienŃa Lec Ń iilor de Statistică Matematică . Preliminarii lasofturi şi pachete statistice, prezentate de prof. dr. Gh. Constantin de la Facultatea deMatematică şi Informatică, Universitatea de Vest din Timişoara, ne propunem să oferimprin acest Îndrumă tor de laborator o asistenŃă adecvată privind transpunerearezultatelor teoretice importante în raza de acŃiune a softurilor matematice.

Adresez pe această cale recunoştinŃă şi mulŃumirile mele calduroase profesoruluimeu pentru bunele sale oficii şi răbdarea deosebită cu care m-a îndrumat şi încurajat să elaborez aceste texte şi aplicaŃii.

Page 7: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 7/118

7

Capitolul 1. Utilizarea programelor Mathematica şi

Excel .

1. Descriere general ă a programului Mathematica

Mathematica este un program, un sistem pentru efectuarea de operaŃiimatematice cu calculatorul, dezvoltat de către compania Wolfram Research, Inc. şilansat pe piaŃă pentru prima dată în 1988. Este considerat a fi cel mai putenic sistem deprocesare de informaŃie (calcul) din lume. După lansare a avut un efect profund asuprafelului în care sunt folosite calculatoarele în domeniile tehnice şi nu numai.

Dezvoltarea acestui program s-a realizat la centrul de cercetare al companiei

Wolfram Research, Inc. din Illinois, SUA, de către o echipă de specialişti subconducerea lui Steven Wolfram, designerul softului. S-a spus că Mathematica a marcat

începutul calcului matematic modern.

Într-o primă fază, Mathematica s-a dezvoltat pornind de la ideile lui Chris A.Cole şi Steven Wolfram din mai vechiul program Symbolic Manipulation Program(SMP). Acesta a fost creat la Caltech în 1979 şi comercializat pentru prima dată în1981. Este considerată versiunea 0 a programului; alte versiuni ale softului sunt:versiunea 1.0 apărută în 1988, versiunea 2.0 din 1991, versiunea 3.0 din 1996, versiunea4.0 din 1999, versiunea 5.0 din 2003, versiune 6.0 din 2007, versiunea 7.0 din 2008, iarultima versiune este 7.0.1 din 2009.

Cheia avantajului intelectual adus de Mathematica a fost invenŃia unui nou tipde limbaj de programare simbolic, care a permis pentru prima dată manipularea uneivaste mulŃimi de obiecte indispensabile pentru a atinge generalitatea necesară calcululuitehnic.

Mathematica a atins la început domenii precum fizica, ştiinŃele matematice şiştiinŃele inginereşti, dar apoi s-a extins şi în alte domenii, tehnice sau nu, precumbiologia, ştiinŃele sociale şi altele. În industrie, Mathematica a devenit un standard atât

în producŃie, pentru designul produselor, cât şi în cercetare. În comerŃ, şi în economie îngeneral, a ajutat la dezvoltarea unor modele financiare sofisticate. Totodată

Mathematica este folosită şi în educaŃie.Există chiar o comunitate care susŃine dezvoltarea continuă a softului, format din

specialişti în domeniile tehnice şi nu numai. De exemplu, MathWorld este cel mai maresite web care oferă acces gratuit la diverse resurse matematice şi care a fost construitfolosind Mathematica, cu contribuŃii de la mii de utilizatori. De asemenea există revistededicate softului Mathematica, precum The Mathematica Journal, care publică articoledespre orice aspect legat de acesta.

Page 8: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 8/118

8

2. Descrierea modului de lucru cu Mathematica

Mathematica este un program care permite calcule numerice şi simbolice,afişarea de reprezentări grafice, dar este şi un limbaj de programare complex.

Câteva caracteristici ale acestui soft sunt: folosirea de funcŃii complexe pentrudate simbolice, interfaŃa permite accesul la calcule şi comenzi anterioare, existenŃapachetelor care conŃin funcŃii matematice elementare şi speciale, posibilitatea de aconstrui grafice 2D şi 3D, existenŃa uneltelor pentru manipularea matricilor şi avectorilor, rezolvarea de ecuaŃii şi sisteme de ecuaŃii diferenŃiale ordinare, cu derivateparŃiale, rezolvarea integralelor şi relaŃiilor de recurenŃă, optimizări locale şi globale,existenŃa pachetelor de unelte pentru adăugarea de interfeŃe utilizator pentru calcule şiaplicaŃii, posibilitatea importurilor şi exporturilor de date (imagini, sunete, video-uri),suport pentru numere complexe şi precizie arbitrară. Mathematica este şi un limbaj deprogramare procedural, funcŃional, dar şi obiect orientat.

Programul permite comunicarea cu alte softuri prin MathLink , un protocolstandardizat ce asigură legătura (în ambele sensuri) dintre nucleu şi alte programe cumar fi C , Java, Word , TeX , Excel, web. MathLink acceptă configuraŃii client-serverpermiŃând softului să fie atât clientul, cât şi serverul, dar permite şi comunicarea de tip“peer-to-peer”. MathLink mai permite ca Mathematica să fie inclusă în alte aplicaŃii cepot astfel apela softul pentru calcule complicate numerice sau simbolice, sau pentrugrafice ale unor obiecte matematice.

Mathematica este un sistem software modular, care are două componenteprincipale: “front end”, adică interfaŃa, şi “kernel”, adică nucleul. Nucleul este cel careexecută instrucŃiunile şi comenzile date de utilizator şi returnează apoi rezultatul. Deobicei, nucleul nu este pornit până nu i se cere softului să facă prima operaŃie.

Lansarea în execuŃie a programului depinde de tipul de interfaŃă folosit desistemul de operare al computerului pe care este instalată Mathematica. PentruinterfeŃele grafice, apare pe ecran un obiect numit „notebook” (în traducere „caiet”) careeste gol. În acesta se pot introduce comenzi după care trebuie apăsate tastele SHIFT şiENTER concomitent. Un exemplu de „notebook” în care apar texte, operaŃii, rezultate şigrafice furnizate de Mathematica este următorul.

Page 9: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 9/118

9

Se poate observa că Mathematica afişează pe ecran „In[1]:=” în dreptulcomenzii, returnează rezultatul şi pune în faŃa acestuia „Out[1]=”. Numărul 1 seschimbă pe măsură ce se introduc mai multe instrucŃiuni.

Meniul softului cuprinde mai multe submeniuri: „File”, de unde se pot executaprelucrări asupra fişierelor ca salvarea („Save” şi „Save As…”), printarea („Print”),

deschiderea sau închiderea („Open”, „Close”); „Edit” cuprinde facilităŃi de editare adocumentelor („Select”, „Copy”, „Paste”); „Insert” permite includerea unor obiecte saufişiere, matrici, tabele şi caractere speciale în foaia de lucru; „Format”, pentrumodificarea stilului în care să apară textul în documente; „Cell”, de unde se pot precizamodificări asupra celulelor; „Graphics” dă posibilitatea includerii de grafice;„Evaluation” gestionează lucrul cu nucleul şi permite evaluarea celulelor; „Palettes”facilitează inserarea diverselor expresii matematice uzuale; „Window” are opŃiunipentru aranjarea ferestrelor mai multor notebook-uri deschise simultan; „Help” este unsubmeniu foarte important deoarece oferă informaŃii despre softul Mathematica îngeneral, despre sintaxă, funcŃii, expresii, constante şi calcule matematice.

Meniul „Help” oferă acces utilizatorului la „Documentation Center” (unde aparetoată documentaŃia despre acest program), la „Find Selected Function” (cu ajutorulcăreia se pot găsi informaŃii despre funcŃia dorită) sau la „Wolfram Website” (care esteo legătură directă către site-ul www.wolfram.com). Din „Documentation Center” sepoate accesa lista tuturor funcŃiilor predefinite prin „Index of Functions”.

Page 10: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 10/118

10

InformaŃii despre o anumită funcŃie predefinită se pot găsi selectând numeleacesteia din foaia de lucru şi apăsând apoi F1 sau tastând „?Nume” în foaia de lucru.Comanda „??Nume” dă informaŃii suplimentare, iar „?Aaaa*” returnează numelefuncŃiilor predefinite care încep cu „Aaaa”; în mod analog există comenzile „?*aaaa”,„?*aaaa*”.

Prezentăm în continuare câteva reguli de bază pentru sintaxa din Mathematica:

• argumentele funcŃiilor sunt încadrate între paranteze drepte […];parantezele simple (…) sunt folosite pentru a grupa operaŃii; parantezeledrepte duble [[…]] sunt folosite pentru indexarea listelor;

• numele funcŃiilor predefinite încep cu majusculă; dacă un nume estecompus din mai multe cuvinte, fiecare dintre acestea începe cu literă mare;

• numerele se introduc astfel: 2.5*10^-4 sau 2.5 10^-4.

Mathematica conŃine şi o mare colecŃie de funcŃii matematice, dintre careexemplificăm câteva: radicalul de ordin 2 Sqrt[x], funcŃia exponenŃială Exp[x], funcŃialogaritmică Log[x], Log[b, x], funcŃiile trigonometrice Sin[x], Cos[x], Tan[x], funcŃiile

invers trigonometrice ArcSin[x], ArcCos[x], ArcTan[x], modulul Abs[x], n! prinFactorial[n], Round[x], restul împărŃirii lui n la m, Mod[n, m], Random[ ], maximul

Max[x, y, ... ], minimul Min[x, y, ... ].

Sunt predefinite în Mathematica şi câteva constante, cum ar fi Pi, E, I (numărul

complex 1−=i ), Infinity (∞ ), GoldenRatio (2

51+), EulerGamma (0.577216),

Page 11: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 11/118

11

Catalan (0.915966), Khinchin (2.68545), Glaisher (1.28243).

În Mathematica se pot defini variabile, adică se pot atribui nume unor expresiisau constante. Acest lucru se face în următorul mod:

• x = valoare atribuie o valoare variabilei x;

• x=y=valoare atribuie o valoare atât lui x, cât şi lui y;

• Clear[x] sau x =. înlătură orice valoare atribuită lui x.

Numele variabilelor pot fi oricât de lungi, dar nu pot începe cu cifre şi Mathematica face diferenŃa între litere mari şi mici. FuncŃiile predefinite încep cu literemari, de aceea este recomandat ca variabilele şi funcŃiile definite de utilizator să înceapă cu literă mică. Trebuie precizat că dacă o instrucŃiune se încheie cu caracterul „ ; ”,atunci valoarea returnată de Mathematica nu se afişează pe ecran.

Variabilele de mai jos sunt denumite similar, cu diferenŃa că numele unuia este oliteră majusculă şi a celuilalt nu. Mathematica poate deosebi între apelul uneia saualteia.

Anumite caractere şi secvenŃe de simboluri (nume de funcŃii) sunt protejate în Mathematica, adică nu pot fi folosite în alt scop decât cel stabilit de soft. De exemplu,nu este posibilă folosirea caracterului „N” pentru denumirea unei variabile sau funcŃiedeoarece în Mathematica acesta reprezintă numele unei funcŃii predefinite ce returnează valoarea numerică a unei expresii date ca argument. Dacă se întâmplă acest lucru,

Mathematica afişează pe ecran un mesaj de eroare specificând că simbolul „N” este

protejat, după cum se poate observa mai jos.

Page 12: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 12/118

12

Numele unei variabile în Mathematica va fi asociat valorii respective tot timpulcât programul este deschis. La terminarea unei sesiuni aceste variabile dispar. Esteimportant ca utilizatorul să fie atent la atribuirea de nume variabilelor dacă respectiveledenumiri nu au mai fost folosite. De aceea este sugerat ca variabilele să fie şterse dacă acestea nu mai sunt utile. Există însă şi variabile locale definite cu ajutorul funcŃiilor

Module sau With.

Listele sunt mijloacele de a grupa obiecte în Mathematica, acestea fiind niştestructuri generale foarte importante. Acestea sunt cele mai flexibile şi mai puterniceobiecte din Mathematica. Un exemplu de listă este 2,3,5 (o colecŃie de trei numere înacest caz). Această listă poate fi tratată ca o entitate şi se pot face operaŃii asupra ei înacest mod. De exemplu:

Multe dintre funcŃiile predefinite în acest soft au proprietatea de a fi „listable”,adică pot primi ca argument o întreagă listă, dar operează asupra fiecărui element dinlista respectivă. Un astfel de exemplu este cel al funcŃiei „Exp” de mai sus. PentrufuncŃiile care nu au această proprietate se pot folosi funcŃiile predefinite „Map” şi„Thread” care au acelaşi efect. Listele se pot construi cu funcŃii ca Table, Array sau

Range sau pot fi introduse direct de la tastatură.

În Mathematica există structuri precum vectori sau matrici, dar acestea sunt totliste, mai precis liste care au ca elemente alte liste. Tot ce este inclus între dou ă acoladeeste considerat o listă. a, b, c este un vector (prima compenentă a vectorului este „a”,cea de-a două „b” şi cea de-a treia „c”), iar a, b,c, d este o matrice cu două linii şidouă coloane. Matricile pot fi afişate pe ecran sub formă matricilă, şi nu de simplă listă,folosind funcŃiile „TableForm” şi „MatrixForm”.

Page 13: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 13/118

13

În Mathematica se poate face conversia între o listă de liste şi o listă simplă şiinvers folosind funcŃiile „Flatten” şi „Partition”.

Mathematica lucrează cu diferite obiecte precum formule matematice, liste şigrafice, pentru a numi doar câteva. Deşi pe ecran arată cu totul diferit, în nucleul săuprogramul reprezintă toate aceste obiecte sub aceeaşi formă, de expresie. Deci totul în

Mathematica este o expresie. Prototipul pentru o expresie este f[x,y], unde f reprezintă

tipul expresiei (numit „head”). De exemplu, atunci când se introduce de la tastatură „x+y”, softul converteşte ceea ce s-a introdus în expresia „Plus[x,y]”, dar afişează peecran tot „x+y”.

Una dintre cele mai importante caracteristici ale programului Mathematica esteaceea că este un sistem extensibil. Adică pe lângă multitudinea de funcŃii incluse înnucleu (numite „built-in”), mai posedă şi un număr de pachete ce conŃin funcŃiisuplimentare. Acestea pot fi folosite de utilizator numai după încărcarea pachetuluirespectiv, sunt funcŃii scrise folosind softul Mathematica şi corespund unor domeniidiverse de aplicabilitate. Acestea se pot încarca în două feluri:

Exemple de pachetele din Mathematica sunt „ANOVA”, „Audio”, „BarCharts”,„Calendar”, „Combinatorica”, „ComputationalGeometry”, „ComputerArithmetic”,„FourierSeries”, „FunctionApproximations”, „Histograms”, „HierarchicalClustering”,„HypothesisTesting”, „LinearRegression”, „MultivariateStatistics”,„NonlinearRegression”, „NumericalCalculus”, „PieCharts”, „RegressionCommon”,„StatisticalPlots”.

Există funcŃii pentru repartiŃii statistice continue şi discrete, unidimensionale şimultidimensionale, pentru determinarea unor diverşi coeficienŃi ai statisticii descriptive în

cazul datelor unidimensionale şi multidimensionale, pentru verificări de ipoteze statistice,estimări de tip interval de încredere şi funcŃii de regresie liniară şi neliniară.

Noi ne vom ocupa în acest îndrumător cu descrierea şi aplicarea unor instrucŃiuni cevizează prelucrări statistice primare sub formă tabelară pentru a construi eşantioanenealeatoare, generări de numere aleatoare având diverse repartiŃii cu rutina „Random”, darşi prin metode analitice (metoda lui von Neumann, metoda lui Lehmer etc.) pe care apoi levom folosi la construcŃia diferitelor tipuri de eşantioane aleatoare.

Page 14: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 14/118

14

3. Descriere general ă a programului Microsoft Excel

Microsoft Office Excel este un program de calcul tabelar şi cel mai utilizatprogram din lume pentru un astfel de calcul, deŃinând o cotă impresionantă de piaŃă

estimată la 90%. Acest soft este proprietatea Microsoft , companie care a devenitcunoscută prin dezvoltarea sistemului de operare Windows şi a produselor Microsoft Office. Începând de la mijlocul anilor 90 şi continuând până în prezent, Excel a dominatpiaŃa aplicaŃiilor de tip „spreadsheet”.

NoŃiunea de „spreadsheet” denumeşte o aplicaŃie care simulează electronic (peun calculator) o foaie de calcul de hârtie. Această aplicaŃie este formată din mai multe„celule”, care împreună formează o tabelă alcătuită din mai multe rânduri şi coloane. Înfiecare celulă se pot găsi texte (secvenŃe de simboluri alfanumerice) sau valorinumerice. În cazul Excel-ului, un al treilea tip de dată este cel al formulelor. Astfel, ocelulă poate conŃine şi o expesie matematică ce specifică modul de determinare a valorii

care se va afişa pe ecran folosind conŃinuturile altor celule. Schimbarea valorii uneicelule induce în mod automat, în acest caz, modificarea valorii tuturor celulelor cedepind de aceasta.

Excel oferă utilizatorului posibilitatea de a efectua calcule matematice, conŃineunelte puternice pentru realizarea de diagrame şi permite programarea prin componentasa VBA (Visual Basic for Applications). Este unul dintre cele mai populare aplica Ńiipentru computere de până acum. Cea mai recentă versiune disponibilă pentru Windows este Microsoft Excel 2010, dar exerciŃiile şi exemplele utilizate în acest îndrumător aufost rezolvate folosind versiunea din 2003.

Excel oferă multe avantaje din punct de vedere al interfeŃei pe care o are,interfaŃă de tip GUI (Graphical user interface), foarte „prietenoasă” pentru utilizator.Totuşi se păstrează esenŃa aplicaŃiei de tip „spreadsheet”, aceea că foile de lucru suntorganizate în celule, care fac parte la rândul lor din coloane şi rânduri, şi pot conŃineformule, texte sau valori (constante) cu referiri relative sau absolute la alte celule.

Câteva caracteristici ale acestui program includ posibilitatea de a crea tabele detip „pivot” (numite „pivot tables”), adică modele de sumarizare şi stocare a informaŃieiregăsite în aplicaŃii de vizualizare a datelor. Printre alte funcŃii, aceste tipuri de tabelepot sorta, aduna, totaliza datele stocate şi pot crea un nou tabel cu rezultatele acŃiunii desumarizare. Prin intermediul Excel-ului se pot face importuri şi exporturi de date si se

pot crea liste.Mai trebuie precizat că există o comunitate a celor care folosesc programulExcel şi care se reuneşte pe diferite site-uri web. Folosind diverse platforme, eiinteracŃionează spre o mai bună informare asupra facilităŃilor softului.

Există chiar şi o alternativă gratis a Excel-ului ce are multe similarităŃi cu acesta.Se numeşte OpenCalc şi face parte din suita de programe Open Office, o replică gratuită a produsului Microsoft Office.

Page 15: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 15/118

15

4. Descrierea modului de lucru cu Excel-ul

După cum am mai precizat, softul Excel oferă utilizatorului, prin afişare peecran, o foaie de lucru („worksheet”) compusă din mai multe celule organizate pe

rânduri şi coloane. Aceste foi sunt grupate în registre. După deschiderea aplicaŃieiExcel, pot fi utilizate unul sau mai multe registre, care la rândul lor con Ńin una sau maimulte foi de lucru, foi cu diagrame sau module macro. Macro-ul este o no Ńiune caredefineşte capacitatea Excel-ului de a automatiza acŃiuni ale utilizatorului princomponenta VBA.

Programul Excel efectuează calcule numerice folosind formule, adică manipulări asupra adreselor unor celulelor spre a determina o valoare dorită, reŃinută înaltă celulă. Se mai pot face diagrame de diferite tipuri, rezolvări de ecuaŃii princomponenta „Solver”, operaŃii financiare şi asupra valorilor de tip dată calendaristică,operaŃii asupra datelor stocate într-o bază de date sau listă, investigări statistice.

Specificăm în continuare modul de deschidere a aplicaŃiei Excel. Programul sepoate deschide în mai multe feluri: dând dublu clic pe icoana de pe desktop,

alegând opŃiunea „Open” din meniul care se deschide atunci când facem clic dreapta peicoană sau din meniul „Start” al sistemului de operare Windows (calea este Start→Allprograms→Microsoft Office→Excel).

În acest fel apare pe ecran fereastra softului constituită dintr-un registru cu maimulte foi de calcul.

Page 16: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 16/118

16

Se poate observa că foaia de lucru este împărŃită în mai multe celule aflate laintersecŃia liniilor şi coloanelor. Fiecare coloană din cele 256 existente este denumită folosind o literă a alfabetului, de la A la Z, apoi urmează AA, ..., AZ, ... IV. Liniile suntnumerotate, existând 16000 în total. Fiecare celulă are o adresă cu ajutorul căreia se potface referiri la ea: „A7” este un exemplu de adresă pentru celula aflată la intersecŃiaprimei coloane şi celui de-al şaptelea rând.

În fiecare celulă se poate introduce de la tastatură o valoare numerică, un text

sau o formulă conŃinând prelucrări asupra altor celule, funcŃii predefinite şi operaŃiimatematice. Se poate întâmpla ca Excel-ul să afişeze într-o celulă o valoare eronată degenul „#DIV/0!”, „#VALUE!”, „#NUM!”, „#NAME?” atunci când o formulă nu a fostbine introdusă, o funcŃie nu are argumentele corespunzătoare, referinŃa unei celule nueste validă sau din alte cauze. Atunci când apare „#####” într-o celulă înseamnă că valoarea conŃinută are o dimensiune mai mare ca celula şi aceasta trebuieredimensionată.

Fereastra Excel-ului are mai multe elemente. Pe primul rând apare numelesoftului şi al registrului, Microsoft Excel şi „Book1”. Apoi interfaŃa prezintă meniulaplicaŃiei constituit din „File”, „Edit”, „View”, „Insert”, „Format”, „Tools”, „Data”,

„Window” şi „Help”.

Urmează dedesubt bara de instrumente, în care se regăsesc comenzi şi opŃiunidin meniuri sub forma unor butoane.

Mai jos se află bara de formule, locul unde se pot introduce de la tastatură formule cu funcŃii predefinite sau operaŃii matematice asupra conŃinuturilor celulelor.

Exemplificăm câteva dintre facilităŃile cuprinse în meniurile Excel-ului.Meniul „File” conŃine opŃiuni pentru prelucrări asupra fişierelor ca salvarea

(„Save”, „Save As...”), deschiderea („Open”), închiderea („Close”), printarea („Print”).„Edit” oferă opŃiuni pentru editarea fişierelor precum copierea („Copy”, „Cut”),

lipirea („Paste”), găsirea sau înlocuirea unei valori („Find”, „Replace”, „Go To”),eliminarea unei acŃiuni („Undo”) sau repetarea ei („Redo”).

„View” are diverse posibilităŃi de vizualizare a foii de lucru ca „Normal”, „PageBreak Preview” sau „Custom views” şi de asemenea opŃiuni pentru afişarea de barediferite ca „Formula bar”, „Toolbars”, „Status bar”.

„Insert” poate insera celule („Cells”), rânduri („Rows”), coloane („Column”) înfoaia de lucru, foi noi („Worksheets”) în registrul de lucru sau grafice („Chart”), func Ńii(„Function...”), simboluri („Symbol”) şi obiecte într-un document („Object”).

Meniul „Format” permite formatarea celulelor („Cells”), rândurilor saucoloanelor.

„Tools” oferă diverse unelte pentru corectarea greşelilor de scriere („Spelling”),pentru analiza statistică a datelor („Data Analysis”), pentru rezolvarea ecuaŃiilor(„Solver”), introducerea de macro-uri, precum şi alte opŃiuni („Options”).

„Data” conŃine opŃiuni de creare a listelor („List”), de importuri de date („ImportExternal Data”), de sortare şi filtrare a datelor („Filter”).

Page 17: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 17/118

17

„Window” are opŃiuni pentru împărŃirea foii de lucru în mai multe ferestre maimici („Freeze Panes” şi „Split”), de aranjare a ferestrelor atunci când mai multe registresunt deschise („Arrange...”), de ascundere sau vizualizare a registrelor („Hide” şi„Unhide”).

Meniul „Help” reprezintă o sursă de informaŃii despre facilităŃile softului. Prinaceastă componentă utilizatorul are acces la informaŃii stocate atât în calculatorulpropriu, cât şi pe web. Acestea sunt ordonate pe capitole ca „Working with Data” (lucru

cu datele), „Formulas” (formule); se poate căuta o anumită funcŃie în căsuŃa „Searchfor”.

Diagramele sunt una dintre cele mai importante facilităŃi oferite de Excel si se

pot construi selectând „Chart...” din meniul „Insert” sau folosind butonul de pebara de instrumente. În mod analog, funcŃiile predefinite ale Excel-ului se pot apela din

acelaşi meniu, cu „Function...” sau folosind butonul , dacă acesta se găseşte pe barade instrumente.

Tipurile de funcŃii predefinite ale Excel-ului sunt de mai multe feluri: financiare(„Financial”), pentru operaŃii cu date calendaristice („Date & Time”), matematice(„Math & Trig”), statistice („Statistical”), pentru date de tip text („Text”), logice(„Logical”), pentru ingineri („Engeneering”), pentru baze de date („Database”),referinŃe şi găsirea unei valori („Lookup&Reference”). Există o categorie care cuprindelista tuturor funcŃiilor („All”) şi una a celor mai recent folosite funcŃii („Most RecentlyUsed”).

Page 18: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 18/118

18

Enumerăm câteva dintre funcŃiile matematice predefinite: funcŃiiletrigonometrice şi inversele lor („COS”, „SIN”, „TAN”, „ACOS”, „ASIN”, „ATAN”),valoarea absolută („ABS”), funcŃia exponenŃială („EXP”), logaritmică („LN”), n!(„FACT”), funcŃia de înmulŃire a două matrici („MMULT”), restul împărŃirii a două

numere („MOD”), radicalul („SQRT”), operaŃii aritmetice („SUM”, „PRODUCT”),generarea unui număr aleator („RAND”). Dintre funcŃiile logice amintim „IF”,„TRUE”, „FALSE”, „AND” şi „OR”. Aşadar, deşi Excel-ul este nu este un softmatematic, el poate suplini rolul softurilor specializate în această direcŃie, căci cuprindenumeroase funcŃii din acest domeniu după cum am putut observa din descrierea de maisus.

Programul are o componenta „Solver” de optimizare şi programare matematică.Acesta se găseşte la meniul „Tools”, opŃiunea „Add-Ins”.

Excel-ul are şi o componentă importantă de statistică pe care o vom exploatacăutând să o aducem la faza în care să poată suplini un soft statistic. MenŃionăm câtevadintre funcŃiile statistice ale softului, apoi precizăm facilităŃile oferite de pachetul„Analysis ToolPak”, precum şi ce fel de prelucrări statistice se pot face asupra datelor.

Aşadar, dintre funcŃiile statistice amintim: „AVERAGE” (media aritmetică),„COUNT” (numărul elementelor dintr-o listă), „COUNTIF” (numărul elementelordintr-o listă care îndeplinesc un criteriu), „COVAR” (covarianŃa a două seturi de date),„FREQUENCY” (frecvenŃa absolută a elementelor dintr-o listă), „GEOMEAN” (mediageometrică), „HARMEAN” (media armonică), „KURT” (coeficientul Fisher deaplatizare sau excesul), „LARGE” (returnează al k-lea cel mai mare număr dintr-o seriede date), „MAX” (valoarea maximă), „MEDIAN” (mediana), „MIN” (valoarea

Page 19: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 19/118

19

minimă), „MODE” (moda), „PEARSON” (coeficientul de corelaŃie Pearson),„PERCENTILE” (cuantile de diferite ordine), „QUARTILE” (cuartilele), „SKEW”(coeficientul de asimetrie a lui Fisher), „SMALL” (returnează al k-lea cel mai micnumăr dintr-o serie de date), „STDEV” (abaterea medie pătratică), „VAR” (varianŃaunei serii de date).

Excel-ul pune la dispoziŃie funcŃii prin care avem acces la câteva dintre cele maicunoscute distribuŃii: „BETADIST” (distribuŃia beta), „BINOMDIST” (distribuŃia

binomială), „CHIDIST” (distribuŃia 2 χ ), „EXPONDIST” (distribuŃia exponenŃială),„FDIST” (distribuŃia F), „GAMMADIST” (distribuŃia gamma), „HYPGEOMDIST”(distribuŃia hipergeometrică), „LOGNORMDIST” (distribuŃia lognormală),„NEGBINOMDIST” (distribuŃia binomială negativă), „NORMDIST” (distribuŃianormală), „POISSON” (distribuŃia Poisson), „TDIST” (distribuŃia Student),„WEIBULL” (distribuŃia Weibull). Totodată mai există şi pseudoinversele funcŃiilor derepartiŃie pentru câteva distribuŃii.

Se pot face verificări de ipoteze statistice şi estimaŃii în Excel cu ajutorul unorfuncŃii predefinite ca „CONFIDENCE”, „CHITEST”, „FTEST”, „TTEST”, „ZTEST”.

Excel dispune de anumite funcŃii pentru efectuarea regresiilor asupra unor seturi

vectoriale de date: pentru regresia liniară există „LINEST”, „TREND”, „FORECAST”,„SLOPE”, şi „STEYX”, pentru regresia exponenŃială - „LOGEST” şi „GROWTH”.

Instrumentele pentru construcŃia de diagrame sunt foarte diverse în Excel, acestapunând la dispoziŃia utilizatorului multe tipuri de grafice, atât 2D, cât şi 3D: cu bare,disc împărŃit în sectoare, cu cilindrii, conuri sau piramide, cu suprafeŃe, de tip “Scatter”şi altele. Se pot construi histograme şi poligoane de frecvenŃe pentru serii statistice,precum şi grafice de funcŃii matematice. Aceste facilităŃi pot fi accesate din meniul„Insert”, opŃiunea „Graph”.

Pe lângă funcŃiile statistice, în Excel există şi pachetul numit „Data Analysis” cese găseşte la opŃiunea „Add-Ins” din meniul „Tools”.

Aici se găsesc facilităŃi pentru a efectua diverse operaŃii statistice ca analizavarianŃei (ANOVA), histograme, teste statistice, regresii, eşantionare şi generare denumere aleatoare cu anumite distribuŃii.

Page 20: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 20/118

20

Capitolul 2. GeneralităŃi privind culegerea datelor

statistice.

Statistica matematică este acea ramură a ştiinŃei care se ocupă cu descrierea şianaliza numerică a fenomenelor de masă, urmărind particularităŃile de volum, structură dinamică, conexiunile şi regularităŃile sau legile ce le guvernează.

Cercetarea statistică se realizează în trei etape distincte. Prima etapă, cea aobservării statistice, asigură culegerea informaŃiilor primare de la unităŃile statistice cecompun populaŃia; a doua etapă este prelucrarea datelor statistice şi apoi analiza şiinterpretarea rezultatelor obŃinute, în vederea formulării concluziilor referitoare lapopulaŃia investigată.

Observarea statistică constă în culegerea informaŃiilor referitoare la unităŃilestatistice şi caracteristicile acestora, după criterii bine definite, pe bază de plan carespecifică problemele legate de obiectul observării, scopul, programul, timpul şi loculobservării. Observarea prin care se înregistrează toate unităŃile populaŃiei se numeşte„observare totală” sau „exhaustivă” (de exemplu recensământul populaŃiei).„Observarea parŃială” prin anchetă, prin sondaj, constă într-o investigaŃie întreprinsă peo fracŃiune reprezentativă a populaŃiei statistice numită e şantion. În virtuteareprezentativităŃii corecte a eşantionului (pentru micşorarea erorii de acoperire),informaŃiile obŃinute prin sondaj sunt extinse la întreaga populaŃie prin tehnicainferenŃei statistice. Odată cu înregistrarea sistematică a unităŃilor alese în eşantion şirespectiv a datelor numerice sau informaŃilor calitative asociate, într-o primă etapă, areloc şi o oarecare sistematizare şi prelucrare primară strict necesară prezentării aşa

numitelor serii (sau reparti Ń ii) statistice. Prin acestea se înŃelege orice şir de valorinumerice (sau calitative) asociate caracteristicii sub cercetare, ordonate după valorileunei alte caracteristici (aceasta putând fi teritorială, adică spaŃială, conducând la seriistatistice spaŃiale; poate fi temporală, conducând la serii cronologice). Când se

înregistrează schimbările frecvenŃelor caracteristicii sub cercetare în funcŃie de variaŃiaunei alte caracteristici se ajunge la seria statistică de reparti Ń ie (sau reparti Ń ia de

frecven Ń e). Deseori, domeniul de valori al variabilei sub cercetare este divizat în clasedisjuncte care acoperă toate cazurile particulare (adică exhaustiv), chiar dacă are loc opierdere de informaŃie. Numărul de observaŃii corespunzătoare fiecărei clase (intervalcomponent) din repartiŃia statistică se numeşte frecven Ńă de clasă sau frecven Ńă absolut ă

asociat ă clasei (notată cu ai f ) şi suma frecvenŃelor absolute este egală cu volumul

eşantionului.

Frecven Ń a relativă a unei clase (notată cu r i f , i = rangul clasei), este

r i f

def

= esantionvol

f ai

.

not

= f i

Page 21: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 21/118

21

uneori exprimându-se în procente, adică esantionvol

f ai

.100%.

RepartiŃiile de frecvenŃe în cazul variabilelor calitative şi, respectiv, cantitativese scriu sub forma:

Clase a b cfrecvenŃe f(a) f(b) f(c)

respectiv:

Y :

n

n

f f

y y

,...,

,...,

1

1 not

=

nii

i

f

y

,1=

y i reprezentând valorile variabilei sub cercetare Y , în ordine crescătoare. Seriile finite

asociate caracteristicilor definite pe populaŃii finite, de volum N , se mai scriu şi sub

forma ( xi ,N i) k i ,1=, unde i x sunt valorile distincte ale caracteristicii cercetate, i N

frecvenŃa valorii i x în seria respectivă şi N 1+....+ N k = N , iar pentru s eşantioane de

volum n sub forma ( xij,nij) siim j ,,,1 ==, ni1+...+nim = n, si ,1=∀ sau sub forma ( xij,

r ij f ) sim j ,1,,1 == , 1...1 =++ r imr i f f , si ,1=∀ .

Uneori, seriile statistice supuse unor prelucrări primare sau a unor sistematizărilogice sunt prezentate sub formă de tabele statistice care oferă asambluri de judecăŃidespre subiect (populaŃia sau componentele ei) şi despre predicat (elemente statistice cecaracterizează populaŃia: numărul de unităŃi, repartiŃii cumulative – ascendent saudescendent – de frecvenŃe şi alte informaŃii).

În cazul variabilelor nediscrete se aplică repartiŃia pe clase (grupe) de valori alevariabilei aleatoare sub cercetare, adica domeniul de variaŃie de forma (a,b) , (a,b], [a,b)sau [a,b], (sau puŃin extinse la stânga sau la dreapta cînd seria se termină cu o clasă deschisă, cînd frecvenŃele nu sunt semnificative pentru a constitui o clasă clară) se

împarte într-un număr convenabil de clase consecutive de amplitudini hi , egale sau nu,şi se indică pentru fiecare clasă frecvenŃa respectivă obŃinută prin asimilarea valorilordin clasă cu o distribuŃie uniformă pe acel interval

X:

>+=<≤<≤<≤−= −

n

nn

f f f

micsicuba xaa xaa xaa

...

0,,...,,

21

12110 ε ε ε

unde a-ε , a1,..., an-1 , b+ε sunt extremităŃile claselor.Uneori se înregistrează lungimile

intervalelor hi=ai+1 - ai şi mijloacele acestora2

1* iidef

i

aa x

+= + , iar frecvenŃele de clasă se

înlocuiesc uneori prin aşa numitele frecvenŃe reduse” notate prin:

nih

h f f i

iii ,1,)min(** == .

În ceea ce priveşte prelucrarea seriilor statistice, existenŃa unor softuri statisticeperformante şi a unor pachete statistice în diferite programe matematice sau de altă natură uşurează foarte mult eforturile pentru obŃinerea rezultatelor dorite.

Ne propunem să prezentăm diferite modalităŃi de construire a eşantioanelor împreună cu unele exemplificări de utilizare a programelor Mathematica şi Excel.

Page 22: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 22/118

22

1. Câteva aplica Ń ii privind construirea unor e şantioane

nealeatoare.

Atunci când populaŃia este omogenă, „sondajul prin alegerea raŃională” poate fi osoluŃie în sensul asigurării unei oarecare fidelităŃi cu populaŃia originară, asumându-se

unele dezavantaje, dar beneficiind de o oarecare operativitate şi evitarea cerinŃei de adispune de lista unităŃilor populaŃiei care uneori este greu sau imposibil de întocmit sauactualizat şi devine mai puŃin costisitoare.

Acest tip de sondaj se bazează pe ideea că reprezentativitatea poate fi asigurată prin alegere raŃională şi nu implică selecŃie aleatoare. Dintre cele mai importante tehniciraŃionale de eşantionare amintim: eşantionarea pe cote, care este metoda ce oferă rezultatele cele mai exacte, tehnica de eşantionare pe baza de voluntariat, anchetele pestradă, sondajele în reŃea.

Metodele de selecŃie nealeatoare ce au la bază „alegerea raŃională” pornesc de la

unele analize prealabile asupra compoziŃiei populaŃiei de referinŃă şi a unor tendinŃerezultate din studii anterioare. Sunt recomandate în cazul populaŃiilor de referinŃă omogene pentru că oferă un grad de operativitate sporit şi o micşorare a costurilor. Nutrebuie neglijate dezavantajele datorate unei slabe „fidelităŃi” faŃă de întreaga populaŃieşi imposibilitatea estimării varianŃei şi a deplasării estimatorilor faŃă de indicatoriipopulaŃiei de referinŃă.

Dintre tipurile de asemenea eşantionări amintim aşa zisa „e şantionare laîntâmplare”, „e şantionare dirijat ă ”, „e şantionare mixt ă ”, şi „e şantionare prinvoluntari” (folosită în studiile medicale, de psihologie sau de marketing). Cea maiutilizată este „e şantionarea prin metoda cotelor ” sau „repartizarea propor Ń ională ”

folosită în cazul populaŃiilor grupate sau stratificate (în anchetele socio-economice,anchetele de opinie etc.). Această metodă are în vedere existenŃa unei partiŃionări a

populaŃiei cu card () = N în r subpopulaŃii de cardinal N i , i= r ,1 , astfel încât N =

N 1+...+ N r şi ii k

N

N = (exprimat zecimal sau procentual) care conduce la recomandarea

ca eşantionul de volum n să fie repartizat pe componente astfel încât nk n ii = , r i ,1=

(în cazul când rapoartele N

N i şin

ni sunt exprimate în procente, vom constata că valorile

procentuale sunt egale, dar bazele la referinŃă diferă). Pentru sporirea gradului dereprezentativitate a eşantionului în definirea structurii pe componente a populaŃiei sefolosesc „variabile de control” prin care se înŃelege ansamblul caracteristicilor luate înstudiu, în funcŃie de tipul populaŃiei, de cerinŃele studiului respectiv, atât teoretice cât şipractice. Ele au ca obiectiv o bună reprezentativitate a eşantionului, asigurarea unorcondiŃii ca frecvenŃele să definească distribuŃii statistice cărora să li se poată aplica şitehnicile probabiliste, să evite implicarea operatorului de teren şi chiar şi arespondenŃilor. De exemplu, în cazul populaŃiilor umane se vor avea în vedere regiunilesocio-economice, categoriile socio-profesionale, starea civilă, sexul, vârsta etc., iar în

Page 23: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 23/118

23

cazul când unitatea de bază este gospodăria trebuie luate în seamă regiunea socio-culturală sau geografică, categoria localităŃii, numărul membrilor de familie, categoriasocio-profesională a părinŃilor, numărul de copii etc.

Există posibilitatea sporirii fidelităŃii eşantioanelor prin luarea în considerare, pe

lângă volumele straturilor, şi gradul de variabilitate σ i (abaterea standard a unităŃii din

stratul i) din fiecare strat. Vom alege

in = n •

∑=

k

iii

ii

N

N

1

σ

σ

, i= k ,1,

adică direct proporŃional cu volumul stratului şi invers proporŃional cu omogenitateaacestuia.

Există şi o altă repartizare proporŃională însă nu în raport cu proporŃia stratului cicu valorile unei variabile aleatoare X .

O convenŃie cu caracter practic este ca ni obŃinute să fie ajustate convenabil lanumere naturale.

În multe cazuri, finalizarea prelucrărilor primare se prezintă sub forma de tabelestatistice de diferite tipuri (sugerate, uneori, chiar de rapoartele cerute de Direc Ńiile

Regionale sau NaŃionale de Statistică).

AplicaŃii practice

UtilizaŃi calculatorul în actualizarea sau detalierea unor baze de date şimanipularea unor tipuri de tabele statistice.

ExerciŃiul 1.

Pentru a exersa utilizarea diferitelor funcŃii din softurile Mathematica şi Excel,

se precizează o bază de date privitoare la starea civilă şi sexul populaŃiei din Bucureşti într-un an, prezentată sub forma unui tabel combinat cu grupări după cele două caracteristici amintite şi anume:

Tabelul nr. 1. DistribuŃia populaŃiei oraşuluiBucureşti după starea civilă

din care

Starea civilă Total populaŃie masculin feminin

NecăsătoriŃi 468947 247453 221494

CăsătoriŃi 647095 325604 321491

DivorŃaŃi 37827 8773 29054

Văduvi 81190 8985 72205

Nedeclarată 1849 646 1203

Page 24: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 24/118

24

Total 1236908 591461 645447

Se cere să detaliaŃi baza de date de mai sus prin oferirea a două noi tabele:1) un tabel (numărul 2) format prin adăugarea a trei coloane noi:a) o coloană în care se înregistrează ponderea stărilor civile, numită „ponderea %

st. civ.” şi notată în soluŃia din Mathematica „procent %”, intercalată între coloana a

doua şi a treia din tabelul iniŃial (devenită coloana a treia în noul tabel);b) o coloană în care se înregistrează ponderea bărbaŃilor după starea civilă

(devenită coloana a cincea în noul tabel) şi numită „ponderea % bărb”, notată în soluŃiadin Mathematica „masc %”;

c) o coloană similară celei de la b) pentru femei, a şaptea, numită „ponderea %fem”, şi notată în soluŃia cu Mathematica „fem %”.

2) un tabel intitulat „Tabel cu alocările de subeşantioane relativ la un eşantion devolum n=1100” şi construit prin „metoda cotelor proporŃionale” (aici procentele relativela volumul eşantionului).

SoluŃia în Mathematica.

a) Declarăm o listă „A” care va reŃine datele din tabel.

FuncŃia "TableForm" prezintă lista „A” sub forma unui tabel.

Pentru a construi altfel tabelul de mai sus, trebuie selectat din meniul ferestreisoftului opŃiunea „Insert” şi de acolo „Table/Matrix” -> „New”. Astfel se deschide ocăsuŃă unde se poate preciza ce se doreşte a se construi, tabel sau matrice, precum şinumărul de linii şi de coloane ale tabelului sau matricii. Mai trebuie bifate căsuŃele„Draw lines between rows”, „Draw lines between columns” şi „Draw frame”.

Page 25: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 25/118

25

Comanda următoare inserează pe prima linie la poziŃia a treia „Procent %” şi

modifică tabelul.

InstrucŃiunea „For” inserează valorile procentelor corespunzătoare pe poziŃia atreia pe fiecare linie din tabel şi modifică tabelul.

Vom insera în continuare în tabel o nouă coloană numită “masc %”. Pe primalinie va avea scris chiar „masc %”, iar pe celelalte linii vor fi scrise, respectiv,

procentele care corespund numărului de persoane de sex masculin din numărul total depersoane necăsătorite, căsătorite, divorŃate, văduve. Aceasta se realizează folosindfuncŃia “Insert” şi instrucŃiunea repetitivă “For”. Apoi se va afişa tabelul modificat cuajutorul funcŃiei „TableForm”.

Se face acelaşi lucru pentru o nouă coloană numită „fem %”.

Page 26: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 26/118

26

În continuare vom construi un tabelul intitulat „Tabel cu alocările desubeşantioane relativ la un eşantion de volum n = 1100 şi construit prin „metoda cotelorproporŃionale” (aici procentele relative la volumul eşantionului). Pentru a face acestlucru, mai întâi vom defini o lista pe care o numim „tabesant” şi care va lua iniŃialvaloarea tabelului memorat în variabila „A”. Apoi vom face modificări asupra acesteiafolosind instrucŃiunea repetitivă „For”.

Forma finală a tabelului se afişează cu funcŃia „TableForm”.

Facem un nou tabel cu rezultatele ajustate privind cotele eşantionului.

Page 27: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 27/118

27

SoluŃia în Excel.

Construim mai întâi tabelul de mai sus în Excel. Pentru aceasta deschidemfereastra Excel-ului cu 3 foi de lucru numite „Sheet1”, „Sheet2”, „Sheet3”. Pentruintroducerea tabelului se poate alege oricare dintre acestea.

Se selectează căsuŃele de pe prima linie de la A1 până la D1 în vederea scrieriiun text mai lung. Din bara de meniuri a ferestrei aflată în partea de sus a ecranului seselectează meniul „Format Cells”. Se deschide următoarea fereastră.

Din submeniul „Number→Category” alegem opŃiunea „Text”, iar din

submeniul „Alignment” bif ăm cu mouse-ul căsuŃele din dreptul opŃiunilor „Wrap Text”şi „Merge cells” de la secŃiunea „Text Control”.

Page 28: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 28/118

28

Astfel celulele selectate anterior, A1 până la D1, vor fi considerate acum ca osingură celulă, renumită A1 şi care este lungită, de tip text, în care se va putea scrie pemai multe rânduri. În această celulă introducem textul „Tabelul nr. 1. DistribuŃiapopulaŃiei oraşului Bucureşti după starea civilă” şi redimensionăm celula.

Completăm apoi restul capului de tabel astfel încât, după ce am f ăcut operaŃiilenecesare, acesta să arate astfel:

.

Completăm acum şi restul tabelului după cum urmează: pe coloana A, de lacelula A4 la A9, sub celula în care este deja scris „Starea civilă”, scriem textele„NecăsătoriŃi”, „CăsătoriŃi”, „DivorŃaŃi”, „Văduvi”, „Nedeclarată” şi, respectiv, „Total”.Pe coloanele B, C şi D, sub „Total populaŃie”, „masculin” şi „feminin” introducemdatele corespunzătoare din tabelul din enunŃul problemei.

Astfel am introdus în foaia de lucru Excel întreg tabelul din enunŃul problemei şiacesta arată astfel:

Page 29: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 29/118

29

.

Începem să construim tabelul cerut la punctul a) pe care îl vom intitula „Tabelulnr. 2”. Trebuie să introducem o nouă coloană în tabelul 1 pe care s-o numim „ponderea

în % a stării civile”. Pentru aceasta ne poziŃionăm, f ăcând clic stânga cu mouse-ul, peoricare din celulele din coloana C începând de la cea în care avem introdus textul„masculin”. Apoi facem clic dreapta şi ne apare o fereastră din care alegem opŃiunea„Insert…”. Apare o nouă fereastră din care alegem opŃiunea „Entire Column” care vainsera o coloană între coloanele B şi C.

Unim apoi primele două celule ale noii coloane cu opŃiunea „Merge Cells” carese găseşte sub formă de buton pe bara de instrumente sau de la meniul ferestrei Excel alegem „Format→Cells” („Number”-> „Text” şi „Alignment”->”Text control”->”Wraptext” şi „Merge Cells”). Tabelul modificat arată aşa:

.

Introducem acum în celula C2 textul „Poderea % st.civ.” şi dedesubtul acestei

Page 30: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 30/118

30

celule, pe coloana C, şi de exemplu, pe linia 4 adică C4 vom calcula procentele aferentefiecărei stări civile.

În partea de sus dreapta a ferestrei de lucru, dedesubtul barei de instrumente, segăseşte un spaŃiu unde se pot scrie formulele de calcul, pe care o vom numi bara deformule. Facem clic stânga cu mouse-ul pe celula C4, care ulterior va reŃine procentulpersoanelor necăsătorite din totalul populaŃiei. Apoi ne poziŃionăm cu mouse-ul pe barade formule şi scriem semnul „=” în dreapta formulei pentru calcularea procentului

urmat de raportul 100*9

4

B

B, care reprezintă numărul de persoane necăsătorite şi,

respectiv, totalul populaŃiei. Vom fixa celula B9, prin adăugarea semnului dolar $B$9,căci va apărea în toate celelalte formule pentru calcularea procentelor, respectiv dincelulele de la C5 la C9.

Putem repeta scrierea formulei pentru fiecare din celulele C5-C9, dar există unmod mai simplu de a calcula celelate procente decât acesta: facem clic pe celula C4 şine poziŃionăm cu mouse-ul în colŃul dreapta jos al acestei celule; mouse-ul va aveaacum forma unei cruci negre cu linii subŃiri ; Ńinem apăsat clic stânga în colŃulamintit al celulei şi tragem în jos peste celulele C5-C9. Această metodă se numeştemetoda „Autofill” de umplere a celulelor. În acestea vor apărea calculate procentelestărilor civile corespunzătoare.

Răspundem în continuare punctului b). Trebuie acum să inserăm o nouă coloană în tabelul 2, în care se va înregistra ponderea bărbaŃilor după starea civilă şi care va finotată „masc %”. Această coloană se inserează între coloana D (a patra) şi E (a cincea)Se procedează în mod analog şi apoi se scriu formulele corespunzătoare pentrucalcularea ponderilor respective.

Page 31: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 31/118

31

Pentru a răspunde în continuare punctului c) al problemei, trebuie să calculămponderea persoanelor feminine după starea civilă şi să reŃinem aceste ponderi într-onouă coloană, a şaptea a tabelului 2. Se procedează analog ca în cazul determinăriiponderilor persoanelor masculine. Tabelul final va arăta astfel:

.

Trecem la rezolvarea cerinŃei de la punctul 2 al problemei. Trebuie acum să facem un nou tabel intitulat „Tabelul nr. 3. Alocările de subeşantioane relativ la uneşantion de volum n=1100”. Într-o zonă goală a foii de lucru copiem tabelul numărul 2:selectăm tabelul, facem clic dreapta cu mouse-ul şi din fereastra ce se deschide alegem„Copy”. Ne poziŃionăm pe zona dorită din foaia de lucru şi, dând clic dreapta, alegemopŃiunea „Paste special”, care ne va permite să alegem dintr-o altă fereastră opŃiunea„Values”. Astfel programul va copia doar valorile celulelor tabelului 2, nu şi formuleleacestuia.

Page 32: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 32/118

32

Ştergem apoi conŃinuturile celulelor care reŃin totalul populaŃiei, numărulpersoanelor de sex feminin şi masculin. Introducem în dreptul celulei „Total” valoarea1100. Apoi, cu ajutorul formulelor şi, folosind procentajele rămase în tabel, determinămnumărul persoanelor necăsătorite, căsătorite, divorŃate, văduve şi cu stare civilă nedeclarată, din totalul de 1100. În acelaşi mod se determină numărul persoanelor desex feminin şi masculin cu stările civile menŃionate.

Facem acum un nou tabel cu rezultatele ajustate privind cotele eşantionului.

Introducem datele de la tastatură, nu le copiem din unul din tabelele anterioare, într-ozonă a foii de lucru în care celulele nu au valori. Noul tabel se va numi „Tabel curezulatele ajustate” şi va avea doar 4 coloane. El nu va cuprinde procente, ci doar valoriajustate.

2. Tabele de numere aleatoare şi metode de generare a şirurilor

de numere aleatoare ce urmeaz ă o lege de reparti Ń ie dat ă.

Procese economice, industriale, fizice sau naturale prin complexitatea lor, caformă de manifestare a lumii reale, implică dificultăŃi semnificative în cercetarea lor.

Una dintre cele mai eficace abordări este cea a modelării acestora, pentru abeneficia de instrumentele aparatului matematic. Se cunosc mai multe tipuri de modelăricum sunt cele imitative, analogice şi simbolice (analitice). Un cadru mai general esteoferit de modelele de simulare prin numere aleatoare care constituie o categorie specială de modele simbolice care permit studierea atât a modelelor imitative şi analogice cât şi amodelelor simbolice clasice. Modelarea prin simulare permite să simulăm realitatea şisă comparăm rezultatele simulării cu rezultatele observaŃiilor practice şi apoi să

Page 33: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 33/118

33

perfecŃionăm modelul respectiv. Prin urmare, putem vorbi de metode de „proiectare arealităŃii prin simulare” utilizînd numere aleatoare.

Cum analiza statistică a realităŃilor înconjurătoare implică tehnici de sondaj şirespectiv de inferenŃă statistică, metodele de constituire a eşantioanelor aleatoareconstituie un pas important al demersului statistic.

In demersul statistic pe baza de eşantioane aleatoare se obŃin avantaje evidenteatât prin eliminarea subiectivităŃilor în alegerea elementelor din eşantion, cât şi prin

beneficiul deosebit al inferenŃei statistice prin estimarea parametrilor sau repartiŃiilor şirespectiv prin verificarea ipotezelor statistice.

In acest demers, fiecare unitate elementară din populaŃia de referinŃă are oanumită probabilitate, nenulă, de a aparŃine eşantionului şi care se cunoaşte a priori.Unul dintre avantajele eşantionărilor aleatoare este posibilitatea estimării erorii deeşantionare care, în general, este mai mică decât în cazul nealeator.

In general, se face uz de tabele de numere aleatoare sau de şiruri de numerealeatoare ce urmează o lege de repartiŃie dată şi obŃinute prin simulare.

2.1 Procedee analitice de generare a numerelor aleatoare.

Se ştie că există procedee mecanice, procedee pe baza surselor radioactive, aintensităŃilor de curent electric etc., dar un rol special îl au procedeele analitice degenerare de numere aleatoare.

Procedeele analitice apelează la diferite tipuri de relaŃii de recurenŃă care au fostalgoritmizate şi implementate în diferite softuri sau pachete statistice.

Un neajuns al acestor procedee este acela că în aplicarea concretă pe calculatorse poate ajunge, după un număr de generări, la şiruri periodice.

Ne vom referi la unele dintre metodele analitice de generare a numereloraleatoare în cele ce urmează. Ele stau la baza unor programe performante de generare anumerelor aleatoare uniform repartizate şi la baza binecunoscutei rutine RANDOM degenerare a repartiŃiilor aleatoare uniforme pe [a,b]⊆ sau pe submulŃimi adecvate din

n . Acestea la rândul lor, după cum rezultă din paragraful următor, constituie

instrumentul fundamental pentru generarea de şiruri de numere aleatoare ce urmează olege de repartiŃie dată ce rezultă din teorema de transformare.

a) Metoda lui J. von Neumann, numită şi metoda „mijlocului pătratului unuinumăr zecimal cu 2k cifre”, este cea mai veche şi cea mai cunoscută, chiar dacă poateconduce la o recurenŃă cu o perioadă nu atât de performantă. Afectarea metodei de

alegere nealeatoare a primului număr poate fi evitată cu mijloace moderne de simulare,combinată cu o generare aleatoare a acestuia, prin alte mijloace cunoscute. Ea excelează prin eleganŃa şi ingeniozitatea sa, în sensul că este şi simplă şi uşor de aplicat.

Se porneşte de la un număr 0 x sau k n aaa x 221 ...,0= care prin ridicare la pătrat

conduce la un număr

k k k k k k n bbbbbbbb x 431221212 ............,0 ++=

din care se formează numărul subunitar ce are ca zecimale cele 2k cifre de la mijloc,

Page 34: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 34/118

34

adică ....,0 3211 k k k n bbb x +++ =

Se repetă acest procedeu obŃinându-se un şir de numere aleatoare uniformdistribuite pe (0,1).

Pentru construcŃia funcŃiei de recurenŃă f, se observă că

k k k nk bbbbb x 4121

2 ...,...10+

=

a cărei parte fracŃionară F not

=⋅ este k k k nk bbb xF 421

2 ...,0)10( ++= din care deducem că

k k k k nk k bbbb xF 41331

22 ...,...)10(10 ++=

a cărei parte întreagă )(][ ⋅=⋅ I not

, este k k nk k bb xF I 31

22 ...))10(10( += , adică cele 2k cifre

din mijlocul pătratului numărului n x .

Vom avea ca funcŃie de recurenŃă f(.):

))10(10(10)( 2221 n

k k k def

nn xF I x f x −

+ == .

Exemplul 1. ImplementaŃi în Mathematica algoritmul lui von Neumann(alegând cu “RANDOM” un număr notat cu n x ) pentru obŃinerea a 30 de numere

aleatoare.

SoluŃia în Mathematica. Implementăm metoda von Neumann pentru k=7.

Folosim o variabilă de tip listă numită „lista” care va reŃine 2k, adică 14, numere întregi de la 0 la 9. Aceste numere se generează cu funcŃia „Random”, iar lista secompletează cu funcŃia „Table”.

Declarăm apoi o variabilă de tip şir de caractere pe care o numim „sir1”. Lainceput şirul nu va avea nici un caracter.

Completăm şirul „sir1” cu elementele listei „sir1” folosind instrucŃiunearepetitivă „For” şi funcŃiile „StringJoin”, „ToString”.

Şirul „sir1” este acum următorul:

Transformăm şirul „sir1” în expresie, adică într-un număr şi îl reŃinem în

variabila „b”. Acest număr este primul număr n x al algoritmului, găsit aleator.

Page 35: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 35/118

35

Ridicăm numărul b la pătrat şi noul număr găsit va fi reŃinut în variabila „c”.

Transformăm numărul c în şir cu funcŃia „ToString”. Şirul obŃinut va fi stocat în„sir2”.

Din şirul „sir2” luăm 2k caractere din mijloc, începând cu al k+1-ulea până la celde-al 3k caracter, cu ajutorul funcŃiei „StringTake”.

Introducem acum o listă pe care o numim „numere” şi care la început va reŃineşirul „sir”.

Aplicăm în continuare algoritmul descris la metoda von Neumann şi astfel găsim29 de numere aleatoare cu 2k cifre, pe care le reŃinem în lista „numere”.

Lista „numere” va avea acum 30 de numere aleatoare determinate folosindmetoda von Nemann. Aflăm lungimea acestei listei apelînd funcŃia „Length”.

Page 36: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 36/118

36

Introducem o nouă listă pe care o numim „numerezecimale”. La început ea va figoală. IniŃializăm o variabilă x cu valoarea 0.

Transformăm fiecare număr din lista „numere” într-un număr zecimal cuajutorul instrucŃiunii repetitive „For” şi a funcŃiilor „ToExpression”, „N” şi„AppendTo”.

Lista „numerezecimale” va conŃine 30 de numere zecimale de 14 cifre după

virgulă, determinate cu metoda von Neumann de generare de numere aleatoare.

b) Metoda lui Lehmer. Această metodă foloseşte ca funcŃie de recurenŃă următoarea procedură:

=0 x număr întreg arbitrar ales şi

=+1n x K n x (mod m) pentru 1≥n ,

unde 1231−=m şi K =23 (m este numit numărul lui Mersen) şi este asigurată o perioadă

egală cu 2

)1( −m

sau 1.073.741.823 care este suficient de mare fiind satisf ăcătoarepentru nevoile practice.

Exemplul 2. ImplementaŃi în Mathematica şi Excel metoda lui Lehmer pentruobŃinerea a 30 de numere aleatoare.

Page 37: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 37/118

37

SoluŃia în Mathematica. IniŃializăm variabilele m şi k cu valorile

corespunzătoare, adică cu 2 131− , respectiv 23.

Generăm un număr întreg arbitrar ales între 0 şi 1000 folosind funcŃia

„Random”. Acest număr va fi numărul x 0 din algoritm.

Calculăm numărul 1 x cu funcŃia „Mod” care returnează restul împărŃirii lui k*

x 0 la m.

Declarăm o listă pe care o numim „lista” şi care va reŃine la început doar pe 1 x .

Adăugăm la lista „lista” 29 de numere generate după algoritmul din metoda luiLehmer. Pentru aceasta folosim instrucŃiunea repetitivă „For” şi funcŃiile „AppendTo”şi „Mod”.

La final, „lista” va conŃine 30 de numere generate după metoda lui Lehmer.

În Excel, deschidem mai întâi fereastra de lucru, care are 3 foi de lucru numite„Sheet1”, „Sheet2”, „Sheet3”. Pentru construirea tabelului se poate alege oricare dintreacestea. Vom alege să introducem datele tabelului în prima foaie de lucru prin accesareafoii „Sheet1”, dând clic stânga pe numele foii din partea stângă jos a ecranului.

Introducem textul „m=” în celula A1, iar în A2 valoarea 1231− . Aşadar în

Page 38: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 38/118

38

celula B1 introducem, în bara de formule sau chiar direct în celulă, formula 131^2 − .

Foaia de lucru arată acum astfel:

.

În celula A2 introducem textul „x0=” pentru a indica că în celula imediaturmătoare, adică în B2, vom reŃine numărul x0 al algoritmului. Acesta se va determinafolosind funcŃia predefinită „RANDBETWEEN” a Excel-ului. Pentru aceasta nepoziŃionăm pe celula B2, facem clic stânga şi apoi alegem de la meniu „Insert” alferestrei de lucru opŃiunea „Function...”.

Apare o nouă fereastră de unde se poate alege orice funcŃie predefinită din Excel.Aceste funcŃii sunt împărŃite pe categorii, de exemplu „Most Recently used”, „All”,„Financial”, „Date & Time”, „Math & Trig”, „Statistical”, „Look up References”,„Database”, „Text”, „Logical”, „Information” şi „Engineering”. Prima categorieenumerată conŃine cele mai recent folosite funcŃii, iar în categoria „All” sunt listate toatefuncŃiile predefinite. Noi vom alege funcŃia „RANDBETWEEN” care va returna încelula indicată un număr aleator între două limite precizate.

Page 39: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 39/118

39

După ce selectăm funcŃia dorită, apare o nouă fereastră în care se pot precizalimitele între care va fi generat numărul aleator. Alegem ca limite numerele 0 şi 1000.Apăsăm apoi pe butonul „OK” şi numărul este generat.

Dorim să copiem conŃinutul celulei B2 în celula B4. Pentru aceasta nepoziŃionăm cu mouse-ul pe celula B2, care reŃine acum numărul aleator generat, şifacem clic dreapta de unde alegem opŃiunea „Copy”. RepoziŃionăm cursorul mouse-uluipe celula B4, facem clic dreapta şi alegem opŃiunea „Paste Special”. Apare o fereastră din care se poate alege mai multe opŃiuni, dar noi vom alege opŃiunea „Values” dincategoria „Paste”.

Page 40: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 40/118

40

În celula B4 va apărea numărul generat aleator 590. Precizăm că de fiecare dată

când facem o operaŃie care implica valoarea reŃinută de celula B2, adică numărul aleatorgenerat, ea se va schimba. De aceea am copiat numărul generat iniŃial în celula B4 şi peacesta îl vom folosi în continuare în prelucrarea algoritmului. Copiem numărul generataleator 590 şi în celula D4.

În celula B3 introducem textul „xi*23” pentru a indica că pe coloana B, subaceastă celulă, se vor reŃine numerele xi cu i de la 0 la 30. În celula C4 scriem „x0”pentru a indica că în celula imediat următoare la dreapta, adică pe coloana D, linia apatra, se va reŃine numărul generat aleator. Ne poziŃionăm cu cursorul mouse-ului pecelula C4 şi apoi îl repoziŃionăm pe colŃul dreapta jos al celulei. Cursorul se transforma

într-o mică cruce neagră, Ńinem apăsat clic stânga şi tragem în jos până peste celula C34

(folosim metoda „Autofill” de umplere a celulelor). Se va observa că în celulele de pecoloana C va apărea “x” urmat de un număr natural între 0 şi 30, în ordine crescătoare.

Foaia de lucru arată acum ca în imaginea din stânga:

Page 41: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 41/118

41

Ne poziŃionăm acum pe celula B5 şi introducem în bara de formule sau direct încelulă formula „=D4*23” deoarece în celula D4 este reŃinut numărul x0, iar B5 reŃinenumărul x0*23. Se afişează în celula precizată numărul 13570. În celula D5 trebuie să

introducem o formulă astfel încât aceasta să reŃină restul împărŃirii lui x0*23 la 1231 − .Astfel, ne poziŃionăm cu mouse-ul pe celula D5 şi alegem apoi opŃiunea „Function...”din meniul „Insert” al ferestrei de lucru. Din fereastra care se deschide alegem categoria„Math & Trig” şi funcŃia „MOD”. Parametrii funcŃiei „MOD” sunt celulele B5 şi B1,adică funcŃia va returna restul împărŃirii numărului reŃinut în B5 la cel reŃinut în B1, căci

x1 din algoritm este egal cu restul împărŃirii lui 23*x0 la 1231− (23*x0 este reŃinut în B5,

iar 1231− în B1). Trebuie să punem semnul dolar la cel de-al doilea argument al

funcŃiei pentru că celula B1 este o referinŃă absolută pentru toate formulele care vorurma. Deci în celula D5 vom scrie „MOD(B5;$B$1)”.

Ca să determinăm restul numerelor până la 30 folosim metoda „Autoumplere” a

celulei. Astfel în celula D6 a apărut un număr care este de fapt x1 din algoritm. Precizămcă trebuie alternativ să folosim metoda „Autoumplere” a celulelor de pe coloana B mai

întâi şi apoi D de pe acelaşi rând până determinăm cele 30 de numere pentru că valorilede pe coloanele B şi D depinde unele de altele. De exemplu, valoarea din celula B12depinde de valoarea din D11, iar cea din D12 de cea din B12.

Repetăm în mod analog cele precizate mai sus până când avem toate cele 30 denumere generate cu metoda lui Lehmer. Foaia de lucru reŃine acum cele 30 de numere

Page 42: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 42/118

42

aleatoare generate după metoda lui Lehmer după cum se poate vedea în figura de pepagina anterioară.

Lista celor 30 de numere este următoarea: 590, 13570, 312110, 7178530,165106190, 1649958723, 1441828630, 949803785, 370650585, 2082512514,653147588, 2137492642, 1917690532, 1157209296, 846010044, 130878189,862714700, 515085277, 1109543136, 1897172011, 685283313, 729130670,1737619881, 1310551617, 77916133, 1792071059, 415445064, 965301884,

727106862, 1691072297, 239957185.c) Un procedeu asemănător de generare a numerelor aleatoare este definit astfel:

10 =u , )2(mod5 42171 nn uu =+ şi nn u x 422−

= .

Exemplul 3: ImplementaŃi în Mathematica procedeul de mai sus pentruobŃinerea a 30 de numere aleatoare.

SoluŃia în Mathematica. IniŃializăm mai întâi variabilele “a” şi “b” cu valorile175 şi respectiv 422 .

Variabila “u0” va lua valoarea 1, iar “u1” va fi restul împărŃirii lui 175 *u0 la422 .

“x1” este 422− *u1 afişat cu 15 zecimale.

Lista “numere” va reŃine la început numărul “x1”.

Adăugăm la lista “numere” 29 de numere generate după algoritmul prezentatmai sus. Pentru aceasta folosim instrucŃiunea repetitivă “For” şi funcŃiile “AppendTo”,“N” şi “Mod”.

Lista “numere” va cuprinde acum 30 de numere aleatoare generate după algoritmul prezentat la punctual c).

Page 43: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 43/118

43

2.2. Utilizarea numerelor sau tabelelor de numere aleatoare pentru

construirea de eşantioane aleatoare

Sondajele statistice reprezintă instrumentul de investigaŃie cel mai folosit întoată lumea, pentru a evalua starea anumitor populaŃii supuse cercetării.

Proiectarea oricărui sondaj comportă trei elemente:1) construcŃia sondajului şi obŃinerea eşantionului respectiv;2) definirea estimatorilor parametrilor de interes cu specificarea preciziei

acestora;3) analiza statistică a legăturilor dintre caracteristicile ce interesează sondajul

respectiv;În orice sondaj se are în vedere ca precizia estimaŃiilor şi costul procedeelor să

fie optime.ConstrucŃia eşantioanelor aleatoare (numită şi selecŃie aleatoare) are loc din

populaŃii = N ee ,...,1 numite simple şi finite, formate din unităŃile N iei ,1, = , sau din

populaŃiile grupate formate din N grupe = N E E ,...,1 , respectiv stratificate, adică

U L

hh

1=

Ω=Ω , ,...,1 N hhh ee=Ω , h= 1,…,L, disjuncte şi ∑

=

L

hh N

1

= N = card ().

ConstrucŃia eşantioanelor aleatoare se face pe baza unor scheme probabiliste

care permit înzestrarea mulŃimii eşantioanelor cu o structură de cîmp de probabilitateadecvat.

Se ştie că un rol important în construirea de eşantioane aleatoare îl au schemelecu urne şi bile numite schema bilei revenite şi respectiv schema bilei nerevenite.Acestea oferă posibilitatea calculării probabilităŃii de apartenenŃă a elementelorpopulaŃiei sub cercetare la eşantion şi beneficiază de teorii elaborate privind şi alteaspecte importante ale eroarii de reprezentativitate (sau acoperire) a eşantionului.

Page 44: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 44/118

44

Totuşi, metodele de eşantionare sunt diversificate şi printre ele se întâlnesc şiacelea ale selecŃiei aleatoare simple cu revenire sau f ără revenire ce pornesc de la unnumăr aleator cu un număr mare de cifre căruia i se aplică diferite tehnici pentru aconduce la un eşantion. Se construieşte un număr aleator cu un număr mare de cifre fieprin alegeri aleatoare de cifre dintr-un tabel de numere aleatoare, fie prin asocieri dediferite tipuri de numere din tabele de numere aleatoare. Acest număr aleator cu unnumăr mare de cifre se prelucrează apoi în diferite moduri.

Se procedează apoi la diferite tehnici de citire a numărului aleator şi obŃinerea denumere aleatoare cu 1,2 sau 3 cifre ce reprezintă indicii elementelor din populaŃia Ńintă (originară) supusă eşantionării.

Deşi metoda selecŃiei simple cu revenire şi respectiv f ără revenire este obiectulunui paragraf ulterior, există şi alte metode care oferă eşantioane aleatoare cu reveniresau f ără revenire pe baza tabelelor de numere aleatoare.

Exemplificări privind utilizarea tabelelor de numere aleatoare laconstruirea de eşantioane aleatoare

Am amintit anterior aspecte privind generarea de numere aleatoare. Se ştie că rolul principal îi revine generatorului RANDOM, ce oferă selecŃii aleatoare uniforme pe[0,1] şi care este suficient de performant în oricare dintre softurile sau pachetelestatistice. Am amintit şi neajunsurile utilizării tabelelor de numere aleatoare, cu toateacestea ele rămân ca bază pentru scopuri didactice sau pentru probleme mai simple.

Prezentăm acum exemple privind selecŃiile aleatoare simple cu revenire sau f ără revenire care au ca bază de pornire un număr aleator convenabil prelucrat.

ExerciŃiul 2.

GeneraŃi două eşantione de volum n dintr-o populaŃie cu N elemente(numerotate) cu ajutorul tabelelor de numere aleatoare. Se dă n, N şi o secvenŃa dintr-untabel de numere aleatoare pe care să le folosiŃi pentru a construi 2 eşantioane:

a) n=11, N =55, din tabelul de numere aleatoare extragem următoarea secvenŃă:63514134451257134302767822216423;

b) n=13 şi N =38, din tabelul de numere aleatoare extragem aceeaşi secvenŃă cala a).

SoluŃia în Mathematica.

a) Într-o variabilă de tip şir de caractere, pe care o numim „aleat”, reŃinemsecvenŃa luată din tabelul de numere aleatoare. Variabila „lista” va reŃine numerealeatoare de câte două cifre obŃinute din secvenŃa extrasă din tabelul de numerealeatoare, iar „compl” va conŃine numerele din „lista” mai mari ca 55; în „esant” se vorgăsi indicii indivizilor care vor face parte din eşantion.

Page 45: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 45/118

45

Într-o variabilă numită „str” deschidem o cale de citire din şirul „aleat” prin

apelarea funcŃiei „StringToStream”, apoi apelăm funcŃia „Read” pentru a citi din acestşir un număr. FuncŃia „Head” ne arată că „aleat2” este într-adevăr un număr întreg.

Folosim funcŃia „While” pentru împărŃi numărul „aleat2” în numere de câte două

cifre şi „For” pentru a le determina pe cele mai mari ca 55.

b) Vom construi eşantionul (adică lista de indici ai indivizilor din populaŃie carevor face parte din eşantion) printr-o altă metodă: luăm toate numerele de 2 cifre formatecu cifrele din secvenŃa dată şi apoi găsim restul împărŃirii acestora la N , lista cu indici vafi formată din aceste resturi. Apoi, dacă nu am găsit suficiente numere distincte mai

mici sau egale cu N , putem lua numerele cu 3 cifre formate cu cifrele din secvenŃa dată şi procedăm analog.

Page 46: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 46/118

46

2.3. GeneralităŃi privind generarea unor variabile aleatoare.

Un rol important în modelarea stochastică simbolică prin simulare îl au şirurilede realizări individuale ale unor clase de variabile aleatoare, adică şirurile de numerealeatoare care urmează o lege de repartiŃie dată. Ele permit comparaŃii ale datelor demăsurare despre caracteristicile principale ale realităŃii, ale evenimentelor reale, desprecorelaŃiile reciproce şi modificările acestora în funcŃie de variaŃiile parametrilor şi alevariabilelor de decizie. ComparaŃiile rezultatelor simulării cu rezultatele observaŃiilorpractice permit îmbunătăŃirea modelului asociat realităŃii. Cea mai întâlnită repartiŃieeste repartiŃia Gauss–Laplace sau legea normală, nu numai ca model ideal pentru erorile

de măsurare, dar şi ca generator de clase apropiate ca şi repartiŃia Student, repartiŃia 2 χ

sau modelul Gram-Charlier (unul dintre cele mai vechi modele generale), familiacurbelor normale de ordinul r , modelul Pearson ce cuprinde repartiŃia normală şirepartiŃiile beta şi gamma etc. Dacă adăugăm la acestea şi teorema limită centrală încare repartiŃia Gauss-Laplace însumează o informaŃie şi proprietăŃi de excepŃie, vom

înŃelege mai bine cât de important este să o studiem sub raportul simulării şi modelării.Pentru obŃinerea de simulări ale unei variabile aleatoare de tip Gauss-Laplace se

cunosc mai multe metode, deşi metoda inversării funcŃiei de repartiŃie 1− X F nu se poate

aplica direct în acest caz din deoarece inversa ei nu se poate explicita printr-o func Ńiealgebrică, dar se poate aplica o inversă tabelară, care pune unele probleme privindoperativitatea acestei metode. Acest neajuns este evitat folosind algoritmi performanŃipe baza procesului de trunchiere prin aproximări convenabile oferite de teorema limită centrală dintre care amintim „metoda sumelor asimptotice de variabile aleatoare”,„metoda divizării probabilităŃilor”, „metoda compunerii şi renunŃării” şi altele.

Metoda inversării se aplică folosind aproximarea funcŃiei X F prin funcŃii

raŃionale sau prin polinoame diferite pe intervale succesive ale lui [0,1]; o cale este de a

folosi dezvoltarea în serie Mac Laurin a func Ńiei exponenŃiale 2

2 x

e pentru aproximarea

Page 47: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 47/118

47

densităŃii2

2

2

1)(

x X

e

x

π

ρ = .

În cele ce urmează vom exemplifica simularea pentru variabile aleatoare prinmetoda densităŃii de repartiŃie utilizând facilităŃile deosebite oferite în Mathematica deinstrucŃiuni speciale.

Un rol deosebit îl joacă repartiŃia uniformă pe [0,1] datorită rezultatuluifundamental dat de teorema următoare.

2.3.1 Generarea de şiruri de numere aleatoare cu legi de repartiŃie dateprin densităŃi

Un şir de numerele aleatoare definite ca realizări individuale ale unei variabilealeatoare cu repartiŃie dată spunem că este obŃinut prin generare de numere aleatoare cu

lege de repartiŃie dată.

Teorema de transformare (inversare)

Dacă F este o funcŃie de repartiŃie (în sensul F: ]1,0[→ nedescrescătoare şi

continuă la dreapta, 0)(lim =−∞→

xF x

, 1)(lim =∞→

xF x

) şi inversa ei generalizată, dată prin ∀ u

∈[0,1], )()1( uF − = inf x: F ( x)≥u, iar U ∈ o variabilă aleatoare cu repartiŃie uniformă

pe segmentul [0,1], atunci variabila aleatoare X= )1(−F oU are ca funcŃie de repartiŃiechiar pe F .

Rezultă că putem formula următorul algoritm:

1) se generează o variabilă aleatoare U (ω ) care defineşte un şir u n de numere

uniform repartizate pe [0,1];

2) se defineşte şirul )(1n X n uF x −

= care va urma legea de repartiŃie X F .

În cazul când X admite o densitate X ρ care este continuă atunci avem că

∫ ∞−

=

x

X X dt t xF )()( ρ

şi prin inversare obŃinem )(1 uF x −= în care u este o realizare a unei variabile uniforme

pe [0,1] şi analog pentru orice nn xu → şir de realizări pentru X .

ExerciŃiul 3.

Să se genereze un şir de 100 de numere aleatoare ce reprezintă realizări ale unei

variabile aleatoare X dată prin densitatea sa de repartiŃie22

2)(

a

t at f X

+= pe intervalul

],0[ a , pentru 3=a , şi 0 în rest, adică

Page 48: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 48/118

48

+

=

.,0

]3,0[,18

23)(

rest in

t t

t f

Şirul va avea termenul general )()1(ngng uF x −

= , unde ngu este o generare a unei

variabile aleatoare uniforme pe ]1,0[ , iar )1(−F este pseudoinversa funcŃiei de repartiŃie

X F a variabilei aleatoare X .

SoluŃia în Mathematica. Mai întâi definim densitatea de repartiŃie f , apoideterminăm funcŃia de repartiŃie F pe intervalul [0,3] (în rest este egală cu 0). Se poateobserva că variabila t este urmată de semnul „_”, acest lucru fiind necesar în definireaunei funcŃii.

Următorul pas este determinarea inversei funcŃiei F pe intervalul [0,3], căci înrest ea nu este inversabilă, fiind o constantă.

Construim histograma valorilor din lista „sir” f ără a impune vreo restricŃie cuprivire la intervalele în care să fie împărŃită aceasta Trebuie să încărcăm mai întâipachetul „Histograms”.

Page 49: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 49/118

49

ObservaŃie. Se ştie că un mod des folosit în a justifica imagistic diferitedensităŃi de repartiŃie sau funcŃii de repartiŃie este cel al histogramei (ca diagramă specială asociată seriei de date) sau poligonul frecvenŃelor. Acestea oferă o informaŃieintuitivă suficientă pentru a face diferite ipoteze privind clasa de repartiŃie de careaparŃine.

Reprezentăm grafic poligonul frecvenŃelor pentru şirul de date obŃinut cu funcŃia„ListLinePlot”, iar frecvenŃa datelor pe intervale o determinăm cu „BinCounts”. FuncŃia„Show” permite suprapunerea graficelor.

Se poate observa că există o concordanŃă între imaginea repartiŃiei teoretice şi acelei empirice. O eventuală neconcordanŃă s-ar putea datora fie faptului că nu amgenerat suficient de multe numere aleatoare cu repartiŃia dată, fie alegerii intervalelor de

Page 50: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 50/118

50

grupare a datelor.

2.3.2 Generarea variabilelor aleatoare uniforme

În programele sau pachetele statistice sunt prezentate rutine specifice pentrugenerarea tipurilor importante de variabile aleatoare. Vom prezenta în continuareexemple de simulări de variabile aleatoare de tip continuu. Vom începe cu cea mai desfolosită repartiŃie care este repartiŃia uniformă pe [0,1], ce stă la baza subrutinei„Random”.

ExerciŃiul 4.

Se cere o generare a unui şir de 1000 de numere aleatoare ce urmează o lege

uniformă pe [0,1], adică 1000 de realizări ale variabilei aleatoare X , ∈ X (0,1), şi

construirea histogramei şi poligonului frecvenŃelor pentru datele generate.

SoluŃia în Mathematica. Reprezentăm grafic densitatea şi funcŃia de repartiŃie aledistribuŃiei uniforme de parametri 0 şi 1, apoi generăm numere aleatoare având această repartiŃie (mai întâi 10 astfel de numere, apoi cele 1000).

FuncŃia „GraphicsRow” afişează în foaia de lucru cele două reprezentări graficepe acelaşi rând, iar opŃiunea „PlotStyle” va permite colorarea graficelor cu roşu şi

îngroşarea liniilor acestora.

Page 51: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 51/118

51

2.3.3. Generarea variabilelor aleatoare de tip normal

Se ştie că repartiŃia Gauss-Laplace sau normală ocupă locul central în statisticamatematică şi în teoria probabilităŃilor datorită multiplelor ei aplicaŃii. Ea estegeneratoare de noi clase înrudite şi mult folosite în modelarea stocastică.

ExerciŃiul 5.GeneraŃi un şir de 1000 de numere aleatoare ce urmează o lege normală de

parametrii 0 şi 1, adică 1000 de realizări ale variabilei aleatoare X , ∈ X (0,1), şi

construiŃi histograma şi poligonul frecvenŃelor pentru valorile generate.

SoluŃia în Mathematica.

Page 52: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 52/118

52

Reprezentăm grafic densitatea de repartiŃie a distribuŃiei normale pentru diverşiparametri ai acesteia: mai întâi variază media, apoi dispersia. OpŃiunea „Hue” folosită schimbă culorile liniilor graficelor.

Page 53: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 53/118

53

Am generat mai sus numere aleatoare cu legi de repartiŃie cunoscute folosindprogramul Mathematica, iar în continuare generăm numere aleatoare folosind Excel-ul.

ExerciŃiul 6.

GeneraŃi un şir de 100 de numere aleatoare ce urmează o lege gamma cu 3 şi 1grade de libertate. ConstruiŃi histograma şi poligonul frecvenŃelor pentru datele obŃinuteprin generare.

SoluŃia în Excel. Generăm 100 de numere aleatoare cu repatiŃie uniformă pe[0,1] folosind funcŃia „RAND” din categoria „Math&Trig” (se generează un număr, iarrestul se determină cu opŃiunea „Autofill”). Reamintim că orice funcŃia se găseşte prinalegerea opŃiunii „Function...” din meniul „Insert”.

Apoi utilizăm pseudoinversa funcŃiei de repartiŃie, adică în cazul nostru funcŃiastatistică „GAMMAINV”, cu argumentele „Probability”, „Alpha” şi „Beta”, pentru a

genera un număr aleator cu repatiŃia gamma. Primul argument va fi chiar unul dinnumerele aleatoare generate, iar ceilalŃi doi sunt 3, respectiv 1.

Page 54: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 54/118

54

Cu opŃiunea „Autofill” se generează şi restul numerelor. De menŃionat estefaptul că de fiecare dată când facem o operaŃie în foaia de lucru (copiem anumite valori,aplicăm funcŃia „GAMMAINV” sau opŃiunea „Autofill”), acestea se modifică. De aceeaalegem să le copiem în altă zonă a foii de lucru folosind „Copy” şi „Paste Special”->„Values”.

Construim histograma numerelor generate. Selectăm din meniul „Tools”opŃiunea „Add-Ins…”; se deschide o fereastră unde bif ăm „Analysis ToolPak”. Această operaŃie va face ca în meniul „Tools” să apară „Data Analysis...” (dacă aceasta nu seaflă deja acolo), de unde alegem „Histogram”.

În fereastra ce se deschide trebuie să introducem anumite date: la „Input Range”scriem de la tastatură, sau prin selectare cu mouse-ul, domeniul celulelor în care aparnumerele aleatoare cu repartiŃie gamma; la „Bin Range” trecem domeniul celulelor undese găsesc limitele superioare ale intervalelor de grupare a datelor (pe care le-a introdusdeja în foaia de lucru); bif ăm „Output Range” şi scriem adresa unei celule în care dorimsă apară rezultatul; bif ăm şi „Chart Output” pentru ca programul să facă şi reprezentareagrafică a histogramei.

Page 55: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 55/118

55

În foaia de lucru va apărea un tabel cu frecvenŃele numerelor pe intervaleleanterior precizate şi histograma. Schimbăm culoarea dreptunghiurilor de la opŃiunea„Format Data Series” pe care o putem selecta după ce am f ăcut clic dreapta pe zonaacestora.

Histogram

0

5

10

15

2025

30

3540

45

2 4 6 8 10 More

Bin

F r e q u e n c

Frequency

Pentru a construi poligonul frecvenŃelor şi al suprapune histogramei, selectămopŃiunea „Source Data...”, dând clic dreapta pe zona albă a reprezentării grafice. Se

deschide o fereastră şi la „Series” adaugăm o nouă serie de date apăsând butonul „Add”,apoi completăm la „Values” adresa celulelor unde se află frecvenŃele numerelor peintervalele respective. În căsuŃa „Name” scriem „=Frequency” pentru ca aceasta să apară la legendă. Astfel va apărea poligonul frecvenŃelor pe acelaşi grafic cuhistograma. În mod analog schimbăm culoarea liniei poligonale.

Histogram

0

5

10

15

20

25

30

35

40

45

2 4 6 8 10 More

Bin

F r e q u e n c

0

5

10

15

20

25

30

35

40

45

Frequency

Frequency

Page 56: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 56/118

56

2.3.4 Generarea de variabile aleatoare discrete

2.3.4.1. Generarea de variabile aleatoare discrete cu repartiŃie arbitrară dată

În cazul variabilelor aleatoare discrete X () = k x , k = n,1 şi

k k p x X P == ))(:(ω , care se mai poate scrie astfel:

X :

n

n

p p

x x

...

...

1

1 , 1+< ii x x , i = 1,2,…,n-1

În acest caz

.

...

...

,1...

,...

...

,...

... ,

,

,0

)(

1

1

32

21

1

1

111

1

221

11

x x

x x x

x x x

x x x

x x x

x x

p p

P p p

P p p

P p p

P p

xF

n

nn

k k

n

n

not

n

k

not

k

not

not

X

<≤

<≤

<≤

<≤

<

=++

=++

=++

=+

=

=

+

−−

şi :inf)( )1()1( uF xuF X

def

X ≥=− devine

=≤<

≤<

≤<

≤<

≤<

=∞−

=

−−−

.1

121

1

212

11

)1(

1

......

......

0,

0,

)(

n

not

nn

nnn

k k k X

PuP x

PuP x

PuP x

PuP x

Pu x

u

uF , ]1,0[∈∀u .

Are loc == ))(:( k x X P ω )0()( 11−− k X k X xF xF , care se realizează pentru orice

număr aleator uniform iu repartizat pe [0,1] şi cu proprietatea k ik PuP ≤<−1 pentru care

este adevărată egalitatea11]1,0[ ]),()(:( −− −==∈= k k k k k PP pPPuU P ω ω ,

care este tocmai probabilitatea iniŃială de realizare a evenimentului )(: k x X =ω .

Prin urmare, simularea unui şir )( ]1,0[ Ω∈U un şi alegerea acelora care aparŃin

intervalului ],( 1 k k PP − revin la realizarea evenimentului )(: k x X =ω adică

realizarea valorii )(Ω∈ X xk .

Page 57: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 57/118

57

Aceste comentarii conduc la definirea algoritmului de generare a realizării devariabile aleatoare discrete.

ObservaŃie. Există şi alte metode de generare ca metoda sumelor asimptotice devariabile aleatoare, metoda acceptării şi renunŃării, metoda compunerii şi revenirii.

Se ştie că şi variabilele aleatoare discrete joacă un rol fundamental în modelareastochastică prin simulare şi în această direcŃie Mathematica oferă facilităŃi deosebite şiperformante dintre care prezentăm mai jos pe cele mai des întâlnite în practică.

ExerciŃiul 7.

PrezentaŃi un şir de 100 de realizări ale variabilei aleatoare discrete

.

8

1

8

3

8

3

8

14321

:

X

SoluŃia în Mathematica. Algoritmul pe care îl folosim este următorul: generămun număr aleator între 0 şi 1 cu funcŃia „RandomReal” şi reŃinem în „u”. La început „F”

şi „k” iau valoarile81 , respectiv 1. Într-un ciclu „While” se repetă: dacă F<u, atunci F

se măreşte cu următorul număr din lista probabilităŃilor lui X şi k se măreşte cu 1. Ciclul„While” se termină când F devine mai mare ca u. În acest caz se adaugă la lista„realizari” valoarea lui k . Aceasta este lista care la sfârşit va reŃine cele 100 de realizăriale variabilei X . Determinăm şi frecvenŃele numerelor generate aleator.

Apelăm funcŃia „Histogram” cu lista de frecvenŃe ale valorilor variabilei X , decitrebuie să dăm valoarea „True” opŃiunii „FrequencyData”. FrecvenŃele valorilor lui X sunt calculate cu funcŃia „Count” şi reŃinute în lista „prob”.

Page 58: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 58/118

58

ExerciŃiul 8.

GeneraŃi un şir de 100 de numere aleatoare ce urmează o lege Poisson deparametru .10=λ

SoluŃia în Mathematica.

SoluŃia în Excel. Din meniul „Tools” selectăm opŃiunea „Data Analysis...” şiapoi „Random Number Generation” din fereastra care se deschide. Mai departe trebuiesă precizăm numărul de variabile aleatoare utilizate (1 în cazul nostru), câte numerealeatoare generăm (100), tipul distribuŃiei numerelor generate (Poisson), parametruldistribuŃiei (10) şi adresa celulei începând de unde să fie reŃinute aceste numerele.

Page 59: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 59/118

59

2.4. Unele consideraŃii privind generarea vectorilor aleatori

În practică intervin deseori probleme care necesită realizări de vectori aleatori.Simularea legilor uniforme joacă şi aici un rol important ca parte a simulării unor

densităŃi de repartiŃie multidimensionale. În plus, şirurile uniforme oferă un mijlocpractic pentru estimarea unor probabilităŃi ca limită de frecvenŃe experimentale.

Un şir de numere reale ]1,0[ ⊂∈ N nn x se numeşte k-uniform dacă pentru orice

interval k -dimensional ),[...),[ 11 k k baba D ××= , ,10 ≤<≤ ii ba k i ,...,1= are loc

proprietatea

),)...(()),...,,((11

lim 110

1)1(1 k k

n

iik kiki D

nabab x x x

n−−=∑

=

−++∞→

unde D1 este funcŃia indicator a mulŃimii D, adică

∈= .

,0

,1)(1

D ydaca

D ydaca y D

În probleme de simulare ce implică apelări succesive ale funcŃiei “RandomReal”se consideră k -uniformitatea pentru orice N k ∈ şi un N -uplu de numere din [0,1] se vanumi pseudoaleator, dacă se supune unei serii de teste statistice care verifică atât k -uniformitatea, cât şi caracterul aleator.

2.4.1. Generarea variabilelor normale 2-dimensionale

ExerciŃiul 9.

GeneraŃi un şir de 100 de realizări ale unei variabilei aleatoare normale 2-

dimensionale, cu vectorul medie (0,0) şi matricea de covarianŃă

10

01, şi construiŃi

histograma şi poligonul frecvenŃelor pentru valorile generate.

SoluŃia în Mathematica. Pentru a avea acces la distribuŃia normală 2-dimensională trebuie să încărcăm pachetul „MultivariateStatistics”. Reprezentăm graficdensitatea şi funcŃia de repartiŃie ale acestei distribuŃii folosind funcŃia „Plot3D”.

Page 60: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 60/118

60

Page 61: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 61/118

61

2.4.2. Generarea unor vectori aleatori cu legea uniformă pe undomeniu 2-dimensional

PropoziŃia 1. Dacă D şi ' D sunt două domenii măsurabile din k R , astfel încât

' D D ⊂ şi ∞≤≤< )()(0 ' Dvol Dvol , unde vol(D) = volumul lui D în k R , iar dacă X este un punct aleator ce urmează o lege uniformă pe ' D , atunci legea lui X condiŃionată de evenimentul „ D X ∈ ” este o lege uniformă pe D.

ExerciŃiul 10.

Fie D discul unitate din 2 R , iar ' D pătratul din 2 R ce-l conŃine , adică

,1|),( 22≤+= y x y x D π =)( Dvol

],1,1[]1,1['−×−= D 4)( '

= Dvol

şi, respectiv, A un punct aleator ce urmează o lege uniformă pe ' D . JustificaŃi prinsimularea aleatoare a 100 de puncte de tip A, condiŃionate de evenimentul „ D A∈ ”, că această lege condiŃionată este o lege uniformă pe D.

Algoritmul este:

Repetă

X ← 2* Random - 1

Y ← 2* Random - 1

S ← X*X + Y*Y Până când (S<1).

SoluŃia în Mathematica. Generăm un număr aleator de tip A, apoi alte 100 pecare le reŃinem în „listaXY”. Reprezentăm grafic aceste puncte astfel încât să observămcă acestea se află în interiorul cercului unitate cu centrul în originea axelor decoordonate.

Page 62: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 62/118

62

Metoda folosită se numeşte „metoda acceptării şi respingerii” în cazul 2-dimensional, care afirmă că dacă X este o variabilă aleatoare ale cărei realizări se producprintr-un algoritm ce utilizează apelări succesive ale funcŃiei „RandomReal”, legea ei derepartiŃie este o măsură pe R obŃinută prin funcŃia amintită. CondiŃionarea de către uneveniment E cu P(E)>0 revine la a schimba legea P(.) prin P(.|E) şi deci legea lui X seva schimba şi legea condiŃionată de către evenimentul E , adică măsura indusă de X de

pe câmpul (Ω ,

, P) pe (

,) se va defini prin

∈∀ B ,)(

))(()|(

1

E P

E B X PE B X P

∩=∈

.

În practică, această trecere de la P(.) la P(.|E) revine la a schimba algoritmul

notat prin algoritmul „Repetă până ce E se realizează”.

2.4.3. AplicaŃii ale simulării repartiŃiei uniforme la simularea unor

clase de densităŃi de repartiŃie

Rezultatul care stabileşte importanŃa simulării uniforme, la care se reducesimularea unor clase de densităŃi de repartiŃii, este dat la următoarea:

PropoziŃia 2. Dacă f este densitatea de repartiŃie continuă pe anumite porŃiuni

din k ,

Page 63: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 63/118

63

)(0:),( x f y R R y x D k f ≤≤×∈=

şi X este un vector aleator cu valori în k , iar Y o variabilă aleatoare reală, atunci cuplul

( X,Y ) urmează o lege uniformă pe f D dacă şi numai dacă:

1) X are densitatea f ;2) legea condiŃionată a lui Y relativ la evenimentul ω: X (ω)= x este

legea uniformă pe [0, f ( x)].

Se observă că variabila aleatoare X cu densitatea f X nu este decât abscisa unuipunct aleator de sub graficul lui f X şi că metoda respingerii se extinde şi la legi derepartiŃie oarecare. Amintim următorul rezultat cunoscut ca „metoda densităŃii” .

PropoziŃia 3. Fie f şi g două densităŃi de repartiŃie pe k cu proprietatea că există o constantă c astfel încât:

∀ x ∈ k , c(g(x)) ≥ f ( x).

Fie X o variabilă aleatoare cu densitatea g şi U o variabilă uniformă pe [0,1]şi independentă de X . Atunci, legea condiŃionării a lui X relativ la evenimentul E dat

prin „cUg(X) <f(X)” are densitatea f.Acest rezultat permite să plecăm de la o densitate g uşor de simulat pentru a

simula o densitate oarecare f .

Se foloseşte algoritmul:

„Repetă simularea lui X de densitate g

U ← Random

până ce cUg(X) <f(X)”.

ExerciŃiul 11.

Se cere simularea unui şir de 100 de puncte aleatoare ce urmează legea de

densitate 212

)( x x f −=π

pentru ]1,1[−∈ x , adică legea care dă abscisa unui punct

ales la întâmplare din discul unitate.

SoluŃia în Mathematica. Vom porni de la legea uniformă pe [-1,1],

g(x)=2

11 ]1,1[− , alegem

π

4=c şi aplicăm algoritmul:

Repetă

X ← 2*RandomReal-1

U ← RandomReal

Page 64: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 64/118

64

Până când ( 212

2

14 X U −<

π π ).

(CondiŃia din algoritm se poate scrie în mod echivalent U*U<1-X*X .)

3. Construc Ń ia e şantioanelor aleatoare cu ajutorul unor scheme

probabiliste

3.1. SelecŃii aleatoare simple cu revenire şi unităŃi echiprobabile.

ConstrucŃia eşantioanelor aleatoare simple cu revenire sau bernoulliene(binomiale) are o valoare mai mult teoretică decât practică, ea folosindu-se mai rar însondajele reale. În cazul când volumul N al populaŃiei este cu mult mai mare decâtvolumul n al eşantionului, selecŃia aleatoare cu revenire este un bun aproximant pentruselecŃia f ără revenire, pentru că probabilitatea repetării unui element în eşantion devine

foarte mică. De fapt, probabilitatea ca o unitate să fie inclusă în eşantion este N

npentru

Page 65: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 65/118

65

fiecare dintre acestea, cele n extrageri fiind independente şi putând să apară de maimulte ori aceeaşi unitate.

Practic, se construieşte o submulŃime ,..., 1 nii de indici conŃinuŃi în mulŃimea

,...,2,1 N prin selecŃia cu revenire după metodele precizate, care folosesc tabele de

numere aleatoare, sau folosindu-se generatorul “RandomInteger”. Eşantionul va fi

,...,1 nii uus = .

Acest tip de selecŃie se foloseşte mai mult în cazul populaŃiilor infinite, iar încazul finit când volumul populaŃiei N este mult mai mare decât volumul n aleşantioanelor acea selecŃie este o bună aproximare a celei „f ără revenire”.

ConstrucŃia eşantioanelor constă în aplicarea de n ori a subrutinei„RandomInteger” (de generarea unui subşir din repartiŃia uniformă pe 1,…, N ,

obŃinânduse un subşir nii ,...,1 , adică o selecŃie cu revenire şi eşantionul va avea

forma s = nii ee ,...,

1, iar spaŃiul eşantioanelor se organizează cu o structură de câmp de

probabilitate ( nS , (S n ), nP ) cu nnot n

k

k nS Ω=Ω=∏=1

,nn

N

sP1

)( = , pentru orice s∈S n .

Probabilitatea iπ de includere a unităŃii ie în sondaj va fi:

iπ = 1-(1- N

1)n , i = 1,… N şi

jiij π π π = pentru unităŃile ie şi je , i,j = 1,…, N ,

pentru că probabilitatea ca ie să apară într-o extragere este N

1 şi extragerile sunt

independente.

ExerciŃiul 12.

ConstruiŃi 2 eşantioane prin selecŃie simplă cu revenire, de volume 21 nn ≠ , din

două populaŃii originare cu 1 N şi 2 N unităŃi indexate.

SoluŃia în Mathematica. ReŃinem indicii indivizilor ce vor face parte din celedouă eşantioane în listele „esantion1” şi „esantion2”. Construim aceste liste folosindfuncŃia predefinită „Function” cu parametrii n (volumul eşantionului) şi N (volumulpopulaŃiei): în lista „indici” punem numere întregi generate aleator cu valori cuprinse

între 1 şi N . Apelul funcŃiei „func”, creată de noi, determină fiecare eşantion.

Page 66: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 66/118

66

Construim cel de-al doilea eşantion.

3.2. SelecŃii aleatoare simple f

ără

revenireş

i unităŃ

i echiprobabile.

Acest tip de selecŃie este cel mai frecvent apelat în cazul mulŃimilor finite şi seporneşte de la lista elementelor populaŃiilor numerotate cu 1,..., N , f ără ordine stabilită şi

se construieşte o submulŃime ,..., 1 nii a mulŃimii 1,…,N prin selecŃia aleatoare f ără

revenire, eşantionul fiind s = ,...,1 nii ee .

Sunt posibile două modalităŃi de extragere a submulŃimi nii ,...,1 : fie extragem

simultan cele n elemente (cum se procedează în controlul statistic al calităŃii loturilor deproduse), fie secvenŃial (aşa cum se întâmplă la sondajele electorale sau în anchetele

sociologice). Aceste procedee conduc la structuri de câmp finit de probabilitate diferiteşi avem în primul caz:

, / ,...,1

k j pentrueeeeesSk j jn iiiiin ≠≠Ω∈== şi

n N

k C

sP1

)( = pentru orice nSs∈ ,

iar în al doilea caz:

,...,,...,, / ,...,111211 −

−Ω∈−Ω∈Ω∈==nnn iiiiiiiin eeeeeeeesS şi

n N

n A

sP1

)( = , pentru orice nSs∈ .

Cum însă, în prelucrarea statistică nu contează ordinea introducerii elementelor în eşantion, important fiind numai faptul că elementele din eşantion sunt diferite, se

convine să se consideren

N

k C

sP1

)( = (pentru că probabilitatea alegerii a k elemente din

Page 67: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 67/118

67

K elemente cu aceeaşi proprietate este dată de formulan

N

k nk N

k K

C

C C −

− ).

Generarea submulŃimii ,...,1 nii ee din 1,…,N se face prin „selecŃii aleatoare cu

revenire şi eliminare”, adică se generează aleator numere i între 1 şi N şi după fiecaregenerare se verifică dacă i este în submulŃimea deja generată; dacă există deja, segenerează alt număr, până se obŃine un număr care nu a mai fost generat. Procedeul se

continuă până la generarea celor n elemente distincte ,..., 1 nii ee (procedeul este

aplicabil dacă 2

N n < ceea ce este întotdeauna asigurat în sondajele statistice). În plus,

de regulă generatorul „RandomInteger” este un generator multiplicativ cu o perioadă

foarte mare (2 32 - 2), ceea ce face ca selecŃia aleatoare cu revenire şi eliminare să fie obună aproximare a selecŃiei aleatoare f ără revenire.

ProbabilităŃile de includere a unei unităŃi ie în eşantion şi respectiv, a două

elemente ie , je sunt date prin

∑∈∈=

SeSS

ni

i

nsP )(π , N i ,..,1= şi

∑∈

≠==

SeeSS

nij

ji

n

ji N jisP

,

,,...,1,),(π .

Acest procedeu oferă o bună aproximare a selecŃiei aleatoare f ără revenire.

Alegerea secvenŃială a numerelor nii ,...,1 din mulŃimea ,...1 N ce defineşte eşantionul s

menŃionat se întâlneşte în sondajele de opinie, sondajele electorale, anchete sociologiceetc.

ExerciŃiul 13.

ConstruiŃi 2 eşantioane prin selecŃie aleatoare cu revenire şi eliminare, de

volume, respectiv, n 1 şi n 2 , din două populaŃii cu N 1 şi N 2 unităŃi indexate (pentru

n 1 ≠ n 2 şi N 1 ≠ N 2 , N 1 , N 2 >100, n1 , n 2 >10).

SoluŃia în Mathematica. Indicii indivizilor care vor face parte din cele două eşantioane se reŃin în listele „esantion1” şi „esantion2”.

Page 68: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 68/118

68

3.3 SelecŃii sistematice din populaŃii simple

SelecŃia sistematică este mai simplă şi mai rapidă decât selecŃia aleatoare f ără revenire şi riscul de a greşi prin includerea sau neincluderea unei unităŃi este mai mic.Intuitiv, ea este mai precisă decât selecŃia aleatoare simplă f ără revenire, în anumiteipoteze. În această selecŃie se presupune că elementele populaŃiei Ω sunt ordonate după un anumit criteriu (de exemplu în cazul loturilor de produse finite, după data intrării îndepozit, la listele telefonice, alfabetic, etc.).

Prima unitate este aleasă aleator, iar celelalte sunt alese în mod sistematic, după

o regulă nealeatoare: la indicele obŃinut aleator se adaugă succesiv numărul k asfel încât N = nk + m, nm <≤0 , în care se presupune că n este mult mai mic decât k.

Algoritmul este următorul:

1) considerăm o variabilă aleatoare uniformă U pe mulŃimea 1,…,k , adică

k r k

r U P ,...,1,1

)( === ;

2) se generează o valoare r a variabilei uniforme U ;

3) a) dacă r ≤m, se definesc eşantioanele

,,...,,, )1(2 nk r k nr k r k r r r eeeees +−+++= în număr de m şi de volum n+1;

b) dacă r>m, se definesc eşantioanele

,...,,, )1(2 k nr k r k r r r eeees−+++

=

în număr de k-m şi de volum n.

Page 69: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 69/118

69

Deci ,..., 1 k n ssS = şik

sP r n

1)( = . nr Ss ∈∀ .

ExerciŃiul 14.

ConstruiŃi un eşantion sistematic de volum 1n dintr-o populaŃie cu 1 N indivizi

indexaŃi, pentru 1 N >300 şi 1n >20.

SoluŃia în Mathematica. Alegem valorile 353 şi 25 pentru 1 N , respectiv 1n .

ReŃinem indicii indivizilor ce vor face parte din eşantion în listele „esantion1” şi„esantion2”.

Construim întreg spaŃiul eşantioanelor, pe care îl reŃinem în „lista1”. Acesta segăseşte prin apelarea funcŃiei „selectie” cu argumentele 353 şi 25.

Page 70: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 70/118

70

Capitolul 3. Elemente privind descrierea şi analiza

datelor de selecŃie

În activitatea de culegere a datelor numerice sau calitative prin diferite tehnici desondaj, prezentate în capitolul anterior, se obŃin aşa numitele „date primare” obŃinutepentru una sau mai multe caracteristici sub cercetare. Scopul acestora este de a serviinvestigaŃiei prin inferenŃă statistică asupra populaŃiei respective, adică prin estimare şiverificarea ipotezelor statistice.

Pentru scopuri preliminare, uneori suficiente pentru a decide necesitateaaprofundării investigaŃiilor, se apelează la demersuri statistice mai simple care-şi propunsă dea unele informaŃii preliminare prin analize şi grupări specifice şi care oferă odescriere utilă prin instrumentele statisticii descriptive: tabelare (utilă pentru raportărilestatistice şi pentru întocmirea anuarelor statistice ale statelor), grafice (ce oferă căi deabordare imagistică a unor ulterioare demersuri mai consistente) şi numerice (care oferă caracteristici statistice importante privind centrele de grupare, măsuri ale împrăştieriidatelor, informaŃii privind forma graficelor densităŃilor asociate cum sunt coeficienŃii deasimetrie şi aplatizare).

Analize mai profunde oferă metodele factoriale: Analiza ConcordanŃelor,Analiza în Componente Principale şi Analiza Canonică.

1. Tabele statistice

Am precizat anterior că unele tipuri (din care vor fi exemplificate cinci) detabele statistice se constituie ca şi documente statistice de utilitate publică saudocumentare ştiinŃifică.

Problema planurilor de sondaje aleatoare, proiectarea acestora şi controluldatelor de sondaj include printre altele pregătirea tabelelor indivizi/variabile, tehnicipentru tratarea non răspunsurilor (dintre care amintim metoda imputaŃilor, metodareponderării eşantionului, metoda reselecŃiei pentru nonrespondenŃi sau metoda

întrebărilor cu răspuns aleator) şi problema eliminării „intruşilor”.Privind tabelele statistice din punct de vedere logic, acestea se constituie ca

ansambluri de judecăŃi despre subiect (populaŃia şi componentele sale) şi desprepredicat (elementele statistice ce caracterizează populaŃia: numărul unităŃilor de unanume fel, valori sau frecvenŃe însumate şi alte caracteristici). O primă clasificare arputea fi acea care le împarte în tabele simple, tabele pe grupe, tabele statisticecombinate, tabele cu dublă intrare şi respectiv cu triplă intrare pe care le vom

Page 71: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 71/118

71

exemplifica mai jos pentru a rezuma şi facilităŃile oferite de softurile Mathematica şiExcel.

Vom căuta să exploatăm facilităŃile softului Mathematica pentru prezentareaacestor metode, dar totodată vom scoate în evidenŃă avantajul incontestabil alprogramului Excel la acest tip de prelucrare şi prezentare de date statistice.

Prezentăm în Mathematica şi în Excel cinci tipuri de tabele.

a) Tabelul statistic simplu sau cu simplă intrare (prezintă repartiŃia uneipopulaŃii după o singură caracteristică atributivă, de timp sau de spaŃiu) este format deregulă din două coloane în care se înregistrează modalităŃile caracteristicii (de regulă valori, momente sau intervale de timp, atribute, etc.) şi, respectiv, frecvenŃele saunivelurile fiecărei modalităŃi (la nevoie se adaugă coloane care înregistrează frecvenŃerelative, frecvenŃe cumulate, valori globale, abateri etc.).

Exemplul 4. EvoluŃia populaŃiei României între anii 2003-2007. Tabelulurmător este construit în Microsoft Word , dar apoi acesta se va prezenta şi în softurile

Mathematica şi Excel.Tabelul nr. 1. PopulaŃia României între anii 2003-2007

Data recensământului Numărul populaŃiei totale

1 iulie 2003 21.733.556

1 iulie 2004 21.673.328

1 iulie 2005 21.623.849

1 iulie 2006 21.584.365

1 iulie 2007 21.537.563

Sursa: Anuarul Statistic al României 2008

În Mathematica descriem tabelul de mai sus în două feluri: sub forma unei listepe care apoi o afişăm sub formă de tabel şi folosind opŃiunea „Table/Matrix” din meniul„Insert”.

Page 72: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 72/118

72

Introducem datele în Excel după cum am descris în ExerciŃiul 1, iar unde estenevoie, celulele se pot uni cu opŃiunea „Merge Cells”. De asemenea, trebuieredimensionate unele celule cu ajutorul mouse-ului.

b) Tabelul statistic pe grupe este acela în care populaŃia cercetată se desparte îngrupe sau clase după o singură caracteristică (calitativă sau cantitativă).

Exemplul 5. În tabelul alăturat se dau căsătoriile într-un an, după grupa devârstă a soŃilor (deci tabelul statistic pe grupe după o singură caracteristică):

Grupa de vârstă BărbaŃi Femei

sub 20 ani 9.176 65.264

20-24 63.325 50.565

25-29 52.591 21.207

Page 73: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 73/118

73

30-34 16.822 10.388

35-39 8.039 6.166

40-44 4.395 4.312

45-49 2.147 2.197

50-54 2.669 1.896

55-59 2.032 1.167

Peste 60 3.029 1.064

În Mathematica tabelul se introduce după cum urmează.

În Excel tabelul arată astfel:

Page 74: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 74/118

74

c) Tabelul statistic combinat este acela care oferă grupări combinate după două sau mai multe caracteristici, cu predicat prelucrat sau nu. Un exemplu de astfel de tabeleste cel prezentat în ExerciŃiul 1.

d) Tabelul cu dublă intrare este acela în care se înregistrează repartiŃiicombinate după două caracteristici X şi Y (uneori între acestea există o dependenŃă şiatunci avem un tabel de corelaŃie).

Tabelele cu dublă intrare, ce prezintă datele unui vector ( X ,Y ), în care X = xi,

i= m,1 , Y = y j, j= n,1 , au pe prima linie valorile (sau intervalele de valori) lui Y (respectiv pe

prima coloană valorile lui X ), iar pe următoarele i linii i= m,1 , în rubricile de la

intersecŃia cu coloanele j, j= n,1 , frecvenŃele perechilor de valori X = xi, Y = y j, notate cu nij

şi numite frecvenŃe sau efective parŃiale. Ultima linie (respectiv ultima coloană) în

care se scrie un „total” conŃine în fiecare coloană fixată j (respectiv fiecare linie fixată i)

sumele numerelor din coloana fixată (linie fixată) numite secvenŃe sau efective

marginale, notate prin:

∑=• =

m

i

ij j nn1

, ∑=• =

n

j

iji nn

1, iar ∑∑ =

=

••• ==

n

j j

m

i

i nnn

11

unde n•• reprezintă efectivul total sau volumul eşantionului (acesta se scrie în rubrica

de la intersecŃia liniei şi respectiv a coloanei ce conŃin frecvenŃele marginale).

În concluzie, prezentarea generală a unui tablou (numit şi tablou de contingenŃă

Page 75: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 75/118

75

sau de corelaŃie, pentru ca el sugerează, în urma unor prelucrări corespunzătoare

anumite tipuri de dependenŃe dintre cele două variabile) cu date pentru analiza unui

vector bidimensional ce reuneşte două variabile statistice X şi Y cu modalităŃile xi, i= m,1 ,

şi y j, j= n,1 va fi de forma :

Exemplul 6. În tabelul următor este sintetizată informaŃia statistică obŃinută latestarea a trei categorii de bere produse de o firmă care a solicitat părerile a 150 depersoane consumatoare:

Tabelul nr. 4. Rezultatele testului privind preferin Ń ele de bere

Tipul de bere

Blondă Neagră Normală Total

Masc. f 11=20(13,3%) f 12=20(13,3%) f 13=40(26,7%) 80(53,3%)

Fem. f 21=30(20,0%) f 22=10(6,7%) f 23=30(20,0%) 70(46,7%)Sex

Total 50(33,3%) 30(20,0%) 70(46,7%) 150(100%)

În Mathematica tabelul arată după cum urmează.

Page 76: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 76/118

76

În Excel se obŃine:

e) Tabel cu triplă intrare (sau cu trei dimensiuni).

Exemplul 7. Se înregistrează 1000 de persoane după starea civilă, sex şi vârstă (deci trei caracteristici) astfel:

Tabelul nr.5. Rezultatele clasifică rii a 1000 persoane după 3 caracteristici

CăsătoriŃi Celibatari Văduvi Divortati Totalx1=Stareacivilă

x2=Sexul

x3=Vârsta

B. F. B. F. B. F. B. F. B. F.∑

Sub 20 ani 8 10 141 139 0 0 1 1 150 150 200

20-60 ani 198 220 9 3 5 5 5 28 217 256 500

≥60 ani 34 30 5 3 40 50 54 11 133 94 200

Total 240 260 155 145 45 55 60 40 500 500 1000

∑ 500 300 100 100 1000

În Mathematica tabelul de mai sus arată astfel:

Page 77: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 77/118

77

În Excel:

2. Metode grafice de reprezentare a datelor statistice

Prezentarea grafică a datelor statistice are avantajul că pe lîngă suportul intuitivşi forŃa lor sintetică ele pun în evidenŃă tendinŃe şi regularităŃi, dependenŃe funcŃionalecare înlesnesc cunoaşterea şi previziunea acestora. Histogramele, cu mai recenta lorformă de diagramă „trunchi şi frunze” introdusă de J. Tukey în 1977 sub denumirea de„stem and leaf”, şi poligoanele frecvenŃelor sunt aproximante ale densităŃii de repartiŃieasociate variabilei aleatoare sub cercetare, iar curbele cumulate ascendant - aproximanteale funcŃiei de repartiŃie asociate. Acestora li se asociază şi diferite tipuri de diagrameprin combinaŃii de linii, curbe, figuri geometrice, simbolice sau naturale carecompletează modalităŃile de prezentare şi exprimare a constatărilor statistice, oferind înplus un bun mijloc de popularizare şi o oarecare expeditivitate spre factorii decidenŃi.

Am exemplificat în Capitolul 2 §2.3 suficiente cazuri de histograme şi depoligoane de frecvenŃă, dar să amintim unele aspecte legate de acestea. Se ştie că histograma este o diagramă specială asociată seriei statistice pe care o reprezintă. Ea sededuce prin precizarea extremităŃilor intervalelor de grupare a datelor seriei statisticereprezentate pe axa absciselor şi în fiecare ridicându-se câte un segment perpendicularpe Ox şi a cărui lungime se alege astfel încât dreptunghiul format prin unirea capetelorsuperioare să aibă aria proporŃională cu frecvenŃa de interval (suma frecvenŃelor datelor

Page 78: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 78/118

78

ce cad în interval). Suma ariilor dreptunghiurilor va fi 1, N = numărul valorilor de pe Oxsau 100, în funcŃie de convenŃia aleasă la prezentarea datelor, respectiv prin frecvenŃarelativă, prin frecvenŃa absolută sau prin procente. Deci ea aproximează aria cuprinsă

între graficul densităŃii de repartiŃie a variabilei cercetate prin selecŃii, axa Ox şiparalelele la Oy prin extremităŃile seriei de date. În acest fel, segmentele paralele cu Ox,componente ale histogramei, definesc o linie poligonală specială ca aproximant algraficului densităŃii de repartiŃie. Ea sugerează diferite forme întâlnite în statistică: de

tip simetric în formă de clopot, în formă de „U”, asimetrice sau oblice sau în formă de„J”. Cu toate acestea, ea are inconvenientul că forma ei depinde de partiŃia mulŃimiivalorilor seriei statistice în intervale ce pot fi şi inegale (la care se adaugă şi eroriledatorate convenŃiei că datele s-ar dispune uniform pe intervalele componente şi că arputea fi bine reprezentate de mijlocul acestor intervale). Când intervalele de gruparesunt inegale se obişnuieşte să se folosească aşa numitele „frecvenŃe reduse” obŃinuteprin împărŃirea frecvenŃelor iniŃiale la valoarea raportului dintre lungimea intervalelorrespective şi lungimea celui mai scurt interval.

Poligonul de frecvenŃă este o linie poligonală ce uneşte mijloacele intervalelorde grupare a datelor cu frecvenŃele pe intervalele respective. Acest tip de grafic este de

asemenea un aproximant al formei densităŃii de repartiŃie. În comparaŃie cu poligonulfrecvenŃelor, histograma este totuşi preferată în cazul selecŃiilor finite (discrete) pentrucă evită posibila confuzie a liniilor poligonului de frecvenŃă cu liniile superioare alehistogramei, dând impresia unei curbe continue de frecvenŃe, deşi seria este discretă.

2.1. Histograme şi poligoane asociate frecvenŃelor seriilor statistice

În cadrul comparării datelor obŃinute prin generarea unor şiruri de numere

aleatoare ce urmează o lege dată cu legea însăşi am constatat atât avantajele, cât şidezavantajele oferite de „abordarea imagistică”cu ajutorul histogramelor şi poligoanelorde frecvenŃă. Fără să minimalizăm rolul acestor două instrumente, este util să cunoaştemunele subtilităŃi privind eliminarea unor erori posibile sau a unor pierderi de informaŃie.De exemplu, se impune o armonizare între tendinŃa de sporire a numărului de intervale,care ar sugera micşorarea erorii, şi inconvenientul apariŃiei unor neregularităŃi (variaŃiibruşte de frecvenŃe, unele chiar nesemnificative pentru fenomen, care pot duce lainterpretări false).

Modul în care frecvenŃele de grupă sunt repartizate pe intervale succesive(impuse de metodologia de măsurare sau prin convenŃie) defineşte repartiŃia defrecvenŃe sau repartiŃia statistică a variabilei cercetate.

Cu privire la regulile empirice folosite pentru determinarea număruluiminim de intervale (notat cu k ) sau lungimea intervalului de grupare (notat cu d )amintim următoarele reguli întâlnite în practică:

Page 79: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 79/118

79

1) (regula lui H. A. Sturges): ,log3

101 10 nk += ,

log3

101 10

minmax

n

x xd

+

−=

n=volumul selecŃiei;

2) ,100

)(8 minmax x xd

−= 8 = constantă empirică;

3) k = cel mai mic întreg pentru care k n 2≤ .

Dăm o clasificare, în cazul discret, a fenomenelor observate pe baza formeipoligonului de frecvenŃe.

Una din căile de sistematizare a demersului statistic este aceea de a compararezultatele cercetării cu anumite tipuri de repartiŃii întâlnite în practica statistică şistudiate mai aprofundat. Dintre acestea amintim:

a) repartiŃii de frecvenŃă de tip simetric sau în formă de clopot (sau sub formă de pă lă rie sau cu un singur vârf , adică unimodale sau cu o singur ă cocoa şă ) ceea ceexprimă faptul că frecvenŃele descresc tinzând la zero, simetric de ambele părŃi ale unei

valori maxime centrale;b) repartiŃii „moderat asimetrice” (oblice) sunt acelea în care frecvenŃele

descresc cu viteză într-o parte a valorii maxime şi mai lent în celalaltă parte; există repartiŃii oblice cu oblicitate „ pozitivă ” sau „la stânga”, când ramura lungă a curbei seaflă în dreapta şi în cazul când ramura mai lungă se află la stânga oblicitatea este„negativă ” sau „la dreapta”.

c) repartiŃii pronunŃat asimetrice sau „ în formă de ˛” (sau „Ô”) sunt acelea încare frecvenŃele de grupare î şi ating maximul la unul din capetele intervalului devariaŃie (sau sunt foarte apropiate de acestea);

d) repartiŃii în formă de „»”, adică cele ce prezintă frecvenŃe maxime la capeteleintervalului de variaŃie şi frecvenŃe minime în centrul intervalului.

Pot apărea şi forme mai complexe, adică diferite combinaŃii de „ˇ”, „Ô”, „»”,sau simetrice pe anumite intervale.

În cazul multor legi de repartiŃie apropierea imagistică dintre histogramă şidensitatea de repartiŃie este satisf ăcătoare şi se recomandă ca prim demers în obŃinereade informaŃii şi ipoteze ce urmează a fi confirmate sau nu prin tehnicile avansate deinferenŃă statistică.

ExerciŃiul 15.

AdministraŃia unui complex comercial doreşte să ia măsuri pentru micşorareaabsenteismului prin schimbarea programului de muncă. Pentru a-şi motiva deciziaanalizează numărul de absenŃi pe tură, în fiecare din cele cinci zile lucrătoare, pe operioadă de 6 săptămâni şi obŃine următoarele date:

Page 80: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 80/118

80

Săpt. 1 Săpt. 2 Săpt. 3 Săpt. 4 Săpt. 5 Săpt. 6

Luni 3 9 15 5 16 16

MarŃi 30 17 12 9 23 15

Miercuri 21 16 17 13 20 18

Joi 2 31 11 12 27 22

Vineri 15 14 10 6 19 14

ConstruiŃi histograma şi poligonul de frecvenŃă pentru aceste date.

SoluŃia în Mathematica. Construim histograma şi poligonul frecvenŃelor la fel ca în paragraful 2.3 al capitolului anterior.

Histograma de mai sus coincide cu cea construita folosind regula lui Sturges.

Aplicam regula de la subpunctul 2) pentru d =3.

Page 81: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 81/118

81

Construim poligonul de frecventa in primul caz.

SoluŃia în Excel. Introducem datele într-o foaie de lucru precum şi limitelesuperioare ale intervalelor de grupare (5, 10, 15, 20, 25, 30), acestea din urmă pe osingură coloană. Folosim apoi opŃiunea „Histogram” de la „Data Analysis...” din meniul„Tools” (dacă nu găsim în acest meniu „Data Analysis...”, trebuie să deschidem „Add-Ins...” şi să bif ăm „Analysis ToolPak”).

În fereastra „Histogram” introducem la „Input Range” adresa celulelor unde seaflă datele, la „Bin Range” adresa celulelor ce reŃin limitele superioare ale intervalelorde grupare, la „OutPut Range” adresa unei celule începând de unde dorim să se afişezerezultatul şi bif ăm „Chart Output” pentru a apărea în foaia de lucru graficul propriu-zis.

Page 82: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 82/118

82

În foaia de lucru apar frecvenŃele datelor pe intervalele alese şi histograma.Putem modifica aspectul acesteia dând clic dreapta pe zona dreptunghiurilor şi alegând„Format Data Series”. Alegem culoarea roşie pentru acestea şi la „Options” scriem 0 îndreptul căsuŃei „Gap Width” pentru a nu exista spaŃiu între dreptunghiuri.

Histogram

0

2

4

6

8

10

5 1 0

1 5

2 0

2 5

3 0

M o r e

Bin

F r e q u e n

Frequency

Se poate observa că Excel-ul returnează valori diferite pentru frecvenŃele peintervalele considerate. Acest lucru se întâmplă deoarece programul numără câte valoridin setul de date sunt mai mici sau egale cu fiecare limită superioară de interval (deexemplu există 3 valori mai mici sau egale cu 5). În schimb Mathematica returnează numărul valorilor strict mai mici decât limita superioară a intervalelor considerate (deexemplu găseşte 2 valori mai mici decât 5). Pentru a remedia acest lucru, dacă sedoreşte, trebuie schimbate în Excel limitele superioare ale intervalelor considerate: 4,5;9,50; 14,50; 19,50; 24,50; 29,50. Rezultatul este următorul:

Histogram

0

2

4

6

8

10

12

4,50 9,50 14,50 19,50 24,50 29,50 More

Bin

F r e q u e n

Pentru a suprapune poligonul de frecvenŃă histogramei procedăm în felulurmător: dăm clic dreapta pe zona albă a graficului şi alegem „Source Data...”, apoi la„Series” apăsăm butonul „Add” pentru a introduce o nouă serie de date (care în acestcaz coincide cu cea deja existentă), la „Name” scriem adresa celulei „Frequency” dinfigura de mai sus sau direct de la tastatură „="Frequency"”, iar la „Values” adreselecelulelor unde se află frecvenŃele. Dăm „OK” şi poligonul de frecvenŃă va apărea peacelaşi grafic ca histograma. În mod similar, modificăm culoarea liniei poligonale, iar

Page 83: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 83/118

83

legenda din partea dreaptă a graficului se poate şterge.

În cazul în care pe grafic nu apare o linie poligonală, ci tot dreptunghiuri, dar dealtă culoare, trebuie să schimbăm tipul diagramei celei de-a doua serii de date. Dăm clicdreapta pe aceste dreptunghiuri şi de la „Chart Type...” alegem tipul de grafic „Line” şisubtipul „Line with markers displayed at each data value” sau mai simplul „Line”.

Histogram

0

2

4

6

8

10

12

4,50 9,50 14,50 19,50 24,50 29,50 More

Bin

F

r e q u e n

2.2. RepartiŃii de frecvenŃe cumulative (şi retrocumulative). Ogiva.

FuncŃia empirică de repartiŃie.

Se numesc curbă a frecvenŃelor sau lege de frecvenŃă (curbă de repartiŃie) şi,respectiv, curbă a frecvenŃelor cumulate sau ogivă (sau dacă cumularea estedescendentă se numeşte curbă a frecvenŃelor retrocumulate) acele curbe către caretinde histograma sau poligonul frecvenŃelor, respectiv poligonul frecvenŃelor cumulatede tipul corespunzător când numărul observaŃiilor creşte foarte mult simultan cu

Page 84: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 84/118

84

micşorarea intervalelor de clasă din partiŃionarea mulŃimii valorilor variabilei studiate.

Legea de frecvenŃă (relativă) şi respectiv curba frecvenŃelor cumulate (ogiva) în limbajul probabilist conduc la densitatea de probabilitate şi respectiv la funcŃia derepartiŃie.

Aceste asocieri de grafice corespunzătoare permit ca prin interpolare să sededucă frecvenŃele unor valori intermediare ale absciselor sau respectiv frecvenŃele

valorilor mai mici sau mai mari decât o valoare dată.Curba cumulată a frecvenŃelor (ogiva), comparativ cu curba frecvenŃelor are

avantaje atât prin claritatea reprezentării, prin existenŃa unor modalităŃi de estimare anumărului de observaŃii ce nu depăşesc o valoare, prin facilităŃile oferite prininterpolare, cât şi prin aceea că forma rămâne, în general, neschimbată chiar dacă mărimea intervalelor sau numărul lor este diferit (de exemplu, pentru repartiŃie în fomă de clopot – ogiva arată ca un „S” alungit, formă numită sigmoidă). Nici folosirea deintervale inegale (care apare deseori din necesităŃi practice) nu denaturează curbacumulată. Se ştie că în cazul curbelor de frecvenŃă sunt greu de comparat curbe cefolosesc intervale neegale, căci acestea aduc modificări formei lor.

Uneori se utilizează ogiva lui Galton, care este oarecum inversată în sensul că utilizează reprezentarea valorilor variabilei pe Oy şi a frecvenŃelor pe Ox.

Una din cele mai utile reprezentări ale variabilelor este funcŃia empirică de

repartiŃie ( *nF ), care este o formă prelungită a poligonului de frecvenŃe cumulate, adică

a ogivei, la întreaga axă reală.

Mai precis, ea coincide cu funcŃia de repartiŃie, în sensul teoriei probabilităŃilor,asociată repartiŃiei statistice (în care apar în ordine crescătoare valorile variabilei,fiecare dintre ele scrisă de câte ori se repetă în obŃinerea datelor observate saucomasându-le într-o singură enumerare, dar cu frecvenŃa cumulată de câte ori se repetă;

în locul claselor se iau abscisele mijloacelor sau extremităŃile din dreapta careprezentante de clasă).

Aşadar avem:

,...

...

1...

1...

1...

11...

1

............

1111...

1

''1

'''2

'2

'1

'1

2121

=

=

n

i

n

i x x

nnnnnn

x x x x x x

nnnn

x x x

k

k orii

k k

oriioriin

k

321321321

''sr x x < ,

pentru sr < , nii k =+ ...1 şi, respectiv, ]1,0[:*→ RF n , ,...,

2,

1,0)(*

n

n

nn RF n ⊆ , iar

respectivele valori sunt luate succesiv când x variază crescător de la ∞− la ∞+ , estenedescrescătoare, continuă la stânga, cu singurele puncte de discontinuitate '

i x (tot

atâtea câte valori sunt distincte), fiecare fiind de speŃa întâia şi cu valoarea de salt

numărul de repetări ale fiecărei valori înmulŃit cun

1.

Page 85: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 85/118

85

ExerciŃiul 16.

PrezentaŃi curba frecvenŃelor cumulate ascendent şi descendent pentru seria dedate din ExerciŃiul 15.

SoluŃia în Mathematica. Construim curba cumulată ascendent a datelor şihistograma corespunzătoare. FuncŃia „Accumulate” ne ajută să determinăm frecvenŃelecumulate ascendent.

Reprezentăm grafic curba frecvenŃelor cumulate descendent şi histogramacorespunzătoare. De data aceasta folosim funcŃia „For” pentru a determina frecvenŃelecumulate descendent.

Page 86: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 86/118

86

SoluŃia în Excel. Introducem datele în foaia de lucru şi determinăm frecvenŃelecumulate ascendent şi descendent ale acestora pe intervale de lungime egală cu 5. ÎnExerciŃiul 15 am găsit frecvenŃele absolute ale datelor pe intervalele specificatefolosind opŃiunea „Histogram” de la „Data Analysis...”, din meniul „Tools”. Pentrudeterminarea frecvenŃelor cumulate ascendent şi descendent folosim formulematematice, aşa cum se poate observa în figura de mai jos.

Reprezentăm grafic curba cumulată ascendent: de la „Insert” alegem „Chart...” şise deschide o fereastră unde specificăm tipul „Line” de diagramă, cu acelaşi subtip.

Dăm „Next” şi la „Data Range” scriem adresa celulelor ce re Ńin frecvenŃele cumulateascendent, iar la „Series”, respectiv, „Category (X) axis” specificăm domeniul celulelorunde se află extremităŃile intervalelor de grupare. La următorul pas putem denumigraficul şi axele sau preciza multe alte opŃiuni.

Page 87: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 87/118

87

Dăm clic pe butonul „Finish” si curba cumulată ascendent va apărea în foaia delucru. Curba cumulată descendent se reprezintă grafic în mod analog.

Curba cumulata ascendent

0

5

10

15

20

25

30

35

4,50 9,50 14,50 19,50 24,50 29,50 More

Intervale

F r e c v e n

Curba cumulata descendent

0

5

10

15

20

25

30

35

4,50 9,50 14,50 19,50 24,50 29,50 More

Intervale

F r e c v e n

Histogramele corespunzătoare celor două curbe se construiesc analog, cuprecizarea că tipul de grafic trebuie să fie „Column” cu subtipul „Clustered Column”.

Curba cumulata ascendent

0

5

10

15

20

25

30

35

4,50 9,50 14,50 19,50 24,50 29,50 More

Intervale

F r e c v e

n

Curba cumulata descendent

0

5

10

15

20

25

30

35

4,50 9,50 14,50 19,50 24,50 29,50 More

Intervale

F r e c v e n

Page 88: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 88/118

88

2.3. Curba lui Gini-Lorenz

Pe un sistem de referinŃă se figurează pe axa absciselor frecvenŃa cumulată

asociată seriei statistice xi, ni, adică

∑<=

:

)( x xi

i

i n

n xF ]1,0[∈ , căci nnn

k

=++ ...1

, iar

pe axa ordonatelor se reprezintă frecvenŃa cumulată a valorilor globale, adică asociată

seriei , iii xn x şi deci

∑∑<

=

=:

1

)( x xni

k

j j j

ii

ii xn

xnnxF .

Graficul )(),( nxF xF din pătratul unitate ]1,0[]1,0[ × (numit şi pătratul lui

Gini) se numeşte „curba de concentrare” a lui Gini-Lorenz. Ea are numeroase aplicaŃii

în economie unde conceptul de concentrare este strâns legat de cel de împrăştiere sau dedispersie. Reprezentarea disparităŃii între părŃile relative atribuite claselor în repartiŃiavalorilor globale ale unei variabile cercetate are o semnificaŃie importantă. De exemplu,concentrarea salariilor, a beneficiilor, a tipurilor de societăŃi comerciale şe altele suntinformaŃii de mare utilitate în cercetările din economie.

ExerciŃiul 17 (din [5], pag. 130).

ConstruiŃi curba lui Gini-Lorenz asociată statisticii privind gruparea populaŃieiRomâniei la 1 iulie 1993 prezentată mai jos:

Numărul judeŃelor Numărul populaŃieiGrupe de judeŃedupă numărul de

locuitori Frec.abs.

Frec.%

Frec.cum.

Frec. abs. Frec. %Frec.cum.

Sub 300.000 3 7,3 7,3 769.611 3,38 3,38

300.000-399.999 10 24,4 31,7 3.516.005 15,45 18,83

400.000-499.999 8 19,6 51,3 3.588.798 15,77 34,60

500.000-599.999 6 14,6 65,9 3.271.513 14,37 48,97

600.000-699.999 6 14,6 80,5 3.897.197 17,13 66,10

700.000-799.999 5 12,2 92,7 3.679.495 16,17 82,27

800.000 şi peste 3 7,3 100,0 4.032.641 17,73 100,00

Total 41 100,0 22.755.260 100,00

SoluŃia în Mathematica. ReŃinem frecvenŃele cumulate pentru judeŃe şi pentrupopulaŃie în listele „frecvjud” şi, respectiv, „frecvpop”. Transformăm apoi aceste valori

Page 89: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 89/118

89

în numere subunitare şi reprezentăm grafic curba lui Gini-Lorenz utilizând funcŃia„ListPlot” cu opŃiunea „Joined” având valoarea „True”. Pe acelaşi grafic prezentăm şiprima bisectoare pentru o analiză mai bună a diagramei.

SoluŃia în Excel. Introducem datele din enunŃul problemei într-o foaie de lucruactivă a programului şi transformăm frecvenŃele cumulate pentru populaŃie şi judeŃe dinprocente în numere subunitare.

Selectăm domeniul celulor ce reŃin valorile subunitare şi construim curba luiGini-Lorenz: alegem „Chart...” din meniul „Insert” şi din fereastra ce se deschide optămpentru tipul de grafic „XY (Scatter)” şi subtipul „Scatter with data points connected bysmooth lines”. După ce efectuăm câteva operaŃii pentru modificarea aspectuluigraficului, acesta va arăta ca în figura de mai jos.

Page 90: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 90/118

90

0

0,2

0,4

0,6

0,8

1

1,2

0 0,2 0,4 0,6 0,8 1 1,2

Pe acelaşi grafic reprezentăm prima bisectoare: reŃinem în patru celulecoordonatele punctelor (0,0) şi (1,1), facem clic dreapta pe diagramă, alegem „SourceData...”, în căsuŃa care se deschide introducem o nouă serie de date – la „X Values”scriem adresa celulelor unde sunt abscisele punctelor, iar la „Y Values” ordonatele lor.

0

0,2

0,4

0,6

0,8

1

1,2

0 0,2 0,4 0,6 0,8 1 1,2

Page 91: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 91/118

91

2.4. Diagrama „Stem-and-Leaf” („tulpină şi frunze”)

Acest concept a fost introdus în 1977 de către J. Tukey şi constituie uninstrument util şi pentru „cutia cu antene”, ambele având un rol important în analiza

primară a datelor statistice. Această diagramă reprezintă o formă specială de histogramă deoarece asociază unor rădăcini (nuclee) de cifre şiruri orizontale de cifre ce le urmează şi care, adăugate corespunzător, reconstituie o parte dintre datele numerice ale serieistatistice. Rezultă că forma ei sugerează forma densităŃii de repartiŃie asociată caracteristicii sub cercetare ce este reprezentată prin datele numerice din seria statistică analizată (ca rezultat al măsurătorilor).

ExerciŃiul 18.

Se execută un test privind pregătirea la matematică a elevilor din ultima clasă de

liceu cu întrebări, exerciŃii şi probleme ce însumează 100 de puncte. Se folosesc numaiaprecieri cu puncte întregi pentru notare şi participă 50 de elevi. PrezentaŃi diagrama„stem-and-leaf” a datelor de mai jos, înregistrate ca rezultate ale testului la matematică.

75 41 46 82 53 64 95 51 40 44

59 47 66 75 88 76 79 87 77 74

86 73 89 98 85 71 72 81 83 51

59 58 67 78 74 78 79 84 86 97

61 69 76 62 63 68 65 54 55 76

SoluŃia în Mathematica. Diagrama „stem-and-leaf” se construieşte cu funcŃia„StemLeafPlot” din pachetul „StatisticalPlots”. Prezentăm câteva dintre opŃiunileacestei funcŃii.

Page 92: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 92/118

92

SoluŃia în Excel. Introducem într-o foaie de lucru punctajul obŃinut de elevi latestul de matematică. Pe o coloană, de exemplu „B”, scriem rădăcinile diagramei: 4, 5,6, 7, 8, 9. Pe coloana următoare determinăm numărul frunzelor pentru fiecare rădăcină folosind funcŃia statistică „COUNTIF”: la „Range” scriem adresa celulelor ce reŃindatele („A3:J7” în cazul nostru), iar la „Criteria” se introduce „<=49” pentru prima

rădăcină. Numărul celorlalte frunze se găseşte cu ajutorul unei formule matematice. Deexemplu, pentru a vedea câte frunze corespund rădăcinii 5, în celula corespunzătoarescriem „=COUNTIF(A3:J7; "<=59")-COUNTIF(A3:J7; "<=49")”; analog se determină numărul frunzelor pentru celelalte rădăcini.

Folosim apoi funcŃia „REPT” din categoria „Text” pentru a construi diagrama„trunchi şi frunze”. Introducem textele „Stem” şi „Leaves” în două celule alăturate şirădăcinile pe aceeaşi coloană, sub celula cu „Stem”. În dreptul fiecărei rădăcini apelăm

Page 93: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 93/118

93

funcŃia “REPT”, care va repeta caracterul „X” (sau orice alt caracter) de un număr de oriegal cu numărul frunzelor corespunzătoare rădăcinii.

2.5. Prelucrarea şi reprezentarea seriilor statistice prin diagrame de

diferite tipuri.

Diagramele prin figuri geometrice plane sau spaŃiale, numite diagrame prin ariişi volume, sunt acelea în care frecvenŃele de clasă (de grupă sau de atribut) suntreprezentate prin dreptunghiuri, pătrate, cercuri, semicercuri, paralelipipede, cuburi,cilindri, sfere sau semisfere ale căror arii sau, respectiv, volume sunt proporŃionale cuvalorile reprezentate (deci laturile pătratelor sau cuburilor şi razele cercurilor sausferelor sunt rădăcinile pătratice sau cubice ale valorilor caracteristicilor, respectiv,

împărŃite la π sau 3/4π).

ExerciŃiul 19.ReprezentaŃi grafic datele din ExerciŃiul 17 folosind diagrame de diferite tipuri.

SoluŃia în Mathematica. Folosim funcŃiile „BarChart” şi „BarChart3D” dinpachetul „BarCharts” şi „PieChart” din pachetul „PieCharts” împreună cu câteva dintreopŃiunile lor.

Page 94: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 94/118

94

Page 95: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 95/118

95

SoluŃia în Excel. În ExerciŃiul 16 am prezentat modul în care se construieşte odiagramă în acest program. Analog, vom prezenta alte tipuri de grafice: disc împărŃit însectoare („Pie Chart”), gogoaşă („Doghnut”), cu suprafeŃe („Area”), cu cilindri(„Cylinder”), cu conuri („Cone”) sau piramide („Pyramid”). Aceste tipuri sunt standard(„Standard Types”), dar există şi tipuri speciale („Custom Types”), dintre careexemplificăm „Columns with Depth”.

Pie Chart

0 5

2

40

123 00

Doughnut0 5

26

40

12

3 00

Page 96: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 96/118

96

Area

0 2 3

1115

2218

84

1 2 0 00

5

10

15

20

25

1 2 3 4 5 6 7 8 9 10 11 12 13

0

3

7

21

28

19

5

1 200

5

10

15

20

25

30

1 2 3 4 5 6 7 8 9 10

Cylinder

0

5

10

15

20

25

1 2 3 4 5 6 7 8 9 10 11 12 13

Cone

0

5

10

15

20

25

30

1 2 3 4 5 6 7 8 9 10

3. Caracteristici numerice de sondaj

Cu ajutorul datelor de selecŃie, aplicând diferite operaŃii aritmetice, se obŃinanumite valori reprezentative (parametrii) care rezumă seriile statistice, jucând diferiteroluri caracterizatoare ca tendinŃa centrală a datelor (parametrii de poziŃie: media,mediana, modul etc.), măsuri pentru împrăştierea acestora (varianŃa sau dispersia,amplitudinea, cuantilele, cutia cu antene, coeficientul de variaŃie) sau alura graficuluipoligonului de frecvenŃe ca aproximant al densităŃii empirice de repartiŃie asociată seriei

statistice, sugerată de coeficienŃii de asimetrie (oblicitate, etalare laterală) şi decoeficienŃii de aplatizare.

3.1 Caracteristici ale tendinŃei centrale sau parametrii de poziŃie

3.1.1 Media aritmetică

Cea mai întâlnită caracteristică de localizare sau de nivel este dată de media

aritmetică şi media ponderată, dar un rol de seamă îl joacă şi mediana şi modul (saudominanta). Generalizări utile sunt oferite de aşa numitele φ- medii care folosesc la

rezumarea valorilor de selecŃie printr-un număr x pentru care funcŃia φ: → areproprietatea că

φ( x ) =n

1[φ( x1)+....+ φ( xn)].

Page 97: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 97/118

97

În acest mod se definesc media armonică, media geometrică, media pătratică şimedia de ordin k .

În cazul repartiŃiilor de frecvenŃe pe clase de valori se cuvine să se considerevalorile uniform distribuite pe clasele respective şi să fie reprezentate de valoarea

centrală *i x = media aritmetică a absciselor extremităŃilor acestora. Printre neajunsurile

mediei aritmetice amintim imposibilitatea de a fi calculată în cazul repartiŃiilor deschise

(când nu este precizată lungimea intervalelor extreme) şi afectarea ei de valorile foarte îndepărtate de valoare centrată, ceea ce conduce la o cerinŃă în plus de eliminare a„intruşilor”, ca date eronate. ConvenŃia precizată poate conduce şi la alte inconvenientecum este aşa numitul “paradox statistic” (vezi Lec Ń ii de Statistică Descriptivă I-III , pag.74-79) datorat „efectului de structură” şi „efectului de tendinŃă” care trebuie avut învedere când media serveşte la definirea unor „indici statistici” aplicaŃi în economie.

Este importantă pentru utilizatorii de softuri statistice şi proprietatea de

liniaritate ce permite uşurarea calculului mediei prin transformarea Y =d

x X 0−, 0 x este

de regulă centrul intervalului median sau modal şi d este acea lungime a intervalelor de

clasă care conduce la valori foarte simple pentru Y .Se ştie că dacă valorile variabilei se înmulŃesc cu o constantă, media ei se

înmulŃeşte cu acel număr, dar dacă frecvenŃa fiecărei valori se înmulŃeşte cu acelaşinumăr, media dată sub forma

=

==n

ii

n

iii

a

f

f x

x

1

1

nu se schimbă. Această proprietate se foloseşte pentru o schimbare de variabilă astfel

încât să uşureze calculul mediei aritmetice, în sensul că se poate alege o valoare 0 x numită „origine” (care, de regulă, este o valoare centrală, cum este centrul intervaluluimedian sau intervalului modal sau o valoare care să transforme o parte din zecimalelefinale în zerouri, dacă acestea coincid la toate datele), şi o altă constantă d care conducela o altă unitate de măsură şi care de obicei se alege dintre lungimile intervalelor de

clasă. Astfel se obŃin pentru noua variabilă Y numere mai simple, unde X=dY+x 0 ,

Y=d

x X 0− şi deci ,0

d

x x y i

i

−=

(*)

=

=

+=+= n

ii

n

i

ii

aa

f

f

d

x x

x xY d X

1

1

0

00

)(

.

ExerciŃiul 20.

PrezentaŃi media aritmetică şi media ponderată, punând accentul pe avantajele,dar şi pe unele neajunsuri (cum ar fi „efectul de structură”, „de tendinŃă”, faptul că ea nu

Page 98: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 98/118

98

se poate calcula când intervalele extreme sunt deschise şi acela că este foarte afectată devalorile foarte îndepărtate de valoarea centrală sau dacă repartiŃia este puternicasimetrică), folosind datele de mai jos (din Lec Ń ii de Statistică Descriptivă I-III, pag.72-73).

a) W. Crookes, descoperitorul elementului chimic taliu, a găsit următoarele 10estimaŃii ale greutăŃii atomice:

Nr. crt. al estimării Gr. atomică (x i ) y i =001,0

6,203−i x

1 203,644 442 203,649 493 203,632 324 203,628 285 203,638 386 203,666 667 203,639 398 203,650 50

9 203,636 3610 203,642 42

n=10 4241

=∑=

n

ii y

CalculaŃi media aritmetică a acestei variabile cu formula (*), alegând ca origine

203,60 = x şi 0,001=d (observaŃi cu uşurinŃă avantajul obŃinut prin această alegere).

SoluŃia în Mathematica. Calculăm media aritmetică a datelor prin două metode:folosind datele iniŃiale şi cele determinate prin transformarea de variabilă. Se observă că

acestea coincid. FuncŃia „Mean” returnează media aritmetică a datelor.

Page 99: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 99/118

99

SoluŃia în Excel. Introducem datele într-o foaie de lucru.

Valorile de pe coloana a treia a tabelului au fost calculate cu formule. Astfel, încelula corespunzătoare primei greutăŃi atomice („C2” în cazul nostru) am introdusformula (direct sau în bara de formule) „=(B2-203,6)/0,001”. Pentru restul celulelor amfolosit metoda „Autofill” de „umplere” a celulelor.

Media aritmetică a datelor de pe coloana greutăŃilor atomice se determină cu

funcŃia statistică „AVERAGE” al cărei argument este domeniul celulelor ce reŃin acestevalori. Datele transformate se determină cu formule matematice. Se calculează înacelaşi mod media aritmetică a noilor valorilor şi se verifică apoi relaŃia (*).

b) Se testează aptitudinile fizice a 40 de studenŃi supuşi unui test de efort fizic lasfârşitul căruia se numără palpitaŃiile pe minut la fiecare dintre ei, obŃinându-se

următoarele rezultate:136 110 121 108 77 99 129 97 81 128120 115 146 138 90 100 114 137 110 105108 121 107 108 128 93 118 144 125 111135 160 102 101 108 125 112 116 129 115

DeterminaŃi numărul mediu de palpitaŃii pe minut.

SoluŃia în Mathematica. Întocmim tabelul repartiŃiei de frecvenŃe pe intervale şiaplicăm formulele

a x =n

xn

n

xnk

iii

k

ii

k

iii ∑

∑ =

=

= = 1

*

1

1

*

şi ∑

=

=

=

= +=

+=n

ii

k

iii

n

ii

k

ii

i

a

n

n yd x

n

nd x xd x X

1

10

1

1

0

0 *)(

* ,

unde n i este frecvenŃa de interval, iar k numărul de intervale; x 0 = 74,5, d = 10,

y *i =

d

x xi 0*−

.

Page 100: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 100/118

100

Intervale devalori ale măs.

Punctul mijlociual clasei

(x *i )

Frecv. decls.

(n i )n i x *

i y *i y *

i n i

70-79 74,5 1 74,5 0 080-89 84,5 1 84,5 1 190-99 94,5 4 378 2 8

100-109 104,5 9 940,5 3 30110-119 114,5 9 1030,5 4 36120-129 124,5 9 1120,5 5 45130-139 134,5 4 538,0 6 24140-149 144,5 2 289,0 7 14150-159 154,5 0 0 8 0160-169 164,5 1 164,5 9 9

n=40∑=

=40

1

* 4620i

ii xn -

16440

1

*=∑

=iii yn

SoluŃia în Excel. Introducem datele în foaia de lucru şi construim tabelul de maisus. FrecvenŃele pe intervalele precizate se determină cu opŃiunea „Histogram” de la„Data Analysis...” din meniul „Tools”, aşa cum am procedat în ExerciŃiul 15. Folosindformule matematice se completează ultimele trei coloane ale tabelului.

Page 101: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 101/118

101

Cu funcŃia matematică „SUM” calculăm totalul frecvenŃelor şi totalul pecoloanele „D” şi „F” din tabelul de mai sus. Mediile aritmetice se determină împărŃindaceste valori la 40, numărul persoanelor testate. Verficăm apoi faptul că mediilecalculate cu cele două formule sunt echivalente, adică 5,1155,7410*1,4 =+ .

3.1.2 Mediana

Mediana, ca valoare centrală, are rolul de a marca valoarea M e situată în mijloculseriei (care poate fi bine precizată în cazul valorilor distincte, ordonate şi în numărimpar, M e coincizând cu cea de-a n-a valoare dintre cele 2n+1, dar care rămâne incertă

în cazul a 2n valori şi se convine a accepta un interval median, cel dintre a n-a şi a

(n+1)-a valoare sau mijlocul acestuia) şi trebuie să asigure că suma frecvenŃelorvalorilor mai mici sau egale cu M e să fie egală cu suma frecvenŃelor valorilor mai marisau egale cu M e. Totodată mediana M e este abscisa punctului de intersecŃie a curbelor defrecvenŃă cumulate ascendent şi respectiv descendent pentru a cărei determinareaproximativă se apelează la interpolare.

Această tehnică se aplică şi în cazul grupărilor pe intervale, aplicând formula

Page 102: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 102/118

102

Me Me

Me d n

nn x Me

2

2 *1−−

+= (din [5], pag. 82), unde

Me x = limita inferioară a intervalului median;

Med = lungimea intervalului median;

n = volumul eşantionului;

=−

*1n frecvenŃa cumulată a intervalului imediat inferior intervalului median

(antemedian);

Men = frecvenŃa simplă (absolută) a intervalului median.

Mediana are avantaj că nu este influenŃată de mărimea valorilor extreme, adică este mai puŃin afectată de fluctuaŃiile selecŃiei decât media aritmetică, deci e mai stabilă şi poate fi aplicată ca „medie de poziŃie” în cazul seriilor deschise. Chiar dacă aredezavantajul că nu posedă proprietăŃi de adiŃiune, este utilă în unele tipuri de analizestatistice: în studiul fertilităŃii, în studiul mortalităŃii, în studiul duratei de viaŃă, înprobleme legate de caracteristici calitative, etc.

ExerciŃiul 21.

Măsurătorile tensiunii în arc, în volŃi, aplicate la 50 de arzătoare de cuarŃ de 250W pentru lămpi fluorescente conduc la rezulatele din tabelul alăturat:

122,54 123,71 124,38 124,29 126,7 125,13 125,43 126,89 125,5 128,75

130,04 130,05 129,86 130,79 128,65 128,55 128,66 130,91 129,35 131,45

133,76 131,26 133,25 133,12 133,21 132,55 133,87 133,83 131,51 132,41

133,44 131,01 134,66 134,4 135,88 135,15 134,87 136,74 135,33 134,48134,96 135,39 134,87 134,71 134,69 136,13 135,74 135,49 136,14 136,26

Să se calculeze mediana măsurătorilor f ăcute.

SoluŃia în Mathematica. Folosim funcŃia „Median”.

SoluŃia în Excel. Programul Excel, la fel ca Mathematica, are o funcŃiepredefinită pentru calcularea medianei unei serii da date: „MEDIAN” din categoria

Page 103: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 103/118

103

„Statistical”. Introducem datele într-o foaie de lucru şi apelăm această funcŃie, care ia caargument domeniul celulelor unde se află valorile.

3.1.3 Modul (moda sau dominanta)

Modul, notat cu 0 M , este valoarea din repartiŃia statistică ce are frecvenŃa cea

mai mare, iar în cazul curbei de frecvenŃă este abscisa punctului de maxim al acesteia.

În cazul seriilor cu date grupate, de regulă vom găsi prezenŃa unui interval modal(în cazul repartiŃiilor moderat simetrice sau când intervalul premodal şi cel postmodalnu sunt esenŃial diferite ca frecvenŃe, se poate lua ca valoare aproximativă pentru modă mijlocul intervalului modal). Mai riguros, există formule de interpolare dintre careamintim următoarele:

k k k k k

k k d f f f f

f f l Mo

)()( 11

1

+−

−+−

−+=

sau

k k k k k

k k d f f f f

f f l Mo

)()( 11

1

+−

+

−+−

−−= ,

unde l = limita inferioară a intervalului modal, l = limita superioară a intervalului

modal, k d = lungimea intervalului modal, k f = frecvenŃa intervalului modal, 1−k f =

frecvenŃa intervalului premodal, 1+k f = frecvenŃa intervalului postmodal.

ExerciŃiul 22.

Se înregistrează ce număr au pantofii de femei vânduŃi într-un magazin carecomercializează încălŃăminte pentru adulŃi şi rezultă următoarea serie:

35 36 37 37 38 39 38 37 35 37 36

35 35 39 40 40 36 37 37 37 38 37

37 37 36 35 39 38 37 40 40 37 37

36 38 37 37 39 36 35 35 36 39 38

Page 104: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 104/118

104

DeterminaŃi moda acestor date.SoluŃia în Mathematica. Folosim funcŃia „Commonest” care returnează o listă cu

valorile cele mai des întâlnite în seria de date, adică lista valorilor modale.

SoluŃia în Excel. Se introduce seria de date a numerelor la pantofi într-o foaie delucru activă a programului. Calculăm modul datelor folosind funcŃia „MODE” dinpachetul „Statistical”, care ia ca argument adresa celulelor unde se află valorile.

3.2 Indicatorii variaŃiei (împrăştierii) valorilor

Caracterizarea modului în care datele seriei statistice sunt dispuse lăuntric sau în

jurul valorii centrale este dată de noi indicatori cum sunt amplitudinea şi cuantilele dediferite tipuri, care împreună cu cele de nivel şi a unor convenŃii introduse de J. Tukey(aşa numitele numerele lui Tukey) sunt expuse sub forma aşa numitei „cutie cuantene”, introdusă în 1975 de către Neil Sheldon.

Parametrul cel mai des folosit este varian Ń a (sau dispersia) 2σ împreună cu

abaterea pă tratică medie 2σ σ = şi coeficientul de varia Ń ie ce caracterizează

împrăştierea valorilor variabilei aleatoare sub cercetare în jurul valorii medii, aşa cum justifică teorema lui Cebî şev cunoscută ca inegalitatea omonimă.

3.2.1 Amplitudinea

Am precizat mai sus rolul parametrilor de nivel (media, mediana şi modul) încaracterizarea centrului de grupare a datelor, însă acestea nu sunt satisf ăcătoare pentruamănuntele lăuntrice privind împrăştierea lor.

Page 105: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 105/118

105

De exemplu, seriile de mai jos:

xi 11,1=i= 2, 2, 2, 2, 2, 30, 58, 58, 58, 58, 58

y j 11,1= j= 28, 28, 28, 28, 28, 30, 32, 32, 32, 32, 32

au mediile egale

a x = 30 =a

y = M e(x) = M e(y),

dar diferenŃa extremelor diferă

= xω xmax-xmin=58-2=56 şi = yω ymax-ymin=32-28=4,

adică cea de-a doua serie este mult mai concentrată.

Un asemenea parametru ω x = xmax-xmin se numeşte amplitudine sau interval de

varia Ń ie pentru seria xn şi are avantajul uşurinŃei calculului şi clarităŃii sensului ei,fiind util în controlul statistic de calitate privind limitele erorilor admise. Este folosită înstatisticile de ordine, dar are inconvenientul de a nu lua în calcul decât valorile extremeşi de a fi supusă fluctuaŃiilor mari de la un eşantion la altul, nu se pretează la calculealgebrice şi nu Ńine seama de forma repartiŃiei de frecvenŃe între extreme.

În Mathematica amplitudinea unei serii de date se poate determina folosindfuncŃiile „Min” şi „Max”, care returnează valoarea minimă, respectiv, maximă aaceesteia şi f ăcând apoi diferenŃa dintre cele două valori. În acelaşi fel se procedează înExcel, unde există funcŃiile statistice „MIN” şi „MAX”. Prezentăm un exemplu înexerciŃiul următor.

3.2.2 Cuantile, cuartile, decile, centile şi intervalele de valori asociate

O informaŃie mai bogată privind repartizarea proporŃională a volumelor seriilor

statistice pe aceste intervale o oferă conceptul den

1–cuantile care reprezintă acele

valori ale variabilei care separă repartiŃia ordonată în n părŃi, fiecare având câten

1din

efectivul total de valori. În cazul variabilelor aleatoare nediscrete se folosesc−α cuantilele care au aplicaŃii la definiŃia coeficientului de încredere din teoria

estimaŃiei şi respectiv pragul sau nivelul de semnificaŃie al testelor de verificare a

ipotezelor statistice.

Prezentăm amplitudinea şi cuantilele de diferite tipuri, formulele adecvate şialgoritmul de calcul, pe care îl ilustrăm cu ajutorul unui soft.

Page 106: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 106/118

106

ExerciŃiul 23 (din [5], pag. 99)

Fie seria de date obŃinută ca rezultat al înregistrării duratei de aşteptare, însecunde, a legăturii telefonice cu un partener: 14, 9, 12, 4, 20, 26, 17, 15, 18, 15, 10, 6,

16, 15, 8, 5. CalculaŃi cuantilele C 95 , C 50 = Me = Q2, Q 1 , Q 3 şi amplitudinea seriei de

date.

SoluŃia în Mathematica. Valorile Q 1 , Q 3 împreună cu mediana se numesc

cuartile şi au proprietăŃile: un sfert din date sunt mai mici sau egale şi trei sferturi sunt

mai mari sau egale cu Q 1 , iar trei sferturi din date sunt mai mici sau egale şi un sfert

sunt mai mari sau egale cu Q 3 . FuncŃia „Quartiles” retunează lista Q 1 , Me, Q 3 , iar

„Quantile” determină cuantilele dorite.

SoluŃia în Excel. Introducem seria de date din enunŃ într-o foaie de lucru activă aprogramului. Determinăm cuartilele Q1, Q3 şi mediana seriei de date folosind funcŃiastatistică „QUARTILE”. Într-o celulă introducem formula „=QUARTILE(A2:A17;1)”,unde „A2:A17” reprezintă domeniul celulelor ce reŃin datele şi 1 indică faptul că dorimcalcularea cuartilei Q1. Pentru celelalte două cuartile procedăm analog, dar scriem 2,respectiv, 3 la al doilea argument al funcŃiei.

Determinăm în continuare cuantila C95 prin introducerea formulei„=PERCENTILE(A2:A17;0,95)” într-o celulă; se returnează valoarea 21,5. Valoreamaximă, respectiv, minimă se determină cu funcŃiile „MAX” şi „MIN”, iaramplitudinea va fi diferenŃa dintre cele două valori: 22.

DiferenŃele dintre valorile caracteristicilor determinate în Mathematica şi Excel provin din modul diferit de calcul al funcŃiilor folosite.

Page 107: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 107/118

107

3.2.3 Explorarea seriilor statistice cu ajutorul “cutiei cu antene” (box-and-whisker plot)

Diagrama „stem and leaf”, histograma şi poligonul frecvenŃelor oferă informaŃiiprivind distribuirea seriei de-a lungul unei scale de măsură şi o vizualizare a acestorcomportări. Adăugarea la acestea a informaŃiilor introduse de diferitele caracteristicinumerice ca media, mediana, modul şi cuantilele permit noi caracterizări privind poziŃiaşi nivelul, simetria şi asimetria precum şi împrăştierea sau concentrarea repartiŃiei defrecvenŃe. Aceste abordări au condus la un instrument nou, care iese din modul uzual al

analizei matematice şi geometriei, în ceea ce priveşte reprezentarea vizualizată adependenŃei dintre argumentele şi valorile funcŃiilor şi este dat de „cutia cu antene”(„box-and-whisker plot”) introdusă de Neil Sheldom în 1975, care cu ajutorul a nouă numere (numite uneori şi numerele lui Tukey, alteori se folosesc numai cinci) oferă informaŃii privind distribuirea valorilor, amputarea la extremităŃi cu ajutorul grilelorinterioară şi, respectiv, exterioară, despre cozile repartiŃiei şi asupra „valorilor străine”(„intruşilor”). Altfel spus se poate reconstitui alura graficului densităŃii prin aceste nouă repere.

Practicienii apreciază metoda de analiză cu ajutorul acestui instrumentargumentând cu faptul că uşurează compararea mai multor distribuŃii, compararea

diagramelor în cutie fiind mai eficientă şi mai uşoară decât compararea histogramelor.În plus, cutia dă informaŃii privind oblicitatea sau asimetria prin intermediul antenei mailungi în sensul că direcŃia cozii mai lungi a repartiŃiei sugerează etalarea la stânga sauetalarea la dreapta sau pozitivă dacă antena mai lungă este cea din dreapta.

Prezentăm cutia cu antene prin precizarea etapelor şi ilustrarea lor pe unexemplu.

Page 108: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 108/118

108

ExerciŃiul 24 (din [5], pag. 103)

Profitul a 30 de firme este analizat prin intermediul impozitului pe vânzăriexprimat în procente şi precizat de următoarea serie de date: 5,3; 4; 12,5; 2; 1,8; 3; 3,9;6,4; 5,2; 2,6; 16,8; 7,1; 3,7; 4,4; 3,5; 3,4; 3,2; 5,6; 3,2; 3,4; 6,2; 4; 8,6; 3,1; 8,9; 16,5;2,5; 3,8; 5,5; 6,5. Să se asocieze diagrama „cutia cu antene” („box-and-whisker plot”)

acestor valori.SoluŃia în Mathematica. Pentru a răspunde cerinŃei folosim funcŃia

„BoxWhiskerPlot” din pachetul „StatisticalPlots”. Pe diagrama determinată nu apardecât cinci dintre numerele lui Tukey, aşadar calculăm cuartilele pentru a găsi celelaltepatru numere: Q1-1,5*(Q3- Q1), Q3+1,5*(Q3- Q1), Q1-3*(Q3- Q1), Q3+3*(Q3- Q1). Lafinal vom prezenta pe acelaşi grafic diagrama „cutia cu antene” şi cele nouă numere alelui Tukey.

Page 109: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 109/118

109

SoluŃia în Excel. Introducem datele din enunŃul problemei (impozitul pe profit) într-o foaie de lucru activă.

Page 110: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 110/118

110

Programul Excel 2003 nu are un instrument (o funcŃie predefinită sau o opŃiune)pentru determinarea diagramei „cutia cu antene”. De aceea fie o desenăm cu facilităŃilepuse la dispoziŃie de meniul „Draw”, fie aducem imaginea ei în foaia de lucru după ceam construit-o în alt soft.

Excel-ul ne permite să desenăm diverse forme şi obiecte. Acestea se află pe bara

de jos a ferestrei softului; dacă nu se găsesc acolo, trebuie apăsat mai întâi butonul

de pe bara de instrumente.

Diagrama „cutia cu antene” arată astfel:

3.2.4 VarianŃa (dispersia) şi abaterea media pătratică (abatereastandard). Coeficientul de variaŃie.

Indicatorii variaŃiei sau împrăştierii volumului seriei statistice, care variază înacelaşi sens cu împrăştierea datelor faŃă de medie, sunt daŃi de dispersie ( 2σ ) şiabaterea standard (σ ), definite prin:

2σ def

= N

1 2)( ai x x∑ − = ∑=

−k

i

aii x x f 1

2' )( ,

unde

∑=

=k

ii

ii

f

f f

1

' , =i f frecvenŃa absolută a valorilor i x în seria ( ii n x , )k i ,1=,

N nnk =++ ...

1,şi, respectiv,

σ

def

=2

σ este abaterea standard care se m

ăsoar

ăîn

aceleaşi unităŃi de măsură ca şi variabila cercetată.

În cazul selecŃiilor de volum m<N = volumul populaŃiei, se utilizează pentrudispersia de selecŃie formula:

2sdef

=1

1

−m2

1

)( mi

k

ii x xn −∑

=

,

Page 111: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 111/118

111

unde m x = val. medie de selecŃie, 1n +….+ k n = m şi, respectiv, s = 2s , care sunt buni

estimatori pentru 2σ şi σ .

Coeficientul de variaŃie este un parametru adimensional şi serveşte lacompararea seriilor statistice ale căror unităŃi de măsură sunt diferite şi care au valori

medii foarte diferite.El este dat de formula:

CV =a

x

x

σ ,

deseori exprimat în procentea

x

x

σ ·100% şi care joacă rol de dispersie relativă .

Exemplu. Două societăŃi comerciale oferă un salariu mediu de 2000 lei şi,respectiv, 2500 lei având o abatere standard de 300 lei şi, respectiv, 200 lei. AnalizaŃi

dispersia relativă.SoluŃia:

C1V =

2000

300= 0,15 C

2V =2500

200= 0,08.

Aceasta înseamnă că dispersia relativă în cazul primei firme este mai mare decât în cazul celei de-a doua firme, deci salariile din prima firmă sunt mai împrăştiate înraport cu media lor decât salariile din a doua firmă.

Prezentăm în continuare varianŃa sau dispersia, abaterea medie pătratică şicoeficientul de variaŃie cu o exemplificare pe o serie statistică.

ExerciŃiul 25 (din [5], pag. 112).

Fie seria de date obŃinută ca rezultat a 5 măsurători consecutive: 85,0554;

70,0256; 60,1153; 90,3157; 81,2231. CalculaŃi 2σ şi 2s , precum şi abaterea mediepătratică σ , s şi coeficientul de variaŃie:

2

1

22 1a

n

ii x x

n−= ∑

=

σ sau ∑=

−=n

i

ai x xn 1

22 )(1

σ ,

∑=−

−=

n

i

ai

x xn

s1

22 )(1

1.

SoluŃia în Mathematica. Folosim funcŃia „CentralMoment” pentru varianŃă deoarece aceasta este un moment centrat de ordinul 2, „Variance” pentru varianŃa de

selecŃie ( 2s ) şi „StandardDeviation” pentru abaterea medie pătratică de selecŃie ( s ).

Page 112: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 112/118

112

Urmează soluŃia în Excel. Introducem seria de date într-o foaie de lucru activă a

programului. Calculăm varianŃa 2σ a datelor cu funcŃia „VARP”, care ia ca unicargument adresa celulelor unde sunt stocate valorile, şi varianŃa nedeplasată s2 cu funcŃia„VAR”, ce are acelaşi argument. Se returnează rezultatele 118,633 şi 148,2913.

Determinăm abaterea medie pătratică σ cu funcŃia „STDEVP” şi abatereamedie pătratică s cu „STDEV”. Formulele returnează următoarele rezultate: 10,891 şi,

respectiv, 12,177.Pentru a determina coeficientul de variaŃie calculăm întâi media aritmetică a

valorilor cu formula „=AVERAGE(A3:A7)”, unde „A3:A7” este domeniul celulelor cereŃin datele, apoi împărŃim abaterea medie pătratică şi cea de selecŃie la media găsită.ObŃinem rezultatele 0,140 şi respectiv 0,157.

Page 113: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 113/118

113

Dintre proprietăŃile importante ale dispersiei amintim că dispersia constanteloreste nulă, şi deci

)()( 22 X D X D =− λ ,

∈∀= λ λ λ ),()( 222 X D X D ,

222 )]([)()( X M X M X D −= .

Are loc teorema lui Kıning: „media abaterilor valorilor unei caracteristici X faŃă

de o valoarea fixă c este egală cu disperia lui X plus pătratul diferenŃelor a x - c , adică

n

1,])()[(

1)(

1

222

1∑∑==

−+−=−k

i

aaiii

k

ii c x x xn

nc xn

nnn k =++ ...1 , care în cazul seriilor cu intervale egale sugerează o formulă de calcul

preferată în programele de calculator pentru micşorarea erorilor:

σ2 = ⋅

∑∑

=

=

k

ii

i

k

ii

f

d

c x f

1

21

)(2d - 2

2

1

1)(

d

f

d

c x f

k

ii

k

iii

∑∑

=

= ,

unde d este lungimea intervalului de grupare (vezi Exemplul 12 din [5]).

În cazul populaŃiilor grupate are loc formula:

V(X) = )(,1 k i

X V =

+ V )( ,1 k i X =

adică varianŃa populaŃiei este egală cu valoarea medie a dispersiilor grupelor, numită

„varianŃa intra” plus varianŃa valorii medii ale grupelor numită „varianŃa inter” (veziExerciŃiul 13 din [5], pag. 114).

4. Caracteristici de form ă ale graficului reparti Ń iei de frecven Ń e.

Caracteristicile de formă permit să precizăm alura graficului asociat repartiŃieide frecvenŃe fară a fi trasat, lucru ce-l face parŃial şi cutia cu antene privind asimetria(oblicitatea sau etalarea). În plus, coeficienŃii de exces (aplatizare sau boltire) aduc

informaŃii suplimentare.

Dintre coeficienŃii de asimetrie amintim:

s =13

13 )()(

QQ

Q M M Q ee

−−− coeficientul lui Yule,

a) dacă s=0, repartiŃia este simetrică (de fapt cuartilele sunt echidistante);

Page 114: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 114/118

114

b) dacă s>0, repartiŃia este oblică la stânga (sau etalată la dreapta);

c) dacă s<0, repartiŃia este oblică la dreapta (sau etalată la stânga),

k s =σ

)( 0 M x a −sau 1 β =

32

23

µ

µ coeficientul lui Pearson,

(coeficientul sk este indicat pentru repartiŃiile moderat asimetrice când se ştie că are loc

şi o relaŃie între modă, mediană şi medie - prin care se înlătură inconvenientul că modaeste greu de precizat cu exactitate - care conduce la forma '

k s =σ

)(3 ea M x −)

a) dacă 'k s =0, repartiŃia este simetrică;

b) dacă 'k s >0, repartiŃia este oblică la stânga;

c) dacă 'k s <0, repartiŃia este oblică la dreapta,

1γ = 1 β =33

σ

µ coeficientul lui Fisher ,

a) dacă 1γ =0, repartiŃia este simetrică;

b) dacă 1γ >0, repartiŃia este oblică la stânga;

c) dacă 1γ <0, repartiŃia este oblică la dreapta,

iar cei pentru aplatizare sunt, respectiv

2 β =22

4

µ

µ =

44

σ

µ coeficientul lui Pearson,

2γ = 2 β - 3 =44

σ µ -3 coeficientul lui Fisher sau excesul (faŃă de

repartiŃia normală care are 32 = β ),

a) dacă 2 β =3 sau 2γ =0, repartiŃia este normală sau mezocurtică ;

b) dacă 2 β >3 sau 2γ >0, repartiŃia este leptocurtică ;

c) dacă 2 β <3 sau 2γ <0, repartiŃia este platicurtică .

Precizăm că ∑=

−=n

i

k ak x x

n 1

)(1

µ este momentul centrat de ordinul k .

ExerciŃiul 26.

Seria statistică ce înregistrează vârsta persoanelor care au cumpărat ochelari într-o săptămână de la o unitate de profil este: 62, 71, 36, 16, 45, 50, 16, 41, 43, 37, 48, 43,47, 32, 58, 69, 55, 24, 50, 31, 44, 41, 58, 47, 41, 54, 46, 31, 49, 62, 56, 40, 19, 55, 62,43, 58, 52, 30, 61, 52, 26, 63, 48, 43, 31, 67, 54, 55, 25, 52, 66, 47, 66, 23, 71, 48, 60, 9,

Page 115: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 115/118

115

17, 36, 62, 37, 43, 45, 45, 38, 52, 40, 56, 55, 59, 66, 63, 46, 31, 4, 48, 52, 55, 50, 7, 51,53, 31, 52, 59, 53, 40, 58, 30, 70, 53, 72, 37, 41, 51, 39, 46, 37, 37, 39, 31, 30, 53, 23,31, 47, 25, 64.

CalculaŃi mediana, modul şi determinaŃi ce fel de oblicitate are repartiŃia serieistatistice, cu ajutorul coeficienŃiilor lui Yule, Pearson şi Fisher.

SoluŃia în Mathematica. Prezentăm histograma şi poligonul de frecvenŃe pentru a

observa asimetria repartiŃiei datelor: aceasta are oblicitate la dreapta.

Page 116: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 116/118

116

SoluŃia în Excel. Introducem mai întâi seria de date într-o foaie activă a

programului. Determinăm mediana şi modul cu funcŃiile statistice „MEDIAN” şirespectiv „MODE”. Calculăm şi alŃi coeficienŃi, cum ar fi minimul şi maximul pentru afolosi valorile obŃinute în determinarea amplitudinii seriei de date, apoi cuartilele Q1 şiQ3, media aritmetică şi abaterea standard.

Putem acum calcula coeficientul lui Yule după formula)(

)()(

13

13

QQ

MeQ MeQ

−−−,

coeficientul lui Pearson şi Fisher. Găsim valorile de mai jos şi astfel se poate observa că repartiŃia seriei de date are oblicitate la dreapta.

Page 117: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 117/118

117

ExerciŃiul 27.

Studiati aplatizarea repartitiei următoarei serii de date: 30, 45, 45, 55, 48, 45, 26,39, 48, 65, 66, 45, 65, 57, 49, 50, 54, 48, 52, 66, 49, 26, 65, 45, 35, 59, 54, 37, 58, 57,57, 57, 31, 69, 41, 41, 23, 45, 61, 55, 59, 45, 33, 41, 44, 50, 57, 22, 35, 65, 36, 34, 37,54, 69, 54, 58, 21, 50, 68.. SoluŃia în Mathematica. Mai întâi prezentăm histograma şi poligonul defrecvenŃe pentru a observa forma repartiŃiei datelor, apoi calculăm coeficientul luiPearson de aplatizare, de unde rezultă că repartiŃia valorilor este platicurtică.

SoluŃia în Excel. Introducem seria de date într-o foaie de lucru a programului.Calculăm coeficientul Fisher cu funcŃia statistică predefinită a Excel-ului „KURT”.Astfel, introducem într-o celulă formula „=KURT(A5:J14)”, unde „A5:J14” este zona

în care au fost reŃinute datele. Se returnează rezultatul -0,55; adunăm numărul 3 la acest

rezultat şi obŃinem coeficientul lui Pearson.

Se observă că repartiŃia datelor este platicurtică. Mai precizăm că în programul Mathematica am folosit funcŃia predefinită „Kurtosis” pentru a calcula coeficientul luiPearson, iar în Excel am folosit funcŃia predefinită „KURT” pentru calcula coeficientulFisher. Valorile calculate de cele două programe sunt foarte apropiate.

Page 118: In Drum at Orr Mu Re San

5/9/2018 In Drum at Orr Mu Re San - slidepdf.com

http://slidepdf.com/reader/full/in-drum-at-orr-mu-re-san 118/118

118

Bibliografie

1. M. L. Abel, J. P. Braselton, Mathematica by example, Revised Edition,Academic Press, Chestnut Hill, 1994.

2. Gh. Bocşan, E. Topuzu, Modelare statistică - idei şi concepte fundamentale,Editura Orizonturi Universitare, Timişoara, 2005.

3. Gh. Constantin, Curs de teoria probabilităŃilor şi statistică matematică, partea I,Tipografia UniversităŃii din Timişoara, 1977.

4. Gh. Constantin şi Olivia Lipovan, Caiet de seminar de teoria probabilităŃilor,cap. VII, Universitatea de Vest din Timişoara, 1999.

5. Gh. Constantin, N. Surulescu, D. Zaharie, LecŃii de statistică descriptivă I-III,Universitatea de Vest din Timişoara, 1988.

6. Gh. Constantin şi R. Negrea, LecŃii de statistică descriptivă IV, Universitatea deVest din Timişoara, 2004.

7. M. Dumitrescu, Sondaje statistice şi aplicaŃii, Editura Tehnică, Bucureşti, 2000.8. M. Dumitrescu, A. Bătătorescu, Applied Statistics using the R system, Editura

UniversităŃii din Bucureşti, 2006.9. P. I. Good, Introduction to Statistic Resampling Methods and Microsoft Office

Excel, Wiley – Interscience, New Jersey, 2005.10. Gh. Mihoc, V. Urseanu, Sondaje şi estimaŃii statistice. Teorie şi aplicaŃii, Editura

Tehnică, Bucureşti, 1977.11. R. Negrea, Analiza corelaŃiilor, regresii şi predicŃii. AplicaŃii în economie şi

marketing, Tipografia UniversităŃii de Vest din Timişoara, 2004.12. M. J. Panik, Advanced Statistics from an Elementary Point of View, Academic

Press, 2005.13. V. Radu, Elemente de teoria probabilităŃilor şi aplicaŃii, Editura Mirton

Timişoara, 1997.14. H. Ruskeepää, Mathematica Navigator. Mathematics, Statistics and Graphics, 3rd

edition, Academic Press, 2009.15. G. Saporta, V. Ştef ănescu, Analiza datelor şi informatică, Editura Economică,

Bucureşti, 1996.16. I. Săcuiu, D. Zorilescu, Numere aleatoare. AplicaŃii în industrie şi studiul

fenomenelor naturale, Editura Academiei, Bucureşti, 1978.17. S. Wolfram, The Mathematica Book, 5th Edition, Wolfram Media, 2003.

18. P. Wellin, R. Gaylord, S. Kamin, An Introduction to Programming withMathematica, 3rd Edition, Cambridge University Press, 2005.19. http://documents.wolfram.com/mathematica20. http://reference.wolfram.com