- note de curs -stoleriu/geos2016.pdf- note de curs - 1 ce este geostatistica? [geostatistica este...

103
Iulian Stoleriu Geostatistic ˘ a - Note de Curs -

Upload: others

Post on 26-Dec-2019

30 views

Category:

Documents


0 download

TRANSCRIPT

Universitatea "Al. I. Cuza" Ia³i

Facultatea de Geografie ³i Geologie

[Iulian Stoleriu]

Geostatistica

- Note de Curs -

1 Ce este Geostatistica?

[Geostatistica este ³tiinµa ce ofer mijloace de a cuantica incertitudinea spaµial ]

Geostatistica poate privita ca ind o subramura a Statisticii, ce se preocupa cu analiza si interpretareadatelor cu caracter geograc. Îsi are originile in industriile miniera si petroliera, incepand cu studiile ingi-nerului sud-african Danie Krige in anii '50 si au fost ulterior continuate si dezvoltate de inginerul GeorgesMatheron ([7], [8]) in anii '60, care le-a aplicat direct in evaluarea rezervelor miniere. Totusi, anterioranului 1950 au existat si alte lucrari importante, nu neaparat legate de fenomene geologice, dar care aucontribuit ulterior la conturarea Geostatisticii ca o disciplina de sine statatoare. Prexul Geo provine dela Geologie si este datorat originilor cercetarilor datelor spatiele. Metodele actuale din Geostatistica auaplicatii in diverse alte domenii, cum ar : Hidrologie, Oceanograe, Meteorologie, Industria forestiera,Epidemiologie, Agricultura etc. Obiectivul principal al acestei discipline este caracterizarea sistemelorspatiale care sunt incomplet cunoscute/descrise. In acest scop, Geostatistica contine o colectie de tehnicinumerice si matematice care se ocupa cu caracterizarea sistemelor (datelor) spatiale sau spatio-temporalecare nu sunt complet cunoscute, cum ar sistemele spatiale ce apar in Geologie. Prin date spatiale in-telegem acele date statistice ce sunt asociate cu o locatie in spatiu; pentru datele spatio-temporale maiapare si referirea la variabila timp (datele observate depind de momentul cand au fost culese). Exemplede fenomene spatiale sau spatio-temporale de interes in Geostatistic : concentratia poluarii solului, ratainltrarii apei in sol, porozitatea solului, pretul titeiului etc. Multe dintre fenomenele din Geologie suntextrem de diversicate si vaste. Geologii au ca sarcina realizarea unui model geologic complet plecandde la un numar de observatii/masuratori care, de regula, reprezinta doar o mica fractiune din aria sauvolumul de interes. Din cauza complexitatii sistemelor spatiale ce apar in Geologie, realizarea unei des-crieri complete a unui sistem spatial este practic imposibila. Mai mult, obtinerea unui numar foarte marede masuratori este costisitoare. Geostatistica ofera unelte si tehnici de interpolare si extrapolare (atatdeterminista cat si stochastica), necesare determinarii (prezicerii) valorilor de interes in locatii unde nuau fost facute masuratori.

Spre deosebire de Statististica clasica, in care masuratorile (observatiile statistice) sunt privite ca indobservatii independente si identic repartizate asupra unei aceleiasi caracteristici, datele de interes dinGeostatistica sunt spatial corelate (i.e., ipoteza de independenta a datelor nu este satisfacuta). Daca nuar exista o asemenea corelare spatiala, aplicarea metodelor geostatistice nu ar oportuna; Statistica clasicasingura ar putea oferi raspunsurile necesare. Totodata, vom vedea ca datele spatiale din Geostatistica nupot toate generate de o aceeasi repartitie probabilistica.

Spre exemplu, se doreste a realiza o harta a ratei inltrarii apei intr-o anumita regiune, ce cuprinde atatzone rurale cat si urbane. Deoarece solul nu este acelasi in interiorul regiunii, rata inltrarii apei va aveadiverse valori in acest areal. Este de asteptat ca masuratorile obtinute din locatii foarte apropiate sae similare, fapt foarte familiar geologilor. In termeni statistici, acest fapt se traduce printr-o corelare avalorilor ratelor inltrarii apei masurate in locatii diferite. Vom vedea mai tarziu ca in analiza acestordate va trebui sa tinem cont de corelatiile dintre ele, fapt ce va realizat prin analiza variogramei (saua corelogramei) datelor empirice. Totodata, datorita variabilitatii solului, este de asteptat ca ratele astfelmasurate sa nu urmeze toate o aceeasi repartitie normala. Din acest motiv, ecare data spatiala dinGeostatistica poate privita ca ind o singura observatie (masurare) a unei anumite repartitii, nu neaparatuna normala. Astfel, Geostatistica tine cont atat de repartitiile datelor obtinute cat si de corelatiileintre aceste date, neind constransa sa considere faptul ca toate datele observate au o aceeasi repartitieprobabilistica.

Geostatistica [Dr. Iulian Stoleriu] 2

Unul dintre scopurile Geostatisticii este ca, plecand de la ocolectie de valori observate (masurate) pentru o anumita ca-racteristica de interes, sa poata prezice repartitia spatialaintr-un punct de unde nu avem date observate (nu s-au facutmasuratori). Spre exemplu, in Figura 1.1 sunt reprezentate 7masuratori efectuate intr-un regiune in care valorile masurateale caracteristicii de interes sunt aleatoare. Se doreste prezi-cerea valorii in punctul marcat cu culoare rosie. In practica,in urma unor astfel de predictii se pot crea h rµi care sa des-crie grac caracteristica de interes. Pentru ca aceste harti sae cat mai detaliate, este deseori nevoie de computere si de unsoftware specializat. Valorile prezise pot : estimate (folosindmetode geostatistice) sau simulate (folosind metode MonteCarlo). Valoarea estimata va determinata pe baza uneimetode specice Geostatisticii, numita kriging, si se bazeazape valorile observate (masurate) deja si pe corelatia dintreaceste valori observate (numita corelograma/variograma).

Figura 1.1: Valori ale unei caracteristiciintr-un camp aleator.

Foarte pe scurt, o analiza geostatistica urmeaza urmatoarele trei etape principale: (1) analiza descriptivaa datelor spatiale, (2) construirea variogramei empirice si aproximarea ei cu un model teoretic (estimareavariogramei teoretice), (3) predictia (prin metode kriging sau simulari stochastice) valorilor caracteristiciide interes in locatiile unde nu au fost facute masuratori. In functie de natura datelor spatiale studiate,pentru ecare etapa in parte exista metode specice de analiza, etape ce le vom studia in detaliu incursurile ce urmeaza.

Dupa cum am mentionat mai sus, pentru locatiile de unde nu au fost culese date se pot face predictiifolosind metode de interpolare sau metode kriging. Pe langa acestea, se mai pot folosi metode de simularestochastica (care au la baza Teoria Probabilitatilor) pentru a produce valori ale caracteristicii in pozitiadorita. Modelele probabilistice pot aplicate pentru datele spatiale intr-o maniera asemanatoare analizeiseriilor de timp. Astfel, se pot realiza predictii pentru valorile caracteristicii de interes in locatiile undenu au fost facute masuratori. Geostatistica este o strans legata de metodele de interpolare, dar continemetode de analiza mult mai elaborate decat simplele de interpolare. In scopul de a modela incertitudineaasociata cu estimarea spatiala, aceste metode au la baza functii sau variabile aleatoare.

Principalele diferente dintre Statistica clasica si Geostatistica sunt:

• Datele statistice din Geostatistica tin cont de locatia de unde au fost culese ³i pot corelate cudatele obµinute din alte locaµii. Datele din Statistica clasica nu sunt dependente de locaµie ³i sepresupune c acestea sunt observaµii independente ale unei variabile studiate.

• In Geostatistica, datele culese sunt independente intre ele si nici identic repartizate;

• In Statistica clasica, o selectie aleatoare contine date ce sunt considerate a multiple realizariindependente ³i identic repartizate ale unei singure variabile. In schimb, in Geostatistica, ecaredata dintr-o selectie este privita ca o singura realizare a unei variabile, iar aceasta variabila diferacu locatia;

• Multe rezultate din Geostatistica nu presupun cunoasterea repartitiei datelor observate, desi nor-malitatea datelor ar un avantaj pentru analiza. Pentru analiza datelor din Statistica clasic estedeseori nevoie ca distributia datelor sa e cunoscuta. Multe dintre rezultatele din Statistica clasicase bazeaza pe ipoteza de normalitate a datelor.

• De regula, datele geostatistice sunt culese in urma impartirii domeniului de masurat in forme regulate

Geostatistica [Dr. Iulian Stoleriu] 3

(cubice, hexagonale etc.), asadar locatiile de unde se iau masuratori nu sunt alese in mod cu totulaleator. Datele din Statistica clasic nu sunt neap rat legate de forma regiunii de unde au fostculese.

Deoarece datele statistice spatiale pot foarte numeroase, pentru analiza lor este nevoie de ajutorul compu-terelor si de un software specializat. Exemple de software ce analizeaza date geostatistice sunt: ArcMap,Matlab (Mathematics Laboratory), R, GSLIB (Geostatistical Software Library), Gstat, SGeMS (Stan-ford Geostatistical Modeling Software), GS+, Geopack, GeoEAS, Variowin etc.

2 Elemente de Statistic

Scurt istoric

Statistica este o ramur a ³tiinµelor ce se preocup de procesul de colectare de date ³i informaµii, deorganizarea ³i interpretarea lor, în vederea explic rii unor fenomene reale. În Economie ³i Business,informaµiile extrase din datele statistice vor utile în evaluarea afacerilor sau a mediului economic încare activeaz , ajutându-i astfel în luarea deciziilor. În general, prin date (sau date statistice) înµelegemo mulµime de numere sau caractere ce au o anumit însemn tate pentru utilizator. Utilizatorul esteinteresat în a extrage informaµii legate de mulµimea de date pe care o are la îndemân . Datele statisticepot legate între ele sau nu. Suntem interesaµi de studiul acestor date, cu scopul de a înµelege anumiterelaµii între diverse tr s turi ce m soar datele culese. De regul , oamenii au anumite intuiµii desprerealitatea ce ne înconjoar , pe care le doresc a conrmate într-un mod cât mai exact. De exemplu,dac într-o anumit zon a µ rii rata ³omajului este ridicat , este de a³teptat ca în acea zon calitateavieµii persoanelor de acolo s nu e la standarde ridicate. Totu³i, ne-am dori s m cât mai preci³i înevaluarea leg turii dintre rata somajului ³i calitatea vieµii, de aceea ne-am dori s construim un modelmatematic ce s ne conrme intuiµia. Un alt gen de problem : ardem de ner bdare s a m cine va noulpre³edinte, imediat ce secµiile de votare au închis porµile (exit-pole). Chestionarea tuturor persoanelor ceau votat, colectarea ³i unicarea tuturor datelor într-un timp record nu este o m sur deloc practic . Înambele probleme menµionate, observaµiile ³i culegerea de date au devenit prima treapt spre înµelegereafenomenului studiat. De cele mai multe ori, realitatea nu poate complet descris de un astfel de model,dar scopul este de a oferi o aproximare cât mai del ³i cu costuri limitate. În ambele situaµii menµionateapar erori în aproximare, erori care µin de întâmplare. De aceea, ne-am dori s putem descrie acestefenomene cu ajutorul variabilelor aleatoare. Plecând de la colecµiile de date obµinute dintr-o colectivitate,Statistica introduce metode de predicµie ³i prognoz pentru descrierea ³i analiza propriet µilor întregiicolectivit µi. Aria de aplicabilitate a Statisticii este foarte mare: ³tiinµe exacte sau sociale, umanistic sau afaceri etc. O disciplin strâns legat de Statistic este Econometria. Aceasta ramur a Economieise preocup de aplicaµii ale teoriilor economice, ale Matematicii ³i Statisticii în estimarea ³i testarea unorparametri economici, sau în prezicerea unor fenomene economice.

Statistica a ap rut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre populaµiilepe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai bune administr ri.Datorit originii sale, Statistica este considerat de unii ca ind o ³tiinµ de sine st t toare, ce utilizeaz aparatul matematic, ³i nu este privit ca o subramur a Matematicii. Dar nu numai originile sale aufost motivele pentru care Statistica tinde s devin o ³tiinµ separat de Teoria Probabilit µilor. Datorit revoluµiei computerelor, Statistica a evoluat foarte mult în direcµia computaµional , pe când Teoria Pro-babilit µilor foarte puµin. A³a cum David Williams scria în [13], "Teoria Probabilit µilor ³i Statistica aufost odat c s torite; apoi s-au separat; în cele din urm au divorµat. Acum abia c se mai întâlnesc".Din punct de vedere etimologic, cuvântului statistic î³i are originile în expresia latin statisticum colle-

Geostatistica [Dr. Iulian Stoleriu] 4

gium (însemnând consiliul statului) ³i cuvântul italian statista, însemnând om de stat sau politician. În1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat pentru a analiza datelereferitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a extrapolat termenul la colecµii ³iclasic ri de date.Metodele statistice sunt ast zi aplicate într-o gam larg de discipline. Amintim aici doar câteva exemple:

• în Geograe, spre exemplu, pentru a studia efectul incalzirii globale asupra repartitiei padurilor peglob;

• în Geologie, pentru a determina o harta a ratei inltrarii apei intr-o anumita zona ubana;

• în Agricultur , de exemplu, pentru a studia care culturi sunt mai potrivite pentru a folosite pe unanumit teren arabil;

• în Economie, pentru studiul rentabilit µii unor noi produse introduse pe piaµ , pentru corelareacererii cu ofert , sau pentru a analiza cum se schimb standardele de viaµ ;

• în Contabilitate, pentru realizarea operaµiunilor de audit pentru clienµi;

• în Biologie, pentru clasicarea din punct de vedere ³tiinµic a unor specii de plante sau pentruselectarea unor noi specii;

• în tiinµele educaµiei, pentru a g si cel mai ecient mod de lucru pentru elevi sau pentru a studiaimpactul unor teste naµionale asupra diverselor caregorii de persoane ce lucreaz în înv µ mânt;

• în Meteorologie, pentru a prognoza vremea într-un anumit µinut pentru o perioad de timp, saupentru a studia efectele înc lzirii globale;

• în Medicin , pentru testarea unor noi medicamente sau vaccinuri;

• în Psihologie, în vederea stabilirii gradului de corelaµie între timiditate ³i singur tate;

• în Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaµiei;

• în tiinµele sociale, pentru a studia impactul crizei economice asupra unor anumite clase sociale;

• etc.

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai întâi care estecolectivitatea asupra c reia se dore³te studiul. Aceast colectivitate (sau populaµie) poate populaµia uneiµ ri, sau numai elevii dintr-o ³coal , sau totalitatea produselor agricole cultivate într-un anumit µinut, sautoate bunurile produse într-o uzin . Dac se dore³te studiul unei tr s turi comune a tuturor membrilorcolectivit µii, este de multe ori aproape imposibil de a observa aceast tr s tur la ecare membru în parte,de aceea este mult mai practic de a strânge date doar despre o submulµime a întregii populaµii ³i de a c utametode eciente de a extrapola aceste observaµii la toat colectivitatea. Exist o ramur a statisticii ce seocup cu descrierea acestei colecµii de date, numit Statistic descriptiv . Aceast descriere a tr s turilorunei colectivit µi poate f cut atât numeric (media, dispersia, mediana, cuantile, tendinµe etc), cât ³igrac (prin puncte, bare, histograme etc). De asemenea, datele culese pot procesate într-un anumit fel,încât s putem trage concluzii foarte precise despre anumite tr s turi ale întregii colectivit µi. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale întregii colectivit µi, studiind doar o partedin ea, se nume³te Statistic inferenµial . În contul Statisticii inferenµiale putem trece ³i urm toarele:luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare între diverse tipuri de date,estimarea caracteristicilor numerice ale unor tr s turi comune întregii colectivit µi, descrierea leg turiiîntre diverse caracteristici etc.

Geostatistica [Dr. Iulian Stoleriu] 5

Modelare Statistic

De obicei, punctul de plecare este o problem din viaµa real , e.g., care partid are o susµinere mai bun din partea populaµiei unei µ ri, dac un anumit medicament este relevant pentru boal pentru care a fostcreat, dac este vreo corelaµie între num rul de ore de lumina pe zi ³i depresie. Apoi, trebuie s decidemde ce tipuri date avem nevoie s colect m, pentru a putea da un r spuns la întrebarea ridicat ³i cumle putem colecta. Modurile de colectare a datele pot diverse: putem face un sondaj de opinie, sauprin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metod bine stabilit decolectare a datelor ³i s construim un model statistic potrivit pentru analiza acestora. În general, datele(observaµiile sau m sur torile) culese pot potrivite într-un model statistic prin care

Data observat = f(x, θ) + eroare de aproximare, (2.1)

unde f este o funcµie ce veric anumite propriet µi ³i este specic modelului, x este vectorul ce conµinevariabilele m surate ³i θ este un parametru (sau un vector de parametri), care poate determinat saunedeterminat. Termenul de eroare apare deseori în pratic , deoarece unele date culese au caracter sto-chastic (nu sunt deterministe, in sensul ca valorile lor nu pot prevazute a priori). Modelul astfel createste testat, ³i eventual revizuit, astfel încât s se potriveasc într-o m sur cât mai precis datelor culese.

Populaµie ³i selecµie

Denim o populaµie (colectivitate) statistic ca ind o mulµime de elemente ce posed o trasatur comun ce urmeaz a studiat . Aceasta poate nit sau innit , real sau imaginar . Elementele ce constituieo colectivitate statistic se vor numi unit µi statistice sau indivizi. Volumul unei colectivit µi statisticeeste dat de num rul indivizilor ce o constituie.

Prin variabila (sau caracteristica) unei populaµii statistice înµelegem o anumit proprietate urm rit laindivizii ei în procesul prelucr rii statistice ³i care constituie obiectul m sur rii. Din punct de vederestatistic, ea este o trasatura sau cantitate legata de populatia studiata, ce poate lua orice valoare dintr-omultime data, ecarei valori atribuindu-se o anumita pondere (frecventa relativa). Spre exemplu: numa-rul de clienti ce intra intr-un magazin intr-o anumita zi de lucru, inaltimea barbatilor dintr-o anumitatara, rata inltrarii apei in solul urban, media la Bacalaureat, altitudinea, culoarea frunzelor, nationa-litatea participantilor la un congres international etc. Variabilele pot : cantitative (m surabile) (e.g.,2, 3, 5, 7, 11, . . . ) ³i calitative (sau categoriale) (e.g., albastru, foarte bine, german etc). La rândul lor,variabilele cantitative pot discrete (num rul de sosiri ale unui tramvai în staµie) sau continue (timpul dea³teptare între dou sosiri ale tramvaiului în staµie). Datele calitative mai pot nominale sau ordinale.Variabilele nominale au nivele distincte, fara a avea o anumita ordine. De exemplu, culoarea parului,sau genul unei persoane. Pe de alta parte, valorile ordinale fac referinta la ordinea lor. De exemplu:schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate : imbunatatire semnicativa,imbunatatire moderata, nicio schimbare, inrautatire moderata, inrautatire semnicativa).

Parametrii populaµiei sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem accesla intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a explicate sau estimatepe baza datelor. Spre exemplu, daca populatia formata este formata din multimea persoanelor dintr-oanumita tara, parametrii pot : inaltimea medie, culoarea predominanta a ochilor, deviata standard amasei corporale, varsta medie, procentul de someri, coecientul de corelatie dintre conditiile de trai pentrucei care locuiesc in mediul urban si cei din mediul rural etc. Pentru variabilele cantitative ale populatiei,putem avea urmatoarele tipuri de parametri: parametri care sa descrie tendinta centrala a populatiei (e.g.,media, mediana, momente), parametri care descriu gradul de imprastiere a datelor in jurul unei valoricentrale (e.g., dispersia, deviatia standard, coecient de variatie), parametri de pozitie (e.g., cuantile),

Geostatistica [Dr. Iulian Stoleriu] 6

parametri ce descriu forma (e.g., skewness, kurtosis).De asemenea, pot deniti parametri ce descriu legatura intre doua variabile ce caracterizeaza populatiade interes. De exemplu corelatia sau coecientul de corelatie dintre nivelul de studii si salariul net.Pentru date calitative (categoriale), cei mai des utilizati parametri sunt: π− proportia din populatie ceare caracteristica de interes (e.g., proportia de fumatori din tara), cote (sanse teoretica pentru observareacaracteristicii de interes la intreaga populatie) (e.g., exista 70% sanse sa ploua maine).

O variabila a unei populatii poate depinde de unul sau mai multi parametri, parametrii ind astfel trasaturice descriu colectivitatea. Spre exemplu, o variabila normala poate descrisa de doi parametri: media sideviatia standard.

Suntem interesaµi în a m sura una sau mai multe variabile relative la o populaµie, îns aceasta s-ar puteadovedi o munc extrem de costisitoare, atât din punctul de vedere al timpului necesar, cât ³i din punctulde vedere al depozit rii datelor culese, în cazul în care volumul colectivit µii este mare sau foarte mare(e.g., colectivitatea este populaµia cu drept de vot a unei µ ri ³i caracteristica urm rit este candidatulvotat la alegerile prezidenµiale). De aceea, este foarte întemeiat alegerea unei selecµii de date din întreagapopulaµie ³i s urm rim ca pe baza datelor selectate s putem trage o concluzie în ceea ce prive³te variabilacolectivit µii.

O selecµie (sau e³antion) este o colectivitate parµial de elemente extrase (la întâmplare sau nu) dincolectivitatea general , în scopul cercet rii lor din punctul de vedere al unei caracteristici. Dac extragerease face la întâmplare, atunci spunem c am facut o selecµie întâmpl toare. Num rul indivizilor din selecµiaaleas se va numi volumul selecµiei. Dac se face o enumerare sau o listare a ec rui element component alunei a populaµii statistice, atunci spunem c am facut un recens mânt. Numim o selecµie repetat (sau curepetiµie) o selecµie în urma c reia individul ales a fost reintrodus din nou în colectivitate. Altfel, avem oselecµie nerepetat . Selecµia nerepetat nu prezint interes dac volumul colectivit µii este nit, deoareceîn acest caz probabilitatea ca un alt individ s e ales într-o extragere nu este aceea³i pentru toµi indiviziicolectivit µii. Pe de alt parte, dac volumul întregii populaµii statistice este mult mai mare decât cel ale³antionului extras, atunci putem presupune c selecµia efectuat este repetat , chiar dac în mod practicea este nerepetat . Spre exemplu, dac dorim s facem o prognoz a cine va noul pre³edinte în urmaalegerilor din toamn , e³antionul ales (de altfel, unul foarte mic comparativ cu volumul populaµiei cudrept de vot) se face, în general, f r repetiµie, dar îl putem considera a o selecµie repetat , în vedereaaplic rii testelor statistice.Selecµiile aleatoare se pot realiza prin diverse metode, în funcµie de urm torii factori: disponibilitateainformaµiilor necesare, costul operaµiunii, nivelul de precizie al informaµiilor etc. Mai jos prezent mcâteva metode de selecµie.

• selecµie simpl de un volum dat, prin care toµi indivizii ce compun populaµia au aceea³i ³ans de a ale³i. Aceast metod mininimizeaz riscul de a p rtinitor sau favorabil unuia dintre indivizi.Totu³i, aceast metod are neajunsul c , în anumite cazuri, nu reect componenµa întregii populaµii.Se aplic doar pentru colectivit µi omogene din punctul de vedere al tr s turii studiate. In cazuldatelor spatiale, se pot alege prin selectie simpla coordonatele locatiilor de unde se vor efectuamasuratori pentru caracteristica de interes.

• selecµie sistematic , ce presupune aranjarea populaµiei studiate dup o anumit schem ordonat ³i selectând apoi elementele la intervale regulate. (e.g., alegerea a ec rui al 10-lea num r dintr-ocarte de telefon, primul num r ind ales la întâmplare (simplu) dintre primele 10 din list ).

• selecµie straticat , în care populaµia este separat în categorii, iar alegerea se face la întâmplaredin ecare categorie. Acest tip de selecµie face ca ecare grup ce compune populaµia s poata reprezentat în selecµie. Alegerea poate facut ³i în funcµie de m rimea ec rui grup ce compune

Geostatistica [Dr. Iulian Stoleriu] 7

colectivitatea total (e.g., aleg din ecare judeµ un anumit num r de persoane, proporµional cunum rul de persoane din ecare judeµ).

• selecµie ciorchine, care este un e³antion straticat construit prin selectarea de indivizi din anumitestraturi (nu din toate).

• selecµia de tip experienµ , care µine cont de elementul temporal în selecµie. (e.g., diver³i timpi de peo encefalogram ).

• selecµie de convenienµ : de exemplu, alegem dintre persoanele care trec prin faµa universit µii.

• selecµie de judecat : cine face selecµia decide cine ramâne sau nu în selecµie.

• selecµie de cot : selecµia ar trebui s e o copie a întregii populaµii, dar la o scar mult mai mic .A³adar, putem selecta proporµional cu num rul persoanelor din ecare ras , de ecare gen, origineetnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ a persoanelorîntregii µ ri, într-o scar mult mai mic ).

Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii necunoscuti,obtinand descrieri numerice sau calitative pentru populatie. Astfel de indicatori se numesc statistici. Prinintermeniul statisticilor putem trage concluzii despre populaµia din care a provenit e³antionul observat.Teoria probabilit µilor ne ofer procedee de determinare a repartiµiei asimptotice a unei statistici, sauchiar, in anumite cazuri, a statisticii exacte. Repartiµia exact este acea repartiµie ce poate determi-nat pentru orice volum al selecµiei. În general, dac se lucreaz cu selecµii de volum redus (sub 30 demasuratori), atunci repartiµia exact ar trebui s e cunoscut a priori, dac se dore³te luarea de deciziiprin inferenµ . Repartiµia asimptotic este repartiµia limit a statisticii când volumul esantionului tinde lavolumul populatiei. Practic, utilizarea repartitiei asimptotice conduce la rezultate bune doar pentru unesantion sucient de mare (peste 30 de masuratori).De cele mai multe ori, o statistic este utilizat în urm toarele cazuri:

• în probleme de estimare punctual a parametrilor;

• în obµinerea intervalelor de încredere pentru un parametru necunoscut;

• ca o statistic test pentru vericarea ipotezelor statistice. Prin ipoteza statistica intelegem o presu-punere facuta referitor la valoarea unui parametru sau la fost repartitiei observatiilor. Vom revenila acest subiect mai tarziu in acest material.

In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga anumite informatii dinacestea. Mai concret, Statistica detine uneltele si metodele necesare de a realiza urmatoarele cerinte:sa descrie cat mai del si sugestiv acele date (prin grace sau indicatori statistici), sa estimeze anumitiparametri de interes (e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa vericeprin inferenta ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii sau chiar la formaacesteia.

Geostatistica [Dr. Iulian Stoleriu] 8

Organizarea ³i descrierea datelor

Presupunem c avem o colectivitate statistic , c reia i se urm re³te o anumit caracteristic (sau varia-bila). Spre exemplu, colectivitatea este mulµimea tuturor studenµilor dintr-o universitate înrolaµi în anulîntâi de master, iar caracteristica este media la licenµ obµinut de ecare dintre ace³ti studenµi. Teoretic,mulµimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoaredin acest interval.

Vom numi date (sau date statistice) informaµiile obµinute în urma observarii valorilor acestei caracteristici.In cazul mentionat mai sus, datele sunt mediile la licenµ observate. În general, datele pot calitative (semai numesc ³i categoriale) sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ (exprima o calitate sau o categorie) sau, respectiv, cantitativ (are o valoare numerica). Totodata, acestedate pot date de tip discret, dac sunt obµinute în urma observ rii unei caracteristici discrete (o variabilaaleatoare discret , sau o variabila ale carei posibile valori sunt in numar nit sau cel mult numarabil),sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu, sau ovariabila ce poate lua orice valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul demai sus, datele vor cantitative ³i continue.

În Statistica clasic , se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . ., sivalorile lor cu litere mici, x, y, z, . . .. In mare parte din acest curs vom folosi notatia Z pentru variabilaaleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplul de mai sus notam cu Z variabilamedie la licenta, atunci un anume z observat va media la licenta pentru un student din colectivitateales aleator.

În Geostatistic , datele observate au caracter spatial, adica sunt legate de pozitie. Pozitia spatialapoate unu, doi sau trei-dimensionala. Majoritatea datelor spatiale din acest curs vor avea pozitiedoi-dimensionala (sau bidimensionala). Vom nota cu x = (x1, x2) vectorul de coordonate bidimensio-nale. Astfel prin Z(x) sau Z(x1, x2) vom nota variabila Z in locatia x, iar prin z(x) sau z(x1, x2) vomnota valoarea variabilei Z in locatia x. Daca avem mai multe valori ale variabilei Z, le vom nota prinz1, z2, z3, . . . . În Geostatistica, se foloseste termenul de variabila pentru a caracteriza o valoare necunos-cuta pe care o trasatura unei populatii o poate lua in locatii spatio-temporale.

Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea ³i re-prezentarea graca a datelor, dar ³i în calcularea anumitor caracteristici numerice pentru acestea. Dateleînainte de prelucrare, adic exact a³a cum au fost culese, se numesc date negrupate. Un exemplu dedate negrupate (de tip continuu) sunt cele observate in Tabelul 2.1, reprezentând timpi (în min.sec) dea³teptare pentru primii 100 de clienµi care au a³teptat la un ghi³eu pân au fost serviµi.

1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76

0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14

2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28

0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89

1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85

3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12

3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88

5.36 1.32

Tabela 2.1: Date statistice negrupate

De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urm re³te ase grupa datele, pentru o mai u³oar gestionare. Imaginaµi-v c enumer m toate voturile unei selecµii

Geostatistica [Dr. Iulian Stoleriu] 9

nota frecvenµa absolut frecvenµa cumulat frecvenµa relativ frecvenµa relativ cumulat

2 2 2 2.22% 2.22%3 4 6 4.44% 6.66%4 8 14 8.89% 15.55%5 15 29 16.67% 32.22%6 18 47 20.00% 52.22%7 17 64 18.89% 71.11%8 15 79 16.67% 87.78%9 7 86 7.78% 95.56%10 4 90 4.44% 100%

Total 90 - 100% -

Tabela 2.2: Tabel cu frecvenµe pentru date discrete.

întâmpl toare de 15000 de votanµi, abia ie³iµi de la vot. Mai degrab , ar mai util ³i practic s grup mdatele dup numele candidaµilor, precizând num rul de voturi ce l-a primit ecare. Asadar, pentru o maibuna descriere a datelor, este necesara gruparea lor in clase de interes.

Gruparea datelor

Datele prezentate sub form de tabel (sau tablou) de frecvenµe se numesc date grupate. Datele de selecµieobµinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoarediscrete sau, respectiv, continue.

(1) Date de tip discret: Dac datele de selecµie sunt discrete (e.g., z1, z2, . . . , zn), este posibil camulte dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z′1, z

′2, . . . , z

′r,

r ≤ n. Atunci, putem grupa datele într-un a³a-numit tabel de frecvenµe (vezi exemplul din Tabelul2.2). Alternativ, putem organiza datele negrupate într-un tabel de frecvenµe, dup cum urmeaz :

data z′1 z′2 . . . z′rfrecventa f1 f2 . . . fr

(2.2)

unde fi este frecvenµa apariµiei valorii z′i, (i = 1, 2, . . . , r), ³i se va numi distribuµia empiric de selecµie alui Z. Aceste frecvenµe pot absolute sau de relative. Un tabel de frecvenµe (sau o distribuµie de frecvenµe)conµine cel puµin dou coloane: o coloan ce reprezint datele observate (grupate în clase) ³i o coloan de frecvenµe. În prima coloan apar clasele, adic toate valorile distincte observate. Datele din aceast coloan nu se repet . Prin frecvenµa absolut a clasei înµelegem num rul de elemente ce aparµine ec reiclase în parte. De asemenea, un tabel de frecvenµe mai poate conµine frecvenµe relative sau cumulate. Ofrecvenµ relativ se obµine prin împ rµirea frecvenµei absolute a unei categorii la suma tuturor frecvenµelordin tabel. Astfel, suma tuturor frecvenµelor relative este egal cu 1. Frecvenµa (absolut ) cumulat a uneiclase se obµine prin cumularea tuturor frecvenµelor absolute pân la (inclusiv) clasa respectiv . Frecvenµarelativ cumulat a unei clase se obµine prin cumularea tuturor frecvenµelor relative pân la (inclusiv)clasa respectiv .

A³adar, elementele unui tabel de frecvenµe pot : clasele (ce conµin valori pentru variabile), frecvenµeabsolute, frecvenµe relative sau cumulate. Într-un tabel, nu este obligatoriu s apar toate coloanele cufrecvenµe sau ele s apar în aceast ordine.

Vom numi o serie de timpi (sau serie dinamic ori cronologic ) un set de date culese la momente diferite

Geostatistica [Dr. Iulian Stoleriu] 10

de timp. O putem reprezenta sub forma unui tablou de forma

data :

(z1 z2 . . . znt1 t2 . . . tn

),

unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., r spunsurile citite de un electrocardio-graf).

În Tabelul 2.2, sunt prezentate notele studenµilor din anul al III-lea la examenul de Statistic . Acesta esteexemplu de tabel ce reprezent o caracteristic discret .

(o glum povestit de G. Pólya,1 despre cum NU ar trebui interpretat frecvenµa relativ )

Un individ suferind merge la medic. Medicul îl examineaz îndelung ³i, balansând dezam git capul, îi spune

pacientului:

"Of... drag domnule pacient, am dou ve³ti: una foarte proast ³i una bun . Mai întâi v aduc la cuno³tinµ

vestea proast : suferiµi de o boal groaznic . Statistic vorbind, din zece pacienµi ce contracteaz aceast boal ,

doar unul scap ."

Pacientul, deja în culmea disper rii, este totu³i consolat de doctor cu vestea cea bun :

"Dar, µi pe pace! Dumneavoastr aµi venit la mine, ³i asta v face tare norocos", continu optimist doctorul.

"Am avut deja nou pacienµi ce au avut aceea³i boal ³i toµi au murit, a³a c ... veµi supravieµui!"

(2) Date de tip continuu: Dac datele statistice sunt realiz ri ale unei variabile Z de tip continuu,atunci se obi³nuieste s se fac o grupare a datelor de selecµie în clase. Datele de tip continuu pot grupate într-un tablou de distribuµie sau sub forma unui tabel de distribuµie, dupa cum urmeaza:

data [a0, a1) [a1, a2) . . . [ar−1, ar)frecventa f1 f2 . . . fr

clasa frecvenµa valoare medie

[a0, a1) f1 z′1[a1, a2) f2 z′2

......

...[ar−1, ar) fr z′r

Tabela 2.3: Tabel cu frecvenµe pentrudate de tip continuu.

În particular, putem grupa datele de tip continuu din Tabelul 2.1 în tabloul de distribuµie urm tor:

data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)frecventa 14 17 21 18 16 14

Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot modicate dupa cum doreste utiliza-torul. Uneori, tabelul de distribuµie pentru o caracteristic de tip continuu mai poate scris ³i sub formaunui tabel ca in (2.2), unde

• z′i =ai−1 + ai

2este elementul de mijloc al clasei [ai−1, ai);

• fi este frecvenµa apariµiei valorilor din [ai−1, ai), (i = 1, 2, . . . , r),r∑i=1

fi = n.

1György Pólya (1887− 1985), matematician ungur

Geostatistica [Dr. Iulian Stoleriu] 11

vârsta frecvenµa frecvenµa relativ frecvenµa cumulat vârsta medie

[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60

Total 385 100% - -

Tabela 2.4: Tabel cu frecvenµe pentru rata somajului.

Pentru denirea claselor unui tabel de frecvenµe, nu exist o regul precis . Fiecare utilizator de date î³ipoate crea propriul tabel de frecvenµe. Scopul nal este ca acest tabel s scoat în evidenµ caracteristiceledatelor, cum ar : existenµa unor grupe (clase) naturale, variabilitatea datelor într-un anumit grup (clas ),informaµii legate de existenµa unor anumite date statistice care nu au fost observate in selecµia dat etc.În general, aceste caracteristici nu ar putea observate privind direct setul de date negrupate. Totu³i,pentru crearea tabelelor de frecvenµe, se recomand urm torii pa³i:

1. Determinarea num rului de clase (disjuncte). Este recomandat ca num rul claselor s e între 5 ³i20. Dac volumul datelor este mic (e.g., n < 30), se recomand constituirea a 5 sau 6 clase. Deasemenea, dac este posibil, ar util ca ecare clas s e reprezentat de cel puµin 5 valori (pentruun num r mic de clase). Dac num rul claselor este mai mare, putem avea ³i mai puµine date într-oclas , dar nu mai puµin de 3. O clas cu prea puµine valori (0, 1 sau 2) poate s nu e reprezentativ .

2. Determinarea l µimii claselor. Dac este posibil, ar bine dac toate clasele ar avea aceea³i l µime.Acest pas depinde, în mare m sura , de alegerea din pasul anterior.

3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât ecare dat sta-tistic s aparµine unei singure clase.

În practic , un tabel de frecvenµe se realizeaz prin încerc ri, pân avem convingerea c gruparea f cut poate surprinde cât mai del datele observate.

A³adar, dac ne este dat o în³iruire de date ale unei caracteristici discrete sau continue, atunci le putemgrupa imediat în tabele sau tablouri de frecvenµe. Invers (avem tabelul sau tabloul de repartiµie ³i vrem s enumer m datele) nu este posibil, decât doar în cazul unei caracteristici de tip discret. De exemplu, dac ni se d Tabelul 2.4, ce reprezint rata somajului într-o anumit regiune a µ rii pe categorii de vârste, nuam putea ³ti cu exactitate vârsta exact a persoanelor care au fost selecµionate pentru studiu.

Observ m c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare demijloc pentru o clas , valoarea obµinut prin media valorilor extreme ale clasei. În cazul Tabelului 2.4,valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenµa cumulat a unei clase este suma frec-venµelor tuturor claselor cu valori mai mici.

Geostatistica [Dr. Iulian Stoleriu] 12

3 Reprezentarea datelor statistice

Un tabel de frecvenµe sau o distribuµie de frecvenµe (absolute sau relative) sunt de cele mai multe ori bazaunor reprezent ri grace, pentru o mai bun vizualizare a datelor. Aceste reprezent ri pot f cute îndiferite moduri, dintre care amintim pe cele mai uzuale.

3.1 Reprezentare prin puncte

Reprezentarea prin puncte (en., dot plot) este folosit , deregula, pentru selecµii de date de tip discret de dimensiunimici. Sunt reprezentate puncte a³ezate unul peste celalalt,reprezentând num rul de apariµii ale unei valori pentrucaracteristica dat . Un astfel de grac este reprezentat înFigura 3.1. Aceste reprezent ri sunt utile atunci când sedore³te scoaterea în evidenµ a anumitor pâlcuri de date(en., clusters) sau chiar lipsa unor date (goluri). Au avan-tajul de a conserva valoarea numeric a datelor reprezentate.

Figura 3.1: Reprezentarea cu puncte.

3.2 Reprezentarea stem-and-leaf

Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Urm torul set dedate negrupate reprezinta punctajele (din 100 de puncte) obµinute de cei 20 de elevi ai unui an de studiula o testare semestrial :

50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 3.3 reprezint aceste date sub forma stem-and-leaf (ramur -frunz ). Se observ c acest tabelarat atât cum sunt repartizate datele, cât ³i forma repartiµiei lor (a se privi gracul c având pe OYdrept axa absciselor ³i OX pe cea a ordonatelor). A³adar, 7|5 semnic un punctaj de 75. Pentru unvolum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. Însecµiunile urm toare vom prezenta ³i alte metode utile.

Geostatistica [Dr. Iulian Stoleriu] 13

Figura 3.2: Reprezentarea datelor discrete.

stem leaf

109 2 68 1 5 6 87 3 5 7 7 7 96 1 2 2 4 8 85 0 3 5 94 1 4 83 4 921 80

Figura 3.3: Tabel stem-and-leaf reprezentândpunctajele studenµilor.

3.3 Reprezentarea cu bare (bar charts)

Este util pentru reprezentarea variabilelor discrete cu un num r mic de valori diferite. Barele suntdreptunghiuri ce reprezint frecvenµele ³i nu sunt unite între ele. Fiecare dreptunghi reprezint o singur valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regul , pe orizontal iar frecvenµele pevertical . În Figura 3.41 sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea cate-goriilor ³i a claselor; în acest caz barele vor ap rea pe orizontal (vezi Figura 3.42).

Figura 3.4: Reprezent rile cu bare.

Figura 3.5 contine o reprezentare de date folosind bare 3D.

Geostatistica [Dr. Iulian Stoleriu] 14

Figura 3.5: Reprezentare 3D prin bare.

3.4 Histograme

Cuvântul "histogram " a fost introdus pentru prima oar de Karl Pearson2 în 1895. Acesta deriv dincuvintele grece³ti histos (gr., ridicat în sus) ³i gramma (gr., desen, înregistrare). O histogram este oform pictorial a unui tabel de frecvenµe, foarte util pentru selecµii mari de date de tip continuu. Seaseam n cu reprezentarea prin bare, cu urm toarele dou diferenµe: nu exist spaµii între bare (de³i, potap rea bare de înalµime zero ce arat a spaµiu liber) ³i ariile barelor sunt proporµionale cu frecvenµelecorespunz toare. Num rul de dreptunghiuri este egal cu num rul de clase, l µimea dreptunghiului esteintervalul clasei, iar în lµimea este a³a încât aria ec rui dreptunghi reprezint frecvenµa. Aria total atuturor dreptunghiurilor este egal cu num rul total de observaµii. Dac barele unei histograme au toateaceea³i l µime, atunci în lµimile lor sunt proporµionale cu frecvenµele. În lµimile barelor unei histogrameise mai numesc ³i densit µi de frecvenµ .În cazul în care l µimile barelor nu sunt toate egale, atunci în lµimile lor satisfac:

în lµimea = k · frecvenµal µimea clasei

, k = factor de proporµionalitate.

S presupunem c am grupat datele din Tabelul 3.1 într-o alt manier , în care clasele nu sunt echi-distante (vezi Tabelul 3.3). În Tabelul 3.3, datele din ultimele dou clase au fost cumulate într-o singur clas , de l µime mai mare decât celelalte, deoarece ultima clas din Tabelul 3.1 nu avea suciente date.Histograma ce reprezint datele din Tabelul 3.3 este cea din Figura 3.4. Conform cu regula proporµio-nalit µii ariilor cu frecvenµele, se poate observa c primele patru bare au în lµimi egale cu frecvenµelecorespunz toare, pe când în lµimea ultimei bare este jum tate din valoarea frecvenµei corespunz toare,deoarece l µimea acesteia este dublul l µimii celorlalte.

2Karl Pearson (1857− 1936), statistician, avocat ³i eugenist britanic

Geostatistica [Dr. Iulian Stoleriu] 15

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 25) 10[25, 30) 2

Tabela 3.1: Tabel cu în lµimile plantelor.

Tabela 3.2: Histograme pentru datele din Tabelul 3.1.

În general, pentru a construi o histogram , vom aveaîn vedere urm toarele:− datele vor împ rµite (unde este posibil) în clasede lungimi egale. Uneori aceste diviz ri sunt naturale,alteori va trebui s le fabric m.− num rul de clase este, în general, între 5 ³i 20.− înregistraµi num rul de date ce cad în ecare clas (numite frecvenµe).− gura ce conµine histograma va avea clasele pe ori-zontal ³i frecvenµele pe vertical .

Figura 3.6: Histogram 3D.

Observaµia 3.1 (1) Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 3.3 este[20, ∞)), atunci se obi³nuie³te ca l µimea ultimului interval s e luat drept dublul l µimii intervalu-lui precedent.(2) În multe situaµii, capetele intervalelor claselor sunt ni³te aproxim ri, iar în locul acestora vom puteautiliza alte valori. Spre exemplu, s consider m clasa [15, 20). Aceast clas reprezint clasa acelor plantece au în lµimea cuprins între 15cm ³i 20cm. Deoarece valorile în lµimilor sunt valori reale, valorile 15³i 20 sunt, de fapt, aproxim rile acestor valori la cel mai apropiat întreg. A³adar, este posibil ca aceast clas s conµin acele plante ce au în lµimile situate între 14.5cm (inclusiv) ³i 20.5cm (exclusiv). Amputea face referire la aceste valori ca ind valorile reale ale clasei, numite frontierele clasei. În cazul încare am determinat frontierele clasei, l µimea unei clase se dene³te ca ind diferenµa între frontierele ce-icorespund. În concluzie, în cazul clasei [15, 20), aceasta are frontierele 14.5 - 20.5, l µimea 6 ³i densitateade frecvenµ 17

6 . Pentru exemplicare, în Tabelul 3.5 am prezentat frontierele claselor, l µimile lor ³idensit µile de frecvenµ pentru datele din Tabelul 2.4.

3.5 Reprezentare prin sectoare de disc (pie charts)

Se poate reprezenta distribuµia unei caracteristici ³i folosind sectoare de disc (diagrame circulare) (en.,pie charts), ecare sector de disc reprezentând câte o frecvenµ relativ . Aceast variant este util în

Geostatistica [Dr. Iulian Stoleriu] 16

În lµimea (în cm) frecvenµa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 30) 12

Tabela 3.3: Tabel cu în lµimile plantelor.

Tabela 3.4: Histograme pentru datele din Tabelul 3.3.

în lµimea (în cm) frontierele l µimea frecvenµa densitatea de frecvenµ [18, 25) 17.5− 25.5 8 34 4.25[25, 35) 24.5− 35.5 11 76 6.91[35, 45) 34.5− 45.5 11 124 11.27[45, 55) 44.5− 55.5 11 87 7.91[55, 65) 54.5− 65.5 11 64 5.82

Tabela 3.5: Tabel cu frontierele claselor.

special la reprezentarea datelor calitative.

Exist ³i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 3.8 am reprezentatdatele din Tabelul 2.4.

Figura 3.7: Reprezentarea pe disc a frecvenµelor rela-tive ale notelor din tabelul cu note

Figura 3.8: Reprezentare pe disc 3D

Geostatistica [Dr. Iulian Stoleriu] 17

3.6 Ogive

O ogiv reprezint gracul unei frecvenµe cumulate(absolut sau relativ ) (vezi exemplul din Figura 3.9).

Figura 3.9: Ogiva pentru frecvenµele absolutecumulate din Tabelul 2.2

3.7 Diagrama Q-Q sau diagrama P-P

Q-Q plot (diagrama cuantila-cuantila) si P-P plot (diagrama probabilitate-probabilitate) sunt utilizate in adetermina apropierea dintre doua seturi de date (repartitii). Daca datele provin dintr-o acceasi repartitie,atunci ele se aliniaza dupa o dreapta desenata in gura. Diagrama Q-Q este bazata pe rangurile valorilor,iar diagrama P-P este bazata pe functiile de repartitie empirice.

Figura 3.10: Exemplu de diagrama Q-Q plot

Geostatistica [Dr. Iulian Stoleriu] 18

4 Noµiuni teoretice de Statistic

Numim experiment aleator (sau experienµ aleatoare) orice act cu rezultat incert, care poate repetat înanumite condiµii date. Opusul noµiunii de experiment aleator este experimentul determinist, semnicândun experiment ale c rui rezultate sunt complet determinate de condiµiile în care acesta se desf ³oar .Rezultatul unui experiment aleator depinde de anumite circumstante întâmpl toare ce pot aparea. Exem-ple de experienµe aleatoare: extragerea LOTO, aruncarea zarului, observarea ratei inltrarii apei in sol indiverse locatii dintr-o anumita regiune, determinarea concentratiei de nutrienti in sol, observarea dura-tei de viaµ a unui individ, observarea vremii de a doua zi, observarea num rului de apeluri telefonicerecepµionate de o central telefonic într-un timp dat etc.

Vom numi mulµime (sau spatiu) de selecµie asociat unui experiment mulµimea tuturor rezultatelor posibileale acelui experiment. Notam acasta multime cu Ω. Aplicarea experienµei asupra unei colectivit µi datese nume³te prob . Vom numi eveniment aleator orice colecµie de rezultate posibile asociate experimentuluialeator. Vom numi eveniment aleator elementar (sau eveniment aleator simplu) un eveniment aleatorcare are un singur rezultat posibil. Un eveniment aleator cu mai mult de un rezultat posibil se va numieveniment aleator compus.

Exemple de evenimente aleatoare: apariµia unei duble (6, 6) la aruncarea a dou zaruri este un evenimentaleator elementar, iar obµinerea unei duble la aruncarea a dou zaruri este un eveniment aleator compus.

Vom numi evenimentul sigur acel eveniment care se poate realiza în urma oric rei experienµe aleatoare.Evenimentul sigur este, in fapt, chiar multimea de selectie Ω, ce este multimea tuturor evenimentelorelementare. Prin eveniment imposibil intelegem acel eveniment ce nu se realizeaz în nicio prob . Eveni-mentul imposibil asociat unei experiente aleatoare se noteaza prin ∅.Se nume³te caz favorabil pentru evenimentul aleator un caz în care respectivul eveniment se realizeaz macar intr-o proba a sa.Evenimentele aleatoare le vom nota cu A, B, C, . . . . Prin A (care se citeste non A) vom nota evenimentulcomplementar lui A, care se realizeaz atunci când A nu se realizeaz . Avem: A = Ω \A.

Operatii cu evenimente

Presupunem ca A si B sunt doua evenimente legate de un anumit experiment aleator. Putem deniurmatoarele evenimente:

• evenimentul A⋃B (citit A sau B) este evenimentul care se realizeaza ori de cate ori se realizeaza

cel putin unul dintre evenimentele A si B.

• evenimentul A⋂B (citit A ³i B) este evenimentul care se realizeaza ori de cate ori se realizeaza

simultan evenimentele A si B.

• evenimentul A \B (citit A minus B) este evenimentul care se realizeaza ori de cate ori se realizeazaA, dar nu se realizeaza B.

Relatii intre evenimente

• Notam prin A ⊂ B (citit A implic B) si spunem ca realizarea lui A implica realizarea lui B.

• Spunem ca A = B (citit A egal B) daca A ⊂ B si B ⊂ A.

• Spunem ca A si B sunt evenimente incompatibile daca ele nu se pot realiza simultan in nicio proba.Scriem astfel: A

⋂B = ∅.

Geostatistica [Dr. Iulian Stoleriu] 19

• Spunem ca A si B sunt evenimente compatibile daca ele se pot realiza simultan. Scriem astfel:A⋂B 6= ∅. De exemplu, la aruncarea unui zar, evenimentele A =evenimentul aparitiei unui numar

impar si B =evenimentul aparitiei unui numar prim sunt compatibile.

• Spunem ca A si B sunt evenimente echiprobabile daca ele au aceeasi sansa de realizare. Spreexemplu, la aruncarea unei monede ideale, orice fata are aceeasi ³ans de aparitie.

4.1 Probabilitate

Pentru a putea cuantica ³ansele de realizare a unui eveniment aleator, s-a introdus noµiunea de probabi-litate. Presupunem c pentru un anume experiment, am construit spaµiul de selecµie Ω. Atunci, ec ruieveniment A în putem asocia un num r P (A), numit probabilitatea realiz rii evenimentului A (sau, sim-plu, probabilitatea lui A), ind o m sur precis a ³anselor ca A s se realizeze. Probabilitatea este ovaloare cuprinsa intotdeauna intre 0 si 1, cu P (∅) = 0 (probabilitatea ca evenimentul imposibil sa serealizeze este 0) si P (Ω) = 1 (probabilitatea ca evenimentul sigur sa se realizeze este 1).

Daca evenimentele A si B nu se pot realiza simultan (i.e., A⋂B = ∅), atunci P (A

⋃B) = P (A) +P (B).

Daca A si B se pot realiza simultan, atunci P (A⋃B) = P (A) + P (B)− P (A

⋂B).

În literatura de specialitate, probabilitatea este denit în mai multe moduri: cu deniµia clasic (aparepentru prima oar în lucr rile lui P. S. Laplace3), folosind o abordare statistic (cu frecvenµe relative),probabilitatea denit geometric, probabilitatea bayesian (introdus de Thomas Bayes4) sau utilizânddeniµia axiomatic (Kolmogorov). Aici vom prezenta doar primele trei moduri.

(I) Probabilitatea clasic este denit doar pentru cazul în care experienµa aleatoare are un num r nitde cazuri posibile ³i echiprobabile (toate au aceea³i ³ans de a se realiza). În acest caz, probabilitatea derealizare a unui eveniment A este

P (A) =numarul cazurilor favorabile realizarii evenimentului

numarul cazurilor egal posibile.

De exemplu, dorim s determin m probabilitatea obµinerii unei duble la o singur aruncare a unei pe-rechi de zaruri ideale. Mulµimea cazurilor posibile este mulµimea tuturor perechilor (i, j); i, j = 1, 6,care are 36 de elemente. Mulµimea cazurilor favorabile este format din adic 6 elemente, ³i anume:(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6). Probabilitatea apariµiei unei duble este P = 6

36 = 16 .

Sunt îns foarte multe cazuri în care deniµia clasic nu mai poate utilizat . Spre exemplu, în cazulîn care se cere probabilitatea ca, alegând la întâmplare un punct din p tratul [0, 1] × [0, 1], acesta s sesitueze deasupra primei bisectoare. În acest caz, atât num rul cazurilor posibile, cât ³i num rul cazurilorfavorabile este innit, f când deniµia clasic a probabilit µii inutilizabil .

(II) Probabilitatea denit statistic (probabilitate frecvenµial ) exprim probabilitatea cu ajutorul frec-venµelor de realizare a unui eveniment într-un num r mare de experimente aleatoare realizate în acelea³icondiµii. Pentru a putea evalua aceast probabilitate, este necesar repetarea în acelea³i condiµii a expe-rimentului legat de evenimentul aleator ce se dore³te a cuanticat.S consider m o experienµ aleatoare (e.g., aruncarea unui zar) al c rei rezultat posibil este evenimentulaleator A (e.g., apariµia feµei cu 6 puncte). Aceste experiment aleator îl putem efectua de n ori în condiµiiidentice (spunem c efectu m n probe ale experimentului), astfel încât rezultatul unei probe s nu inu-enµeze rezultatul alteia (probe independente). S not m cu νn(A) frecvenµa absolut de realizare a lui A

în cele N probe independente. Raportul fn(A) =νn(A)

nse va numi frecvenµ relativ . Acest raport are

3Pierre-Simon, marquis de Laplace (1749− 1827), matematician ³i astronom francez4Thomas Bayes (1701− 1761), statistician ³i losof englez

Geostatistica [Dr. Iulian Stoleriu] 20

intotdeauna valori intre 0 si 1. Mai mult, sirul frecventelor relative fn(A)n∈N are limit ³i aceasta estedenit ca ind probabilitatea de realizare a evenimentului A, notat P (A). A³adar, în cazul deniµieistatistice a probabilit µii, probabilitatea unui eveniment A este

P (A) = limn→∞

fn(A),

adica limit ³irului frecvenµelor relative de producere a respectivului eveniment când num rul de probetinde la innit.

(III) Probabilitate denit geometric S presupunem c am dispune de un procedeu prin care putemalege la întâmplare un punct dintr-un interval [a, b]. În plus, vom presupune c acest procedeu ne asigur c nu exist porµiuni privilegiate ale intervalului [a, b], i.e., oricare ar dou subintervale de aceea³ilungime, este la fel de probabil ca punctul s cad în oricare dintre aceste intervale. Dac am folosi demai multe ori procedeul pentru a alege un num r mare de puncte, acestea vor repartizate aproximativuniform în [a, b], i.e., nu vor exist puncte în vecin tatea c rora punctul ales s cad mai des, ori de câteori este ales. De aici reiese c probabilitatea ca un punct s cad într-un subinterval al lui [a, b] estedependent de lungimea acelui subinterval ³i nu de poziµia sa în interiorul lui [a, b]. Mai mult, aceastaeste chiar proporµional cu lungimea subintervalului. Se poate observa analogia cu experienµa alegeriidintr-un num r de cazuri egal posibile.

Dac [a, b] e mulµimea cazurilor egal posibile ³i [c, d] ⊂ [a, b] este mulµimea cazurilor favorabile, atunciprobabilitatea ca punctul ales s cad în [c, d] este

P (A) =lungimea ([c, d])

lungimea ([a, b])=d− cb− a.

În particular, dac z ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval s coincid cu un punct dinainte stabilit este zero ³i, astfel, întrez rim posibilitatea teoretic ca un eveniment s aib probabilitatea nul , far ca el s e evenimentul imposibil ∅.

Exemplu 4.1 S presupunem c experimentul aleator const în alegerea la întâmplare a unui num r realdin intervalul (0, 1), a³a încât ecare punct din acest interval are aceea³i ³ans de a ales. Dac not mcu Z v.a. care reprezint num rul ales, atunci Z va urma repartiµia uniform continu U(0, 1). Not m cuA evenimentul ca Z s nu ia valoarea 0.5. Matematic, scriem evenimentul astfel:

A = ω ∈ Ω; Z(ω) 6= 0.5 sau, prescurtat, Z 6= 0.5.

Atunci, P (A) = 1, dar A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Practic, esteposibil ca, din mai multe probe independente ale experimentului, s obµinem valoarea 0.5.

În mod cu totul analog, dac se alege la întâmplare ³i în mod uniform un punct dintr-o regiune planara R,astfel ca s nu existe puncte sau porµiuni privilegiate în aceasta regiune, atunci probabilitatea ca punctuls cad în subregiunea R′ ⊂ R este aria R′

aria R .

În trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulµimii cazurilor favo-rabile realizarii experimentului ³i volumul mulµimii cazurilor egal posibile.

Geostatistica [Dr. Iulian Stoleriu] 21

4.2 Variabile aleatoare

În general, rezultatul posibil al unui experiment aleator poate asociat unei valori reale, precizândregula de asociere. O astfel de regul de asociere se nume³te variabil aleatoare (prescurtat, v.a.). Senume³te variabil deoarece poate lua valori diferite, se nume³te aleatoare deoarece valorile observatedepind de rezultatele experimentului aleator, ³i este "real " deoarece valoarea numeric este un num rreal. A³adar, din punct de vedere euristic, o variabil aleatoare este o cantitate ce poate avea oricevaloare dintr-o multime data, ecarei valori atribuindu-se o anumita pondere (frecventa relativa). Înviaµ de zi cu zi întâlnim numeroase astfel de funcµii, e.g., numerele ce apar la extragerea loto, rezultatulmasurarii fertilitatii solului in diverse locatii, num rul clienµilor deserviµi la un anumit ghi³eu într-oanumit perioad , timpul de a³teptare a unei persoane într-o staµie de autobuz pân la sosirea acestuia,calicativele obµinute de elevii de clasa a IV-a la un test de matematic etc.De regula, variabilele aleatoare sunt notate cu litere de la sfâr³itul alfabetului, X, Y, Z sau ξ, η, ζ etc.Cum am mai precizat anterior, in acest material vom volosi notatia Z pentru o variabila (Z(x) pentru ovariabila spatiala) si z pentru realizarea sa (respectiv, z(x)).

Exemplu 4.2 Un exemplu simplu de variabila aleatoare este urm torul. Consider m experimentul alea-tor al arunc rii unei monede. Acest experiment poate avea doar dou rezultate posibile, notate S (stema)³i B (banul). A³adar, spaµiul selecµiilor este Ω = S, B. Acestui experiment aleator îi putem ata³avariabila aleatoare real Z, care asociaz feµei S valoarea 1 ³i feµei B valoarea 0. Matematic, scriemastfel: Z : Ω → R, Z(S) = 1, Z(B) = 0. Astfel, valorile 1 ³i 0 pentru Z vor indica faµa ap rut laaruncarea monedei. O astfel de variabil aleatoare se nume³te variabil aleatoare Bernoulli ³i poate ata³at oric rui eveniment aleator ce are doar dou rezultate posibile, numite generic succes ³i e³ec.

Variabilele aleatoare (prescurtat v.a.) pot discrete sau continue. Variabilele aleatoare discrete sunt celecare pot lua o mulµime nit sau cel mult num rabil (adica, o multime care poate numarata) de valori.O variabil aleatoare se nume³te variabil aleatoare continu (sau de tip continuu) dac mulµimea tuturorvalorilor sale este totalitatea numerelor dintr-un interval real (posibil innit) sau toate numerele dintr-oreuniune disjunct de astfel de intervale, cu precizarea c pentru orice posibil valoare c, P (Z = c) = 0.

Exemple de v.a. discrete: num rul feµei ap rute la aruncarea unui zar, num rul de apariµii ale unuitramvai într-o staµie într-un anumit interval, num rul de insuccese ap rute pân la primul succes etc. Dinclasa v.a. de tip continuu amintim: timpul de a³teptare la un ghi³eu pân la servire, preµul unui activnanciar într-o perioad bine determinat .

Pentru a specica o v.a. discret , va trebui s enumer m toate valorile posibile pe care aceasta le poatelua, împreun cu probabilit µile corespunzatoare. Suma tuturor acestor probabilit µi va întotdeaunaegal cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire la repartiµia uneiv.a. discrete, se înµelege modul în care probabilitatea total 1 este distribuit între toate posibilele valoriale variabilei aleatoare. Pentru o scriere compact , adeseori unei v.a. discrete i se atribuie urm toareareprezentare schematica:

tabelul de repartiµie

Z z1 z2 z3 . . . znpk p1 p2 p3 . . . zn

(4.1)

unde pk este probabilitatea cu care variabila Z ia valoarea zk (matematic, scriem pk = P (Z = zk)) ³i

suma tuturor probabilit µilor corespunz toare variabilei discrete este egal cu 1 (scriem can∑i=1

pi = 1).

Geostatistica [Dr. Iulian Stoleriu] 22

Exemplu 4.3

Presupunem c Z este v.a. ce reprezint nu-m rul de puncte ce apare la aruncarea unuizar ideal. Aceast variabila o putem reprezentaschematic ca in tabelul alaturat.

tabelul de repartiµie

Z 1 2 3 4 5 6

pk 1/6 1/6 1/6 1/6 1/6 1/6

Dac Z este o v.a. discret de forma (4.1), atunci denim funcµia de probabilitate (de frecvenµ ) (en.,probability mass function) ata³at variabilei aleatoare discrete Z ca ind o funcµie ce ataseaza ecareirealizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matematic, scriem ca

f(zi) = pi, i ∈ 1, 2, . . . , n.

În cuvinte, pentru ecare posibil valoare a unei v.a. discrete, funcµia de probabilitate ata³eaz probabili-tatea cu care Z ia aceast valoare. Funcµia de probabilitate este pentru o v.a. discreta ceea ce o densitatede repartiµie este pentru o variabil aleatoare continu .

Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un intervala chiar din R. Deoarece in aceste multimi exista o innitate de valori, nu mai putem deni o variabilaaleatoare continua la fel ca in cazul discret, precizandu-i ecare valoare pe care o ia si ponderea cores-punzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta iavalori si o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie dedensitate a repartitiei, sau simplu, densitate de repartiµie (en., probability density function).

Exemplu 4.4 Vom spune c o variabila aleatoare Z are o repartitie (sau distributie) normala de medieµ ³i deviatie standard σ (notam aceasta prin Z ∼ N (µ, σ)) dac Z poate lua orice valoare reala si aredensitatea de repartitie data de:

f(x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , pentro orice x ∈ R.

Aceasta repartitie se mai nume³te ³i repartiµia gaussian sau distribuµia gaussian .

Funcµia de probabilitate sau densitatea de repartiµie poate depinde de unul sau mai mulµi parametri reali.Spre exemplu, repartitia normala are doi parametri, µ si σ.

Funcµia de repartiµie (sau funcµia de repartiµie cumulat )

Numim funcµie de repartiµie ata³at v.a reale Z o funcµie F : R→ [0, 1], denit prin

F (z) = P (Z ≤ z), pentru orice x ∈ R.

Termenul din englez pentru funcµia de repartiµie este cumulative distribution function (cdf). Functia derepartitie asociaza ecarei valori reale z probabilitatea cu care variabila Z ia valori mai mici sau egale cuz. Ea este o functie crescatoare, care ia valori intre 0 si 1.

În cazul unei variabile aleatoare discrete, cu tabelul de repartiµie dat de (4.1), funcµia de repartiµie este:

F (z) =∑

i; zi≤z

pi, (4.2)

adic suma tuturor probabilit µilor corespunz toare valorilor lui Z care nu-l dep ³esc pe z.

Geostatistica [Dr. Iulian Stoleriu] 23

Dac Z este o variabil aleatoare continu ³i f este densitatea sa de repartiµie, atunci funcµia de repartiµieeste dat de formula:

F (z) =

z∫−∞

f(t) dt, z ∈ R. (4.3)

Mai mult, F ′(z) = f(z), pentru orice z ∈ R.

4.3 Caracteristici numerice ale unei variabile aleatoare (parametri)

O colectivitate statistica poate descrisa folosind una sau mai multe variabile. Pentru ecare dintreaceste variabile se pot determina anumite cantitati sau calitati specice, numite parametri. Astfel, acestiparametri sunt niste trasaturi caracteristice colectivitatii, ce pot determinate sau estimate pe baza unormasuratori (observatii) ale variabilelor. In continuare vom prezenta cativa parametri numerici importantipentru o variabila aleatoare, folositi in analiza statistica. Vom denumi acesti parametri caracteristicinumerice ale unei variabile aleatoare.

Media (sau valoarea a³teptat ) (en., expected value; fr., espérance; ger., Erwartungswert)

Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca existavariabile (atat discrete cat si continue) care nu admit o valoare medie.

• Dac Z este o v.a. discret având tabelul de repartiµie (4.1), atunci media acestei v.a. (dac exist !)se dene³te prin:

µ =

n∑i=1

zipi. (4.4)

Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) se deneste prin

E(U(Z)) =

n∑i=1

U(zi)pi.

• Dac Z este o v.a. de tip continuu, cu densitatea de repartiµie f(z), atunci media (teoretic ) acesteiv.a., dac exist (!), se dene³te astfel:

µ =

∫ ∞−∞

zf(z)dz. (4.5)

Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) (dac exist !) se denesteprin

E(U(Z)) =

∫ ∞−∞

U(z)f(z)dz.

Notaµii: În cazul în care poate pericol de confuzie (spre exemplu, atunci când lucr m cu mai multevariabile în acela³i timp), vom folosi notaµia µZ . Pentru media teoretic a unei variabile aleatoare se maifolosesc ³i notaµiile: m, M(Z) sau E(Z).

Dispersia (sau varianµa) (en., variance) ³i abaterea standard (en., standard deviation)

Consideram Z o variabil aleatoare care admite medie nita µ. Dorim sa stim in ce masura valorile acestevariabile sunt imprastiate in jurul valorii medii. Variabila aleatoare Z0 = Z − µ (numit abaterea lui Z

Geostatistica [Dr. Iulian Stoleriu] 24

de la media sa), atunci E(Z0) = 0. A³adar, nu putem m sur gradul de împr ³tiere a valorilor lui Z înjurul mediei sale doar calculând Z − µ. Avem nevoie de o alt m sur . Aceasta este dispersia variabileialeatoare, notat prin σ2Z sau V ar(Z). În cazul în care poate pericol de confuzie (spre exemplu, atuncicând lucr m cu mai multe variabile în acela³i timp), vom folosi notaµia σ2Z .

σ2 =n∑i=1

(zi − µ)2pi

(in cazul unei v.a. discrete).

σ2 =

∫ ∞−∞

(z − µ)2f(z) dz

(in cazul unei v.a. continue).

Alte formule pentru dispersie:

σ2 = E[Z2]− µ2 =

n∑i=1

z2i pi − µ2 , în cazul discret∫ ∞−∞

z2f(z) dz − µ2 , în cazul continuu

Numim abatere standard (sau deviaµie standard) cantitatea σ =√σ2. Are avantajul ca unitatea sa de

masura este aceeasi cu a variabilei Z.

În conformitate cu teorema lui Cebâ³ev5, pentru orice variabila aleatoare Z ce admite medie si orice a > 0,are loc inegalitatea:

P (|Z − µ| ≥ kσ) ≤ 1

k2. (4.6)

În cuvinte, probabilitatea ca valorile variabilei Z sa devieze de la medie cu mai mult de k deviatii standardeste mai mica decat 1

k2. În cazul particular k = 3, obµinem regula celor 3σ:

P (|Z − µ| ≥ 3σ) ≤ 1

9≈ 0.1.

sauP (µ− 3σ < Z < µ+ 3σ) ≥ 8

9, (4.7)

semnicând c o mare parte din valorile posibile pentru Z se a în intervalul [µ− 3σ, µ+ 3σ].

Coecientul de variaµie

Este denit prin CV =σ

µsau, sub forma de procente, CV = 100

σ

µ%. Este util in compararea variatiilor

a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt egale, atunci vomspune ca setul de observatii ce are media mai mica este mai variabil decat cel cu media mai mare.

Standardizarea unei variabile aleatoare

Pentru o variabila aleatoare Z de medie µ ³i dispersie σ2, variabila aleatoare Y =Z − µσ

se nume³te

variabila aleatoare standardizat (sau normat ). Astfel, prin standardizarea unei variabile, vom obtineurmatoarele proprietati ale sale: E(Y ) = 0, D2(Y ) = 1.

5Pafnuty Lvovich Chebyshev (1821− 1894), matematician rus

Geostatistica [Dr. Iulian Stoleriu] 25

Daca Z este o variabila normala (scriem asta prin Z ∼ N (m, σ)), atunci standardizarea sa este o variabilanormala standard, adica Z−µ

σ ∼ N (0, 1).

Momente centrate

Pentru o v.a. Z (discret sau continu ), ce admite medie, momentele centrate sunt valorile a³teptate aleputerilor lui Z − µ. Denim astfel µk(Z) = E((Z − µ)k). In particular,

µk(Z) =

n∑i=1

(zi − µ)kpi;

(in cazul unei v.a. discrete).

µk(Z) =

∫ ∞−∞

(x− µ)kf(x) dx;

(in cazul unei v.a. continue).

Momente speciale:

• µ2(Z) = σ2. Se observa ca al doilea moment centrat este chiar dispersia.

• γ1 =µ3(Z)

σ3este coecientul de asimetrie (en., skewness);

Coecientul γ1 este al treilea moment centrat standardizat. O repartiµie este simetric dac γ1 = 0.Vom spune c asimetria este pozitiv (sau la dreapta) dac γ1 > 0 ³i negativ (sau la stânga) dac γ1 < 0.

• K =µ4(Z)

σ4− 3 este excesul (coecientul de aplatizare sau boltire) (en., kurtosis).

Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul (−3) apare pentruc indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentruK = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptulc , în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decâtclopotul lui Gauss. Pentru K < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss.

Cuantile

Fie o v.a. Z ce are funcµia de repartiµie F (z). Pentru un α ∈ (0, 1), denim cuantila de ordin α aceavaloare reala zα ∈ R pentru care

F (zα) = P (Z ≤ zα) = α. (4.8)

(1) Cuantilele sunt m suri de poziµie, ce m soar locaµia uneianumite observaµii faµ de restul datelor. A³a cum se poateobserva din Figura 4.1, valoarea xα este acel num r real pentrucare aria ha³urat este chiar α.(2) În cazul în care Z este o variabil aleatoare discret , atunci(4.8) nu are soluµie pentru orice α. Îns , dac exist o soluµie aacestei ecuaµiei F (x) = α, atunci exist o innitate de soluµii,³i anume intervalul ce separ dou valori posibile.

Figura 4.1: Cuantila de ordin α.

Geostatistica [Dr. Iulian Stoleriu] 26

(3) Cazuri particulare de cuantile:

• pentru α = 1/2, obtinem mediana. Astfel, F (Me) = 0.5. Mediana (notata Me) este valoarea careimparte repartitia in doua parti in care variabila Z ia valori cu probabilitati egale. Scriem astaastfel:

P (Z ≤Me) = P (Z > Me) = 0.5.

Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media pentrutendinta centrala a valorilor variabilei.

• pentru α = i/4, i ∈ 1, 2, 3, obtinem cuartilele. Prima cuartila, Q1, este acea valoare pentru careprobabilitatea ca Z sa ia o valoare la stanga ei este 0.25. Scriem asta astfel: P (Z ≤ Q1) = 0.25.Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia, Q3, este acea valoare pentrucare probabilitatea ca Z sa ia o valoare la stanga ei este 0.75. Scriem asta astfel: P (Z ≤ Q3) = 0.75.

• pentru α = j/10, j ∈ 1, 2, . . . , 10, obtinem decilele. Prima decila este acea valoare pentru careprobabilitatea ca Z sa ia o valoare la stanga ei este 0.1. S.a.m.d.

• pentru α = j/100, j ∈ 1, 2, . . . , 100, obtinem centilele. Prima centila este acea valoare pentrucare probabilitatea ca Z sa ia o valoare la stanga ei este 0.01. S.a.m.d.

(4) Dac Z ∼ N (0, 1), atunci cuantilele de ordin α le vom nota prin zα.

Modul (valoarea cea mai probabil )

Este valoarea cea mai probabila pe care o lua variabila aleatoare Z. Cu alte cuvinte, este acea valoare x∗

pentru care f(x∗) (densitatea de repartiµie sau funcµia de probabilitate) este maxim . O repartiµie poates nu aib niciun mod, sau poate avea mai multe module.

Covarianµa ³i coecientul de corelaµie

Conceptul de corelaµie (sau covarianµ ) este legat de modul în care dou variabile aleatoare tind s semodice una faµ de cealalt ; ele se pot modica e în aceea³i direcµie (caz în care vom spune c Z1 ³i Z2

sunt direct <sau pozitiv> corelate) sau în direcµii opuse (Z1 ³i Z2 sunt invers <sau negativ> corelate).Consideram variabilele Z1, Z2 ce admit mediile, respectiv, µ1, µ2.

Denim corelaµia (sau covarianµa) variabilelor Z1 ³i Z2, notat prin cov(Z1, Z2), cantitatea

cov(Z1, Z2) = E[(Z1 − µ1)(Z2 − µ2)].

Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cov(Z, Z) = σ2Z .O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-o linie.Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea o corelaµie pozi-tiv , însemnând c Z1 ³i Z2 cresc sau descresc împreun (vezi cazurile in care ρ = 0.85 sau ρ = 1 in Figura4.2), sau o corelaµie negativ , însemnând c Z1 ³i Z2 se modic în direcµii opuse (vezi cazul ρ = −0.98in Figura 4.2). In cazul ρ = −0.16 din Figura 4.2, nu se observa nicio tendinta, caz in car putem banuica variabilele nu sunt corelate.

Geostatistica [Dr. Iulian Stoleriu] 27

O m sur a corelaµiei dintre dou variabile este coecientulde corelaµie. Acesta este foarte utilizat în ³tiinµe ca ind om sur a dependenµei liniare între dou variabile. Se nume³tecoecient de corelaµie al v.a. Z1 ³i Z2 cantitatea

ρ =cov(Z1, Z2)

σ1σ2,

unde σ1 si σ2 sunt deviatiile standard pentru Z1, respectiv,Z2. Uneori se mai noteaza prin ρ(Z1, Z2) sau ρZ1, Z2 . Co-ecientul de corelatie ia valori intre −1 (perfect negativ co-relate) si 1 (perfect pozitiv corelate) si masoara gradul decorelatie liniara dintre doua variabile.

Figura 4.2: Reprezentare de datebidimensionale.

4.4 Independenµa

Conceptul de independenµ a variabilelor aleatoare sau a evenimentelor este foarte important din punctulde vedere al calculului statistic, atunci cand avem de calculat probabilit µile evenimentelor compuse dinevenimente mai simple.

Consideram A si B dou evenimente aleatoare arbitrare.(1) Dac anumite informaµii despre evenimentul B au inuenµat în vreun fel realizarea evenimentuluiA, atunci vom spune c A ³i B sunt evenimente dependente. De exemplu, evenimentele A = mâine plou ³i B = mâine mergem la plaj sunt dependente.(2) S presupunem c evenimentul B satisface relaµia P (B) > 0. Vom spune c evenimentele A ³iB sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B, adic probabilitatea condiµionat

P (A| B) = P (A), (4.9)

echivalent cuP (A

⋂B)

P (B)= P (A).

Aici am notat prin P (A| B) probabilitatea ca evenimentul A sa se realizeze stiind ca B s-a realizat. Putemrescrie ultima egalitate sub forma simetric :

P (A⋂B) = P (A) · P (B). (4.10)

Deoarece în relaµia (4.10) nu mai este nevoie de condiµie suplimentara pentru P (B), este preferabil s denim independenµ a dou evenimente arbitrare astfel:

Dou evenimente A si B se numesc independente dac relaµia (4.10) are loc. Altfel, ele sunt dependente,in sensul ca realizarea uneia depinde de realizarea/nerealizarea celeilalte.

In general, o multime de evenimente se numesc independente daca oricum am alege evenimente din aceastamultime, probabilitatea ca acestea sa se realizeze simultan este egala cu produsul probabilitatilor ecaruieveniment in parte.

Doua variabile aleatoare Z1 si Z2 sunt independente daca realizarile lor sunt evenimente independenteintre ele. De asemenea, vom spune ca o multime variabile aleatoare sunt independente daca realizarileoricarei submultimi dintre ele sunt evenimente independente intre ele.

Geostatistica [Dr. Iulian Stoleriu] 28

Exemplu: S consider m aruncarea unui zar. Arunc m zarul de dou ori ³i not m cu Z1, respectiv,Z2, v.a. ce reprezint num rul de puncte ap rute la ecare aruncare. Evident, valorile acestor v.a. suntdin mulµimea 1, 2, 3, 4, 5, 6. Aceste doua variabile aleatoare sunt independente, deoarece aparitia uneifete la aruncarea primului zar este independenta de aparitia oricarei fete la aruncarea celui de-al doilea.

O consecinta importanta a independentei variabilelor este faptul ca media produsului a doua sau maimulte variable independente este egala cu produsul mediilor celor doua variabile. De asemenea, dacavariabilele sunt independente, dispersia sumei variabilelor este egala cu suma dispersiilor ecarei variabilein parte. Aceste proprietati nu au loc in cazul in care ipoteza de independenta nu este vericata.

De remarcat faptul ca independenta a doua variabile implica faptul ca ele sunt necorelate, adicacov(Z1, Z2) = 0 si, implicit, ρZ1, Z2 = 0. Propozitia reciproca nu este adevarata. Aceasta inseamna caexista variabile care sunt necorelate dar nu sunt independente.

Este important de notat faptul ca in Geostatistica datele spatiale sunt necorelate, deci nu pot indepen-dente. Observatiile facute in locatii apropiate tind sa aiba valori apropiate.

4.5 Teorema limita centrala

Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite s aproxim m sumede variabile aleatoare identic repartizate, avînd orice tip de repartiµii (atât timp cât variaµia lor e nit ),cu o variabila aleatoare normal .Presupunem ca in urma unor masuratori am obtinut datele z1, z2, . . . , zn si ca aceste date sunt realizarile

unor variabile Z1, Z2, . . . , Zn. Daca aceste variabile sunt normale, atunci suma acestora (Sn =

n∑i=1

Zi)

cat si media lor (Z =1

n

n∑i=1

Zi) sunt tot variabile normale, pentru orice volum al selectiei, n.

Teorema limita centrala spune ca, dac variabilele Z1, Z2, . . . , Zn nu sunt normal repartizate, atunci,pentru un volum n este sucient de mare, repartitiile pentru Sn si Z tind sa e tot normale. Spunemastfel ca repartitiile asimptotice (la limita) pentru Sn si Z sunt normale. Cu cat volumul observatiiloreste mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala.

Mai mult, daca variabilele Zi au aceeasi medie (µ) si aceeasi deviatie standard σ, atunci media Z este

o variabila normala de medie µZ = µ si deviatie standard σZ =σ√n. Se observa ca, daca n este foarte

mare, atunci deviatia standard a lui Z scade, astfel ca valorile sale vor deveni foarte apropiate de µ.

Se pune problema: Cât de mare ar trebui s e n, în practic , pentru c teorema limit central s eaplicabil ? Se pare ca un num r n astfel încât n ≥ 30 ar sucicient pentru aproximarea cu repartiµianormal de³i, dac variabilele sunt simetrice, aproximarea ar putea bun ³i pentru un num r n mai micde 30.

Geostatistica [Dr. Iulian Stoleriu] 29

4.6 Repartitii probabilistice

• Repartiµia binomial , B(n, p):

Este o repartitie pentru o variabila aleatoare discreta. Modeleaza numarul de succese obtinute inurma unui experiment aleator care se desfasoara in aceleasi conditii de un numar de ori. Fie nnumarul de repetitii ale experimentului si e p probabilitatea de succes la o singura efectuare aexperimentului. Spunem ca o variabila aleatoare Z urmeaza repartitia binomiala de parametri n sip, scriem Z ∼ B(n, p), (n > 0, p ∈ (0, 1)), dac valorile lui Z sunt 0, 1, . . . , n, cu probabilit µile

P (Z = k) = Cknpk(1− p)n−k, k = 0, 1, . . . , n.

Media ³i dispersia pentru o astfel de variabila binomiala sunt: µZ = np; σ2Z = np(1− p).Spre exemplu, aruncarea de 15 ori a unei monede ideale poate modelat ca ind o v.a. binomial B(15, 0.5).

• Repartiµia normal , N (µ, σ)

Repartitia normala este cea mai cunoscuta si des utilizata repartitie probabilistica. Spunem c o variabila aleatoare urmeaza o repartitie normala de medie µ si deviatie standard σ (vom scrieZ ∼ N (µ, σ), dac Z are densitatea de repartitie

f(z) =1

σ√

2πe−(z − µ)2

2σ2 , z ∈ R.

Media variabilei Z este E(Z) = µ ³i dispersia sa este σ2Z = σ2.Repartitia normala se mai nume³te ³i repartiµia gaussian , dupa numele matematicianului germanC. F. Gauÿ. În cazul µ = 0, σ2 = 1 densitatea de repartiµie devine:

f(z) =1√2πe−

z2

2 , x ∈ R. (4.11)

În acest caz spunem c Z urmeaz repartiµia normal standard, N (0, 1).Gracul densit µii de repartiµie pentru repartiµia normal este clopotul lui Gauss (vezi Figura 4.3).Din grac (pentru σ = 1), se observ c majoritatea valorilor nenule ale repartiµiei normale standardse a în intervalul (µ− 3σ, µ+ 3σ) = (−3, 3). Aceast armaµie rezulta din relaµia (4.7).

Figura 4.3: Clopotul lui Gauss pentru ovariabila Z ∼ N (0, σ), (σ = 1, 2, 3)

Dac Z ∼ N (0, 1), atunci Z = σZ + µ ∼ N (µ, σ). În

mod similar, dac Z ∼ N (µ, σ), atunci Z =Z − µσ

∼N (0, 1). Pentru o v.a. N (0, 1) funcµia de repartiµie estetabelat (valorile ei se g sesc în tabele) ³i are o notaµiespecial , Θ(z). Ea e denit prin:

Θ(z) =1√2π

∫ z

−∞e−

y2

2 dy. (4.12)

Funcµia de repartiµie a lui Z ∼ N (µ, σ) este dat prin

F (z) = Θ

(z − µσ

), z ∈ R. (4.13)

Geostatistica [Dr. Iulian Stoleriu] 30

• Repartiµia log-normal , logN (µ, σ)

Repartiµia log-normal este foarte util în practica atunci cand observatiile nu sunt normale. In acestcaz, este posibil ca logaritmul acestor observatii sa urmeze o repartitie normala. In general, dacadatele observate sunt asimetrice (coecientul skewness este mare), atunci este necesara o logaritmarea datelor. Majoritatea mineralelor sau elementelor chimice au repartitii lognormale. Vom spune cavariabila Z urmeaza o repartitie log-normala, scriem Z ∼ logN (µ, σ), daca variabila lnZ urmeazao repartitie normala, adica lnZ ∼ N (µ, σ).Densitatea de repartiµie pentru o repartitie lognormala de parametri µ si σ este:

f(z) =

1

zσ√

2πe−(ln z − µ)2

2σ2 , dac z > 0;

0 , dac z ≤ 0.

Media ³i dispersia pentru o variabila Z ∼ logN (µ, σ) sunt date de

µZ = eµ+σ2/2, σ2Z = e2µ+σ

2(eσ

2 − 1).

• Repartiµia χ2, χ2(n)

Repartitia χ2(n) (cu n grade de liberate) apare in urma insumarii unui numar de n variabile normalestandard independente. Vom spune ca o variabila Z urmeaza repartitia χ2(n) (scriem ca Z ∼ χ2(n)si se cite³te repartiµia hi-p trat cu n grade de libertate) dac densitatea sa de repartiµie este:

f(z; n) =

1

Γ(n2 )2n2

zn2−1e−

z2 , dac z > 0,

0 , dac z ≤ 0.

unde Γ este funcµia lui Euler. Gracul acestei repartiµii (pentru diverse valori ale lui n) este repre-zentat în Figura 4.4.

Figura 4.4: Repartiµia χ2(n) pentru patruvalori ale lui n.

(a) Media ³i dispersia unei repartitii χ2(n) sunt:

E(χ2) = n, D2(χ2) = 2n.

(b) Dac variabilele Zk ∼ N (0, 1) pentru k =1, 2, . . . , n sunt independente, atunci

Z21 + Z2

2 + · · ·+ Z2n ∼ χ2(n).

(c) În particular, dac variabila Z este normalastandard, atunci patratul acesteia este o variabilaχ2(1). Matematic, scriem astfel:

Daca Z ∼ N (0, 1), atunci Z2 ∼ χ2(1).

Geostatistica [Dr. Iulian Stoleriu] 31

• Repartiµia Student (W. S. Gosset6), t(n)

Spunem c Z ∼ t(n) (cu n grade de libertate) dac densitatea de repartiµie este:

f(z; n) =

Γ

(n+ 1

2

)√nπ Γ

(n2

) (1 +z2

n

)−n+12

, z ∈ R.

Media ³i dispersia unei repartitii t(n) sunt: µZ = 0, σ2Z =n

n− 2.

• Repartiµia Fisher7, F(m, n)

Spunem c Z ∼ F(m, n) (cu m, n grade de libertate) dac densitatea de repartiµie este:

f(z) =

(mn

)m2

Γ

(m+ n

2

)Γ(m

2

)Γ(n

2

) zm2−1 (1 + m

n z)−m+n

2 , z > 0;

0 , z ≤ 0.

Media ³i dispersia unei repartitii F(m, n) sunt: µZ =n

n− 2, σ2Z =

2n2(n+m− 2)

m(n− 2)2(n− 4).

6William Sealy Gosset (1876− 1937), statistician britanic, care a publicat sub pseudonimul Student7Sir Ronald Aylmer Fisher (1890− 1962), statistician, eugenist, biolog ³i genetician britanic

Geostatistica [Dr. Iulian Stoleriu] 32

5 Elemente de Statistic descriptiv

S consider m o populaµie statistic de volum N ³i o caracteristic a sa, Z, ce are funcµia de repartiµieF . Asupra acestei caracteristici facem n observaµii, în urma c rora obµinem un set de date statistice.Dup cum am v zut anterior, datele statistice pot prezentate într-o form grupat (descrise prin tabelede frecvenµe) sau pot negrupate, exact a³a cum au fost culese în urma observ rilor. Pentru analizaacestora, pot utilizate diverse tehnici de organizare ³i reprezentare grac a datelor statistice îns , decele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat . Suntem interesaµi în aatribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel devalori numerice, e.g., m suri ale tendinµei centrale (media, modul, mediana), m suri ale dispersiei (dis-persia, deviaµia standard), m suri de poziµie (cuantile, distanµa intercuantilic ) etc. În acest capitol, vomintroduce diverse m suri descriptive numerice, atât pentru datele grupate, cât ³i pentru cele negrupate.

5.1 M suri descriptive ale datelor negrupate

Consider m un set de date statistice negrupate, z1, z2, . . . , zn (zi ∈ R, i = 1, 2 . . . , n, n ≤ N), cecorespund unor observaµii f cute asupra variabilei Z. Pe baza acestor observatii, denim urm torii indicistatistici, in scopul de a estima parametrii reali ai caracteristicilor populatiei. Printr-un estimator pentruun parametru al populatiei intelegem o statistica alecarei valori se apropie foarte mult de valoarea para-metrului atunci cand volumul selectiei este sucient de mare. Deoarece ele se bazeaza doar pe observatiileculese, acesti indici statistici se mai numesc si masuri empirice.

• Valoarea medie

Este o m sur a tendinµei centrale a datelor. Pentru o selecµie z1, z2, . . . , zn, denim:

z =1

n

n∑i=1

zi,

ca ind media datelor observate. Aceasta medie empirica este un estimator pentru media teoretica,µ = EZ, daca aceasta exista.

• Pentru ecare i, cantitatea di = zi − z se nume³te deviaµia valorii zi de la medie. Aceasta nu poate denit ca o m sur a gradului de împr ³tiere a datelor, deoarece

n∑i=1

(zi − z) = 0.

• Momentele

Pentru ecare k ∈ N∗, momentele centrate de ordin k se denesc astfel:

mk =1

n

n∑i=1

(zi − z)k.

• Dispersia

Aceasta este o m sur a gradului de împr ³tiere a datelor în jurul valorii medii. Este un estimatorpentru dispersia populatiei. Pentru o selecµie z1, z2, . . . , zn, denim dispersia astfel:

s2 = m2 =1

n− 1

n∑i=1

(zi − z)2(

=1

n− 1[

n∑i=1

z2i − n(z)2]

).

Geostatistica [Dr. Iulian Stoleriu] 33

Faptul ca apare n − 1 la numitor face ca aceasta masura empirica sa estimeze dispersia teoreticafara deplasare, in sensul ca valoarea medie a lui s2 este chiar σ2. Acest fapt nu ar mai fost valabildaca in loc de n− 1 ar fost n.

• Deviaµia standard

Este tot o m sur a împr ³tierii datelor în jurul valorii medii, care estimeaza parametrul σ. Pentruo selecµie z1, z2, . . . , zn, denim deviaµia standard:

s =

√√√√ 1

n− 1

n∑i=1

(zi − z)2.

• Coecientul de variaµie (sau de dispersie)

Aceste coecient (de obicei, exprimat în procente) este util atunci când compar m dou repartiµiiavând unit µi de m sur diferite. Nu este folosit atunci când z sau µ este foarte mic. Pentrudoua populatii care au aceeasi deviatie standard, gradul de variatie a datelor este mai mare pentrupopulatie ce are media mai mica.

cv =s

z.

• Amplitudinea (plaja de valori, range)

Pentru un set de date, amplitudinea (en., range) este denit ca ind diferenµa dintre valoarea ceamai mare ³i valoarea cea mai mic a datelor, i.e., a = zmax − zmin.

• Scorul ζ

Este num rul deviaµiilor standard pe care o anumit observaµie, z, le are sub sau deasupra mediei.Pentru o selecµie z1, z2, . . . , zn, scorul Z este denit astfel:

ζ =z − zs

.

• Corelaµia (covarianµa)

Presupunem acum ca avem doua variabile de interes relative la o populatie statistica, Z1 ³i Z2, pentrucare avem n perechi de observaµii, (z1, z

′1), (z2, z

′2), . . . , (zn, z

′n). Denim corelaµia (covarianµa):

cove =1

n− 1

n∑i=1

(zi − z)(z′i − z′). (5.1)

In cazul în care lucr m cu mai multe variabile ³i pot exista confuzii, vom nota covarianµa princove(Z1, Z2). Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cove(Z, Z) = s2.O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-olinie. Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea ocorelaµie pozitiv , însemnând c Z1 ³i Z2 cresc sau descresc împreun (pentru cove > 0), sau ocorelaµie negativ , însemnând c Z1 ³i Z2 se modic în direcµii opuse (pentru cove < 0). În cazulîn care cove = 0, putem banui ca variabilele nu sunt corelate.

• Coecientul de corelaµie

r =covesxsy

.

In cazul în care lucr m cu mai multe variabile ³i pot exista confuzii, vom nota coecientul decorelaµie prin r(Z1, Z2). La fel ca în cazul coecientulul de corelaµie teoretic, r ia valori între −1 ³i1. Dup cum vom vedea mai târziu, pe baza valorii lui r putem testa valoarea real aparametruluiρ (coecientul teoretic de corelaµie, care reprezint întreaga populaµie).

Geostatistica [Dr. Iulian Stoleriu] 34

• Funcµia de repartiµie empiric

Se nume³te funcµie de repartiµie empiric asociat unei variabile aleatoare Z ³i unei selecµiiz1, z2, . . . , zn, funcµia F ∗n : R −→ [0, 1], denit prin

F ∗n(z) =num rul observaµiilor mai mici au egale cu z

n. (5.2)

Când volumul selectiei (n) este sucient de mare, funcµia de repartiµie empiric (F ∗n(z)) aproximeaz funcµia de repartiµie teoretic F (z) (vezi Figura 5.1). Insa, pentru a stabili exact daca ele suntsemnicativ apropiate, este nevoie de un test statistic.

Figura 5.1: Funcµia de repartiµie empiric ³i funcµia de repartiµie teoretic pentru distribuµia normal .

• Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se dene³te prin

g1 =µ3s3

=

1n

n∑i=1

(zi − z)3[1

n−1

n∑i=1

(zi − z)2]3/2 .

Putem spera ca o repartiµie s e simetric dac g1 este foarte apropiat de valoarea 0. Vom spunec asimetria este pozitiv (sau la dreapta) dac g1 > 0 ³i negativ (sau la stânga) dac g1 < 0.Coecientul empiric de asimetrie g1 va utilizat în estimarea coecientului teoretic de asimetrie γ1,care este un parametru al populaµiei.

• Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se dene³te prin

κ =µ4s4− 3 =

1n

n∑i=1

(zi − z)4(1n

n∑i=1

(zi − z)2)2 − 3.

Geostatistica [Dr. Iulian Stoleriu] 35

Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul (−3) apare pentruc indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentru κ = 0 (sau foarte apropiat de aceast valoare), leptocurtic (boltit ) pentru κ > 0 sauplatocurtic pentru κ < 0. Un indice κ > 0 semnic faptul c , în vecin tatea modului, curbadensit µii de repartiµie are o boltire (ascuµire) mai mare decât clopotul lui Gauss. Pentru κ < 0,în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss. Coecientulempiric de aplatizare κ va utilizat în estimarea coecientului teoretic de aplatizare K, care esteun parametru al populaµiei.

• Cuantile

Cuantilele (de ordin r) sunt valori ale unei variabile aleatoare care separ repartiµia ordonat în rp rµi egale. Aceste valori sunt estimari pentru cuantilele teoretice (parametrii). Vom utiliza notatiacu litera mica pentru cuantilele empirice, pentru a le diferentia de parametrii corespunzatori.Pentru r = 2, cuantila ce imparte setul de date in doua clase cu acelasi numar de valori se nume³temedian (empirica), notat prin me.Presupunem c observaµiile sunt ordonate, z1 < z2 < · · · < zn. Pentru aceast ordine, denimvaloarea median :

me =

z(n+1)/2 , dac n = impar;

(zn/2 + zn/2+1)/2 , dac n = par.

Pentru r = 4, cuantilele se numesc cuartile (sunt în num r de 3). Prima cuartil , notat q1, senume³te cuartila inferioar , a doua cuartil este mediana, iar ultima cuartil , notat prin q3, senume³te cuartila superioar . Diferenµa q3 − q1 se nume³te distanµa intercuartilic .Pentru r = 10 se numesc decile (sunt în num r de 9), pentru r = 100 se numesc percentile (sunt înnum r de 99), pentru r = 1000 se numesc permile (sunt în num r de 999). Sunt m suri de poziµie,ce m soar locaµia unei anumite observaµii faµ de restul datelor.

• Modul

Modul (sau valoarea modal ) este acea valoare z∗ din setul de date care apare cel mai des (adica arefrecventa cea mai mare). Un set de date poate avea mai multe module. Dac apar dou astfel devalori, atunci vom spune c setul de date este bimodal, pentru trei astfel de valori avem un set dedate trimodal etc. În cazul în care toate valorile au aceea³i frecvenµ de apariµie, atunci spunem c nu exist mod. De exemplu, setul de date

1 3 5 6 3 2 1 4 4 6 2 5

nu admite valoare modal . Nu exist un simbol care s noteze distinctiv modul unui set de date.

• Valori aberante (en. outliers)

Dupa cum am vazut anterior, teorema lui Cebâ³ev ne asigura ca probabilitatea ca o data observatasa devieze de la medie cu mai mult de k deviatii standard este mai mica decat 1

k2. Valorile aberante

sunt valori statistice observate care sunt îndep rtate de marea majoritate a celorlalte observaµii. Elepot ap rea din cauza unor m sur tori defectuoase sau în urma unor erori de m surare. De cele maimulte ori, ele vor excluse din analiza statistic . Din punct de vedere matematic, valorile aberantesunt valorile ce nu aparµin intervalului urm tor:

[q1 − 1.5 iqr, q3 + 1.5 iqr],

unde iqr = q3 − q1 este distanµa intercuartilic . Daca valoarea 1.5 se inlocuieste cu 3, atunci oricevaloare care iese din acest interval se va numi valoare aberanta extrema.

Geostatistica [Dr. Iulian Stoleriu] 36

• Sinteza prin cele cinci valori statistice (ve number summary)

Reprezint cinci m suri statistice empirice caracteristice unui set de date statistice. Acestea sunt:

valoarea minim < prima cuartil (q1) < mediana (me) < a treia cuartil (q3) < valoarea maxim

Aceste cinci numere pot reprezentate grac într-o diagram numit box-and-whisker plot.Datele din Tabelul 2.4 sunt reprezentate în prima gur de mai jos prin dou diagrame box-and-whiskers.În prima diagram (numerotat cu 1) am folosit datele negrupate; în a doua diagram am folosit repre-zentarea datelor din acela³i tabel prin centrele claselor. Reprezent rile sunt cele clasice, cu dreptunghiuri.Valorile aberante sunt reprezentate prin puncte în diagrama box-and-whisker plot.

vârsta f. abs. f. rel. f. cum. mijlocul clasei

[18, 25) 34 8.83% 8.83% 21.5[25, 35) 76 19.74% 28.57% 30[35, 45) 124 32.21% 60.78% 40[45, 55) 87 22.60% 83.38% 50[55, 65) 64 16.62% 100.00% 60

Total 385 100% - -

Tabela 5.1: Tabel cu frecvenµe.

Figura 5.2: Box-an-whisker plot pentru dateledin Tabelul 5.1

În Figura 5.3, am reprezentat cu box-and-whiskerun set de date discrete ce conµine dou valoriaberante. Aici dreptunghiul a fost crestat (notchedbox-and whisker plot); lungimea crest turii oferindun interval de încredere pentru median . Valorileaberante sunt reprezentate in gura prin puncte inafara range-ului datelor.

Figura 5.3: Box-an-whisker plot pentru un set dedate discrete

Geostatistica [Dr. Iulian Stoleriu] 37

Tabelul 5.2 contine cativa parametriuzuali ce caracterizeaza o populatie,alaturi de estimatorii corespunzatori.

parametru indicator statistic (estimator)caracterizeaza populatia format cu date de selectie

µ− media mσ2− dispersia s2

σ− deviatia standard sCV − coef. de variatie cv

cov− covarianta coveρ− corelatia rγ1− skewness g1K − kurtosis κQi− cuantile qiMe− mediana me

F (z)− fct. de repartitie F ∗n(z)

Tabela 5.2: Tabel cu parametri si estimatorii sai

Exerciµiu 5.1 Urm torul set de date reprezint preµurile (în mii de euro) a 20 de case, vândute într-oanumit regiune a unui ora³:

113 60.5 340.5 130 79 475.5 90 100 175.5 100

111.5 525 50 122.5 125.5 75 150 89 100 70

(a) Determinaµi amplitudinea, media, mediana, modul, deviatia standard, cuartilele ³i distanµa intercu-artilic pentru aceste date. Care valoare este cea mai reprezentativ ?(b) Desenaµi diagrama box-and-whiskers ³i comentaµi-o. Exista valori aberante?(c) Calculaµi coecientii de asimetrie si de aplatizare.

Soluµie: Rearanj m datele în ordine cresc toare:

50 60.5 70 75 79 89 90 100 100 100 111.5

113.5 122.5 125.5 130 150 175.5 340.5 475.5 525

Amplitudinea datelor este 525 − 50 = 475, media lor este 154.15, mediana este100 + 111.5

2= 105.75,

modul este 100, cuartila inferioar este q1 =79 + 89

2= 84, q2 = me, cuartila superioar este q3 =

130 + 150

2= 140 ³i distanµa intercuartilic este d = q3 − q1 = 56.

Mediana este valoarea cea mai reprezentativ în acest caz, deoarece celemai mari trei preµuri, anume 340.5, 475.5, 525, m resc media ³i o fac maipuµin reprezentativ pentru celelalte date. În cazul în care setul de datenu este simetric, valoarea median este cea mai reprezentativ valoare adatelor.

Deviatia standard este s =

√√√√ 1

n− 1

n∑i=1

(zi − z)2 = 133.3141. Folosind

formulele, gasim ca g1 = 1.9598 (asimetrie la dreapta) si κ = 5.4684(boltire pronuntata). Valorile aberante sunt cele ce se aa in afara in-tervalului [q1 − 1.5(q3 − q1), q3 + 1.5(q3 − q1)] = [0, 178]. Se observa cavalorile 340.5, 475.5, 525 sunt valori aberante, reprezentate prin punctein gura alaturata. Figura 5.4: Box-an-whisker plot

pentru datele din Exerciµiul 5.1

Geostatistica [Dr. Iulian Stoleriu] 38

5.2 M suri descriptive ale datelor grupate

Consider m un set de date statistice grupate (de volum n), ce reprezinta observaµii asupra variabilei Z.

Pentru o selecµie cu valorile de mijloc z1, z2, . . . , zr ³i frecvenµele absolute corespunz toare, f1, f2,

. . . , fr, cur∑i=1

fi = n, denim:

zf =1

n

r∑i=1

zifi, media (empiric ) de selecµie, (sau, media ponderat )

s2 =1

n− 1

r∑i=1

fi(zi − zf )2 =1

n− 1

(r∑i=1

z2i fi − n z2f

), dispersia empiric ,

s =√s2, deviaµia empiric standard.

Mediana pentru un set de date grupate este acea valoare ce separ toate datele în dou p rµi egale. Sedetermin mai întâi clasa ce conµine mediana (numit clas median ), apoi presupunem c în interiorulec rei clase datele sunt uniform distribuite. O formul dup care se calculeaz mediana este:

me = l +n2 − Fmefme

c,

unde: l este limita inferioar a clasei mediane, n este volumul selecµiei, Fme este suma frecvenµelor pân la (exclusiv) clasa median , fme este frecvenµa clasei mediane ³i c este l µimea clasei.

Similar, formulele pentru cuartile sunt:

q1 = l1 +n4 − Fq1fq1

c ³i q3 = l3 +3n4 − Fq3fq3

,

unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar Fq este sumafrecvenµelor pân la (exclusiv) clasa ce contine cuartila, fq este frecvenµa clasei unde se gaseste cuartila.

Pentru a aa modul unui set de date grupate, determin m mai întâi clasa ce conµine aceast valoare (clas modal ), iar modul va calculat dup formula:

mod = l +d1

d1 + d2c,

unde d1 ³i d2 sunt frecvenµa clasei modale minus frecvenµa clasei anterioare ³i, respectiv, frecvenµa claseimodale minus frecvenµa clasei posterioare, l este limita inferioar a clasei modale ³i c este l µimea claseimodale.

Exerciµiu 5.2 Datele din Tabelul 5.3 reprezinta inaltimile (in cm) pentru o selectie de 70 de plante dintr-o anumita regiune.(a) Reprezentati datele printr-o histograma.(b) Folosind formulele pentru indicatori statistici pentru date grupate, determinaµi amplitudinea, media,mediana, modul, dispersia si distanta intercuartilic .(b) Desenaµi diagrama box-and-whiskers ³i comentaµi-o. Exista valori aberante?

Soluµie: Amplitudinea este A = 30. Folosind centrele claselor, media este

z =1

100(1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 +

+16.52 × 19 + 19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3) = 14.31.

Geostatistica [Dr. Iulian Stoleriu] 39

Dispersia este: s2 =1

n− 1(∑

(z2 · f)− n · z2)

=1

69(1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 + 16.52 × 19 +

+19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3 − 70 · 14.312)

= 44.5191.

În lµimea (în cm) frecvenµa[0, 3) 5[3, 6) 9[6, 9) 8[9, 12) 14[12, 15) 15[15, 18) 19[18, 21) 15[21, 24) 8[24, 27) 4[27, 30) 3

Tabela 5.3: Tabel cu date de tip continuu Figura 5.5: Histograma pentru datele din Tabelul 5.3.

Clasa median este clasa [12, 15), deoarece în clasele anterioare ([0, 3), [3, 6) ³i [6, 9)) se a 5+9+8+14 =36 date mai mici decât mediana, iar la dreapta clasei [12, 15) se aa 19 + 15 + 8 + 4 + 3 = 49 de date.Valoarea median este

Me = 12 +50− 36

15× 3 = 14.8.

Clasa modal este [15, 18), iar modul este Mo = 15 + 44+4 × 3 = 16.5.

Calcul m acum prima cuartil dupa formula q1 = l1 +n4 − Fq1fq1

. Clasa in care se gaseste prima cuartila

este [9, 12) (o valoare din acest interval va avea la stanga sa 100/4 = 25 dintre valorile observate). Avem:Fq1 = 22, fq1 = 14, c = 3, de unde q1 = 9.6429.Similar, clasa in care se gaseste a treia cuartila este [18, 21) (o valoare din acest interval va avea ladreapta sa 100/4 = 25 dintre valori. Avem: Fq3 = 70, fq3 = 15, c = 3, de unde q3 = 19. Astfel, distantaintercuartilica observata este iqr = q3 − q1 = 9.3571.

Tabelul 5.4 reprezinta o sumarizare a statisticilor importante pentru aceste date:

Statistica valoarea parametrul estimat

Minimum 0.5 zminMaximum 29.5 zmaxMedia 14.31 µMediana 14.8 MeDeviatia standard 6.6723 σDispersia 44.5191 σ2

Skewness −0.0495 γ1Kurtosis 2.4186 KNumarul de observatii 100 nχ2 pentru testul de normalitate (cu 7 grade de libertate) 33.5440 −

Tabela 5.4: Statistici pentru datele din Tabelul 5.3

Geostatistica [Dr. Iulian Stoleriu] 40

Valorile aberante sunt cele ce se aa in afara intervalului[q1 − 1.5(q3 − q1), q3 + 1.5(q3 − q1)] = [−5.2264, 34.1501].Cum toate datele din tabel apartin acestui interval, nuexista valori aberante, fapt care se observa si din Figura 5.6.

Figura 5.6: Box-an-whisker plot pentrudatele din Tabelul 5.3

5.3 Transformari de date

Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine valoriapropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate (folosind functiileln sau log10, daca valorile sunt toate pozitive), radacina patrata a valorilor, transformarea logit, radacinide ordin superior etc. In Tabelul 5.5 am sugerat tipul de transformare ce poate utilizat in functie decoecientul de skewness γ1.

In ce conditii. . . skewness formula

date aproape simetrice −0.5 < γ1 < 0.5 nicio transformareskewness moderat pozitiv, date nenegative 0.5 ≤ γ1 < 1 yi =

√zi

skewness moderat pozitiv, exista date < 0 0.5 ≤ γ1 < 1 yi =√zi + C

skewness moderat negativ −1 < γ1 ≤ 0.5 yi =√C − zi

skewness mare negativ γ1 ≤ −1 yi = ln(C − zi) sau yi = log10(C − zi)skewness mare pozitiv, date pozitive γ1 ≥ 1 yi = ln zi sau yi = log10 ziskewness mare pozitiv, exista date ≤ 0 γ1 ≥ 1 yi = ln(zi + C) sau yi = log10(zi + C)

Tabela 5.5: Exemple de transformari de date statistice 5.3

unde C > 0 este o constanta ce poate determinata astfel incat datele transformate sa aiba un skewnesscat mai aproape de 0. Aceasta constanta va aleasa astfel incat functia ce face transformarea este denita.

De exemplu, presupunem ca datele observate sunt z1, z2, . . . , zn si acestea nu sunt toate pozitive, cuun coecient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor; aceasta estezmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea 1 la toate datele observate.Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate sunt echivalente cu folosirea directa aformulei ln(1 + zi) (adunand valoarea 1, am facut toate argumentele logaritmului pozitive). Obtinemastfel un nou set de date, si anume y1, y2, . . . , yn, unde yi = ln(1 + zi). Un exemplu este cel din Figura5.7. Se observa ca datele logaritmate sunt aproape normale. O analiza statistica poate condusa pentrudatele yi, urmand ca, eventual, la nal sa aplicam transformarea inversa zi = eyi − 1 pentru a transformarezultatele pentru datele initiale.

Geostatistica [Dr. Iulian Stoleriu] 41

Figura 5.7: Datele intiale si datele logaritmate

Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor in puncteleneselectate), de multe ori este necesara transformarea inversa a datelor, pentru a determina proprietatiledatelor originale. De aceea, ar potrivit de a exprima indicatorii statistici atat pentru datele transformate,cat si pentru datele originale. Un exemplu este cel din Tabelul 5.6.

Indicatorul datele originale datele tranformatezi yi = ln(1 + zi)

Minimum −0.8464 −1.8734Maximum 14.1107 2.7154Media 6.02142 1.51Cuartila Q1 3.1152 0.6532Mediana 6.5200 1.2512Cuartila Q3 8.7548 1.5785Deviatia standard 5.2511 0.7524Dispersia 27.5741 0.5661Skewness 6.2322 0.0233Kurtosis 78.6077 2.9786Numarul de observatii 100 100χ2 pentru testul de normalitate (cu 7 grade de libertate) − 7.1445

Tabela 5.6: Indicatori pentru datele originale si pentru datele transformate 5.3

Geostatistica [Dr. Iulian Stoleriu] 42

6 Estimatori

Presupunem ca Z este variabila de interes a unei colectivitati statistice si ca, in urma unor masuratori,am obtinut rezultatele z1, z2, . . . , zn. Deoarece in urma acestor masuratori pot aparea erori, in Statisticase considera ca aceste date sunt realizarile unor variabile Z1, Z2, . . . , Zn. Se presupune ca aceste variabilesunt independente si au toate aceeasi repartitie (adica sunt toate copii independente ale aceleasi variabile).Aceste variabile le vom numi variabile aleatoare de selectie. Pe baza acestor observatii, dorim sa estimamanumiti parametri ai colectivitatii, de exemplu media µ sau deviatia standard σ ale lui Z.

O functie f(Z1, Z2, . . . , Zn) ce depinde de variabilele de selectie se va numi generic statistic . In cazca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f(z1, z2, . . . , zn), se numeste totstatistic . Exemple de statistici:

1. Media selectiei:

Z =1

n

n∑i=1

Zi.

O valoare observata pentru Z este z =1

n

n∑i=1

zi.

(∗) Daca variabilele de selectie Zi au media µ si deviatia standard σ, atunci media mediei selectieieste tot µ si deviatia sa standard este σ√

n. Scriem asta astfel:

µZ = µ si σZ =σ√n.

(∗∗) In cazul in care variabilele Zi sunt normale N (m, σ), atunci media selectiei este tot o variabilanormala, Z ∼ N (µ, σ√

n).

(∗∗∗) Daca numarul variabilelor de selectie este sucient de mare, atunci variabila Z este normala,fara ca Zi sa e neaparat normale. Acest fapt este o consecinta a teoremei limita centrala.

2. Dispersia selecµiei,

S2 =1

n− 1

n∑i=1

[Zi − Z]2

O valoare observata pentru S2 este s2 =1

n− 1

n∑i=1

[zi − z]2.

3. Deviatia standard a selecµiei, S =√S2. O valoare observata pentru S este s =

√s2.

6.1 Estimatori punctuali

Consideram acum un parametru generic al populatiei, notat cu θ, pe care dorim sa-l estimam.

• Prin estimator punctual (sau, simplu, estimator) pentru parametrul θ intelegem o statistica (in-dependenta de θ) care se apropie de θ atunci cand volumul selectiei este sucient de mare. Unestimator pentru parametrul θ este notat simbolic prin θ. Valoarea unui astfel de estimator intr-omasurare se va numi estimatie. Pentru simplitate, atunci cand nu este pericol de confuzie, vom notaestimatorul si estimatia tot cu θ. De remarcat faptul ca estimatorul este o variabila aleatoare siestimatia este un numar real.

Geostatistica [Dr. Iulian Stoleriu] 43

Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot exacte.Apar astfel erori de aproximare. Ne-am dori s ³tim în ce sens ³i cât de bine un estimator aproximeaza(se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati care sa cuanticeerorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea medie patratica si eroareastandard.

• Un estimator θ se numeste estimator nedeplasat (en., unbiased estimator) pentru parametrul θ dac media estimatorului este chiar valoarea parametrului pe care estimeaza. Matematic, scriem astfel:

E(θ) = θ.

• Altfel, spunem c θ este un estimator deplasat pentru θ, iar deplasarea (distorsiunea) se dene³teprin:

b(θ, θ) = E(θ)− θ.Cantitatea b(θ, θ) este o m sur a erorii pe care o facem în estimarea lui θ prin θ.

• O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea standard(en., standard error), notata aici prin σ(θ) sau σθ. Spre exemplu, daca estimatorul θ este Z, atunci

σZ =σ√n,

unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σZ va tinde la 0 daca ncreste nemarginit. Astfel, daca numarul de masuratori creste, media acestor masuratori se apropiemult de valoarea parametrului µ.

• Numim eroare medie p tratic a unui estimator θ pentru θ (en., mean squared error) cantitatea

MSE(θ, θ) = E([θ − θ

]2).

Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si valoareaparametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia estimatorului, σ2

θ.

• Un estimator nedeplasat θ pentru θ se nume³te estimator nedeplasat uniform de dispersie minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice valori ale para-metrului θ si pentru orice alt estimator nedeplasat pentru θ, notat cu θ∗, estimatorul θ are variantaminima. Matematic, scriem astfel:

σ2θ≤ σ2

θ∗, pentru orice valoarea a lui θ.

• Pentru un anumit parametru pot exista mai mulµi estimatori nedeplasati. Dintre acestia, cel maibun estimator va acela care are varianta minima.

6.2 Exemple de estimatori punctuali

Presupunem ca Z este variabila de interes a unei populatii statistice, pentru care dorim sa estimam anumitiparametri, e.g., media µ, varianta (dispersia) σ2, deviatia standard σ etc. Plecand de la o multime devalori observate pentru Z, si anume z1, z2, . . . , zn, putem construi urmatorii estimatori:

Geostatistica [Dr. Iulian Stoleriu] 44

1. Un estimator pentru media µ este media selectiei Z = Z =1

n

n∑i=1

Zi. O estimatie pentru µ este z.

Concret, daca dorim sa determinam concentratia medie de azotati din sol intr-o anumita regiune,vom stabili mai intai locatiile x1, x2, . . . , xn de unde vom culege probe, urmand ca apoi sa leculegem efectiv si, pe baza valorilor obtinute, facem media acestora. Astfel, ecare variabila Zi =Z(xi) reprezinta concentratia in locatia xi, care este o variabila aleatoare. Valoarea masurata in

aceasta locatie este zi = z(xi). Estimatorul Z =1

n

n∑i=1

Zi este media concentratiilor din locatiile

stabilite (este criteriul dupa care se estimeaza media), iar estimatia z =1

n

n∑i=1

zi este valoarea medie

a concentratiilor masurate.

2. Dispersia selecµiei, S2 =1

n− 1

n∑i=1

[Zi − Z]2, este un estimator pentru dispersia teoretic , σ2.

3. Deviatia standard a selectiei, S =√S2 este un estimator pentru deviatia standard teoretic , σ.

4. Un estimator pentru eroarea standard σZ =σ√neste sZ =

s√n.

5. Dispersia straticata In cazul unui camp aleator, exista cazuri in care estimatiile deviatiei standards sunt foarte mari, fapt care duce la o eroare standard

s√nmare. Acest lucru poate datorat faptului

ca unele regiuni din campul aleator sunt foarte slab reprezentate prin masuratori, pe cand altelecontin prea multe masuratori. O idee pentru reducerea erorii este cresterea volumului observatiilor,n. Insa, de multe ori, acest lucru nu este convenient. Totusi, problema poate remediata daca seface o selectie straticata a locatiilor masuratorilor, dupa cum urmeaza.Sa presupunem ca regiunea R de interes este impartita in m subregiuni (numite straturi). Pentruecare astfel de strat, k se vor face nk ≥ 2 masuratori. Pentru ecare strat in parte, putem calculavarianta masuratorilor prin formula:

s2k =1

nk − 1

nk∑i=1

[zik − zk]2.

O estimatie pentru varianta mediei in regiunea R este

s2z =1

k2

m∑j=1

s2knk.

O estimatie pentru eroarea standard a lui z este sz =√s2z.

6. Presupunem acum ca avem doua variabile de interes, Z si Z ′. Am vazut anterior ca legatura dintreaceste variabile poate descrisa de covarianta, cov(Z, Z ′) = E [(Z − µZ)(Z ′ − µZ′)]. Pentru aconstrui un estimator pentru covarianta este avem nevoie de n perechi de observaµii. Presupunemca acestea sunt (z1, z′1), (z2, z′2), . . . , (zn, z′n). O estimatie pentru cov(Z,Z ′) este covarianta (saucorelatia) empirica,

cove =1

n− 1

n∑i=1

(zi − z)(z′i − z′),

unde

z =1

n

n∑i=1

zi si z′ =1

n

n∑i=1

z′i.

Geostatistica [Dr. Iulian Stoleriu] 45

6.3 Estimarea parametrilor prin intervale de încredere (o singur populaµie)

Dup cum am v zut anterior, putem determina estimaµii punctuale pentru parametrii unei populatii îns ,o estimaµie punctual , nu precizeaz cât de aproape se g se³te estimaµia θ(x1, x2, . . . , xn) faµ de valoareareal a parametrului θ. De exemplu, dac dorim s estim m valoarea medie a pH din sol, atunci putemg si un estimator punctual (e.g., media de selecµie) care s ne indice c aceasta este de 8.1. Ideal ar dac aceast informaµie ar prezentat sub forma: pH mediu din sol este 8± 0.2.Putem obµine astfel de informaµii dac vom construi un interval în care, cu o probabilitate destul de mare,s g sim valoarea real a lui θ.Dorim s determinam un interval (aleator) care s acopere cu o probabilitate mare (e.g., 0.95, 0.98, 0.99etc) valoarea posibil a parametrului necunoscut.

Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval deîncredere (en., condence interval) pentru parametrul θ cu probabilitatea de încredere 1−α, un intervalaleator (θ, θ), astfel încât

P (θ < θ < θ) = 1− α, (6.1)

unde θ(Z1, Z2, . . . , Zn) ³i θ(Z1, Z2, . . . , Zn) sunt statistici.Pentru o observaµie xat , capetele intervalului (aleator) de încredere vor statistici. De exemplu, pentrudatele observate, z1, z2, . . . , zn, intervalul(

θ(z1, z2, . . . , zn), θ(z1, z2, . . . , zn))

se nume³te valoare a intervalului de încredere pentru θ. Pentru simplitate îns , vom folosi termenulde "interval de încredere" atât pentru intervalul propriu-zis, cât ³i pentru valoarea acestuia, înµelesuldesprinzându-se din context.Valoarea α se nume³te nivel de semnicaµie sau probabilitate de risc.

Cu cât α este mai mic (de regul , α = 0.01 sau 0.02 sau 0.05), cu atât ³ansa (care este (1−α) · 100%) cavaloarea real a parametrului θ s se g seasc în intervalul g sit este mai mare.

Intervalul de încredere pentru valoarea real a unui parametru nu este unic. Dac ni se dau condiµiisuplimentare (e.g., xarea unui cap t), atunci putem obµine intervale innite la un cap t ³i nite lacel lalt cap t.

În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale. Vom notacu (generic) prin xα cuantila de ordin α pentru repartitia variabilei Z. Cuantilele xα pot gasite in tabelespecice repartitiei cautate, sau pot calculate folosind un soft specializat.

Daca variabila Z urmeaza o repartitie normala N (0, 1), atunci cuantilele corespunzatoare le vom notaprin zα si le vom gasi in Tabelul 16.1.

Daca variabila Z urmeaza o repartitie Student t(n), atunci cuantilele corespunzatoare le vom nota printα, n si le vom gasi in Tabelul 16.2.

Daca variabila Z urmeaza o repartitie χ2(n), atunci cuantilele corespunzatoare le vom nota prin χ2α, n si

le vom gasi in Tabelul 16.3.

6.4 Intervale de încredere pentru medie

Distingem aici doua cazuri: (1) cand volumul selectiei este sucient de mare (de multe ori, aceastainseamna peste 40 de observatii), sau (2) cand volumul selectiei este mic. Dupa cum am vazut anterior,

Geostatistica [Dr. Iulian Stoleriu] 46

pentru estimarea punctuala a mediei pe baza unei selectii folosim:

z =1

n

n∑i=1

zi.

(1) daca n ≥ 40, atunci un interval de incredere pentru medie la nivelul de semnicatie α este(z − z1−α

2

s√n, z + z1−α

2

s√n

), (6.2)

unde z1−α2este cuantila de ordin 1 − α

2 pentru repartitia N (0, 1). Spre exemplu, daca nivelul desemnicatie este α = 0.05, atunci din Tabelul 16.1 gasim ca z0.975 = 1.96.

(2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnicatie α este(z − t1−α

2;n−1

s√n, z + t1−α

2;n−1

s√n

). (6.3)

Aici, s este o estimatie pentru deviatia standard,

s =

√√√√ 1

n− 1

n∑i=1

(zi − z)2

si t1−α2, n−1 este cuantila de ordin 1 − α

2 pentru repartitia t(n − 1). Spre exemplu, daca nivelulde semnicatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul 16.2 gasim cat0.975, 34 = 2.032.

Când volumul n este mare, atunci va o diferenµ foarte mic între valorile z1−α2³i t1−α

2;n−1, de aceea

am putea folosi z1−α2în locul valorii t1−α

2;n−1.

Intervalele de încredere de mai sus sunt valide pentru selecµia (repetat sau nerepetat ) dintr-o populaµieinnit , sau pentru selecµii repetate dintr-o populaµie nit . În cazul selecµiilor nerepetate din colectivit µinite, în estimarea intervalelor de încredere vom µine cont ³i de volumul N al populaµiei. Spre exemplu,dac selecµia de volum n se face dintr-o populaµie nit de volum N ³i n ≥ 0.05N , atunci un inteval deîncredere centrat pentru media populaµiei este:(

z − t1−α2;n−1

s√n

√N − nN − 1

, z + t1−α2;n−1

s√n

√N − nN − 1

). (6.4)

Factorul√

N−nN−1 va aproximativ egal cu 1 atunci cand N este innit sau N n, obtinandu-se astfel

intervalul (6.3). Formula (6.4) nu este practica in Geostatistica, deoarece un camp aleator are o multimeinnita de puncte, asadar selectia de masuratori se face dintr-o populatie de volum N =∞.

O alta observatie este faptul ca este posibil ca σ sa e un parametru cunoscut pentru Z, caz in care pentruintervalul de incredere pentru medie se foloseste formula (6.2) cu σ inlocuindu-l pe s.

Exemplu 6.1 O ma³in de îngheµat umple cupe cu îngheµat . Se dore³te ca îngheµat din cupe s aib masa de µ = 250g. Desigur, este practic imposibil s umplem ecare cup cu exact 250g de îngheµat .Presupunem c masa conµinutului din cup este o variabil aleatoare repartizat normal. Pentru a vericadac ma³ina este ajustat bine, se aleg la întâmplare 30 de înghetate ³i se cânt re³te conµinutul ec reia.Obµinem astfel o selecµie repetat , z1, z2, . . . , z30 dup cum urmeaz :

Geostatistica [Dr. Iulian Stoleriu] 47

257 249 251 251 252 251 251 249 248 248 251 253 248 245 251

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253

Se cere s se g seasc un interval de încredere pentru µ, cu nivelul de incredere de 0.99.

Soluµie: Dup cum am v zut mai sus, un interval de încredere pentru µ este (deoarece N estenecunoscut, il presupunem mult mai mare decat n):(

x− t1−α2;n−1

s√n, x+ t1−α

2;n−1

s√n

).

Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1−α2;n−1 = t0.995, 29 = 2.7564, media valorilor

este z = 250.0667 si deviatia standard este s = 2.9704. Astfel, obµinem intervalul de încredere pentru µ:

(248.572, 251.561). √

6.5 Interval de încredere pentru dispersie

Dupa cum am vazut anterior, pentru estimarea punctual a lui σ2 se foloseste

s2 =1

n− 1

n∑i=1

[zi − z]2.

Un interval pentru σ2 la nivelul de semnicatie α este:((n− 1) s2

χ21−α

2;n−1

,(n− 1) s2

χ2α2;n−1

). (6.5)

Intervale de încredere pentru deviaµia standard se obµin prin extragerea r d cinii p trate din capetele dela intervalele de încredere pentru dispersie.

Exemplu 6.2 G siµi un interval de încredere (cu α = 0.05) pentru deviaµia standard a conµinutului denicotin pentru un anumit tip de µig ri, stiind ca pentru o selecµie de 25 de buc µi, deviaµia standard aconµinutului de nicotin este de 1.6mg.

Soluµie: Observam ca s = 1.6mg. Din tabele, g sim ca:

χ20.975; 24 = 39.3641; χ2

0.025; 24 = 12.4012.

Intervalul de încredere pentru dispersie este:

(σ2, σ2) = (1.5608, 4.9544).

Pentru variaµia standard, intervalul de încredere este:

(√

1.5608mg,√

4.9544mg) = (1.25mg, 2.22mg). √

Geostatistica [Dr. Iulian Stoleriu] 48

6.6 Interval de încredere pentru proportie

Pentru o populaµie statistic , prin proporµie a populaµiei vom înµelege procentul din întreaga colectivitatece satisface o anumit proprietate (sau are o anumit caracteristic ) (e.g., proporµia de studenµi integrali³tidintr-o anumit facultate). Pe de alt parte, prin proporµie de selecµie înµelegem procentajul din valorile deselecµie ce satisfac o anumit proprietate (e.g., proporµia de studenµi integrali³ti dintr-o selecµie aleatoarede 40 de studenµi ai unei facult µi). Proporµia unei populaµii este un parametru (pe care îl vom nota cup), iar proporµia de selecµie este o statistic (pe care o not m aici prin p).

Fie Z o caracteristic binomial a unei colectivit µi, cu probabilitatea de succes p (e.g., num rul desteme ap rute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim s construim un intervalde încredere pentru proporµia populaµiei, p. Pentru aceasta, avem nevoie de selecµii de volum mare dinaceast colectivitate. Un estimator potrivit pentru p este proporµia de selecµie, adic

p = p =Z

n.

Printr-un "volum mare" vom înµelege un n ce satisface: n ≥ 30, n p > 5 ³i n (1− p) > 5.

Bazat pe o selectie de volum n, un interval de încredere pentru p la nivelui de semnicatie α, este deforma: (

p− z1−α2

√p (1− p)

n, p+ z1−α

2

√p (1− p)

n

). (6.6)

Acest interval de încredere este valabil pentru selecµie dintr-o populaµie innit (sau n N , de regul n < 0.05N) sau pentru selecµia cu repetiµie dintr-o populaµie nit . Dac selecµia se realizeaz f r repetiµie dintr-o populaµie nit (cu N astfel înât n ≥ 0.05N), atunci intervalul de încredere este:(

p− z1−α2

√p (1− p)

n

√N − nN − 1

, p+ z1−α2

√p (1− p)

n

√N − nN − 1

). (6.7)

Exemplu 6.3 Dintr-o selecµie de 200 de elevi ai unei ³coli cu 1276 de elevi, 65% arm c deµin cel puµinun telefon mobil. S se g seasc un interval de încredere pentru procentul de copii din respectiva ³coal ce deµin cel puµin un telefon mobil, la nivelul de semnicaµie α = 0.05.

Soluµie: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N , g sim c un interval de încrederela nivelul de semnicaµie 0.05 este(

0.65− 1.96

√0.65 (1− 0.65)

200

√1276− 200

1276− 1, 0.65 + 1.96

√0.65 (1− 0.65)

200

√1276− 200

1276− 1

)= (58.93%, 71.07%). √

Exemplu 6.4 Într-un institut politehnic, s-a determinat c dintr-o selecµie aleatoare de 100 de studenµiînscri³i, doar 67 au terminat studiile, obµinând o diplom . G siµi un interval de încredere care, cu ocondenµ de 90%, s determine procentul de studenµi absolvenµi dintre toµi studenµii ce au fost înscri³i.

Soluµie: Mai întâi, observ m c α = 0.1, n > 30, p = 67100 = 0.67, np = 67 > 5 ³i n(1 − p) = 33 > 5.

Deoarece nu ni se d vreo informaµie despre N (num rul total de studenµi înscri³i), putem presupune c n < 0.05N . Cuantila teoretica este z0.95 = 1.6449. G sim c intervalul de încredere c utat este:(

0.67− 1.6449

√0.67 (1− 0.67)

100, 0.67 + 1.6449

√0.67 (1− 0.67)

100

)= (57.78%, 76.22%). √

Geostatistica [Dr. Iulian Stoleriu] 49

7 Teste statistice

Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utilizând datele experimentaleculese. Testele prezentate mai jos au la baz noµiuni din teoria probabilit µilor. Aceste teste ne permitca, plecând de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumiteestim ri de parametri ai unei repartiµii sau chiar putem prezice forma legii de repartiµie a caracteristiciiconsiderate.Presupunem c Z este variabila de interes a unei populaµii statistice ³i c legea sa de probabilitate estedat de depinde de un parametru θ. In general, o repartitie poate depinde de mai multi parametri, insaaici vom discuta doar cazul unui singur parametru. De asemenea, s presupunem c (zk)k=1, n sunt dateleobservate relativ la caracteristica Z.

• Numim ipotez statistic o presupunere relativ la valorile parametului θ sau chiar referitoare latipul legii caracteristicii.

• O ipotez neparametric este o presupunere relativ la repartitia lui Z. De exemplu, o ipotez degenul Z ∼ Normal .

• Numim ipotez parametric o presupunere f cut asupra valorii parametrilor unei repartiµii. Dac mulµimea la care se presupune c aparµine parametrul necunoscut este format dintr-un singurelement, avem de-a face cu o ipotez parametric simpl . Altfel, avem o ipotez parametric compus .

• O ipotez nul este acea ipotez pe care o intuim a cea mai apropiat de realitate ³i o presupunema priori a adev rat . Cu alte cuvinte, ipoteza nul este ceea ce dore³ti s crezi, în cazul în care nuexist suciente evidenµe care s sugereze contrariul. Un exemplu de ipotez nul este urm toarul:"presupus nevinovat, pân se g sesc dovezi care s ateste o vin ". O ipotez alternativ este oricealt ipotez admisibil cu care poate confruntat ipoteza nul .

• A testa o ipotez statistic (en., statistical inference) înseamn a lua una dintre deciziile:

− ipoteza nul se respinge (caz in care ipoteza alternativa este admisa)− ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei)

• În Statistic , un rezultat se nume³te semnicativ din punct de vedere statistic dac este improbabilca el s se realizat datorit ³ansei. Între dou valori exist o diferenµ semnicativ dac exist suciente dovezi statistice pentru a dovedi diferenµa, ³i nu datorit faptului c diferenµa ar mare.

• Numim nivel de semnicaµie probabilitatea de a respinge ipoteza nul când, de fapt, aceasta esteadev rat . În general, nivelul de semnicaµie este o valoare pozitiva apropiata de 0, e.g., una dintrevalorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic, valoarea implicitapentru α este 0.05.

• În urma unui test statistic pot aparea dou tipuri de erori:

1. eroarea de speµa (I) sau riscul furnizorului (en., false positive) − este eroarea care se poatecomite respingând o ipotez (în realitate) adev rat . Se mai nume³te ³i risc de genul (I).Probabilitatea acestei erori este egala chiar nivelul de semnicaµie α, adic :

α = P (H0 se respinge | H0 este adev rat ).

2. eroarea de speµa a (II)-a sau riscul beneciarului (en., false negative) − este eroarea care sepoate comite acceptând o ipotez (în realitate) fals . Se mai nume³te ³i risc de genul al (II)-lea.Probabilitatea acestei erori este

β = P (H0 se admite | H0 este fals ).

Geostatistica [Dr. Iulian Stoleriu] 50

Gravitatea comiterii celor dou erori depinde de problema studiat . De exemplu, riscul de genul (I)este mai grav decât riscul de genul al (II)-lea dac veric m calitatea unui articol de îmbrac minte,iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dac veric m concentraµia unuimedicament.

• Denumim valoare P sau P−valoare sau nivel de semnicaµie observat (en., P-value) probabilitateade a obµine un rezultat cel puµin la fel de extrem ca cel observat, presupunând c ipoteza nul esteadev rat . Valoarea P este cea mai mic valoare a nivelului de semnicaµie α pentru care ipoteza(H0) ar respins , bazându-ne pe observaµiile culese. Dac Pv ≤ α, atunci respingem ipoteza nul la nivelul de semnicaµie α, iar dac Pv > α, atunci admitem (H0). Cu cât Pv este mai mic , cu atâtmai mari ³anse ca ipoteza nul s e respins . De exemplu, dac valoarea P este Pv = 0.045 atunci,bazându-ne pe observaµiile culese, vom respinge ipoteza (H0) la un nivel de semnicaµie α = 0.05sau α = 0.1, dar nu o putem respinge la un nivel de semnicaµie α = 0.02. Dac ne raport m laP−valoare, decizia într-un test statistic poate f cut astfel: dac aceasta valoare este mai mic decât nivelul de semnicaµie α, atunci ipoteza nul este respins , iar dac P−value este mai maredecât α, atunci ipoteza nul nu poate respins .

Un exemplu simplu de test este testul de sarcin . Acest test este, de fapt, o procedur statistic ce ned dreptul s decidem dac exist sau nu suciente evidenµe s concluzion m c o sarcin este prezent .Ipoteza nul ar lipsa sarcinii. Majoritatea oamenilor în acest caz vor c dea de acord cum c un falsenegative este mai grav decât un false positive.

S presupunem c suntem într-o sal de judecat ³i c judec torul trebuie s decid dac un inculpat estesau nu vinovat. Are astfel de testat urm toarele ipoteze:

(H0) inculpatul este nevinovat;

(H1) inculpatul este vinovat.

Posibilele st ri reale (asupra c rora nu avem control) sunt:

[1] inculpatul este nevinovat (H0 este adev rat ³i H1 este fals );

[2] inculpatul este vinovat (H0 este fals ³i H1 este adev rat )

Deciziile posibile (asupra c rora avem control − putem lua o decizie corect sau una fals ) sunt:

[i] H0 se respinge (dovezi suciente pentru a încrimina inculpatul);

[ii] H0 nu se respinge (dovezi insuciente pentru a încrimina inculpatul);

În realitate, avem urm toarele posibilit µi, sumarizate în Tabelul 7.1:

Situaµie real Decizii H0 - adev rat H0 - fals

Respinge H0 [1]&[i] [2]&[i]Accept H0 [1]&[ii] [2]&[ii]

Tabela 7.1: Posibilit µi decizionale.

Interpret rile datelor din Tabelul 7.1 se g sesc în Tabelul 7.2.

Geostatistica [Dr. Iulian Stoleriu] 51

Situaµie real Decizii H0 - adev rat H0 - fals

Respinge H0 închide o persoana nevinovat închide o persoana vinovat Accepta H0 elibereaz o persoana nevinovat elibereaz o persoana vinovat

Tabela 7.2: Decizii posibile.

Situaµie real Decizii H0 - adev rat H0 - fals

Respinge H0 α judecat corect Accepta H0 judecat corect β

Tabela 7.3: Erori decizionale.

Erorile posibile ce pot aparea sunt cele din Tabelul 7.3.

7.1 Tipuri de teste statistice

Tipul unui test statistic este determinat de ipoteza alternativ (H1). Astfel, putem avea:

• test unilateral stânga, atunci când ipoteza alternativ este θ < θ0;

• test unilateral dreapta, atunci când ipoteza alternativ este θ > θ0;

• test bilateral, atunci când ipoteza alternativ este θ 6= θ0.

Pentru a lua decizii statistice se poate utiliza metoda intervalelor de încredere pentru parametri.

7.2 Testul t pentru medie

Testul t pentru medie se folose³te pentru selecµii normale de volum mic, de regul n < 30, când dispersiapopulaµiei este necunoscut a priori.Fie caracteristica Z ce urmeaz legea normal N (m, σ) cu µ necunoscut ³i σ > 0 necunoscut.

Vrem s veric m ipoteza nul (H0) : µ = µ0

versus ipoteza alternativ (H1) : µ 6= µ0,

cu probabilitatea de risc α.

Metoda I: Etapele testului sunt urmatoarele:

• Obtinem o multime de masuratori asupra variabilei Z: z1, z2, . . . , zn.

Geostatistica [Dr. Iulian Stoleriu] 52

• Pe baza acestor masuratori putem calcula media si deviatia standard:

z =1

n

n∑i=1

zi si s =

√√√√ 1

n− 1

n∑i=1

(zi − z)2.

• Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe care otestam:

T0 =z − µ0s√n

. (7.1)

• Calculam cuantila de ordin 1− α2 pentru repartitia t(n−1), notata aici prin t1−α

2 ; n−1 Este un prag teoretic cepoate determinat din tabelele pentru repartitia Student sau calculat cu un soft matematic (e.g., Matlab).Decizia se ia astfel:

dac |T0| < t1−α2 ; n−1 (adica T0 este sucient de mic in valoare absoluta), atunci admitem (H0).

dac |T0| ≥ t1−α2 ; n−1, atunci respingem (H0).

Metoda a II-a: O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediulP−valorii, Pv. Reamintim, P−valoarea este probabilitatea de a obµine un rezultat cel puµin la fel deextrem ca cel observat, presupunând c ipoteza nul este adev rat . Aceasta valoare este asata de oricesoft statistic folosit in testarea ipotezelor. Utilizând P−valoarea, testarea se face astfel:Ipoteza nul va respins dac Pv < α ³i va admis dac Pv ≥ α. A³adar, cu cât Pv este mai mic, cuatât mai multe dovezi de respingere a ipotezei nule.

Exemplu 7.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un anumit oras,s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate in urma sondajuluisunt grupate in Tabelul 2.2. Dorim s test m, la nivelul de semnicaµie α = 0.05, dac media tuturornotelor la teza de Matematic a elevilor din oras este µ = 6.5.

Soluµie: A³adar, avem de testat

(H0) µ = 6.5 vs. (H1) µ 6= 6.5.

Media si deviatia standard a notelor din tabel sunt:

z = 6.3667, s = 1.8570.

Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:

t0 =z − µ0s√n

= −0.6812, t1−α2; n−1 = t0.975; 89 = 1.9870.

Deoarece |t0| < t0.975; 89, luam decizia ca ipoteza (H0) este admisa la acest nivel de semnicatie. √

Metoda a II-a: Decizia testului putea luat ³i pe baza P−valorii. Aceasta poate calculata de un softstatistic, valoarea ei ind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel, ipoteza nula esteadmisa in acest caz.

Geostatistica [Dr. Iulian Stoleriu] 53

7.3 Test pentru dispersie

Pentru variabila Z ca mai sus dorim sa testam ipoteza:

(H0) : σ2 = σ20 vs. ipoteza alternativ (H1) : σ2 6= σ20,

cu probabilitatea de risc α. Etapele testului sunt urmatoarele:

• Obtinem o multime de masuratori asupra variabilei Z: z1, z2, . . . , zn.

• Pe baza acestor masuratori putem calcula media si deviatia standard:

z =1

n

n∑i=1

zi si s =

√√√√ 1

n− 1

n∑i=1

(zi − z)2.

• Calculam statistica

χ20 =

n− 1

σ2S2, (7.2)

• Determinam cuantilele de ordine α/2 si 1−α/2 pentru repartitia χ2(n− 1) (se pot obtine din tabele pentrurepartitia χ2). Luarea deciziei se face astfel:

dac χ20 ∈

(χ2

α2 ;n−1, χ

21−α

2 ;n−1

), atunci admitem (H0) (i.e., σ2 = σ2

0);

dac χ20 6∈

(χ2

α2 ;n−1, χ

21−α

2 ;n−1

), atunci respingem (H0) (i.e., σ2 6= σ2

0).

Exemplu 7.2 Se cerceteaz caracteristica Z, ce reprezint diametrul pieselor (în mm) produse de unstrung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecµie de piese devolum n = 11 ³i obµinem distribuµia empiric :(

10.50 10.55 10.60 10.652 3 5 1

).

S se testeze (cu α = 0.1) ipoteza nul

(H0) : σ2 = 0.003,

versus ipoteza alternativ (H1) : σ2 6= 0.003.

Soluµie: Calculam mai intai s2 si apoi valoarea statisticii test. Obtinem s2 = 0.0022 si, astfel,χ20 = 10

0.003 · 0.0022 = 7.2727. Cuantilele sunt:

χ2α2;n−1 = 3.9403; χ2

1−α2;n−1 = 18.3070.

Astfel, intervalul teoretic de referinta este

χ20 ∈

(χ2α2;n−1, χ

21−α

2;n−1

)= (3.9403, 18.3070).

Cum valoarea χ20 = 7.2727 se aa in acest interval, tragem concluzia ca ipoteza nula nu poate respinsa.

(o acceptam). √

Metoda a II-a: Decizia testului putea luat ³i pe baza P−valorii. Aceasta poate calculata de un softstatistic, valoarea ei ind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel, ipoteza nula esteadmisa in acest caz.

Geostatistica [Dr. Iulian Stoleriu] 54

7.4 Testul χ2 de concordanµ

Testele de concordanµ (en., goodness-of-t tests) realizeaz concordanµa între repartiµia empiric (repar-tiµia datelor observate) ³i repartiµia teoretic a unei variabile. Dou dintre cele mai des utilizate teste deconcordanµ sunt testul χ2 de concordanµ ³i testul Kolmogorov-Smirnov.

Testul χ2 de concordanµ poate utilizat ca un criteriu de vericare a ipotezei potrivit c reia un an-samblu de observaµii urmeaz o repartiµie dat . Se aplic la vericarea normalit µii, a exponenµialit µii,a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit ³i testul χ2 al lui Pearson sautestul χ2 al celei mai bune potriviri (en., goodness of t test). Acest test poate aplicat pentru orice tipde date pentru care funcµia de repartiµie empiric poate calculat . Pentru acest test, ipoteza nul este:

(H0) : Funcµia de repartiµie a lui Z este F (z).

Ipoteza alternativ este negaµia ipotezei nule.

Etapele testului sunt urmatoarele:

1. Stabilim pragul de risc α. Facem masuratorile asupra variabilei Z : z1, z2, . . . , zn.

2. Pe baza masuratorilor intuim natura repartitiei lui Z (si, implicit, forma functiei de repartitie a lui Z).Aceasta functie poate depinde de unul sau mai multi parametri, notati generic cu θ. Formul m ipotezelestatistice:

(H0) funcµia de repartiµie teoretic a variabilei aleatoare Z este F (z; θ1, θ2, . . . , θp)(H1) ipoteza nul nu este adev rat .

3. Dac θ1, θ2, . . . , θk (k ≤ p) nu sunt parametri cunoscuµi, atunci determin m estim rile θ1, θ2, . . . , θk pentruace³tia. Altfel, s rim peste acest pas;

4. Grupam datele in clase si scriem distribuµia empiric de selecµie (tabloul de frecvenµe),(clasa Oini

)i=1, n

, unde

n∑i=1

ni = n, ni ≥ 5;

5. Se calculeaz probabilitatea pi, ca un element luat la întâmplare s se ae în clasa Oi. Dac Oi = [ai−1, ai),atunci

6. Se calculeaz statistica χ20 =

k∑i=1

(ni − n pi)2n pi

, care reprezinta discrepanta dintre valorile observate si cele

teoretice;

7. Determin m valoarea χ∗, care este

χ∗ =

χ21−α; k−1 , în cazul in care nu avem de estimat parametrii repartitiei,

χ21−α; k−p−1 , în cazul in care am estimat p parametri pentru repartitie,

unde χ2α; n este cuantila de ordin α pentru repartiµia χ2(n);

8. Dac χ20 < χ∗, atunci accept m (H0), altfel o respingem.

Exemplu 7.3 În urma unui recens mânt, s-a determinat c proporµiile persoanelor din România ceaparµin uneia dintre cele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%. S-au testataleator 450 de persoane din România, obµinându-se urm toarele rezultate:

Vericaµi, la nivelul de risc α = 0.05, compatibilitateadatelor cu rezultatul teoretic.

Grupa sanguin O A B AB

Frecvenµa 136 201 82 31

Geostatistica [Dr. Iulian Stoleriu] 55

Soluµie: Ipotezele statistice sunt:

(H0) : Rezultatul observat este compatibil cu cel teoretic,

(H1) : Exist diferenµe semnicative între rezultatul teoretic ³i observaµii.

Dac ipoteza nul ar adev rat , atunci valorile a³teptate pentru cele patru grupe sanguine (din 450 depersoane) ar : O : 153.5, A : 184.5, B : 85, AB : 27.

Calculez valoarea statisticii χ2 pentru observaµiile date. Ponderile pi sunt: p1 = 0.34, p2 = 0.41, p3 =0.19, p4 = 0.06. Folosind formula, gasim ca:

χ20 =

(136− 450 · 0.34)2

450 · 0.34+

(201− 450 · 0.41)2

450 · 0.41+

(82− 450 · 0.19)2

450 · 0.19+

(31− 450 · 0.06)2

450 · 0.06

=(136− 153.5)2

153.5+

(201− 184.5)2

184.5+

(82− 85)2

85+

(31− 27)2

27= 4.1004.

Aici n = 4, p = 0. Valoarea teoretica a statisticii de referinta este χ∗ = χ20.95; 3 = 7.8147. Deoarece

χ20 < χ∗, atunci accept m (H0) la acest nivel de semnicaµie. Asadar, observatiile sunt compatibile cu

cele teoretice. √

7.5 Testul de concordanµ Kolmogorov-Smirnov

Testul de concordanµ Kolmogorov-Smirnov poate utilizat în compararea unor observaµii date cu orepartiµie cunoscut (testul K-S cu o selecµie) sau în compararea a dou selecµii (testul K-S pentru dou selecµii). Spre deosebire de criteriul χ2 al lui Pearson, care folose³te densitatea de repartiµie, criteriulKolmogorov-Smirnov utilizeaz funcµia de repartiµie empiric , F ∗n(x). În cazul unei singure selecµii, estecalculat distanµa dintre funcµia de repartiµie empiric a selecµiei ³i funcµia de repartiµie teoretica pentrurepartiµia testat , iar pentru dou selecµii este m surat distanµa între dou funcµii empirice de repartiµie.În ecare caz, repartiµiile considerate în ipoteza nul sunt repartiµii de tip continuu. Testul Kolmogorov-Smirnov este bazat pe rezultatul teoremei urmatoare:

Teorema 7.4 (Kolmogorov) Fie caracteristica X de tip continuu, care are funcµia de repartiµie teoretic F ³i e funcµia de repartiµie de selecµie F ∗n(x). Atunci, distanta dn = sup

x∈R|F ∗n(x)− F (x)| satisface relatia:

limn→∞

P (√n · dn < x) = K(x) =

∞∑k=−∞

(−1)ke−2 k2 x2 , x > 0. (7.3)

Testul K-S pentru o selecµie

În cazul în care ipotezele testului sunt satisf cute, acest test este mai puternic decât testul χ2.Avem un set de date statistice independente, pe care le ordon m crescator, x1 < x2 < · · · < xn. Acesteobservaµii independente provin din aceea³i populaµie caracterizat de variabila aleatoare X, pentru careurm rim s îi stabilim repartiµia. Mai întâi, caut m s stabilim ipoteza nul . De exemplu, dac intuimc funcµia de repartiµie teoretic a lui X ar F (x), atunci stabilim:

(H0) : funcµia de repartiµie teoretic a variabilei aleatoare X este F (x).

Geostatistica [Dr. Iulian Stoleriu] 56

Ipoteza alternativ (H1) este, de regul , ipoteza ce arm c (H0) nu este adev rat . Alegem un nivel desemnicaµie α 1.În criteriul K-S pentru o singur selecµie, se compar funcµia F (x) intuit a priori cu funcµia de repartiµieempiric , F ∗n(z). Reamintim,

F ∗n(x) =cardi; xi ≤ x

n.

Studiind funcµia empiric de repartiµie a acestui set de date, Kolmogorov a g sit c distanµa dn =supx∈R|F ∗n(x)−F (x)| satisface relaµia (7.3)), unde K(λ), λ > 0, este funcµia lui Kolmogorov (tabelat ). În

testul K-S, m sura dn caracterizeaz concordanµa dintre F (x) ³i F ∗n(x). Dac ipoteza (H0) este adev rat ,atunci diferenµele dn nu vor dep ³i anumite valori.

Etapele aplic rii testului lui Kolmogorov-Smirnov pentru o selecµie:

• Se dau α ³i x1 < x2 < · · · < xn. Consider m cunoscut (intuim) F (x);

• Ipotezele statistice sunt:

(H0) funcµia de repartiµie teoretic a variabilei aleatoare Z este F (x)(H1) ipoteza nul nu este adev rat .

• Calcul m λ1−α;n, cuantila de ordin 1− α pentru funcµia lui Kolmogorov. Aceasta cuuantila verica relatiaK(λ1−α) = 1− α.

• Se calculeaz dn = maxx|F ∗n(x)− F (x)|;

• Dac dn satisface inegalitatea√ndn < λ1−α, atunci admitem ipoteza (H0), altfel o respingem.

Exerciµiu 7.1 (test de vericare a normalit µii)Consider m selecµia −2; −0.5; 0; 1; 1; 2; 2; 3, extras dintr-o anumit colectivitate. La nivelul de sem-nicaµie α = 0.1, s se decid dac populaµia din care provine selecµia este normal de medie 1 ³i dispersie2 (i.e., X ∼ N (1,

√2)).

Soluµie: (folosim testul Kolmogorov-Smirnov) Mai întâi, calcul m funcµia de repartiµie empiric .Avem:

F ∗n(x) = P (X ≤ x) =

0, dac x < −2;18 , dac x ∈ [−2, −0.5);28 , dac x ∈ [−0.5, 0);38 , dac x ∈ [0, 1);58 , dac x ∈ [1, 2);78 , dac x ∈ [2, 3);

1, dac x ≥ 3.

Pentru α = 0.1 ³i n = 8, c ut m în tabelul pentru inversa funcµiei lui Kolmogorov acel x1−α; 8 = x0.9; 8astfel încât K(x1−α; 8) = 1− α. G sim c x0.9; 8 = 0.411.Pe de alt parte, F (x) = Θ(x−1√

2), unde Θ(x) este funcµia de repartiµie pentru legea normal N (0, 1).

Ipoteza c X urmeaz repartiµia normal N (1,√

2) este acceptat dac √ndn < x1−α. Calculele pentru

determinarea valorii dn sunt date de Tabelul 7.4. În Figura 7.1, putem observa reprezent rile acestor dou funcµii pentru setul de date observate.

Geostatistica [Dr. Iulian Stoleriu] 57

xi −∞ −2 −0.5 0 1 2 3 ∞F (xi) 0 0.0169 0.1444 0.2398 0.5 0.7602 0.9214 1

F ∗n(xi − 0) 0 0 0.125 0.25 0.375 0.625 0.875 1F ∗n(xi) 0 0.125 0.25 0.375 0.625 0.875 1 1

|F ∗n(xi − 0)− F (xi)| 0 0.0169 0.0194 0.0102 0.125 0.1352 0.0464 0

|F ∗n(xi)− F (xi)| 0 0.1081 0.1056 0.1352 0.125 0.1148 0.0786 0

Tabela 7.4: Tabel de valori pentru testul Kolmogorov-Smirnov.

Pentru a calcula dn, not m faptul c cea mai mare diferenµ între F (x) ³i F ∗n(x) poate realizat oriînainte de salturile funcµiei F ∗n , ori dup acestea, i.e.,

supx∈R|F (x)− F ∗n(x)| = max

i

|F (xi)− F ∗n(xi − 0)|, înainte de saltul i;

|F (xi)− F ∗n(xi + 0)|, dup saltul i.

Din tabel, observ m c dn = 0.1352. Deoarece√n · dn =

√8 · 0.1352 = 0.3824 < 0.411, concluzion m

c putem accepta ipoteza (H0) la pragul de semnicaµie α = 0.1. √

Observaµia 7.5 În cazul în care avem de comparat dou repartiµii, proced m astfel. S presupunem c F ∗m(z) este funcµia de repartiµie empiric pentru o selecµie de volum m dintr-o populaµie ce are funcµiateoretic de repartiµie F (z)) ³i c G∗n(z) este funcµia de repartiµie empiric pentru o selecµie de volum ndintr-o populaµie ce are funcµia teoretic de repartiµie G(z). Dorim s test m

(H0) : F = G versus (H1) : F 6= G.

(eventual, în (H1) putem considera F > G sau F < G.) Consider m statistica

dm,n = supz|F ∗m(z)−G∗n(z)|,

ce reprezint diferenµa maxim între cele dou funcµii (vezi Figura 7.2). Etapele testului urmeaz îndea-proape pe cele din testul K-S cu o singur selecµie. Decizia se face pe baza criteriului√

mn

m+ ndm,n < qα.

Testul Kolmogorov-Smirnov pentru dou selecµii este unul dintre cele mai utile teste de contingenµ pentrucompararea a dou selecµii. Acest test nu poate specica natura celor dou repartiµii.

Etapele aplic rii testului lui Kolmogorov-Smirnov pentru dou selecµii:

• Se dau α, x1 < x2 < · · · < xm ³i y1 < y2 < · · · < yn. Consider m cunoscute (intuim) F (x) ³i G(x);

• Ipotezele statistice sunt:

(H0) F = G vs. (H1) F 6= G.

• Determinam pragul teoretic qα corespunzator valorii α din tabelul urmator:

α 0.10 0.05 0.025 0.01 0.005 0.001

qα 1.22 1.36 1.48 1.63 1.73 1.95

Geostatistica [Dr. Iulian Stoleriu] 58

• Se calculeaz dm,n = supz|F ∗m(z)−G∗n(z)|.

• Dac dm,n satisface inegalitatea√

mnm+n dm,n < qα, atunci admitem ipoteza (H0), altfel ipoteza nul este

respins la acest prag de semnicaµie.

Figura 7.1: F ∗n(x) ³i F (x) pentru testulKolmogorov-Smirnov cu o selectie.

Figura 7.2: Exemplu de funcµiile empirice de repartiµieîn testul K-S cu dou selecµii.

Geostatistica [Dr. Iulian Stoleriu] 59

8 Regresie

8.1 Punerea problemei

În acest capitol vom discuta m suri ³i tehnici de determinare a leg turii între dou sau mai multe variabilealeatoare. Primele metode utilizate în studiul relaµiilor dintre dou sau mai multe variabile au ap rut dela începutul secolului al XIX-lea, în lucr rile lui Legendre8 ³i Gauss9, în ce prive³te metoda celor mai micip trate pentru aproximarea orbitelor astrelor în jurul Soarelui. Un alt mare om de ³tiinµ al timpului,Francis Galton10, a studiat gradul de asem nare între copii ³i p rinµi, atât la oameni, cât ³i la plante,observând c în lµimea medie a descendenµilor este legat liniar de în lµimea ascendenµilor. Este primulcare a utilizat conceptele de corelaµie ³i regresie ( (lat.) regressio - întoarcere). Astfel, a descoperit c dinp rinµi a c ror în lµime este mai mic decât media colectivit µii provin copii cu o în lµime superioar lor³i vice-versa. Astfel, a concluzionat c în lµimea copiilor ce provin din p rinµi înalµi tinde s "regreseze"spre în lµimea medie a populaµiei. Din lucr rile lui Galton s-a inspirat un student de-al s u, Karl Pearson,care a continuat ideile lui Galton ³i a introdus coecientul (empiric) de corelaµie ce îi poart numele. Acestcoecient a fost prima m sur important introdus ce cuantica t ria leg turii dintre dou variabile aleunei populaµii statistice.

Un ingredient fundamental în studiul acestor dou concepte este diagrama prin puncte, a³a-numita scatterplot. În probleme de regresie în care apare o singur variabila r spuns ³i o singur variabil observat ,diagrama scatter plot (r spuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram scatter plot ar trebui reprezentat pentru orice problem de analiz regresional ; aceasta va oferi o prim idee despre ce tip de regresie vom folosi. Exemple de astfel de diagrame sunt cele din Figura 4.2.

Regresia este o metod statistic utilizat pentru descrierea naturii relaµiei între variabile. De fapt, regresiastabile³te modul prin care o variabil depinde de alt variabil , sau de alte variabile. Analiza regresional cuprinde tehnici de modelare ³i analiz a relaµiei dintre o variabil dependent (variabila r spuns) ³i unasau mai multe variabile independente. De asemenea, r spunde la întreb ri legate de predicµia valorilorviitoare ale variabilei r spuns pornind de la o variabil dat sau mai multe. În unele cazuri se poate precizacare dintre variabilele de plecare sunt importante în prezicerea variabilei r spuns. Se nume³te variabil independent o variabil ce poate manipulat (numit ³i variabil predictor, stimul sau comandat ), iaro variabil dependent (sau variabila prezis ) este variabila care dorim s o prezicem, adic o variabil c rei rezultat depinde de observaµiile f cute asupra variabilelor independente.

S lu m exemplul unei cutii negre (black box) (vezi Figura 8.1). Înaceasta cutie intr (sunt înregistrate) informaµiile x1, x2, . . . , xm,care sunt prelucrate (în timpul prelucr rii apar anumiµi parametri,β1, β2, . . . , βk), iar rezultatul nal este înregistrat într-o singur variabila r spuns, y.

Figura 8.1: Black box.

De exemplu, se dore³te a se stabili o relaµie între valoarea pensiei (y) în funcµie de num rul de ani lucraµi(x1) ³i salariul avut de-alungul carierei (x2). Variabilele independente sunt m surate exact, f r erori.În timpul prelucr rii datelor sau dup aceasta pot ap ra distorsiuni în sistem, de care putem µine contdac introducem un parametru ce s cuantice eroarea ce poate ap rea la observarea variabilei y. Sestabile³te astfel o leg tur între o variabil dependent , y, ³i una sau mai multe variabile independente,

8Adrien-Marie Legendre (1752− 1833), matematician francez9Johann Carl Friedrich Gauss (1777− 1855), matematician ³i zician german

10Sir Francis Galton (1822− 1911), om de ³tiinµ britanic

Geostatistica [Dr. Iulian Stoleriu] 60

x1, x2, . . . , xm, care, în cele mai multe cazuri, are forma matematic general

y = f(x1, x2, . . . , xm; β1, β2, . . . , βk) + ε, (8.1)

unde β1, β2, . . . , βk sunt parametri reali necunoscuµi a priori (denumiµi parametri de regresie) ³i ε este operturbaµie aleatoare. În cele mai multe aplicaµii, ε este o eroare de m sur , considerat modelat printr-ovariabil aleatoare normal de medie zero. Funcµia f se nume³te funcµie de regresie. Dac aceasta nu estecunoscut a priori, atunci poate greu de determinat iar utilizatorul analizei regresionale va trebui s ointuiasc sau s o aproximeze utilizând metode de tip trial and error (prin încerc ri). Dac avem doaro variabila independent (un singur x), atunci spunem c avem o regresie simpl . Regresia multipl facereferire la situaµia în care avem multe variabile independente.

Dac observarea variabilei dependente s-ar face f r vreo eroare, atunci relaµia (8.1) ar deveni (cazulideal):

y = f(x1, x2, . . . .., xm; β1, β2, . . . , βk). (8.2)

Forma vectorial a dependenµei (8.1) este:

y = f(x; β) + ε. (8.3)

Pentru a o analiz complet a regresiei (8.1), va trebui sa intuim forma funcµiei f ³i apoi s determin m(aproxim m) valorile parametrilor de regresie. În acest scop, un experimentalist va face un num r sucientde observaµii (experimente statistice), în urma c rora va aproxima aceste valori. Dac not m cu n num rulde experimente efectuate, atunci le putem contabiliza pe acestea în urm torul sistem stochastic de ecuaµii:

yi = f(x, β) + εi, i = 1, 2, . . . , n. (8.4)

În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate normal, independente de medieµ = 0 si deviatie standard σ > 0. Astfel, sistemul (8.4) cu n ecuaµii are necunoscutele βjj ³i σ.În cazul în care num rul de experimente este mai mic decât num rul parametrilor ce trebuie aproximaµi(n < k), atunci nu avem suciente informaµii pentru a determina aproxim rile. Dac n = k, atunciproblema se reduce la a rezolva n ecuaµii cu n necunoscute. În cel de-al treilea caz posibil, n > k, atunciavem un sistem cu valori nedeterminate.

Exemple de regresii:

În funcµie de forma funcµiei de regresie f , putem avea:

• regresie liniar simpl , în cazul în care avem doar o variabil independent ³i

f(x; β) = β0 + β1x.

• regresie liniar multipl , dac

f(x; β) = β0 + β1x1 + β2x2 + · · ·+ βmxm.

• regresie p tratic multipl (cu dou variabile), dac

f(x; β) = β0 + β1x1 + β2x2 + β11x21 + β12x1x2 + β22x

22.

Geostatistica [Dr. Iulian Stoleriu] 61

• regresie polinomial , dac

f(x; β) = β0 + β1x+ β2x2 + β3x

3 + · · ·+ βkxk.

Vom avea regresie p tratic pentru k = 2, regresie cubic pentru k = 3 etc.

• regresie exponenµial , cândf(x; β) = β0 e

β1 x.

• regresie logaritmic , dac f(x; β) = β0 · logβ1 x.

• ³i altele.

De remarcat faptul c primele patru modele sunt liniare în parametri, pe când ultimele dou nu sunt liniareîn parametri. Modelele determinate de aceste funcµii se vor numi modele de regresie (curbe, suprafeµe etc).

În cadrul analizei regresionale, se cunosc datele de intrare, xii, ³i c ut m s estim m parametrii deregresie βjj ³i deviaµia standard a erorilor, σ. De regula, functia f este necunoscut si va trebui sa eintuit de statistician.

Geostatistica [Dr. Iulian Stoleriu] 62

9 Metode de interpolare spaµial

Dupa cum am mentionat anterior, in Geostatistica, datele observate sunt legate de pozitie. Spunem astfelca au un caracter spatial. Pozitia spatiala poate unu, doi sau trei-dimensionala. Vom considera aicidoar date bi-dimensionale. Vom nota generic cu x = (ζ1, ζ2) vectorul de coordonate bidimensionale. treaceste metode, distingem metodele deterministe si cele geostatistice (sau stochastice). In cazul metodelordeterministe nu se tine cont de erorile cu care pot colectate masuratorile si de corelatiile dintre valorilemasurate. In cazul metodelor stochastice, tinem cont de erorile masuratorilor si de corelatiile dintre date.

9.1 Metode deterministe de interpolare spatiala

Generic, vom nota prin z o valoare prezisa a variabilei Z. O formula generala de estimare a valoriiz0 = z(x0) pe baza masuratorilor este media ponderata:

z(x0) =n∑i=1

λiz(xi), (9.1)

unde λi sunt ponderile ce trebuie determinate.

1. Metoda diagramei Voronoi (sau Thiessen, sau Dirichlet):

Pentru un camp aleator R, vom numi o diagrama Voronoiindusa de un set de locatii x1, x2, . . . , xn (numite si situri)o diviziune a lui R in subregiuni, astfel incat pentru ecarelocatie, regiunea care o contine este formata din punctele celemai apropiate locatiei. Pentru ecare punct xi, sa notam cuVi regiunea ce o contine. Se considera ca zi este valoareavariabilei Z pentru ecare locatie din regiunea Vi. In cazulunei diagrame Voronoi, se pot considera ponderile λi ca ind

λi =

1 , daca xi ∈ Vi,0 , daca xi 6∈Vi.

Totusi, astfel de predictii sunt grosiere, deoarece in ecaresubregiune avem doar o valoare si nicio indicatie a eroriicu care a fost observata. De asemenea, nu se tine cont deconguratia locatiilor masuratorilor. Figura 9.1: O diagrama Voronoi

Geostatistica [Dr. Iulian Stoleriu] 63

2. Metoda triangularii (Delaunay):

Pentru o regiune R in care avem un set de locatiix1, x2, . . . , xn, o triangulare Delaunay este o impartire aregiunii R in subregiuni triunghiulare, astfel incat nicio lo-catie data nu se aa in cercul circumscris vreunui triunghidin diviziune. O astfel de triangulare este unica pentru unset de locatii aate in pozitie generala (nu se aa pe o ace-easi linie). In cazul unei triangulari, ponderile pentru ecareregiune triunghiulara sunt obtinute prin interpolarea liniaraa coordonatelor varfurilor triunghiului. Aceasta forma de in-terpolare este mai buna decat cea anterioara, dar nu sucientde folositoare. De asemenea, o predictie folosind aceasta me-toda nu tine cont de erorile de masurare.

Figura 9.2: O triangulare Delaunay

3. Metoda vecinilor naturali:

Este o metoda de interpolare introdusa de matematicianulRobin Sibson, care se bazeaza pe diagrama Voronoi. Pe bazalocatiilor unde au fost facute masuratori, se construieste dia-grama Voronoi. Presupunem ca se doreste prezicerea valoriiz0 a variabilei Z intr-o alta locatie decat cea deja observata,e ea x0. Pe baza locatiilor x0, x1, . . . , xn, se construiesteo alta diagrama Voronoi, care incorporeaza si aceasta noualocatie. Vom nota cu A aria regiunii care contine locatia x0

(este regiunea hasurata din Figura 9.3) si, pentru ecare i,notez cu Ai intersectia regiunii care contine pe x0 cu regiuneace contine locatia xi din vechea retea Voronoi. Presupunemca regiunea de arie A intersecteaza r astfel de regiuni. Inmod clar, avem ca A1 +A2 + . . .+Ar = A. Figura 9.3: Diagrama pentru

metoda vecinilor

Ponderile λi sunt considerate astfel:

λi =Ai

A1 +A2 + . . .+Ar,

unde suma se face dupa indicii locatiilor invecinate locatiei x0. Astfel, ponderea λi va nenula dacalocatia xi este vecin natural cu x0, si λi = 0 daca xi nu este vecin natural cu x0.

4. Metoda ponderilor inverselor distantelor:

Notam cu di distanta dintre punctele xi si x0. Aceasta metoda foloseste interpolarea (9.1) cuponderile

λi =d−rin∑i=1

d−ri

, i = 1, 2, . . . , n,

unde r > 0 este o valoare aleasa de investigator. Valoarea cea mai utilizata este r = 2. Rezultatulacestei interpolari este ca punctele mai apropiate de punctul de interpolare au o pondere mai mare

Geostatistica [Dr. Iulian Stoleriu] 64

decat cele mai indepartate. Cu cat r este mai mare, cu atat ponderea punctelor apropiate creste.Astfel, valoarea variabilei in locatia x0 poate estimata prin:

z(x0) =

n∑i=1

d−rin∑i=1

d−ri

zi , daca di 6= 0,

zi , daca di = 0.

Pentru r = 2, valoarea variabilei in locatia x0 poate estimata prin:

z(x0) =

n∑i=1

λizi , daca distanta dintre xi si x0 este nenula,

zi , daca distanta dintre xi si x0 este0,

unde

λi =

1

d2i1

d21+

1

d22+ · · ·+ 1

d2n

, pentru ecare i = 1, 2, . . . , n.

Un mare dezavantaj al acestui tip de interpolare este ca nu tine cont de conguratia selectiei alese.

5. Metoda determinarii suprafetelor de raspuns (regresie sau trend):

Aceasta metoda este asemanatoare cu metoda regresiei multiple. Sa presupunem ca dorim sa dorimsa prezicem valorile pe care o variabila Z le ia intr-o anumita regiune R pe baza masuratorilor facutein n locatii din aceasta regiune. Sa presupunem ca aceste locatii sunt x1, x2, . . . , xn. Deoareceaceste puncte sunt planare, pentru a determina exact ecare locatie este nevoie de cate doua co-ordonate. Vom nota generic prin (xi1, xi2) coordonatele locatiei xi, pentru ecare i = 1, 2, . . . , n.Dorim sa prezicem valoarea variabilei Z intr-o locatie generica x din R, tinand cont de valorilecunoscute z(x1), z(x2), . . . , z(xn). Presupunem ca pentru locatia x avem coordonatele (x1, x2).In general, valoarea prezisa de o suprafata de raspuns va de forma:

z(x) := z(x1, x2) = f(x1, x2) + εx, (9.2)

unde f(x) este o functie de coordonatele spatiale ale locatiei investigate si εx este o eroare demasurare. Aceasta eroare este presupusa a normala, de medie 0 si deviatie standard σ. Mai mult,se presupune ca erorile observate in diferite locatii sa e independente intre ele.

Exemple de suprafete de trend:

• (trend liniar, adica un plan):

f(x1, x2) = β0 + β1x1 + β2x2.

• (trend cuadratic pur):

f(x1, x2) = β0 + β1x1 + β2x2 + β3x21 + β4x

22.

• (trend cuadratic cu interactiuni):

f(x1, x2) = β0 + β1x1 + β2x2 + β3x1x2 + β4x21 + β5x

22.

Geostatistica [Dr. Iulian Stoleriu] 65

• (trend cubic):

f(x1, x2) = β0 + β1x1 + β2x2 + β3x1x2 + β4x21 + β5x

22 + β6x

21x2 + β7x1x

32 + β8x

31 + β9x

32.

Pe baza masuratorilor deja facute, se estimeaza parametrii βi, obtinandu-se astfel suprafata deraspuns care se apropie cel mai mult de datele observate. O metoda de estimare a acestor parametrieste metoda celor mai mici patrate (se minimizeaza supa patratelor erorilor de aproximare). Deindata ce acesti coecienti (se mai numesc si coecienti de regresie) sunt determinati, vom cunoasteforma exacta a functiei f(x1, x2), si astfel putem estima valoarea variabilei in locatia x = (x1, x2)prin

z(x) = f(x1, x2).

Spre exemplu, in cazul unui trend liniar cu β0, β1, β2 cunoscuti, estimam z(x) prin

z(x) = β0 + β1x1 + β2x2.

De indata ce functia de regresie f este determinata si parametrii sunt estimati pe baza observatiilor,se poate folosi modelul de regresie in predictii in locatii de unde nu s-au facut masuratori. Insa,aceste predictii trebuie folosite cu mare atentie, deoarece estimarile pot total neadecvate in cazulin care locatiile sunt din afara regiunii (ariei) acoperite de observatii.

6. Metoda functiilor spline

O functie spline este o functie denita pe portiuni, iarin ecare portiune avem un polinom. Daca toate po-linoamele au grad unu, vom spune ca avem o functiespline liniara, daca toate polinoamele au gradul doi,atunci avem o functie spline patratica etc. Pentru unset de locatii, putem determina o functie spline care in-terpoleaza aceste valori. Pe baza acestei functii putemestima valoarea unei variabile intr-o locatie x0 prin va-loarea functiei in x0. Interpolarea cu functii spline afost introdusa de matematicianul roman Isaac JacobSchoenberg care a sustinut teza sa de doctorat la Uni-versitatea din Iasi in 1926. Figura 9.4: Functii spline

10 Procese stochastice spaµiale

Pentru o regiune R, dorim sa caracterizam varabila de interes Z. In acest scop, se considera un setde locatii x1, x2, . . . , xn. Valorile variabilei in aceste locatii sunt masurate, obtinandu-se valorile z(x1),z(x2), . . ., z(xn). In realitate, aceste masuratori sunt facute cu anumite erori, fapt care ne indreptateste saconsideram variabilele aleatoare Z(x1), Z(x2), . . . , Z(xn). In mod generic, prin Z(xi) intelegem variabilaZ in locatia xi, iar z(xi) este o valoare observata a sa. Pentru ecare locatie x din campul R, variabilaZ(x) este o variabila aleatoare care are o anumita repartitie care poate sa difere in functie de locatie.

Geostatistica [Dr. Iulian Stoleriu] 66

Sirul de variabile aleatoare Z(x); x ∈ R se numeste pro-ces stochastic sau câmp aleator sau functie aleatoare. Acestaeste un sir innit, deoarece exista o innitate de locatii xintr-o regiune. O realizare a functiei aleatoare (sau variabilaregionalizata) este formata din multimea valorilor obtinutein urma unei masurari a ecarei variabile in parte. Este cu-noscut faptul ca valorile observate in locatii apropiate suntapropiate iar cele observate in locatii indepartate sunt dife-rite, aceasta insemnand ca aceste variabile Z(xi) sunt core-late intre ele. Acest aspect nu este comun Statisticii clasice,unde variabilele ce corespund selectiei sunt independente in-tre ele si, mai mult, identic repartizate. In Figura 10.1 amreprezentat 5 realizari ale unui proces stochastic. Figura 10.1: 5 realizari ale unei functii

aleatoare

Un camp aleator este cunoscut in totalitate daca pentru orice conguratie de locatii, z(x1), z(x2), . . .,z(xn), s-ar cunoaste repartitia variabilei vectoriale n−dimentionale V (x) = (Z(x1), Z(x2), . . . , Z(xn)),lucru care este practic imposibil. In unele cazuri se poate presupune ca repartitia vectorului V (x) estenormala n−dimensionala, caz in care cunoastem mediile, dispersiile si corelatiile dintre componentelevectorului. Insa, din nou, acest caz este doar un un caz particular. In cazul general este greu de prezisrepartitia exacta a acestui vector, dar putem face anumite presupuneri legate de momentele variabilelorce-l compun.

Presupunem ca variabila de interes, Z, admite valoare medie in orice locatie x. Pentru a descrie relatiaintre doua variabile Z(xi) si Z(xj) (unde locatiile xi si xj sunt diferite), vom utiliza conceptele decovarianta si corelatie. Reamintim aceste doua concepte in cazul variabilelor spatiale.

Pentru doua locatii x1 si x2 dinR, denim covarianµa variabilelor Z(x1) ³i Z(x2), notat prin cov(x1, x2),cantitatea

cov(Z(x1), Z(x2)) = E[(Z(x1)− µ(x1))(Z(x2)− µ(x2)], (10.1)

unde µ(x1) si µ(x2) sunt mediile variabilelor in locatiile x1, respectiv, x2.

Covarianta detecteaz doar dependenµe liniare între dou variabile aleatoare. Daca cele doua locatiicoincid (scriem ca x1 = x2 = x), atunci obtinem varianta a priori a procesului:

cov(Z(x), Z(x)) = E[(Z(x)− µ)(Z(x)− µ)] = E[(Z(x)− µ)2] = σ2Z(x).

O m sur (adimensionala) a corelaµiei dintre dou variabile este coecientul de corelaµie (sau corelatia, inunele carti). Acesta este utilizat ca ind o m sur a dependenµei liniare între dou variabile. Se nume³tecorelaµie a variabilelor Z(x1) ³i Z(x2) cantitatea

ρ =cov(Z(x1), Z(x2))

σ1σ2,

unde σ1 si σ2 sunt deviatiile standard pentru Z(x1), respectiv, Z(x2).

Un estimator pentru covarianta variabilelor Z(x1) ³i Z(x2), bazat pe un set de n observatii perechi,(z1,1, z2,1), (z1,2, z2,2), . . . , (z1,n, z2,n), este:

cov(x1, x2) =1

n

n∑i=1

[(z1,i − z1)(z2,i − z2)],

Geostatistica [Dr. Iulian Stoleriu] 67

unde z1 si z2 sunt mediile pentru ecare selectie in parte..

Dupa cum se observa din relatia (10.1), pentru a evalua covarianta variabilelor Z(x1) ³i Z(x2) avem nevoiede mediile acestor variabile. Din pacate, aceste valori nu sunt cunoscute. Pentru a simplica formula,trebuie sa facem presupuneri suplimentare. Una dintre acestea este legata de invarianta mediei µ(x) delocatia x, pe care o tratam in cele ce urmeaza.

10.1 Procese stochastice stationare

Stationaritatea este o presupunere fundamentala in Geostatistica. Un proces stochastic (functie aleatoare)Z(x); x ∈ R se numeste proces stationar daca repartitia variabilei Z(x) nu depinde de locatia x. Cualte cuvinte, daca pentru orice conguratie de locatii, x1, x2, . . ., xn, repartitia variabilei vectorialen−dimentionale V (x) = (Z(x1), Z(x2), . . . , Z(xn)) este independenta de locatii. Aceasta inseamna capentru orice locatie x, variabila Z(x) urmeaza aceeasi repartitie. O consecinta a acestui fapt este camedia µ(x), dispersia σ2(x), dar si momentele de ordin superior (daca ele exista!) sunt independente delocatie. Scriem asta astfel: µ(x) = µ, σ2(x) = σ2, pentru orice locatie x. Daca procesul aleator Z(x)este stationar, atunci putem scrie ca

Z(x) = µ+ ε(x),

unde ε(x) sunt erori normal repartizate, ε(x) ∼ N (m, σ), pentru orice x din regiune.

Totusi, stationaritatea procesului este o ipoteza prea restrictiva in Geostatistica, deoarece in generalrepartitia variabilei Z depinde de locatie. Pentru a indeparta acest inconvenient, vom face o presupuneremai putin restrictiva (mai slaba), si anume ca procesul aleator sa admita doar momente de ordinul 1 si 2independente de locatie.

Suntem in cazul in care procesul stationar admite momente de ordinul intai si doi (adica, medie, dispersie,covarianta). Un proces stochastic (functie aleatoare) Z(x); x ∈ R se numeste proces slab stationarsau stationar de ordinul doi daca media procesului, varianta si covariantele nu variaza cu locatia, iarcovariantele depind doar de distanta dintre valori (lag) si nu de valorile in sine. Valoarea lag este unvector care reprezinta distanta si directia dintre doua locatii. Matematic, scriem astfel:

µ(x) = µ, σ2(x) = σ2, cov(Z(xi), Z(xj)) = C(xi − xj), pentru orice locatie x ∈ R,

unde C(xi − xj) este o functie ce depinde doar de xi − xj si pe care o vom preciza la momentul potrivit.Aceasta functie ne va spune cum sunt corelate valorile din doua locatii ale variabilei Z.

10.2 Ergodicitate

Dupa cum am vazut mai sus, un set de date statistice este doar un set de masuratori pe care le-am observatdintr-o innitate de posibile realizari ale unei functii aleatoare. Pentru a avea o idee cat mai dela desprefunctia aleatoare, ar necesar sa avem foarte multe astfel de realizari (variabile regionalizate). In practicapoate imposibil de obtinut, asa ca va trebui sa ne multumim doar cu o singura variabila regionalizata.

Un proces stochastic se numeste proces ergodic daca proprietatile sale statistice (e.g., media, varianta,momente) pot deduse dintr-o singura realizare (variabile regionalizate), de volum sucient de mare. InGeostatistica, ergodicitatea este doar o presupunere si, in general, nu poate testata.

Geostatistica [Dr. Iulian Stoleriu] 68

10.3 Functia de covarianµ

Un rezultat important ar sa descriem covarianta dintre variabilele Z(x1) ³i Z(x2) macar intr-un cazrestrictiv, dar nu foarte simplist. Sa presupunem ca functia aleatoare Z(x) este stationara de ordinul aldoilea si, pentru doua locatii x1 si xj din R, sa notam variabila lag cu h = xi − xj . Deoarece functiaaleatoare este slab stationara, covariantele vor depinde doar de lag si nu de pozitii. Pentru o locatie xgenerica, vom scrie ca:

cov(Z(x), Z(x+ h)) = E[(Z(x)− µ) · (Z(x+ h)− µ)]

= C(h).

Functia C(h) se va numi functia de covarianta. De multe ori, i se atribuie denumirea de functie deautocovarianta, deoarece in calcularea covariantei apare aceeasi variabila, desi in diverse locatii. Aceastafunctie descrie legatura dintre valorile variabilei Z atunci cand se schimba locatia. Unitatea de masura afunctiei de covarianta este unitatea de masura pentru variabila Z. Pentru un proces stationar, functia decovarianta dene

C(h) = E[(µ+ ε(x)− µ) · (µ+ ε(x+ h)− µ)] = E[ε(x) · ε(x+ h))].

Pentru a adimensionaliza relatia dintre valorile variabilei Z in diferite locatii, se foloseste valoarea urma-toare:

ρ(h) =C(h)

C(0)=C(h)

σ2,

unde prin C(0) am notat covarianta pentru valoarea de lag h = 0. Functia ρ(h) se numeste functie decorelatie sau corelograma.

10.4 Variograma

O alta notiune fundamentala in Geostatistica este variograma. Aceasta va reprezenta variabilitatea (con-tinuitatea) variabilei spatiale in functie de variabila lag h. Este posibil ca doua variabile, sa le numim Z1

si Z2, sa aiba parametrii teoretici foarte apropiati sau chiar identici (vezi Tabelul 10.1 pentru aproximarileparametrilor respectivi si Figura 10.2 pentru o reprezentare cu histograme a datelor observate), si totusirepartitiile lor sa arate complet diferit. Dupa cum se poate observa din Figura 10.3, repartitiile celor douavariabile sunt complet diferite. Se poate observa ca reprezentarea variabilei Z2 este mai "grosiera" decatcea reprezentata de variabila Z1. Variabila Z1 se modica mai rapid in spatiu, pe cand, pentru a douavariabila, exista regiuni mai vaste in care valorile variabilei par a neschimbate. Totodata, nu putemspune ca Z2 are o variatie mai mare decat Z1, deoarece varianµele sunt egale. Mai mult, deoarece mediilesunt egale, atunci si coecientii de variatie sunt egali.

valori numerice variabila Z1 variabila Z2

media x 101 101mediana Me 100.73 100.80varianµa s2 400 400

prima cuartila q1 87.3 87.93a treia cuartila q3 116.3 116.78

volumul n 15625 15625

Tabela 10.1: Valori numerice pentru douavariabile spatiale

Figura 10.2: Reprezentarile cu histograme pentru celedoua variabile

Geostatistica [Dr. Iulian Stoleriu] 69

Figura 10.3: Reprezentarile 2D pentru variabilele Z1 si Z2

In acest caz, valorile numerice asociate celor doua seturi de date nu pot identica variabilitatea celor douacaracteristici. Daca am luat o decizie doar bazandu-ne pe valorile din Tabelul 10.1, am cochis ca Z1

si Z2 au aceeasi repartitie, concluzie care este evident falsa.

Pentru a putea descrie (explica) aceasta variabilitate, este nevoie reprezentarile variogramelor asociatecelor doua variabile. In Figura 10.4, se observa ca variogramele asociate celor doua variabile difera.

Figura 10.4: Reprezentarile variogramelor empirice si teoretice pentru variabilele Z1 si Z2

Vom discuta aici despre 3 tipuri de variograme: variograma teoretica, variograma regionala si variogramaempirica. Variograma teoretica este variograma bazata pe toate realizarile posibile ale unei variabilespatiale. Cum o variabila spatiala are, in general, o innitate de realizari, aceasta variograma este imposibilde obtinut in practica. Variograma empirica este cea construita pe baza masuratorilor observate. Esteo estimare a variogramei teoretice. Plecand de la variograma empirica, vom face inferente referitoare lavariograma teoretica. Variograma regionala este variograma formata cu o anumita realizare a procesuluistochastic intr-o regiune nita, daca am avea acces la toate informatiile legate de acea regiune. Variogramateoretica este o medie a tuturor variabilelor regionale legate de procesul stochastic studiat.

Daca procesul stochastic Z(x) nu este stationar, atunci E(Z(x)) = µ(x) depinde de locatie si Var(Z(x))poate creste fara limita in cazul in care regiunea este mare. Georges Matheron a cautat sa rezolve aceastaproblema prin considerarea unor ipoteze simplicatoare. Cel putin pentru valori mici ale valorii lag |h|,

Geostatistica [Dr. Iulian Stoleriu] 70

media variatiei procesului stochastic intre doua locatii x si x+ h este 0, iar dispersia acestei variatii estedependenta doar de h, independenta de locatie. Cu alte cuvinte, procesul stochastic se comporta ca unproces stationar de ordinul al doilea. Matematic, vom scrie astfel:

E[Z(x+ h)− Z(x)] = 0; (10.2)

si

E[(Z(x+ h)− Z(x))2] = 2γ(h), (10.3)

unde γ(h) este o functie ce depinde doar de h. Aceasta functie se numeste variograma. Prin denitie,formula pentru variograma este:

γ(h) =1

2Var[Z(x+ h)− Z(x)]. (10.4)

Deoarece E[Z(x+ h)− Z(x)] = 0 si

Var[Z(x+ h)− Z(x)] = E[(Z(x+ h)− Z(x))2]− (E[Z(x+ h)− Z(x)])2 ,

gasim va variograma poate exprimata si astfel:

γ(h) =1

2E[(Z(x+ h)− Z(x))2]. (10.5)

Daca variabila Z(x) este 1-dimensionala (x = x, h = h), atunci formula din denitie se scrie astfel:

γ(h) =1

2Var[Z(x+ h)− Z(x)]. (10.6)

Daca variabila Z(x) este 2-dimensionala (x = (x1, x2), h = (h1, h2)), atunci formula din denitie se scrieastfel:

γ(h) =1

2Var[Z(x1 + h1, x2 + h2)− Z(x1, x2)]. (10.7)

Daca variabila Z(x) este 3-dimensionala (x = (x1, x2, x3), h = (h1, h2, h3)), atunci formula din denitiese scrie astfel:

γ(h) =1

2Var[Z(x1 + h1, x2 + h2, x3 + h3)− Z(x1, x2, x3)]. (10.8)

Datorita termenului 1/2 din fata, se mai foloseste si termenul (in unele carti) de semivariograma. Legaturasa cu functia de covarianta este urmatoarea:

γ(h) = C(0)− C(h). (10.9)

Legatura variogramei cu corelatia (sau it corelograma) este data de:

γ(h) = σ2[1− ρ(h)]. (10.10)

In Geostatistica, o variograma poate caracterizata de urmatorii parametri:

Geostatistica [Dr. Iulian Stoleriu] 71

− Se numeste sill valoarea asimptotica a variogramei, adicavaloarea dupa care nu mai exista crestere. Este egala cuC(0). Matematic, scriem ca C(0) = lim

h→∞γ(h). In cu-

vinte, pentru doua locatii foarte indepartate, covarianta esteaproape 0.− Se numeste range prima valoare (daca exista!) pentrulag (h) pentru care variograma atinge valoarea sill. Aceastavaloare reprezinta, de fapt, distanta dupa care valorile va-riabilei spatiale nu mai sunt autocorelate. Asadar, valorilevariabilei sunt autocorelate doar pentru un lag h mai micdecat valoarea range. Zona ce contine locatia x si pentrucare valorile lui Z sunt corelate cu Z(x) se numeste zona deinuenta a locatiei x.− Se numeste nugget (sau efectul nugget) valoarea vario-gramei pentru h foarte apropiat de zero, dar nu 0. Aceastavaloare reprezinta eroarea de masurare a variatiei spatiale.Valoarea nugget poate aparea atunci cand nu exista masura-tori culese din locatii foarte apropiate, care ar putea dovedicontinuitatea in h = 0. In cazul in care lim

h0γ(h) = 0, atunci

variograma va pleca din origine.

Figura 10.5: Variograma si covarianta

Variograma este o unealta importanta in studiul corelatiei datelor spatiale, de aceea este importantaaproximarea acesteia. Dupa cum vom vedea, exista diverse modele de aproximare pentru variogramateoretica denita prin formula (10.4).

11 Modelarea variogramei teoretice

11.1 Proprietati ale functiilor de corelatie spatiale

Prezentam mai jos proprietati ale covariantei, corelogramei, sau variogramei:

• γ(0) = 0.

• Cand h creste sucient de mult, γ(h) tinde sa devina constant. Aceasta insemna lipsa de corelatieintre valorile variabilei din locatii indepartate.

• Variograma γ(h) poate sa nu e continua doar in h = 0 (origine). In acest caz, saltul discontinuitatiise numeste efect nugget. Efectul nugget este r = C(0) = Var[Z(x)] = σ2 > 0.

• C(h) = C(−h) si γ(h) = γ(−h) pentru orice lag h, adica functia de corelatie si variograma suntfunctii pare.

• Corelograma are intotdeauna valori intre 0 si 1. Pentru h = 0, gasim ca ρ(0) = C(0)C(0) = 1.

• Functiile C(h) si γ(h) sunt functii continue de h, mai putin, eventual, in origine.

• Matricea de covarianta C(x1, x1) C(x1, x2) · · · C(x1, xn)C(x2, x1) C(x2, x2) · · · C(x2, xn)

...... . . . · · ·

C(xn, x1) C(xn, x2) · · · C(xn, xn)

Geostatistica [Dr. Iulian Stoleriu] 72

este pozitiv denita, in sensul ca toti determinantii minorilor principali sunt nenegativi. Astfel,variograma este negativ semidenita.

• Este posibil ca variatia spatiala sa se modice in functie de directia dintre locatiile x si x + h,fenomen numit anizotropie. Un exemplu de anizotropie este mineralizarea. Daca x = (x1, x2, x3)(regiune 3−dimensionala), atunci h =

√h21 + h22 + h23 si γ(h) va reprezenta o familie de variograme

γ(|h|, α), unde α este directia.

• Ca functie de variabila lag h, variograma creste mai incet decat creste h2. Daca ar creste mai rapiddecat aceasta functie, aceasta ar indica prezenta unui trend in campul aleator.

Figura 11.1: Diverse tipuri de variograma: (a) nemarginita (procesul nu este slab stationar); (b) con-stanta (nu exista corelatii spatiale), (c) fara efect nugget, (d) uctuanta.

11.2 Comportamentul variogramei in jurul originii

Cand variabila lag h se apropie de 0, forma variogramei poate una dintre cele reprezentate in Figura11.2. Putem avea un comportament liniar care trece prin 0. In acest caz, pentru h sucient de mic,variograma are forma γ(h) = a|h|. Este posibil ca variograma sa aiba o forma aproximativ liniara cand heste sucient de mic, insa sa nu treaca prin 0. Este cazul gurii (b), in care se observa efectul nugget. Incazul (c), variograma are o forma parabolica pentru h sucient de mic, de forma γ(h) = a|h|2. In gura(c), variograma trece prin 0, dar exista cazuri in care se poate observa un efect nugget si pentru formaparabolica. O variograma cu un comportament parabolic in jurul originii sugereaza existenta unui trendin variabila spatiala Z(x).

Geostatistica [Dr. Iulian Stoleriu] 73

Figura 11.2: Diverse tipuri de comportament in jurul originii unei variograme:(a) liniar; (b) efect nugget; (c) parabolic.

11.3 Modele de variograma

Nu orice functie care se apropie sucient de mult de variograma empirica poate o variograma teoretica.O variograma teoretica va trebui sa satisfaca anumite conditii, dupa cum urmeaza:

• functia ia doar valori pozitive (mai putin, eventual, in cazul h = 0);

• functia trebuie sa e crescatoare in h;

• pentru h sucient de mare, functia atinge un maximum (sill);

• uneori, aceasta functie nu porneste din 0, caz in care valoarea γ(0) se numeste efect nugget;

• exista cazuri in care functia uctueaza periodic (apar zone numite holes);

Modelele de variograma prezentate mai jos sunt modele izotropice, astfel ca functiile depind doar deh = |h|. Putem construi modele marginite sau nemarginite. Un exemplu de model nemarginit esteurmatorul:

γ(h) = uhα, cu 0 < α < 2,

si u este un numar real ce reprezinta intensitatea variatiei. Constanta α reprezinta curbura. Pentruα = 1 avem o variograma liniara; pentru 0 < α < 1 avem o variograma concava si pentru α > 1 avem ovariograma convexa.

Exista o clasa de modele de variograma teoretica care garanteaza existenta unei solutii unice. Acestea senumesc modele valide de variograma si sunt urmatoarele:

Geostatistica [Dr. Iulian Stoleriu] 74

• modelul exponential, pentru care

γ(h) = c

1− e− h

ar

, daca h > 0.

• modelul sferic, pentru care

γ(h) =

c[

3h

2r− 1

2

(h

r

)3]

, daca 0 < h ≤ r;

c , daca h > r.

• modelul Gaussian, pentru care

γ(h) = c

1− e−1

a

(h

r

)2 , daca h > 0. Figura 11.3: Modele valide de variograma

Aici, am notat c = s − n, s = sill, n = nugget si a este o constanta folosita cu diferite valori in carti.O valoare des folosita este a = 1/3.

Alte modele de variograma:

• modelul liniar marginit, folosit doar pentru variatii intr-o singura dimensiune. Variograma cores-punzatoare este:

γ(h) =

c(h

r

), daca 0 < h ≤ r;

c , daca h > r.

• modelul circular, pentru care

γ(h) =

c[

1− 2

πarccos

(h

r

)+

2h

πr

√1− h2

r2

], daca 0 < h ≤ r;

c , daca h > r.

• modelul pentasferic, pentru care

γ(h) =

c[

15

8

h

r− 5

4

(h

r

)3

+3

8

(h

r

)5]

, daca 0 < h ≤ r;

c , daca h > r.

• modelul cubic, pentru care

γ(h) =

c[

7

(h

r

)2

− 35

4

(h

r

)3

+7

2

(h

r

)5

− 3

4

(h

r

)7]

, daca 0 < h ≤ r;

c , daca h > r.

• modele compuse;

Geostatistica [Dr. Iulian Stoleriu] 75

Acestea pot compuse din doua sau mai multe modele de mai sus.Sunt folosite mai ales cand avem multe date si variogramele par a mai complexe. Sunt folosite in special atunci cand variograma pre-zinta efect nugget. Exemple: modelul exponential cu nugget, modeluldublu sferic, modelul dublu exponential etc.Pentru modelul exponential cu nugget, variograma (cea desenata cualbastru in primul grac alaturat) este:

γ(h) = c0 + c

1− e− h

ar

, daca h > 0.

Pentru modelul dublu sferic cu nugget (format din compunerea adoua modele sferice plus un model nugget) desenat in al doilea grac,variograma (cea desenata cu albastru) este:

γ(h) =

c0 + c1

[3h

2r1− 1

2

(h

r1

)3]

+ c2

[3h

2r2− 1

2

(h

r2

)3]

, 0 < h ≤ r1;

c0 + c1

[3h

2r1− 1

2

(h

r1

)3]

, r1 < h ≤ r2;

c1 + c2 , h > r2.

Figura 11.4: Modele compuse

• modelul pure nugget, pentru care

γ(h) =

0 , daca h = 0;

c , daca h > 0.

Este modelul desenat in Figura 11.1 (b).

• modele cu functii oscilante (vezi Figura 11.1 (d)), e.g.:

γ(h) = c

(1− sinh

h

).

11.4 Estimator pentru variograma

In practica, un geostatistician are la indemana un set de date spatiale (masuratori), pe baza carora dorestesa creeze o harta a regiunii de unde au fost facute aceste masuratori, care sa indice variatia variabilei deinteres. Determinarea variogramei este unul dintre lucrurile importante pe care trebuie sa le intreprindapentru a-si atinge scopul. Folosind aceste masuratori, el poate estima variograma procedand astfel.

Geostatistica [Dr. Iulian Stoleriu] 76

Presupunem ca valorile masurate (x1, x2, . . . xn):

z1 = z(x1), z2 = z(x2), . . . , zn = z(xn).

orice pereche de locatii (xi, xj) (exista n(n−1)2 astfel

de perechi), se calculeaza (semi)varianµele:

γ(xi, xj) =1

2[zi − zj ]2.

Reprezentarea graca a acestora in functie de lag senumeste norul variogramei.Deoarece este dicil (daca nu imposibil) de examinatvariatia spatiala din aceasta reprezentare, se va face omedie a tuturor variantelor pentru ecare valoare delag h, obtinandu-se variograma empirica. Figura 11.5: Semivarianµele in functie de lag

. (norul variogramei)

Pentru a ne face o idee despre cum sunt corelate datele pentru diferite nivele de lag, se pot construiasa-numitele h−scattergrame. Acestea sunt reprezentari grace ale valorilor z(x + h) versus z(x) (veziFigura 11.6).

Figura 11.6: Exemple de h−scattergrame

Pentru un nivel de lag h, calculam

γ(h) =1

2|N(h)|∑

(i,j)∈N(h)

[zi − zj ]2, (11.1)

Geostatistica [Dr. Iulian Stoleriu] 77

unde N(h) reprezinta multimea tuturor perechilor de observatii i, j care satisfac conditia de lag, |xi−xj | =h si |N(h)| este numarul acestor perechi. In general, valoarea lui h este admisa cu o anumita toleranta.

Pentru ecare nivel de lag h, valorile γ(h) le scriem in ordine crescatoare, obtinand astfel variogramaempirica (sau variograma experimentala). Formula (11.1) este cunoscuta sub numele de estimator obtinutprin metoda momentelor si a fost introdus de (G. Matheron).

Variograma empirica este un estimator nedeplasat pentru variograma teoretica γ(h). Daca Z(x) esteergodic, atunci γ(h) → γ(h) cand n → ∞. Un analist nu poate trage concluzii despre variabilitateaspatiala doar bazandu-se pe variograma experimentala, deoarece variograma experimentala nu poate pre-zice valorile variatiei spatiale in locatiile nemasurate a priori. Aceste valori pot prezise doar dupa ce ovariograma teoretica este potrivita; pe baza acesteia se utilizeaza metode de kriging pentru predictie.

11.5 Pasi in estimarea variogramei

Constructia unei variograme presupune urmatorii pasi:

• Determinam pasul lag, h. Un pas h este practicdaca pentru aceasta valoare avem cel putin 30 deperechi (xi, xj) care sa se situeze la aceasta dis-tanta. Este de dorit ca h sa e mai mic decatjumatate din range-ul datelor observate.

• Stabilirea unei tolerante pentru determinarea luih. Aceasta valoare va preciza acuratetea cu careo anumita distanta este aproximata cu h. Cu altecuvinte, toleranta determina latimea clasei h sta-bilite.

• Stabilirea numarului de pasi h pentru care vomcalcula variograma experimentala;

• Stabilirea unui unghi si determinarea unei tole-rante pentru unghi; Figura 11.7: Construirea variogramei

experimentale

• Pentru un h xat si pentru ecare pereche de noduri (x, x + h) ale retelei de locatii, calculamvaloarea

γ(h) =1

2|N(h)|∑

(x,x+h)

[Z(x)− Z(x+ h)]2,

• Pentru toate valorile lui h, sa spunem ca acestea sunt h1, h2, . . . , hm, vom obtine valorile cores-punzatoare γ(h1), γ(h2), . . . , γ(hm).

• Reprezentam valorile (hi, γ(hi)) intr-un grac si obtinem astfel variograma experimentala (empi-rica).

• Daca se observa anizotropie, se va repeta procedura pentru un alt unghi, construindu-se astfel onoua variograma.

Geostatistica [Dr. Iulian Stoleriu] 78

Figura 11.8: Variograma experimentala (puncte albastre) si cea teoretica (cu linie rosie)

Exemplu: Variograma pentru o singura dimensiune spatiala

Intr-o singura dimensiune, toate locatiile de unde se fac masuratori sunt situate pe o dreapta. Presupunemca locatiile masuratorilor, x1, x2, . . . , xn, sunt cele din Figura 11.9 (a). Cerculetele goale reprezinta lipsade masuratori din respectivele locatii. Figurile 11.9 (b), (c) si (d) arata cum se formeaza perechile pentruvalorile de lag 1, 2, respectiv 3. In cazul 1 dimensional, formula 11.1 devine:

γ(h) =1

2(n− h)

n−h∑i=1

[zi − zi+h]2. (11.2)

Pentru h = 1, calculam valoarea γ(1) pentru toate perechile care se aa la o distanta de o lungime,folosind formula 11.2. Similar, pentru h = 2, 3, . . . , n, calculam valoarile γ(2), γ(3), . . . , γ(n), pentrutoate perechile care se aa la o distanta de, respectiv, 2 lungimi, 3 lungimi, etc., n lungimi. Reprezentamgrac valorile γ(1), γ(2), . . . , γ(n) intr-un grac, obtinand astfel variograma experimentala 1-dimesionala.

Geostatistica [Dr. Iulian Stoleriu] 79

Figura 11.9: Variograma experimentala 1−dimensionala (cerculetele goale sunt locatii neselectate)

11.6 Sfaturi practice pentru construirea unei variograme

• Priviti in ansamblu datele observate. Pot aparea unele erori de masurare, virgule omise, alte tipuride date etc;

• Observati orice tip de clustere in date. In caz ca sunt prezente, trebuie indepartate;

• In cazul in care datele par a nu observatii normale, o transformare a lor ar necesara (e.g.,logaritmare);

• Variograma ar trebui determinata in cel putin 3 directii diferite;

• Detectati daca este prezent vreun trend in varianta experimentala. Daca este posibil, determinativariograma fara trend;

• Vericati prezenta izotropiei.

11.7 Indicatorul Akaike

Tendinta unui analist este de a crea modele statistice cat mai apropiate de datele observate. Pentrua realiza acest deziderat, se poate folosi, spre exemplu, metoda celor mai mici patrate. Daca modeluleste prea simplist (modelul contine putini parametri necunoscuti), rezultatul poate unul nesatisfacator.De aceea, de multe ori in practica suntem tentati sa introducem noi parametri in model, imbunatatindconsiderabil apropierea datelor de modelul teoretic. Insa, odata cu cresterea numarului de parametri,apare problema urmatoare: modelul astfel obtinut va avea performante foarte slabe in a face predictii.Un model prea complex va memora valorile caracteristicii in locatiile observate pentru a le reproducecu precizie, insa nu va avea capabilitati de a prezice valori pentru date neobservate, neind antrenat sao faca. Daca modelul ar fost mai putin complex, s-ar folosit de valorile observate pentru a preziceeventuale valori pentru variabila cercetata.

Indicatorul Akaike realizeaza un compromis intre complexitatea unui model (care, de obicei, este repre-zentata de numarul de parametri; mai multi parametri implica un model mai complex) si cea mai bunapotrivire a modelului (determinata de metoda celor mai mici patrate). Acest indicator se deneste astfel:

AIK = 2p− 2 lnL, (11.3)

Geostatistica [Dr. Iulian Stoleriu] 80

unde p este numarul de parametri din model si L este functia de verosimilitate a modelului. Pentru unmodel statistic, o functie de verosimilitate (in engleza, likelihood) este o functie de parametrii modelului,care este egala cu probabilitatea de a observa datele masurate pentru parametrii dati. Un estimatorpentru indicele teoretic AIK este urmatorul:

AIK = 2p+ 2 ln(MSE) +

n ln

(2π

n

)+ n+ 2

, (11.4)

unde n este numarul de puncte de pe variograma si MSE este media patratelor erorilor de aproximare(mean squared error).

11.8 Metode de estimare a variogramei teoretice

Pentru a stabili un model teoretic de variograma care se potriveste cel mai bine datelor masurate, estenevoie de a estima parametrii modelului teoretic. Spre exemplu, daca dorim sa determinam o variogramateoretica exponentiala, atunci avem de estimat 2 parametri, si anume: c (lungimea de variatie) si r (range).In cazul in care modelul include si o valoare nugget, atunci mai avem, in plus, un parametru de determinat,si anume c0. Exista doua metode uzuale folosite in estimarea acestor parametri: metoda celor mai micipatrate si metoda cu ponderi a celor mai mici patrate. In cazul metodei celor mai mici patrate, se cautasa se minimizeze suma patratelor erorilor dintre valorile estimate pentru variograma si cele masurate apriori. Matematic, problema se scrie astfel: determinati acea valoare pentru vectorul de parametri, θ,care este solutia problemei de optim:

minθ

∑i

[γ(hi, θ)− γ(hi)]2.

Pentru metoda cu ponderi a celor mai mici patrate, se determina acea valoare pentru vectorul de parametri,θ care este solutia problemei de optim:

minθ

∑i

[γ(hi, θ)− γ(hi)]2

Var(γ(hi)),

undeVar(γ(h)) ≈ 2

|N(h)|(γ(h, θ))2.

Astfel, ponderile sunt

wi =1

Var(γ(hi))≈ |N(hi)|

2(γ(hi, θ))2.

11.9 Anizotropia

In multe cazuri, variograma empirica difera in functie de directia spatiala, fapt ce se numeste anizotropie(geometrica). Cu alte cuvinte, anizotropia este variatia variogramei cu directia spatiala a observate. Incaz de anizotropie, se pot observa diferite pante ale variogramei in diferite directii spatiale. In multecazuri insa este posibil de a modela anizotropia printr-o transformare liniara de coordonate carteziene.

Geostatistica [Dr. Iulian Stoleriu] 81

Figura 11.10: Directii spatiale diferiteFigura 11.11: Variograme pentru directii diferite

12 Kriging

Introducere

Dupa cum am discutat anterior, un teren pentru care un geostatistician doreste sa studieze proprietatileunor anumite variabile are o innitate de locatii. Masuratorile pe care acestea le poate efectua sunt innumar nit. De fapt, din consideratii practice si economice, el va considera doar cateva locatii undeva efectua masuratori. In restul de locatii, el va dori sa faca predictii pe baza datelor deja culese. Ometoda de baza in Geostatistica folosita in predictia valorilor in locatiile neselectate pentru masurarese numeste kriging. Kriging este o forma (generalizata) de regresie liniara prin care se determina unestimator (predictor) spatial. In contrast cu regresia liniara multipla, metoda de kriging tine cont devolumul observatiilor si de corelatiile dintre aceste valori. Metoda functioneaza cel mai bine intr-undomeniu convex (un domeniu in care, odata cu doua puncte, va contine si segmentul ce le uneste).In mod uzual, rezultatele unei interpolari de tip kriging sunt: valoarea asteptata (media de kriging)si dispersia (varianta de kriging), estimate in punctul dorit din regiune. Numele de kriging deriva dela numele inginerului minier Danie Krige, nume atribuit de G. Mangeron. Exista atat metode liniare,cat si neliniare de interpolare spatiala de gen kriging. Fiecare dintre aceste metode face presupuneridiferite relativ la uctuatiile variabilei. Dintre aceste metode, amintim urmatoarele: kriging ordinar,kriging simplu, kriging lognormal, kriging cu drift, kriging factorial, cokriging, kriging indicator, krigingdisjunctiv, kriging bayesian etc. Metoda generala de kriging este urmatoarea.

Presupunem ca dorim sa prezicem valorile caracteristicii Z(x) intr-o regiune R. Aceasta regiune poate 1−, 2− sau 3− dimensionala. Se efectuaza observatii asupra acestei variabile in locatiile x1, x2, . . . , xnale regiunii R. Pe baza acestor masuratori, dorim sa prezicem valorile lui Z in celelalte locatii din regiune.O formula generala a unui estimator pentru valoarea variabilei Z intr-o locatie generica din R, sa zicemx0, este:

Z(x0) =

n∑i=1

λiZ(xi), (12.1)

unde λi sunt ponderile ce trebuie determinate.

Geostatistica [Dr. Iulian Stoleriu] 82

12.1 Kriging simplu

Este cea mai restrictiva metoda kriging. In cazul unei metode de interpolare geostatistica de tip krigingsimplu se fac urmatoarele presupuneri relativ la variabila Z:

• valorile observate formeaza o realizare partiala a procesului aleator generat de Z(x).

• variabila Z(x) se considera a stationara de ordinul al doilea (slab stationara), i.e.,

E(Z(x)) = µ si cov(Z(x), Z(x+ h)) = C(h), pentru orice locatie x din R.

• valoarea constanta µ si covarianta C(h) sunt presupuse a cunoscute a priori.

Predictiile metodei kriging simplu sunt bazatepe urmatorul model de camp aleator:

Z(x) = µ+ ε(x), (12.2)

unde µ este o constanta cunoscuta si ε(x) estepartea aleatoare a variabilei, reprezentand eroa-rea de aproximare a variabilei cu valoarea µ.Aceasta eroare este presupusa a normala, demedie 0.

Figura 12.1: Variabila Z(x) pentru kriging simplu

In cazul unui kriging simplu, se prezice valoarea variabilei Z in locatia necunoscuta x0 folosind relatia:

ZSK(x0) = µ+

n∑i=1

λi (Z(xi)− µ) , (12.3)

unde λi sunt ponderile asociate erorilor masuratorilor obtinute in locatiile selectate. Putem rescrie relatiaprecedenta sub forma echivalenta:

ZSK(x0) =

n∑i=1

λiZ(xi) +

(1−

n∑i=1

λi

)µ.

Pentru simplitate, putem presupune ca media cunoscuta este µ = 0. In caz ca aceasta este diferita dezero, efectuam calculele pentru µ = 0, obtinem valoarea prezisa, dupa care adaugam µ la nal. Obtinemca

ZSK(x0) =n∑i=1

λiZ(xi). (12.4)

Geostatistica [Dr. Iulian Stoleriu] 83

Vom determina ponderile λi astfel incat sa minimizeze varianta estimatorului ZSK . Aceasta este:

Var[ZSK(x0)] = Var

[Z(x0)−

n∑i=1

λiZ(xi)

]

= Var[Z(x0)]− 2n∑j=1

λjcov(Z(x0), Z(xj)) +n∑i=1

n∑j=1

λiλjcov(Z(xi), Z(xj))

= C(0)− 2

n∑j=1

λjcov(Z(x0), Z(xj)) +

n∑i=1

n∑j=1

λiλjcov(Z(xi), Z(xj))

Pentru a determina ponderile λi ce realizeaza minimumul lui Var[ZSK(x0)], se cauta punctele critice inraport cu λi, adica rezolvam sistemul de ecuatii:

∂λjVar[ZSK(x0)] = 0, pentru orice j = 1, 2, . . . , n.

Se va obtine sistemul de ecuatii algebrice (n ecuatii cu n necunoscute):

cov(Z(x0), Z(xj)) =n∑i=1

λicov(Z(xi), Z(xj)), pentru orice j = 1, 2, . . . , n. (12.5)

Cu solutiile λSKi astfel obtinute, se estimeaza valoarea Z0 folosind formula (12.4). Dispersia de kriging va data de:

σ2SK(x0) = C(0)−n∑i=1

λSKi cov(Z(x0), Z(xi)).

Estimarile obtinute prin kriging simplu sunt nedeplasate. De notat faptul ca valorile ponderilor λi depinddoar de locatii si de covariante, dar nu si de datele observate. In cazul metodei kriging simplu, sumaacestor ponderi nu este neaparat egala cu 1.

Dupa ce prezicem prin kriging simplu valorile variabilei Z in toate locatiile regiunii de interes, se puneproblema urmatoare: Ce se intampla cand prezicem valoarea intr-un punct unde avem deja masuratori?Cand un punct x0 in care prezicem valoarea variabilei se apropie de un punct x0 +h in care am masuratdeja valoarea lui Z, si daca variograma este fara nugget (i.e., este continua), atunci

C(h) = cov(Z(x0), Z(x0 + h))h→0−→ cov(Z(x0), Z(x0)) = C(0) = 0.

Astfel daca punctul x0 este foarte apropiat de punctul xi (din selectie), putem aproxima cov(Z0, Zi) princov(Z0, Z0) = C(0). In acest caz, dispersia pentru kriging simplu devine

σ2SK(x0) = C(0)−n∑i=1

λSKi C(0) =

(1−

n∑i=1

λSKi

)C(0) = 0. (12.6)

Mai mult,lim

x0→xiZSK(x0) = Z(xi).

In cazul in care nu exista efect nugget, atunci metoda kriging simplu pastreaza valorile masurate (i.e.,Z(xi) = Z(xi): valorile estimate prin kriging simplu in locatiile stabilite a priori sunt chiar cele masurate).Pentru doua locatii apropiate, aceasta metoda va prezice valori apropiate ale variabilei Z.

Geostatistica [Dr. Iulian Stoleriu] 84

Figura 12.2: 5 simulari ale variabilei Z(x) ce pastreaza cele 4 valori masurate initial

Exerciµiu 12.1 (preluat din [10]) Pentru o variabila Z s-au observat valorile sale in locatiile precizatecu buline rosii in Figura 12.3 de mai jos. Pe baza acestor valori, se cere sa se prezica valoarea variabilei Zin locatia x0 si dispersia pentru aceasta valoare. Se cunosc: µ = 110 si γ(h) = 2000 (1− e−h/250) pentruh > 0. (model exponential de variograma).

Figura 12.3: Locatii intr-un camp aleator

Figura 12.4: Tabel cu date observate

- Distantele dij dintre locatiile masurate, calculate cu formula

dij = d(xi, xj) =√

(xi1 − xj1)2 + (xi2 − xj2)2,

sunt

d11 d12 d13 d14d21 d22 d23 d24d31 d32 d33 d34d41 d42 d43 d44

=

0 260.8 264 364

260.8 0 266.3 366.7264 266.3 0 110.4364 366.7 110.4 0

Distantele d0i de la x0 la xi sunt:

[d01, d02, d03, d04] = [197.2, 219.3, 70.7, 180].

Geostatistica [Dr. Iulian Stoleriu] 85

Din formula γ(h) = C(0)− C(h), gasim covariantele. Aici, C(0) = 2000 si

C(x0, x1) = 2000e−d01/250 = 2000e−197.2/250 = 908.78,

C(x0, x2) = 2000e−d02/250 = 2000e−219.3/250 = 831.89,

C(x1, x2) = 2000e−d12/250 = 2000e−260.8/250 = 704.65 etc.

Sistemul de ecuatii (12.5) care determina ponderile λi devine:

λ1C(x1, x1) + λ2C(x2, x1) + λ3C(x3, x1) + λ4C(x4, x1) = C(x0, x1);

λ1C(x1, x2) + λ2C(x2, x2) + λ3C(x3, x2) + λ4C(x4, x2) = C(x0, x2);

λ1C(x1, x3) + λ2C(x2, x3) + λ3C(x3, x3) + λ4C(x4, x3) = C(x0, x3);

λ1C(x1, x4) + λ2C(x2, x4) + λ3C(x3, x4) + λ4C(x4, x4) = C(x0, x4).

Inlocuind valorile covariantelor, obtinem:

2000λ1 + 704.65λ2 + 695.68λ3 + 466.33λ4 = 908.78;

704.65λ1 + 2000λ2 + 689.31λ3 + 461.32λ4 = 831.89;

695.68λ1 + 689.31λ2 + 2000λ3 + 1286.01λ4 = 1507.34;

466.33λ1 + 461.32λ2 + 1286.01λ3 + 2000λ4 = 973.50.

Dupa rezolvarea sistemului, obtinem ponderile:

λSK1 = 0.1847, λSK2 = 0.1285, λSK3 = 0.6460, λSK4 = −0.0013.

Folosind formula (12.2), determinam estimarea valorii lui Z in x0:

zSK(x0) = µ+ λSK1 (z(x1)− µ) + λSK2 (z(x2)− µ) + λSK3 (z(x3)− µ) + λSK4 (z(x4)− µ)

= 110 + 0.1847 · (40− 110) + 0.1285 · (130− 110) + 0.6460 · (90− 110)− 0.0013 · (160− 110)

= 86.6560.

Dispersia estimatorului in acest punct poate calculata cu formula (12.6). Obtinem:

σ2SK(x0) = C(0)−n∑i=1

λSKi cov(Z(x0), Z(xi))

= 2000− 0.1847 · 908.78− 0.1285 · 831.89− 0.6460 · 1507.34 + 0.0013 · 973.50

= 752.7744.

. √

In cazul in care valoarea µ din formula (12.2) nu este cunoscuta, avem doua posibilitati de a prezicevalorile variabilei Z in celelalte valori decat cele masurate:

• Estimam valoarea µ pe baza observatiilor prin µ =

n∑i=1

zi, apoi folosim metoda kriging simplu. Insa,

aceasta metoda nu tine cont de variabilitatea valorilor zi in prezicerea lui µ.

• Folosim o alta metoda de kriging, numita kriging ordinar.

Geostatistica [Dr. Iulian Stoleriu] 86

12.2 Kriging ordinar

Este cea mai uzuala metoda de kriging (interpolare geospatiala). In cazul unui kriging ordinar, campulaleator este considerat a tot de forma (12.2), insa de aceasta data constanta µ este necunoscuta si vatrebui estimata. Valoarea prezisa a lui Z in x0 este

ZOK(x0) =n∑i=1

λiZ(xi), (12.7)

unde ponderile λi satisfac constrangerean∑i=1

λi = 1. Aceasta constrangere asigura nedeplasarea estimato-

rului ZOK , in sensul ca valoarea asteptata este E[Z(x0)− Z(x0)] = 0. Dispersia estimatorului este:

Var[ZOK(x0)] = E[(ZOK(x0)− Z(x0)

)2]= Var

[ZOK(x0)− Z(x0)

]= Var

[n∑i=1

λiZ(xi)− Z(x0)

]

= Var[Z(x0)]︸ ︷︷ ︸= C(0)

−2n∑i=1

λicov(Z(x0), Z(xi)) +n∑i=1

n∑j=1

λiλjcov(Z(xi), Z(xj))

= 2n∑i=1

λiγ(x0, xi)−n∑i=1

n∑j=1

λiλjγ(xi, xj),

unde γ(xi, xj) sunt (semi)variatiile intre valorile campului aleator Z observate in locatiile xi si xj siγ(xi, xj) sunt (semi)variatiile intre valoarea observata a campului aleator Z in locatia xi si valoarea luiZ in locatia de estimat x0.

Scopul este de a determina ponderile λi ce realizeaza minimul lui Var[ZOK(x0)] cu constrangerean∑i=1

λi =

1. Metoda de lucru este metoda multiplicatorilor lui Lagrange. Se considera functia

F (α, λi) = Var[ZOK(x0)] + α

(n∑i=1

λi − 1

),

unde α este o constanta ce urmeaza a determinata, numita multiplicator Lagrange. Se considera sistemulformat din anularea derivatelor functiei F (α, λi) in raport cu α si λi, i.e.,

∂F (α, λi)

∂λ1= 0;

∂F (α, λi)

∂λ2= 0;

. . .∂F (α, λi)

∂λn= 0;

∂F (α, λi)

∂α= 0.

Geostatistica [Dr. Iulian Stoleriu] 87

Vom obtine sistemul :

cov(Z(x0), Z(xj)) =n∑i=1

λicov(Z(xi), Z(xj)) + α, pentru orice j = 1, 2, . . . , n. (12.8)

n∑i=1

λi = 1. (12.9)

Aceste sistem de n+ 1 ecuatii si n+ 1 necunoscute, si anume λ1, λ2, . . . , λn, α. Solutiile λOKi ale acestuisistem sunt ponderile cautate. Folosind aceste ponderi, determinam estimaa valorii lui Z in x0 prin:

ZOK(x0) =n∑i=1

λOKi Z(xi).

Dispersia pentru kriging ordinar se calculeaza similar ca in cazul metodei kriging simplu si are formula:

σ2OK(x0) = C(0)−n∑i=1

λOKi cov(Z(x0), Z(xi))− α. (12.10)

Observatii:

• Ponderile λOKi vor avea valori mai mari pentru punctele apropiate lui x0. In general, cele maiapropiate 4 sau 5 valori contribuie cu cca 80% din ponderea totala in prezicerea valorii lui Z in x0,iar urmatoarele 10 puncte invecinate cu cca 20%.

• In general, σ2OK(x0) este un pic mai mare decat σ2SK(x0) din cauza incertitudinii legate de valoareareala a lui µ.

• Daca variograma prezinta efect nugget, atunci cresterea dispersiei pentru nugget va conduce la ocrestere a dispersiei pentru valorile prezise prin kriging.

• Daca locatiile masuratorilor nu sunt regulat raspandite, atunci punctele izolate au in general ponderimai mari decat cele adunate in palcuri (clustere).

• Punctele care sunt ecranate (mascate) de alte puncte din regiune pot avea ponderi negative.

• Am vazut ca, pentru un punct x0, doar o multime mica de puncte vecine vor avea ponderi nenulesemnicative, restul ponderilor ind aproape egale cu 0. Din acest motiv, am putea reduce sistemulde kriging (implicit formula (12.7) doar la punctele vecine. Daca numarul acestor puncte vecineeste semnicativ mai mic decat n, atunci procedeul numeric de calcul al ponderilor se va desfasuraintr-un timp mult mai mic. Este posibil ca, pentru un n mare, ponderile calculate sa prezinte erorimari, din cauza complexitatii sistemului de ecuatii care au ca solutii aceste ponderi. De aceea, serecomanda calcularea ponderilor doar pentru o multime mica de vecini ai lui x0.

• Pentru a determina vecinatatea lui x0 pentru care este practic sa calculam ponderile, se poateproceda astfel:

Pentru o variograma marginita si date dense in jurul lui x0, aceasta vecinatate poate aveadimensiunea range-ului de la variograma. Oricum, punctele care ies din acest range aproapeca nu sunt corelate cu x0.

Daca datele sunt rareate, atunci punctele indepartate pot avea ponderi importante, asa ca ar necesara o vecinatate care sa le includa.

Geostatistica [Dr. Iulian Stoleriu] 88

Pentru un efect nugget mare, punctele indepar-tate vor avea ponderi semnicative, deci vecina-tatea lui x0 ar trebui sa le includa.

Pentru o retea neregulata de date selectate, nu-marul minim de puncte din vecinatatea unui x0

este 3 si numarul maxim nu ar trebui sa depa-seasca 25.

Daca datele din selectie sunt foarte neregulate,atunci este utila impartirea spatiului din jurullui x0 in octanti si sa e alese cele mai apropiate2 puncte din ecare octant (vezi Figura 12.5). Figura 12.5: Impartirea in octanti

pentru determinarea vecinilor

Exerciµiu 12.2 Folosind metoda de interpolare geostatistica kriging ordinar, determinati o predictie sidispersia acesteia pentru valoarea in locatia x0 din Exercitiul 12.1.

- Valorile pentru distante sunt aceleasi ca in Exercitiul 12.1. Sistemul de ecuatii (12.8)&(12.9) caredetermina ponderile λi si multiplicatorul Lagrange α este:

λ1C(x1, x1) + λ2C(x2, x1) + λ3C(x3, x1) + λ4C(x4, x1) + λ1 = C(x0, x1);

λ1C(x1, x2) + λ2C(x2, x2) + λ3C(x3, x2) + λ4C(x4, x2) + λ2 = C(x0, x2);

λ1C(x1, x3) + λ2C(x2, x3) + λ3C(x3, x3) + λ4C(x4, x3) + λ3 = C(x0, x3);

λ1C(x1, x4) + λ2C(x2, x4) + λ3C(x3, x4) + λ4C(x4, x4) + λ4 = C(x0, x4);

λ1 + λ2 + λ3 + λ4 = 1.

Inlocuind valorile covariantelor, obtinem:

2000λ1 + 704.65λ2 + 695.68λ3 + 466.33λ4 + α = 908.78;

704.65λ1 + 2000λ2 + 689.31λ3 + 461.32λ4 + α = 831.89;

695.68λ1 + 689.31λ2 + 2000λ3 + 1286.01λ4 + α = 1507.34;

466.33λ1 + 461.32λ2 + 1286.01λ3 + 2000λ4 + α = 973.50;

λ1 + λ2 + λ3 + λ4 = 1.

Dupa rezolvarea sistemului, obtinem ponderile λi si multiplicatorul Lagrange α:

λOK1 = 0.1971, λOK2 = 0.1410, λOK3 = 0.6506, λOK4 = 0.0113, α = −42.6936.

Folosind formula (12.7), determinam estimarea valorii lui Z in x0:

zOK(x0) = λOK1 z(x1) + λOK2 z(x2) + λOK3 z(x3) + λOK4 z(x4)

= 0.1971 · 40 + 0.1410 · 130 + 0.6506 · 90 + 0.0113 · 160

= 86.576.

Dispersia estimatorului in acest punct poate calculata cu formula (12.10). Obtinem:

σ2OK(x0) = C(0)−n∑i=1

λOKi cov(Z(x0), Z(xi))− α

= 2000− 0.1971 · 908.78− 0.1410 · 831.89− 0.6506 · 1507.34− 0.0113 · 973.50 + 42.6936

= 754.60. √

Geostatistica [Dr. Iulian Stoleriu] 89

12.3 Kriging lognormal

Daca datele observate z(x1), z(x2), . . . , z(xn) sunt pozitive dar nu par a normale (acest fapt se poateobserva dintr-un indice de skewness mai mare decat 1), atunci o practica utila este logaritmarea datelor.Vom obtine astfel setul de date y(x1), y(x2), . . . , y(xn), cu y(xi) = ln(z(xi)). Cu alte cuvinte, in loc saanalizam variabila initiala Z(x), vom lucra cu variabila transformata Y (x) = lnZ(x). Daca presupunemca procesul aleator generat de Y (x) este stationar de ordinul al doilea (slab stationar), atunci putemaplica metodele anterioare (kriging simplu sau kriging ordinar) pentru valorile transformate. Vom obtineastfel valori prezise pentru Y in locatiile neconsiderate in selectie si dispersii pentru aceste valori. Dupaaceasta, aceste valori se vor transforma inapoi in valori prezise pentru variabila originala, Z(x).

Sa notam prin YSK(x0) si σ2SK(x0) estimatori punctuali pentru, respectiv, valoarea prezisa si dispersiasa obtinute prin kriging simplu in x0. Similar, notam prin YOK(x0) si σ2OK(x0) estimatori punctualipentru, respectiv, valoarea prezisa si dispersia sa obtinute prin kriging ordinar in x0. Atunci, estimatoriicorespunzatori pentru variabila Z sunt:

ZSK(x0) = eYSK(x0)+12σ2SK(x0) pentru kriging simplu

siZOK(x0) = eYOK(x0)+

12σ2OK(x0)−α(x0) pentru kriging ordinar,

unde α(x0) este multiplicatorul Lagrange. Dispersia pentru variabila originata poate estimata doarpentru metoda kriging simplu, pentru care µ este cunoscut. Aceasta este:

VarSK(x0) = µ2eσ2SK(x0)[eσ

2SK(x0) − 1].

12.4 Kriging universal (sau kriging cu drift)

Este posibil ca valoarea µ din relatia (12.2) sa nu e nicicunoscuta, nici constanta, indicand prezenta unui trend (saudrift). In acest caz,

Z(x) = u(x) + ε(x), (12.11)

unde u(x) este o functie determinista si ε(x) este parteaaleatoare a variabilei, reprezentand eroarea de aproximare avariabilei cu valoarea µ.

Figura 12.6: Variabila cu trend neliniar

Aceasta eroare este presupusa a normala, de medie 0 si variograma γ(h). Cantitatea ε(x) = Z(x)−u(x)se mai numeste si reziduu de trend. Expresia lui u(x) este de obicei un polinom de coordonatele geograce,de forma:

u(x) =

m∑j=0

βjfj(x),

unde βj sunt niste numere reale necunoscute si fj(x) niste functii necunoscute. Acest trend poate estimat pe baza observatiilor z(x1), z(x2), . . . , z(xn). Spre exemplu, un trend liniar 2−dimensionalarata de forma

u(x) = β0 + β1x1 + β2x2.

Geostatistica [Dr. Iulian Stoleriu] 90

Un trend neliniar parabolic 1−dimensional care ar putea un model pentru cel din Figura 12.6 este deforma

u(x) = β0 + β1x+ β2x2.

Coecientii β0, β1, β2 pot obtinuti prin metoda celor mai mici patrate (regresie liniara multiple).

In prezenta unui trend, G. Matheron a sugerat estimarea variabilei Z in x0 prin

ZUK(x0) =n∑i=1

λiZ(xi),

cu λi vericand constrangerean∑i=1

λi = 1. Valoarea medie a acestui estimator este

E[ZUK(x0]) =n∑i=1

m∑j=0

λiβjfj(xi)

Conditia de nedeplasare a estimatorului este:

n∑i=1

λifj(xi) = fj(x0), pentru orice j = 0, 1, 2, . . . , m.

Folosind metoda multiplicatorilor lui Lagrange, se pot determina ponterile λUKi si parametrii necunoscutiβj . Astfel, un estimator pentru valoarea lui Z in x0 va

ZUK(x0) =n∑i=1

λUKi Z(xi),

iar dispersia acestui estimator este

VarUK(x0) = C(0)−n∑i=1

λi C(x0, xi)−m∑j=0

βjfj(x0).

12.5 Kriging indicator

Aceasta medota de kriging este folosita pentru variabilele de tip binar (Bernoulli), adica acele variabilediscrete care pot lua doar doua valori: 1 (prezenta) sau 0 (absenta). Este utila in practica atunci candpentru variabila de interes se doreste sa se estimeze probabilitatea ca aceasta sa depaseeasca o anumitavaloare prag, notata aici prin zc. Spre exemplu, am dori sa determinam probabilitatea ca, intr-o anumitaregiune, apa de baut sa aiba o concentratie de nitrati sub pragul critic zc = 50mg/l. Un alt exemplu estedeterminarea probabilitatii ca intr-o regiune solul sa aiba o valoare pH sub o valoare critica.

Fie Z o variabila de interes. Pentru aceasta variabila construim functia indicatoare

χzc(x) =

1 daca Z(x) ≤ zc;0 daca Z(x) > zc.

Aceasta functie indicatoare este o variabila binara. Valoarea medie a acestei variabile este chiar probabili-tatea ca valorile variabilei Z(x) sa nu depaseasca pragul critic zc, care este totuna cu functia de repartitiea acestei variabile in valoarea zc. Matematic, scriem astfel:

E[χzc(x)] = P (Z(x) ≤ zc) = FZ(x)(zc).

Geostatistica [Dr. Iulian Stoleriu] 91

Pentru variabila indicatoare se poate estima variograma teoretica

γzc(h) =1

2E[(χzc(x)− χzc(x+ h))2

]pe baza unei variograme experimentale:

γzc(h) =1

2|N(h)|

N(h)∑i=1

[(χzc(xi)− χzc(xi + h))2

].

Pe baza variogramei teoretice se pot prezice valori ale variabilei Z in punctele neselectate. O metoda dekriging indicator bazata pe n observatii χzc(xi)i=1, n are la baza formula de estimare:

χzc(x0) =

n∑i=1

λiχzc(xi). (12.12)

Pentru estimare se poate proceda ca in metoda kriging simplu. Ponderile pot obtinute ca solutii alesistemului de n ecuatii si n necunoscute:

n∑i=1

λiγzc(xi, xj) = γzc(x0, xj) pentro orice j = 1, 2, . . . , n,

unde γzc(xi, xj) sunt semivariantele calculate in punctele xi si xj . Dupa ce se determina ponderile λIKi ,se estimeaza valoarea

χzc(x0) =

n∑i=1

λIKi χzc(xi).

Valoarea prezisa χzc(x0) va o valoare intre 0 si 1, reprezentand probabilitatea ca, pentru datele observate,variabila Z(x) ia valori sub pragul critic zc. Matematic, scriem ca

χzc(x0) = P (Z(x) ≤ zc | zi, i = 1, n

).

13 Cokriging

Aceasta metoda ofera posibilitatea de a prezice simultan valorile a doua sau mai multe variabile pentru unacelasi domeniu. Se mai numeste si coregionalizare. Nu este necesar ca toate variabilele sa e masuratein aceleasi locatii, insa ar indicat sa e un minim de valori observate perechi in aceleasi locatii dinregiune de interes. Aceasta metoda poate utila atunci cand una dintre variabile, variabila primara, afost observata in putine locatii, insa corelatia sa cu alte variabile (secundare) de interes in regiune poateduce la o precizie mai mare a estimarilor celei dintai variabile.

Presupunem ca Z1(x), Z2(x), . . . , Zp(x) sunt p variabile ce se doresc a masurate pentru un acelasidomeniu. Putem crea matricea aleatoare:

Z(x) = [Z1(x), Z2(x), . . . , Zp(x)].

Vom nota prin Λi matricea ponderilor corespunzatoare ecarei valori a ecarei variabile. O vom scrie subforma:

Λi =

λi11 λi12 . . . λi1pλi21 λi22 . . . λi2p. . . . . . . . . . . .λi41 λi42 . . . λipp

Geostatistica [Dr. Iulian Stoleriu] 92

Scopul principal al metodei cokriging este de a determina (prin metoda celor mai mici patrate) ponderileΛi pentru estimatorul:

ZCK(x0) =n∑i=1

ΛiZ(xi),

cu constrangerean∑i=1

Λi = In matricea identitate de ordin n.

Modelul cokriging va furniza un numar de p estimatori liniari in x0, cate unul pentru ecare variabila inparte, si p dispersii corespunzatoare estimatorilor. Metoda este asemanatoare cu metoda kriging ordinara,insa executata pentru p variabile simultan.

14 Cross-validare (validarea incrucisata)

Cross-validarea este o metoda de vericare sau de a alege dintre mai multe modele de kriging pentruaceleasi date observate. Precizam mai jos detaliile validarii incrucisate:

• Se calculeaza variograma experimentala si apoi se potrivesc diverse variograme teoretice potrivite;

• Se scoate un punct dintre cele n initiale si se estimeaza valoarea in acest punct pe baza celorlalte n−1puncte. Aceasta valoare prezisa este comparata cu valoarea masurata initial. Se repeta procedurapentru toate valorile observate.

• Diagnosticarea se face e prin grace sau prin masurarea erorilor de predictie. Gracele sunt deforma valori prezise versus valori masurate. Pentru o predictie cat mai buna, valorile prezisetrebuie sa e cat mai apropiate de cele masurate, aceasta observandu-se in grac daca punctele rosiisunt apropiate de dreapta 1:1.

• Pentru a face un diagnostic numeric al preciziei estimarii, se folosesc urmatoarele masuri ale erorilorde interpolare:

• Eroarea medie (Mean error in ArcGIS):

ME =1

n

n∑i=1

[z(xi)− z(xi)].

• Eroarea medie standardizata (MeanStandardized error in ArcGIS):

SME =1

n

n∑i=1

[z(xi)− z(xi)]σ(xi)

.

• Eroarea medie patratica:

MSE =1

n

n∑i=1

[z(xi)− z(xi)]2.Figura 14.1: Compararea a doua metode kriging.

Geostatistica [Dr. Iulian Stoleriu] 93

• Radacina mediei erorilor patratice (Root-Mean-Square error in ArcGIS):

RMSE =

√√√√ 1

n

n∑i=1

[z(xi)− z(xi)]2.

• Eroarea standard medie (Average Standard error in ArcGIS):

ASE =

√√√√√√n∑i=1

σ(xi)

n.

• Radacina mediei erorilor patratice standardizate (Root-Mean-Square Standardized error in ArcGIS):

RMSSE =

√√√√ 1

n

n∑i=1

[z(xi)− z(xi)

σ(xi)

]2.

Pentru o precizie foarte buna este de dorit ca primele erorile ME, SME si MSE sa e cat mai apropiate devaloarea 0, eroarea RMSSE va trebui sa e apropiate de valoarea 1, iar erorile RMSE si ASE sa e similare.Figura 14.1 contine doua grace pentru doua metode de interpolare kriging ordinar; prima metoda estefara trend iar a doua cu trend. Fiecare gura reprezinta valorile prezise vs. valorile masurate. Pentru oapropiere cat mai buna, punctele rosii ar trebui sa e cat mai apropiate de dreapta 1:1 (prima bisectoare).Pentru a determina care dintre cele doua metode este mai buna, ne uitam la erorile asate si cautammetoda ce da erorile cele mai mici.

Geostatistica [Dr. Iulian Stoleriu] 94

Figura 14.2: Etape pentru interpolarea prin kriging

Geostatistica [Dr. Iulian Stoleriu] 95

15 Simulare stochastica

Dupa cum am vazut mai sus, metodele kriging sunt utilizate pentru a estima valorile posibile ale uneivariabile in locatiile neobservate. Estimarile obtinute sunt optimizate astfel incat in acele locatii vari-antele sunt minime. Totusi, nu este nicio garantie ca o harta obtinuta printr-o metoda kriging va aveaaceeasi variatie (sau variograma) ca si datele observate initial. Daca se doreste a construi o harta caresa pastreze intocmai caracteristicile datelor observate, atunci trebuie considerate metode alternative lametodele kriging. O astfel de metoda este simularea stochastica.

Simularea stochastica ofera posibilitatea de a crea valorile uneia sau mai multor variabile care sa aibaaceleasi caracteristici ca si datele observate in realitate. Variabilele pentru care putem obtine simulari pot atat discrete cat si continue.

Presupunem ca z(xi)i=1,n sunt valorile observate pentru variabila Z(x). Dupa cum am discutat anterior,putem privi Z(x) ca ind un proces stochastic. Daca acest proces este stationar de ordinul al doilea, atunciel poate descris prin media si functia de covarianta. Acesti parametri ii putem estima cu statisticispecice obtinute pe baza datelor observate. Principiul simularii stochastice este simularea pe calculatorde valori posibile pentru variabila Z(x) ce au media ³i functia de covarianta stabilite. Se pot astfel creaoricate (o innitate) simulari se doreste, toate realizarile avand aceeasi probabilitate de aparitie, aceeasimedie si aceeasi functie caracteristica. Din punct de vedere teoretic, valoarea medie a unui numar mare desimulari va arata similar cu harta obtinuta prin metoda kriging. Simularile stochastice ofera posibilitateade a obtine predictii realiste ale valorile unei variabile, pe cand estimarile obtinute prin metoda kriging sepreocupa mai mult de acuratetea statistica a predictiilor.

In concluzie, metoda kriging ofera estimari locale de varianta minima, fara a se preocupa de distributia inansamblu a valorilor prezise. Pe de alta parte, simularea stochastica are ca scop reproducerea distributieidatelor observate, fara a se preocupa de acuratetea locala a valorilor prezise.

Simularile stochastice pot facute in doua moduri: neconditionate si conditionate.

O simulare stochastica neconditionata nu are alte constrangeri asupra valorilor simulate decat faptul camedia si o functia de covarianta a acestor valori sa e cea specicat a priori. O simulare stochasticaconditionata are, pe langa constrangerile de medie si functie de covarianta, cerinta ca valorile observatepentru variabila aleatoare sa e pastrate in urma simularii. Cu alte cuvinte, o simulare conditionata esteo procedure ce reproduce valorile si locatiile tuturor datelor observate, pe cand una neconditionata nu areaceasta cerinta.

In cazul unei simulari stochastice neconditionata, metoda de simulare este metoda Monte Carlo. Existadiverse software care pot simula valori aleatoare ce au media si functia de covarianta specicate.

In cazul unei simulari conditionate, varianta valorilor simulate este dublul variantei valorilor estimate prinmetoda kriging. Asadar, daca scopul este o precizie mai buna a valorilor simulate, metoda kriging estemai buna. Daca scopul este realizarea unei harti pentru care caracteristicile observatiilor sa e pastrate,atunci metoda de simulare este cea potrivita.

Exista mai multe tipuri de simulari stochastice, si anume:

• simulare gaussian secvenµial (ecare valoare este simulata secvential in concordanta cu functia sade repartitie conditionata normala, care se determina in ecare locatie simulata);

• metode de descompunere LU (bazata pe descompunerea Cholesky a oricarei matrice pozitiv deniteC in produs de doua matrice triunghiulare, inferior si superior, i.e., C = LU .);

• simulare annealing (bazata pe algoritmi de optimizare);

Geostatistica [Dr. Iulian Stoleriu] 96

• metode orientate pe obiect;

Metoda de simulare gaussiana secventiala este cea mai folosita. Pasii de implementare a metodei sunt:

• Asigurarea ca datele sunt normale. In caz ca nu sunt normale, datele ar putea transformate indate normale standard;

• Se determina un model de variograma;

• Se formeaza un grid cu punctele in care urmeaza sa determinam simulari;

• Se determina ordinea (o secventa) locatiilor xi in care vom obtine simulari.

• Pentru ecare locatie xi se determina Z(xi) si σ2K(xi) prin metoda kriging simpla. Apoi, se va generaaleator o valoare normala ce are media Z(xi) si varianta σ2K(xi). Aceasta valoare simulata se vaadauga la setul de date observate, apoi se trece la simularea urmatoarei valori. Se repeta procedeulde kriging (incluzand in setul de date toate valorile simulate anterior) pana ce toate valorile pentrupunctele din grid au fost simulate.

• Daca datele originale au fost transformate, se va aplica transformarea inversa pentru a determinasimularile valorilor variabilei de interes.

Anexa 1 [Dr. Iulian Stoleriu] 97

16 Anexa 1

Tabele cu cuantile pentru repartitii uzuale

α 0.9 0.95 0.975 0.99 0.995 0.999zα 1.282 1.645 1.960 2.326 2.576 3.090

Tabela 16.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul aseaza cuantila zα pentru careP (Z ≤ zα) = α, unde Z ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα.

n \ α 0.9 0.95 0.975 0.99 0.995 0.999 n \ α 0.9 0.95 0.975 0.99 0.995 0.999

1 3.078 6.314 12.706 31.821 63.657 318.313 21 1.323 1.721 2.080 2.518 2.831 3.5272 1.886 2.920 4.303 6.965 9.925 22.327 22 1.321 1.717 2.074 2.508 2.819 3.5053 1.638 2.353 3.182 4.541 5.841 10.215 23 1.319 1.714 2.069 2.500 2.807 3.4854 1.533 2.132 2.776 3.747 4.604 7.173 24 1.318 1.711 2.064 2.492 2.797 3.4675 1.476 2.015 2.571 3.365 4.032 5.893 25 1.316 1.708 2.060 2.485 2.787 3.4506 1.440 1.943 2.447 3.143 3.707 5.208 26 1.315 1.706 2.056 2.479 2.779 3.4357 1.415 1.895 2.365 2.998 3.499 4.782 27 1.314 1.703 2.052 2.473 2.771 3.4218 1.397 1.860 2.306 2.896 3.355 4.499 28 1.313 1.701 2.048 2.467 2.763 3.4089 1.383 1.833 2.262 2.821 3.250 4.296 29 1.311 1.699 2.045 2.462 2.756 3.39610 1.372 1.812 2.228 2.764 3.169 4.143 30 1.310 1.697 2.042 2.457 2.750 3.38511 1.363 1.796 2.201 2.718 3.106 4.024 32 1.309 1.694 2.037 2.449 2.738 3.36512 1.356 1.782 2.179 2.681 3.055 3.929 34 1.307 1.691 2.032 2.441 2.728 3.34813 1.350 1.771 2.160 2.650 3.012 3.852 36 1.306 1.688 2.028 2.434 2.719 3.33314 1.345 1.761 2.145 2.624 2.977 3.7870 38 1.304 1.686 2.024 2.429 2.712 3.31915 1.341 1.753 2.131 2.602 2.947 3.733 40 1.303 1.684 2.021 2.423 2.704 3.30716 1.337 1.746 2.120 2.583 2.921 3.686 50 1.299 1.676 2.009 2.403 2.678 3.26117 1.333 1.740 2.110 2.567 2.898 3.646 60 1.296 1.671 2.000 2.390 2.660 3.23218 1.330 1.734 2.101 2.552 2.878 3.610 80 1.292 1.664 1.990 2.374 2.639 3.19519 1.328 1.729 2.093 2.539 2.861 3.579 100 1.290 1.660 1.984 2.364 2.626 3.17420 1.325 1.725 2.086 2.528 2.845 3.552 ∞ 1.282 1.645 1.960 2.326 2.576 3.090

Tabela 16.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul aseaza cuantila tα, npentru care P (Z ≤ tα, n) = α, unde Z ∼ t(n). Daca n este mai mare de 100, se poate utiliza tabelul dela repartitia normala.

Anexa 1 [Dr. Iulian Stoleriu] 98

1 Table des quantiles de la v.a. Chi-Carre

Fournit les quantiles xp tels queP(X≤xp)= ppour X ∼ χ2

n

n / p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995n1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,882 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,603 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,844 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,865 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,756 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,557 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,288 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,959 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,5910 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,1911 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,7612 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,3013 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,8214 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,3215 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,8016 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,2717 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,7218 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,1619 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,5820 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,0021 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,4022 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,8023 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,1824 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,5625 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,9326 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,2927 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,6428 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,9929 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,3430 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,6740 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,7750 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,4960 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,9570 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,280 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,390 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2

1

Tabela 16.3: Cuantile pentru repartitia χ2(n). Pentru un α = p si un n, tabelul aseaza cuantila χ2α, n

pentru care P (Z ≤ χ2α, n) = α, unde Z ∼ χ2(n).

Anexa 2 [Dr. Iulian Stoleriu] 99

17 Anexa 2

Figura 17.1: Exemplu de date statistice spatiale.

Glosar

amplitudinea, 33

box-and-whisker plot, 36

caracteristic , 5clas median , 38clopotul lui Gauss, 29coecient de aplatizare, 25, 34coecient de asimetrie, 25, 34coecient de corelaµie, 66coecient de corelaµie teoretic, 27coecientul de variaµie , 33colectivitate statistic , 5corelaµia, 33corelaµia teoretic , 26cuantile, 25

date continue, 8date discrete, 8densit µi de frecvenµ , 14deplasarea unui estimator, 43deviaµia standard, 33dispersia, 32dispersia teoretic , 24distribuµie empiric de selecµie, 9

eroare în medie p tratic , 43estimator nedeplasat, 43eveniment aleator, 18eveniment aleator compus, 18eveniment aleator elementar, 18evenimente dependente, 27evenimente independente, 27experienµ aleatoare, 18

frecvenµ cumulat , 11frecvenµa absolut , 9, 19frecvenµa cumulat , 9frecvenµa relativ cumulat , 9frecvenµa relativ , 9frontierele unei clase, 15funcµia de probabilitate (de frecvenµ ), 22funcµie de repartiµie (cumulat ), 22funcµie de repartiµie empiric , 34

histogram , 14

interval de încredere, 45ipotez statistic , 49

kriging, 81, 82kriging ordinar, 86kurtosis, 25, 34

media, 32media teoretic , 23metoda celor mai mici patrate, 80modul, 26momente, 32momente centrate ale unei v.a., 25mulµime de selecµie, 18

nivel de semnicaµie, 45, 49

ogiv , 17

P-valoare, 50populaµie statistic , 5probabilitate, 19probabilitate de risc, 45

recens mânt, 6regula celor 3σ, 24repartiµia χ2, 30repartiµia normal standard, 29riscul beneciarului, 49riscul furnizorului, 49

scatter plot, 59selecµie, 6serie de timpi, 9simulare stochastica, 95simulare stochastica conditionata, 95simulare stochastica neconditionata, 95skewness, 25, 34Statistic , 3stem-and-leaf, 12

tabel de frecvenµe, 9test bilateral, 51test de concordanµ , 54test statistic, 51test unilateral dreapta, 51test unilateral stânga, 51

UMVUE, 43

variabil aleatoare, 21variabila aleatoare standardizat , 24

100

Glosar [Dr. Iulian Stoleriu] 101

variograma, 68variograma empirica, 69, 77variograma regionala, 69variograma teoretica, 69

Bibliografie [Dr. Iulian Stoleriu] 102

Bibliograe

[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[2] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with CD-ROM),Duxbury Press, 2006.

[3] Clayton V. Deutsch, Geostatistical reservoir modeling, Oxford University Press, 2002.

[4] Pierre Goovaerts, Geostatistics for natural resources evaluation, Oxford University Press, 1997.

[5] Peter K. Kitanidis, Introduction to Geostatistics, Applications in Hydrogeology, Cambridge UniversityPress, 1997.

[6] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic enciclopedie de sta-tistic , Editura ³tiinµic ³i enciclopedic , Bucure³ti, 1985.

[7] Georges Matheron, Principles of Geostatistics, Economic Geology 58, 1963, pp. 1246-1266.

[8] Georges Matheron, Les variables régionalisées et leur estimation, Masson, Paris, 1965.

[9] Gheorghe Mihoc, N. Micu, Teoria probabilit µilor ³i statistica matematic , Bucuresti, 1980.

[10] Ricardo A. Olea, Geostatistics for Engineers and Earth Scientists, Kluwer Academic Publishers,Boston, 1999

[11] Iulian Stoleriu, Statistic prin Matlab. MatrixRom, Bucure³ti, 2010.

[12] Richard Webster, Margaret Oliver, Geostatistics for environmental scientists, John Wiley and Sons,Ltd., 2007.

[13] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge UniversityPress, 2001.