zipf's law

Upload: uwe-boll

Post on 08-Mar-2016

259 views

Category:

Documents


1 download

DESCRIPTION

A conference about Zipf's law

TRANSCRIPT

Liceul Teoretic,,Principesa Natalia Dadiani

Tema:Legea ZipfConferinta la matematica

Elaborat:Zmuncila AlexandruElev al clasei X ,,ACoordonator:Izman Nina,professor de matematica

Cuprins:3788101315171819

1.Introducere 2.Scurt istoric 3.Legaturi cu alte legi matematice 3.1 Legea lui Pareto 3.2 Principiul putinului efort 3.3 Procese preferentiale de atasare 4.Distributia lui Gauss 5.Legea lui Zipf in aceasta conferinta 6.Incheiere 7.Bibliografie

1.Introducere6 procente din tot limbajul zilnic al englezilor este cuvntul ,,the" care se folosete 1 data la fiecare 16 cuvinte. Dac vom ncerca s crem un tabel grafic al popularitii folosirii cuvintelor, vom vedea c graficul a luat o form care seamn cu acesta.Dup cum vedem, a aprut o consecutivitate. Al doilea cuvnt este folosit de doua ori mai rar dect primul, al treilea de 3 ori mai rar, etc. Numrul de ori un cuvnt este folosit este proporional cu 1 asupra ordinii cuvntului. Frecvena cuvntului i ordinea pe un grafic logaritmic este o linie dreapt. Acest fenomen este numit legea lui Zipf i ea nu se aplica doar pentru limba englez.

Dup cum vedem, aceast lege se aplic la toate limbele cunoscute, i chiar la cele necunoscute, cum ar fi cele antice care nu au putut fi translate.Din acest motiv, legea lui Zipf adesea este numita misterul lui Zipf. nimeni nc nu a aflat motivul acestui fenomen. Este uimitor cum un lucru aa de complex i creativ ca limba se comport intr-o modalitate aa de previzibil.

Aceast regul poate fi controlat pe cale experimental. Websiteul www.wordcount.org prezint cuvintele n ordinea frecvenei lor n cri i esee. Cuvntul ,, frequency " are frecvena de folosire 3358 , i folosind aceast formul obinem c lexemul dat este folosit de 53990 n literatura englez . Acest numr corespunde cu documentul ,,Word Frequency in English Language al Universitatii Oxford care confirma aceast formul.

In aceasta formula,181000000 arata numarul total de utilizari a cuvintului cel mai des folosit,,the inmultit cu inversul proportional al frecventei lexemului pentru obtinerea totalul de utilizarii cuvintului in internet,carti si esee.Si aceasta formula poate fi folosita la restul limbilor lumii,chiar si romana. Dar cel mai interesant in misterul lui Zipf este faptul ca el nu se refera doar la limbi.

Lumea este haotica,lucrurile sunt distribuite in cai nenumarate , nu doar dupa legi de tip putere.Si limba este ceva personal,intenionat,total deosebit pentru fiecare.De aici vine intrebarea, care este motivul pe baza carui noi influentam lumea complexa din imprejurul nostru sa urmareasca asa o regula banala?Peste un secol de cercetare nu a putut da o explicatie al acestui fenomen.Dar,legea lui Zipf nu este legata doar de folosirea cuvintelor,este deasemenea gasit la populatia oraselor,frecventa exploziilor solare,secventa proteinelor si receptorilor imunitari,numarul de vizualizari al unui website,puterea cutremurilor de pamint,numarul de ori cind o lucrare stiintifica este citata,numele de familie,ingredientele folosite in culinary,numarul de convorbiri telefonice,diametrul craterelor de pe luna,popularitatea inceperilor in sah si chiar rata la care noi uitam .

2.Scurt Istoric

George Kingsley Zipf(n.1902 d.1950) a fost un lingvist American care a studiat intilnirile statistice in limbi diferite. El si-a cistigat bacalaureatul,masteratul si doctoratul la Universitatea Harvard, invatind deasemenea la Universitatea Bonn si cea din Berlin. El a fost in Departamentul German in Harvard ,ce insemna ca el putea preda orice obiect care dorea. El lucre cu limba chineza si statistica demografica, si mult effort depus de el poate explica proprietatile internetului,impartirea avutului intre natie si multe alte colectii de date.Desi descoperirea acestei proprietati nu a fost realizata de el,faptul ca Zipf a popularizat-o si a incercat sa o explice ia atribuit legii numele lui. Pentru prima data aceasta lege a fost observata de Felix Auerbach in 1913, cind el revizuia date despre populatia oraselor.

3.Legatura cu alte legi matematice3.1 Principiul ParetoForma grafica a legii lui Zipf este o forma distincta a distributiei continuie Pareto , din care noi primim Principiul Pareto.Fiindca o multime de procese in viata reala se comporta in asa modalitate,acest principiu ne spune ca trebuie de presupus 20% din cause sunt responsabile de 80% din rezultate,asemanator limbii ,unde 18% de cuvinte se intilnesc in 80% din cazurile totale.In 1896,Vilfredo Pareto a aratat ca aproximativ 80% din pamint in Italia era stapinit de 1/5 din populatie.Se spune ca mai tirziu el a observant ca in gradina sa 20% din pastaile de mazare au avut 4/5 din numarul totat de boabe.

El si multi alti cercetatori s-au uitat la alte colectii de date si au gasit ca inbalanta 80-20 se intilneste foarte des in lume.Cei mai bogati 20% din oameni au 82.7% din toata averea lumii.In SUA 20% din pacienti folosesc 80% din resursele de lecuire.In 2002,compania Microsoft a raportat ca 4/5 din toate erorile in Windows si Office au fost cauzate de 1/5 din toate defectele detectate.O regula nescrisa in bussines consta in acea ca 80% din venit va fi adus de 20% din clienti,iar 4/5 din toate nemultumirile vor fi aduse de 1/5 din client.In cartea,,Principiul 80/20 se spune ca acasa sau in oficiu 20% din covor primeste 80% din toti pasii.

Principiul Pareto este present peste tot. El permite concentrarea asupra 20% din greseli pentru a rezolva 80% din problemele aparute. O varietate de factori nelegati determina ca acest lucru sa fie adevarat pentru cazuri diferite,dar daca noi vom determina cauza acestui fenomen noi vom putea gasi mecanismul raspunzator de legea lui Zipf in limba.

3.2 Principiul putinului efortGeorge Zipf singur credea ca proprietatea interesanta de distribuire a cuvintelor in limba este o consecinta a principiului Putinului Efort. Tendenta vietii si lucrurilor la general de a urma o cale de minima rezistenta. Zipf credea ca comportamentul uman era condus de acest principiu si presupunea ca odata cu evolutia limbii la ,vorbitorii preferau sa foloseasca cit mai putine cuvinte pentru a-si expune gindul.Acest lucru era mai usor.Dar pentru a intelege ce era spus,ascultatorii preferau vocabularuri mult mai specific,pentru a face mai putin lucru. Zipf considera acea compromisa dintre ascultare si vorbire sa fi dus la starea curenta a limbii.Putine cuvinte sunt folosite des si foarte multe sunt utilizate extreme de rar.Lucrarile stiintifice recente au sugerat ca folosirea unor cuvinte scurte si des folosite,ajuta la imprastierea informatiei ,spatiind cuvintele importante pentru a face rata informatiei mai constanta, evidentiind lexemele semnificative. Acest lucru are sens si mult a fost invatat aplicind principiul de efort minim in alte domenii,dar current matematicienii au tras concluzia ca in cazul limbii,explicatia a fost mult mai simpla. Doar citiva ani dupa publicarea lui Zipf, Benoit Mandelbrot a aratat ca nu este nimic misterios in legea lui Zipf,fiindca chiar daca noi scriem multe cuvinte fara a realiza ce scriem,noi vom primi cuvinte care se distribuie dupa aceasta lege.Motivul principal este ca exista exponential mai multe cuvinte lungi diferite decit cuvinte scurte.De exemplu alfabetul Englez poate fi folosit pentru a face 26 de cuvinte cu o litera,dar 26 cuvinte din 2 litere.

Deasemenea in tapari intimplatoare ,un spatiu inseamna sfirsitul unui cuvint ,si fiindca tasta,,space are o sansa inalta de a fi apasata, sectiuni lungi neintrerupte sunt mai rare ca sectiunile scurte.De exemplu, daca toate 26 de litere in engleza si spatiul au aceasi probabilitate de a fi tapate, dupa ce o litera este tapata si un cuvint s-a inceput,probabilitatea ca urmatorul character va fi un spatiu,creind un cuvint de o litera ,este doar 1/27.Cuvinte din doua litere apar dupa cecuvintul s-a inceput si orice character a fost tapat inafara de spatiu,uirmatorul character fiind loc gol ,sansa fiind (26/27)*(1/27).Un cuvint din 3 litere este o litera,urmata de 2 litere si un spatiu,sansa fiind (26/27) x(1/27).Daca vom imparti cu numarul de cuvinte unice posibile,noi primim frecventa intilnirii unui cuvint ,stiind lungimea lui.De exemplu litera ,,N are sansa de 0.142 procente in scriere intimplatoare.Cuvintul ,,Numere 0.0000000993 procente.Impartind frecventa dupa rangul de folosire frecventa.Sunt 26 cuvinte din 1 litera,atunci toate din top 26 cuvinte clasate pe locuri se intilnesc asa de des.Urmatoarele 676 vor fi luate de cuvinte din 2 litere.Daca le plasam pe toate,primim graficul Zipf. Matematicienii au detailat cum schimbarea conditiilor initiale pot sa creeze o linie perfecta pe grafic. Distributia misterioasa a fost creata doar din caracterul inevitabil al matematicii.Si acest mister ar fi descifrat daca limba s-ar asemana cu tapari intimplatoare,dar comunicatia este determenista la un nivel avansat.Subiectele de discutie apar din ceea ce a fost spus mai inainte.Si vocabularul nu este rezultatul taparilor intimplatoare.Aceste exeple nu pot explica urmarea lunilor,elemtelor si planetelor dupa legea lui Zipf.Asa imbinari sunt constrinse de lumea noastra si nu sunt rezultatul segmentarii intimplatoare a lumii in etichete.Si cind noi avem o lista de cuvinte dintr-o nuvela care nu au fost inventate de autor,ca de exemplu o carte de fantezie cu nume de locuri si personaje imaginare,oamenii vor avea tendinta sa foloseasca numele cuiva de 2 ori mai mult decit altul,de 3 ori s.a.m.d3.3 Procese preferentiale de atasareExista o cauza de temele de discutie si ideile noi apar in concordanta cu aceasta lege. Aceste distributii apar sub un process care se schimba dupa modul care au operat in trecut.In algebra si geometrie ele se numesc procese preferntiale de atasare.Acest lucru se intimpla cind absolut orice este distribuit in conformitate cu posesia curenta.Cel mai popular exemplu este cu un bulgar de zapada lasat de pe un deal.Cit mai multa zapada el acumuleaza,suprafata lui va creste ca si viteza de marire. Un website devine mai poular exponential cu timpul,in cantitate de vizualizari.Pentru procesele preferentiale nu trebuie sa fie o alegere deliberate. Ele se pot intimpla natural. O dovada practica poate fi urmatorul experiment.Luam mai multe agrafe si luam 2 intimplator, le unim impreuna si le aruncam la restul agrafelor. Acum, repetam din nou si din nou. Daca luam una care deja este unite,mai unim cu alta.Cel mai des,distributia se va imparti dupa legea lui Zipf.Acest lucru se intimpla fiindca cu cit mai lung este lantul,cu atit este mai mare probabilitatea ca el va fi luat la intimplare,si va deveni mai lung.Bogatii devin mai bogati,ce este mare devine si mai mare.Acest lucru este pura matematica.

Probabil conectiunea limbii de legea lui Zipf este legata de atasari preferentiale,punctele critice jucind un rol foarte important. Textele si conversatiile deseori se conduc la aceasi tema,pina nu s-a ajunsa la un punct critic si atunci se schimba tema ,impreuna cu vocabularul folosit. Aceste procese se distribuie grafic in legi de tip putere.Se creaza impresia ca toate aceste mecanisme fac limba sa urmeze legea lui Zipf.Posibil ca o parte din vocabular si gramatica a aparut intimplator, dupa teoria lui Mandelbrot.Si conversatiile simple urmeaza atasarile preferentiale si impreuna cu principiul putinului effort duc la relatia dintre frecventa si pozitia sa. Si acest lucru este fascinant din motivul consecintelor lor asupra vorbirii. Vorbind mathematic, aproximativ jumate din orice carte consta din aceleasi 50-100 cuvinte, si alta jumate vor fi cuvinte care apar doar odata. Acest fapt nu este uimitor cind se ia in considerare cad doar un cuvint este responsabil pentru 6% din discutia noastra. Top 25 din cele mai frecvente cuvinte folosite fac 1/3 din totalul cuvintelor vorbite si scrise , iar top 100 sunt 50%. Daca luam orice carte, fie ,,Alice in Tara Minunilor unde procentul de cuvinte folosite odata este 44%, sau Tom Sawyer ,unde numarul este 49,8%, sau chiar aceasta conferinta , unde 56% sunt cuvinte care s-au repetat de mai multe ori,restul fiind folosite odata(si cel mai frecvent cuvint,,de fiind in 6%).

4.Distributia lui Gauss Distributia lui Gauss, deseori referita ca Distributia normal este o distributie de probabilitate continua.Ea prezinta in plan grafic distributia normal cu media 0(dar poate fi diferita in dependent de domeniu) si variatia 1. Cind este reprezentant graifc, aceasta lege ia forma simetrica in legetura cu axa imaginara ox.Aceasta lege prezinta cea mai raspindita distributie din natura. Un numar enorm de relatii statistice devin clare cind noi asumam distributia normala.

Nimic in viata reala nu se aliniaza perfect cu aceasta lege, dar este uimitor cite repartitii au procentul de eroare extreme de mic. Acest lucru se intimpla datorita teoremei limite central, care spune ca daca calculam media la destule lucruri nerelatate , noi obtinem distributia normala. Asemenea mecanicii clasice in fizica, aceasta lege in statistica este o increngatura speciala care este usoara de inteles si calculele sunt simple si usor de interpretat.

Exemplu de problema:Profesorul are 184 de student in colegiul de matematica. Nota la teze este distribuita dupa legea lui Gauss cu =72.3 si o derivatie standarta de =8.9. Citi student din clasa se pot astepta sa primeasca un scor de la 82 pina la 90? Folositi graficul propus.

Solutia: +o derivare standarta=81.2+2 derivari standarte=90.1Derivarea de 1-2 este considerata acceptabila.Dupa cum vedem in grafic,derivarea dintre 1 si 2 deasupra este de 13.6%.Raspuns:13.6% din 184 studenti=25 studenti5. Legea Zipf in aceasta conferinta

Cu scopul de a controla experimental legea lui Zipf , eu am controlat daca aceasta conferinta urmeaza legea data.Cel mai frecvent cuvint este ,,de ,fiind folosit 8,3%,urmatorul fiind ,,si 5,4% ,lista fiind:in,din,este,mai,ca,se,la,cu.Numarul total de cuvinte care au aparut odata este de 41%.Calculind top 15 cuvinte des folosite,observam ca ele sunt49.2% din tot textul, cuvintle scurte fiind folosite in 40% din toate cazurile.In acest mod, noi am putut adeveri validitatea principiilor explicate si sa demonstram ca aceasta lege poate fi folosita la orice text, nu are importanta marimea.

6.Incheiere

Din perspectiva matematicii, noi niciodata nu vom putea afla de lumea imprejurul nostru se conduce dupa asa o modalitate banala. Cu ajutorul acestei conferinte am descoperit cum o lege matematica poate influenta populatia orasului,economia si chiar limba noastra. Am putut raspunde la intrebarile care ne framintau la inceput ,cum ar fi: de ce exista asa o imbalasare dintre bogati si saraci, care factori variaza populatia orasului,de ce atit de multe cuvinte in vocabularul nostru se repeat s.a.m.d. . Cunoasterea matematicii este un lucru fundamental pentru oricine, ea fiind mama tuturor stiintelor, si cu ajutorul acestei conferinte am putut demonstra importanta ei in toate domeniile, chiar si in studierea limbilor, absolut tot in aceasta lume actionind in concordanta cu legile algebrei.Eu consider ca intelegerea acestor principia la nivelul expus mai sus va ajuta la cunoasterea mai aprofundata a lumii din imprejurul nostru, oamenii primind un interes mai mare in studierea algebrei, oamenii avind posibilitatea sa studieze limbi straine nu memorind vocabularul intreg, dar doar 20% din el pentru a folosi 80% din potentialul ei, si posibil, intr-o zi un matematician v-a putea descifra misterul dat, astfel gasind calea de a intelege cum lucreaza orice domeniu .Noi deja stim dup ace principia lucreaza lumea. Acum trebuie sa aflam cum lucreaza aceste principii pentru a decodifica misterele universului.

7.Bibliografie

http://www.wordcount.org/www.wikipedia.orghttp://www.uow.edu.au/~dlee/corpora.htmhttp://www.wordfrequency.infohttp://www.anc.org/data/http://www.titania.bham.ac.uk/docs/http://www.kilgarriff.co.uk/http://corpus.byu.edu/http://colala.bcs.rochester.edu/.http://www.ling.upenn.edu/~ycharles/http://arxiv.org/pdf/cond-mat/http://www-personal.umich.edu/ Cartea ,,Principiul 80/20 de Richard Koch16