dilema prizonierului

7
Dilema prizonierului Dilema prizonierului este un paradox, componentă centrală a teoriei jocurilor . În cazul dilemei este vorba despre un joc de tip sumă non-zero care a fost formulat de către angajați ai companiei RAND Corporation. Merrill Flood și Melvin Drescher descriu o dilemă socială ca pe un joc între două persoane, care arată cum pot conduce hotărârile raționale individuale la rezultate colective neoptime. Termenul dilema prizonierului a fost formulat de Albert Tucker de la Universitatea Princeton. Descrierea situației Doi prizonieri sunt bănuiți că au săvârșit o infracțiune. Pedeapsa maximă pentru această infracțiune este de cinci ani. Celor doi prizonieri li se face o propunere pe care cei doi o cunosc. Dacă unul dintre ei mărturisește și astfel își împovărează partenerul, atunci scapă nepedepsit – celălalt trebuie să ispășească o pedeapsă de cinci ani. Dacă cei doi decid să nu mărturisească, rămân doar dovezi prezumptive care le vor aduce o pedeapsă de doi ani. Dacă amândoi mărturisesc, pe fiecare îl așteaptă o pedeapsă de patru ani. Prizonierii sunt chestionați separat unul de celălalt, astfel încât nici unul dintre ei nu va cunoaște nici înainte și nici după chestionare intenția celuilalt. Această dilemă poate fi numită paradox, deoarece decizia prizonierilor luată individual și conștient (aceea de a mărturisi) și decizia colectivă (aceea de a tăinui) sunt divergente. Matricea recompenselor arată în felul următor: B tăinuieș te B mărturiseș te A tăinuiește A:−2 / B:−2 A:−5 / B:0 A mărturiseș A:0 / B: −5 A:−4 / B: −4

Upload: claudiu-klod

Post on 14-Sep-2015

2 views

Category:

Documents


0 download

DESCRIPTION

Dilema prizonierului

TRANSCRIPT

Dilema prizonierului

Dilema prizonieruluieste un paradox, component central ateoriei jocurilor. n cazul dilemei este vorba despre unjoc de tip sum non-zerocare a fost formulat de ctre angajai ai companiei RAND Corporation. Merrill Flood i Melvin Drescher descriu o dilem social ca pe un joc ntre dou persoane, care arat cum pot conduce hotrrile raionale individuale la rezultate colective neoptime. Termenuldilema prizonieruluia fost formulat de Albert Tucker de la Universitatea Princeton.Descrierea situaieiDoi prizonieri sunt bnuii c au svrit o infraciune. Pedeapsa maxim pentru aceast infraciune este de cinci ani. Celor doi prizonieri li se face o propunere pe care cei doi o cunosc. Dac unul dintre ei mrturisete i astfel i mpovreaz partenerul, atunci scap nepedepsit cellalt trebuie s ispeasc o pedeaps de cinci ani. Dac cei doi decid s nu mrturiseasc, rmn doar dovezi prezumptive care le vor aduce o pedeaps de doi ani. Dac amndoi mrturisesc, pe fiecare l ateapt o pedeaps de patru ani. Prizonierii sunt chestionai separat unul de cellalt, astfel nct nici unul dintre ei nu va cunoate nici nainte i nici dup chestionare intenia celuilalt.Aceast dilem poate fi numit paradox, deoarece decizia prizonierilor luat individual i contient (aceea de a mrturisi) i decizia colectiv (aceea de a tinui) sunt divergente.Matricea recompenselor arat n felul urmtor:B tinuieteB mrturisete

A tinuieteA:2 / B:2A:5 / B:0

A mrturiseteA:0 / B:5A:4 / B:4

Semnificaia rezultatelor: 0...temptation Recompens pentru trdare unilateral (libertate) 2...reward Recompens pentru cooperarea lui A cu B (doar pedeaps de doi ani) 4...punishment Pedeaps pentru trdare bilateral (patru ani de pedeaps) 5...sucker's payoff Pedeaps pentru nelarea ncrederiiCele patru modaliti de combinare existente nu depind numai de propria decizie, ci i de deciziile complicilor (interdependen comportamental).n mod individual, pare s fie pentru fiecare avantajos s coopereze. Prizonierul se gndete astfel:Dac cellalt coopereaz, mi pot reduce pedeapsa la patru ani, dac cooperez i eu; ns dac cellalt tinuiete faptele svrite:pot s-mi reduc pedeapsa de la doi ani la zero prin declaraia mea! Deci trebuie s mrturisesc faptele orice s-ar ntmpla!. Decizia de a mrturisi faptele svrite nu depinde de comportamentul celuilalt i pare s fie ntotdeauna avantajos s mrturiseasc. O astfel de strategie care este aleas fr a ine cont de decizia oponentului este denumit strategie dominant.Cum arat i matricea, cei doi prizonieri ar fi totui mai avantajai dac amndoi s-ar decide s tinuiasc faptele. Atunci ar primi fiecare doar cte doi ani de detenie. Locul de desfurare a jocului mpiedic nelegerea dintre cei doi prizonieri i provoac astfel o trdare unilateral prin care trdtorul sper s obin pentru sine cel mai bun rezultatachitarea(dac cellalt prizonier tinuiete faptele) sau s primeasc o pedeaps de patru ani n loc de cinci (dac cellalt prizonier mrturisete). Dac amndoi fac acest lucru, i nrutesc astfel i individual situaia, deoarece acum fiecare primete cte patru ani n loc de cte doi ani.Dilema prizonierului const din aceast divergen a strategiilor posibile. Presupusa analiz progresiv, raional a situaiei induce pe cei doi prizonieri la mrturisire, ceea ce conduce la un rezultat prost (alocare care nu este optim). Rezultatul mai bun ar fi atins prin cooperare, ns acesta este susceptibil de trdarea ncrederii. Juctorii raionali se ntlnesc ntr-un punct care n acest caz este denumitechilibru Nashpareto-ineficient.Jocuri i strategiiJocul unicConform analizei clasice a jocului, n dilema prizonierului jucat o singur dat, singura strategie raional pentru individul interesat de binele propriu este aceea de a nu coopera cu cellalt prizonier, ci s mrturiseasc i astfel s-l trdeze pe cellalt. Prin decizia sa prizonierul nu poate influena comportamentul celuilalt prizonier i independent de decizia luat de cellalt se plaseaz ntr-o poziie mai bun dac nu coopereaz (mrturisete). Aceast analiz condiioneaz faptul c juctorii se ntlnesc o singur dat, iar hotrrile lor nu pot influena interaciunile de mai trziu. Deoarece este vorba despre o dilem autentic, din aceast analiz nu reiese nici o instruciune clar (concluzie prescriptiv) pentru interaciuni reale corespunztoare unei dileme a prizonierului.ntr-un joc unic trebuie precizat c este indiferent dac cele dou pri s-au neles ntre ele. Situaia rmne la fel dup o eventual discuie!Jocul repetat (finit)Situaia se schimb, dac jocul este jucat n mai multe runde (aa numitele turnee iterate). n acest caz o nelare a ncrederii este rzbunat n jocul urmtor sau ntr-un joc de mai trziu, iar cooperarea este rspltit.Numrul rundelor nu trebuie s fie cunoscut dinainte, ci trebuie s fie necunoscut. n caz contrar s-ar putea ca pentru strategii de fapt cooperante s fie profitabil ca n ultima rund s intervin trdarea, deoarece pentru aceasta nu mai este posibil o recompens. Astfel, penultima rund devine ultima, pentru care rezult din nou aceeai situaie. Din aceasta reiese o solue neoptim. Problema ultimei runde se aplaneaz dac jocul este jucat ca un - presupus sau actual - turneu nesfrit.Ct de benefic este o anumit strategie ntr-un astfel de turneu, depinde ntotdeauna de strategiile concurente pe care aceasta le influeneaz i nu poate fi declarat n mod absolut.Jocul infinitJocul se repet, fr ca juctorii s tie cnd va avea loc ultima rund. Dac juctorii se afl n aceast dilem, atunci poate exista o lips de cooperare n jocul urmtor. Faptul de a nu coopera nu este rspltit (n mod inevitabil), deoarece pentru trdare (n mod direct) se va primi pedeaps n jocul urmtor, n timp ce cooperarea este rspltit (n mod constant).Tit-for-tat(Ochi pentru ochi) nseamn pedeaps pentru trdare n perioada urmtoare. n acest caz se vorbete despre ncredere calculat.Politologul americanRobert Axelroda organizat la nceputul anilor '80 un concurs pe calculator, pe tema dilemei prizonierului repetat. El fcea ca programele de calculator s concureze ntre ele pe baza a diferite strategii. Cea mai de succes strategie i n acelai timp una dintre cele mai uoare a fostStrategia ochi pentru ochi, dezvoltat deAnatol Rapoport. Aceasta nsemna cooperare (renunare la trdare), atta timp ct i cellalt coopera. Dac cellalt ncerca s-i creeze un avantaj (trdare), atunci i cealalt parte trda.Competiii dinamico-evolutiveO dezvoltare a jocului pe mai multe runde este jocul pe mai multe generaii. Dac toate strategiile apar n mai multe runde unele mpotriva celorlalte i una mpotriva celeilalte, rezultatele obinute vor fi numrate mpreun, pentru fiecare strategie. Pentru o rund urmtoare, strategiile de succes le nlocuiesc pe cele cu mai puin succes. Strategia cea mai de succes apare cu o densitate mai mare n generaia urmtoare. i aceast variant a competiiei a fost implementat de Axelrod.Strategiile care au tendina de a nela, au obinut aici la nceput rezultate relativ bune atta timp ct au venit n contact cu alte strategii care aveau tendina de a coopera lsndu-se exploatate. Dac strategiile neltoare sunt de succes, atunci strategiile cooperative se vor rri de la o generaie la alta strategiile neltoare reuind s anuleze chiar i fundamentul succesului. Dac dou strategii neltoare se ntlnesc, se obin rezultate mai proaste dect n cazul n care s-ar ntlni dou strategii cooperante. Strategiile neltoare se pot dezvolta doar prin exploatarea partenerilor de joc. Pe de alt parte, strategiile cooperante se dezvolt cel mai bine, dac vin n contact unele cu altele. O minoritate de strategii cooperante, cum ar fiTit-for-tat(ochi pentru ochi) poate pretinde astfel a se afla chiar ntr-o majoritate de strategii neltoare. Astfel de strategii care se pot stabili prin generaii i care sunt rezistente invaziilor altor strategii se numescstrategii evolutive stabile.StrategiaTit-for-tata putut fi ntrecut n anul2004de o strategie nou, propus deUniversitatea Southamptoni care n cazul unei ntlniri fa n fa i dup un schimb iniial recurge la dou roluri de exploatator i respectiv de victim, pentru a permite exploatatorului o poziie de conducere (master-and-servant). n acest caz este necesar o anumit marime critic, i anume strategiamaster-and-servantnu poate fi stabilit dintr-o populaie incipient. Deoarece partenerii de joc comunic codat despre comportamenul lor de nceput, exist obiecia c strategiamaster-and-servantncalc regulile jocului, despre care partenerii de joc sunt chestionai izolati unii de ceilali. Strategia amintete de populaiile de insecte unde insectele lucrtoare renun total la reproducie i i dedic fora de munc pentru bunstarea reginei prolifice.Condiiile necesare rspndirii strategiilor cooperative sunt: a) se joac n mai multe runde; b) juctorii se pot recunoate ntre ei de la o rund la alta, pentru ca n caz de nevoie s poat fi recompensai; c) nu se tie cnd se vor ntlni juctorii pentru ultima oar.Cteva strategii selectatePentru dilema prizonierului jucat n mai multe runde exist mai multe strategii diferite. Pentru anumite strategii s-au ncetenit anumite nume (traducerea din parantez): tit-for-tat(ochi pentru ochi): Coopereaz n prima rund i copiaz n runda urmtoare mutarea anterioar a partenerului de joc. Aceast strategie este n principiu deschis nspre cooperare, practicnd ns despgubire n caz de trdare. Pentru nc o cooperare a partenerului de joc nu este neierttoare, ci reacioneaz coopernd. mistrust(nencredere): Trdeaz n prima rund i copiaz n rundele urmtoare (ca i ochi pentru ochi) mutarea anterioar a partenerului de joc. Nu este deschis nspre cooperare. spite(ciud): Coopereaz pn cnd partenerul de joc trdeaz primul. Mai apoi trdeaz tot timpul. Coopereaz pn la primul semn de nelare a ncrederii. Este foarte rzbuntoare. pavlov: Coopereaz n prima rund i trdeaz, dac mutarea partenerului de joc a fost diferit de propria mutare. Coopereaz, dac n runda precedent ambii juctori au cooperat sau ambii au trdat. Aceasta conduce la o schimbare a comportamentului, dac ctigul din runda precedent a fost mic, ns conduce la meninerea comportamentului, dac ctigul a fost mare. gradual(gradual): Coopereaz pn cnd partenerul de joc trdeaz primul. Trdeaz o singur dat i coopereaz de dou ori. Dac partenerul de joc trdeaz nc o dat dup aceast secven, atunci el trdeaz strategia gradual de dou ori i coopereaz de dou ori. Dac partenerul de joc trdeaz nc o dat, atunci el trdeaz strategia de trei ori i coopereaz de dou ori. Aceast strategie coopereaz strict, pedepsete ns orice ncercare de exploatare cu mai mult intransigen. prober(probant): joac primele trei mutricooperare, trdare, trdarei trdeaz mai departe, dac oponentul a cooperat la a doua i la a treia mutare, joac de altfel tit-for-tat. Testeaz dac partenerul de joc este exclus frrzbunare. Exclude partenerii de joc nerzbuntori. Se adapteaz ns la rzbunare. master-and-servant(Domn i servitor sau i Strategie Southampton): Joac n timpul primelor cinci pn la zece runde un comportament codat, servind recunoaterii. Strategia se asigur dac partenerii de joc acioneaz dup modelul Master-and-servant. Dac este cazul, partenerul de joc devine exploatator, cel care trdeaz ntotdeauna, cellalt devine excepie, cel care coopereaz necondiionat. Dac partenerul de joc nu se conformeaz strategiei master-and-servant, atunci se trdeaz, n dauna combatanilor ce iau parte la competiie. Aceast strategie conduce la faptul c o parte dintre juctorii ce iau parte la ea fac un lucru bun, deoarece ei primesc n mod neobinuit numrul maxim posibil de puncte pentru o trdare unilateral. Partea exploatat a juctorilor strategiei Master-and-servant dispare, ceea ce se compenseaz prin succesiunea prii de suces. always defect(trdeaz ntotdeauna): Trdeaz ntotdeauna, indiferent de ce face partenerul de joc. always cooperate(coopereaz ntotdeauna): Coopereaz ntotdeauna, indiferent de ce face partenerul de joc. random(aleator): Trdeaz sau coopereaz pe baza unei hotrri aleatorii 50:50. per kind(periodic sau amical): Joac periodic seriacoopereaz/coopereaz/trdeaz. Aceast strategie ncearc s-l pun pe juctor n siguran printr-o dubl cooperare, pentru a-l exclude o singur dat. per nasty(periodic i neamical): Joac periodic seriatrdeaz/trdeaz/coopereaz. go by majority(decide conform majoritii): Coopereaz n prima rund i joac apoi mutarea cea mai utilizat de ctre partenerul de joc. n caz de egalitate se coopereaz.Strategia optimSingura strategietit-for-tatsimpl, ns foarte eficient i de succes pe termen lung prezint totui desfigurri, deoarece amndoi juctorii se pot bloca ntr-o confruntare de durat, dac dup o anumit perioad amndoi juctorii aleg pe termen lung aceast strategie denumitVendetta(ital.: rzbunare)