teorija odlucivanja i igara igre nes mesovite strategije (1)(1)

38
Igre u formi matrica Igra sa dva igrača ima ove komponente: Dva igrača 1 i 2 Skup strategija S 1 za igrača 1 i S 2 za igrača 2. Funkciju korisnosti u 1 za igrača 1 i u 2 za igrača 2. Funkcija korisnosti predstavlja preferencije igrača s obzirom na parove strategija. Pretpostavljamo da svaki igrač bira strategiju iz svog skupa nezavisno od drugog igrača Ishod igre je određen parom izabranih strategija Igrač 2 s 12 S 2 s 22 S 2 Igrač 1 s 11 S 1 u 1 (s 11 ,s 12 ), u 2 (s 11 ,s 12 ) u 1 (s 11 ,s 22 ), u 2 (s 11 ,s 22 ) s 21 S 1 u 1 (s 21 ,s 12 ), u 2 (s 21 ,s 12 ) u 1 (s 21 ,s 22 ), u 2 (s 21 ,s 22 )

Upload: realityon

Post on 23-Dec-2015

27 views

Category:

Documents


5 download

DESCRIPTION

Teorija racionalnog izbora slajdovi

TRANSCRIPT

Igre u formi matrica

Igra sa dva igrača ima ove komponente:

Dva igrača 1 i 2

Skup strategija S1 za igrača 1 i S2 za igrača 2.

Funkciju korisnosti u1 za igrača 1 i u2 za igrača 2. Funkcija korisnosti predstavlja preferencije igrača s obzirom na parove strategija.

Pretpostavljamo da svaki igrač bira strategiju iz svog skupa nezavisno od drugog igrača

Ishod igre je određen parom izabranih strategija

Igra se definiše kao situacija u kojoj postupci jedne osobe vidno utiču na stanje druge osobe i obrnuto

Da bismo definisali neku pojedinačnu igru potrebno je da znamo ovih 6 stvari

Ko su igrači? Koje poteze (akcije, opcije, strategije) mogu igrači da

povuku (izaberu, odigraju)?

Igrač 2

s12S2 s22S2

Igrač 1s11S1 u1(s11,s12), u2(s11,s12) u1(s11,s22), u2(s11,s22)

s21S1 u1(s21,s12), u2(s21,s12) u1(s21,s22), u2(s21,s22)

Da li igrači mogu da prave koalicije? (Kooperativne i nekooperativne igre)

Vrednosti funkcije korisnosti Koje informacije su dostupne igračima (potpune,

nepotpune, savršene informacije) Koje opšte znanje je relevantno za igru?

Igre se mogu prikazati drvetima

1. Čarli Braun2. Fastcleaners, Newcleaners (new: 100, -200; Fast: 300, 0) (npr verovatnoća ½) (0,

100, -200; 300, 100, -100) (rat: new: 1/3 verovatnoća -100, 0, 120)3. Šah

Matrice

Time Newsweek sukcesivne-simultaneoba imaju dominantnujedan ima dominantnu

Iterated dominance

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

Za vežbu

2. igračLeva Centralna Desna

1. igračGornja 4,2 6,1 6,0Srednja 3,0 5,3 9,2Donja 3,0 5,2 3,4

prilagodjavnje (100K, 100K)

Fastcleanersulaze

rat cenama (-200K, -100K)Newcleaners

ne ulaze (0, 300 000$)

high road

Thatcher

low road

high roadThatcher

Kinnock pobedjujehigh road

low road KinnockThatcher ima šanse

high road Thatcherlow road Kinnock pobedjuje

low road Kinnockima šanse

bezbedni most (0,1)

most sa odronom (1,0)

most sa kobrama (1,0)bezbedni most

bezbedni most (?,0)

ubica most sa odronom most sa odronom (0,1)

most sa kobrama (?,0)

most sa kobrama bezbedni most (?,0)

most sa odronom (?,0)

most sa kobrama (0,1)

Dominantne strategije

Dva nedeljnika koji izlaze istog dana bore se za potencijalne kupce koji će se odlučiti na osnovu naslosvne strane. Dva glavna događaja prethodne nedelje su pronalazak leka protiv side i glasanje o budžetu u parlamentu. Recimo da je 70% potencijalnih kupaca zainteresovano za priču o sidi, 30% za budžet. Ukoliko oba lista stave istu priču na naslovnu stranu, grupa zainteresovana za nju deli se jednako; inače jedan nedeljnik dobija 70% a drugi 30%.

Obe strane imaju dominantnu strategiju

Recimo da je situacija drugačija, utoliko što je jedan nedeljnik popularniji. Neka se u slučaju istog izbora 60% odlučuje za Vreme

Ovde samo Vreme ima dominantnu strategiju.

NINSida Budžet

VremeSida 35,35 70,30

Budžet 30,70 15,15

NINSida Budžet

VremeSida 42,28 70,30

Budžet 30,70 18,12

Nad čime dominantna strategija dominira? Imati dominantnu strategiju ne znači da ćemo proći bolje od druge strane u igri, već da je ta strategija dominantna u odnosu na ostale naše strategije koje su nam na raspolaganju.

Najgori ishod dominantne strategije u gornjoj igri je bolji od najboljeg ishoda dominirane strategije. Ali to ne mora uvek da bude tako.

Zamislimo rat cenama između ova dvanedeljnika. Neka je trošak štampanja jednog lista 1$, i neka su moguća dva izbora cena: 2$ i 3$ (koji daju profit od 1$ i 2$, redom). Recimo da mušterije kupuju samo jeftiniji časopis, a ako su oba iste cene, prodaju se jednako. Kupaca za casopis od 2$ biće 80 000, a za casopis od 3$ 50 000.

Najgori ishod dominantne strategije je 4, što je manje od najboljeg ishoda dominirane strategije (5). Poenta je da je ovo poređenje beskorisno.

Dominirane strategije

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

NIN2$ 3$

Vreme2$ 4,4 8,03$ 0,8 5,5

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

PeraLeva Centralna Desna

MikaGornja 2,2 4,1 4,0Srednja 1,0 3,3 7,2Donja 1,0 3,2 1,4

Dva ratna broda su na pozicijama A i I. Brod A napada raketom i brod I se brani raketom koja može da ide pravom linijom ili da skreće pod ravim uglom svakih 20 sekundi. Napad direktnom linijom AI je lako detektovati i napadač će radije izabrati cik-cak

putanju. Sve moguće putanje su prikazane na slici. Svaki put dužine kao što je AB rakete mogu preći za 20 sekundi.

C

B F

A E I

D H

G

Sve putnje su u tabeli. ‘1’ znači da je odbrambena raketa oborila napadačku. ‘0’ znači da je pogođen brod.

Bra

nila

c

NapadačIFCB IFEB IFED IFEH IHGD IHED IHEB IHEF

1. ABCF 1 0 0 0 0 0 0 12. ABEF 0 1 1 1 0 1 1 13. ABEH 0 1 1 1 0 1 1 14. ABED 0 1 1 1 1 1 1 15. ADGH 0 0 0 1 1 0 0 06. ADEH 0 1 1 1 0 1 1 17. ADEF 0 1 1 1 0 1 1 18. ADEB 1 1 1 1 0 1 1 1

Bra

nila

c

NapadačIFCB IFEB IFED IFEH IHGD IHED IHEB IHEF

1. ABCF 1 0 0 0 0 0 0 12. ABEF 0 1 1 1 0 1 1 13. ABEH 0 1 1 1 0 1 1 14. ABED 0 1 1 1 1 1 1 15. ADGH 0 0 0 1 1 0 0 06. ADEH 0 1 1 1 0 1 1 17. ADEF 0 1 1 1 0 1 1 18. ADEB 1 1 1 1 0 1 1 1

Bra

nila

c

NapadačIFCB IFEB IFED IFEH IHGD IHED IHEB IHEF

1. ABCF 1 0 0 0 0 0 0 12. ABEF 0 1 1 1 0 1 1 13. ABEH 0 1 1 1 0 1 1 14. ABED 0 1 1 1 1 1 1 15. ADGH 0 0 0 1 1 0 0 06. ADEH 0 1 1 1 0 1 1 17. ADEF 0 1 1 1 0 1 1 18. ADEB 1 1 1 1 0 1 1 1

Bra

nil Napadač

IFCB IFEB IFED IFEH IHGD IHED IHEB IHEF1. ABCF 1 0 0 0 0 0 0 1

ac

2. ABEF 0 1 1 1 0 1 1 13. ABEH 0 1 1 1 0 1 1 14. ABED 0 1 1 1 1 1 1 15. ADGH 0 0 0 1 1 0 0 06. ADEH 0 1 1 1 0 1 1 17. ADEF 0 1 1 1 0 1 1 18. ADEB 1 1 1 1 0 1 1 1

Vraćamo se ratu cenama dva nedeljnika. Ovog puta nemamo ograničenje cena na dve vrednosti. Pretpostavimo da svaki časopis ima verne čitaoce, i da pored njih postoji grupa koja se odlučuje za jeftiniji časopis. Ako bi se NIN odlučio za cenu od 1$ (cena štampanja), Vreme ne bi prihvatilo ovu strategiju koja ne donosi profit, već bi izabrala

NapadačIFCB IHGD

BranilacABED 0,1 1,0ADEB 1,0 0,1

veću cenu, recimo 2$, i tako profitirala od stalnih čitaoca. Ako bi NIN povećao cenu, Vreme bi takođe poskupelo, ali za manji iznos i tako bi zadržalo prednost. Pretpostavimo da je najbolji odgovor Vremena da digne cenu za 0,5$ na svako NINovo poskupljenje od 1$.

cena Vremena

5$

4$ odgovor Vremena

3$

2$

1$

1$ 2$ 3$ 4$ 5$ cena NINa

Urednik Vremena:

Ako oni traže 1$, ja ću 2$.Ali pošto on zna šta ću uraditi, neće tražiti 1$, nego ono što je njegov najbolji odgovor na moju cenu od 2$, dakle 2,5$.Ali onda mi je bolje da umsto 2$ odmah tražim ono što je moj najbolji odgovor na njegovu cenu od 2,5$, tj. 2,75$.Ali i on to zna, pa će...

Gde se završava ovakvo mudrovanje?

Završava se na 3$.

cena odgovor NINa Vremena

5$

4$ odgovor Vremena

3$

2$

1$

1$ 2$ 3$ 4$ 5$ cena NINa

Najbolji odgovor Vremena na NINovu cenu od 3$ je 3$, i obrnuto.

Nash equilibrium

Nešov ekvilibrijum je par strategija, po jedna za svakog igrača, takvih da ako jedan igrač izabere tu strategiju, drugi ne može da dobije više biranjem neke druge strategije. Preciznije:

Razmotrimo igru u kojoj učestvuju igrač 1 i igrač 2, koji imaju skupove strategija S1 i S2, redom, i dve funkcije korisnost u1 i u2, redom.

Strategija s1S1 igrača 1 je najbolji odgovor na strategiju s2S2 igrača 2 akko ne postoji strategija sS1 koja bolje od s1 prolazi protiv s2. Simbolima: akko (sS1)( u1(s, s2) u1(s1, s2))

Slično, strategija s2 igrača 2 je najbolji odgovor na strategiju s1S1 igrača 1 akko je lažno da (sS2) (u2(s1, s) u2(s1, s2))

Primetite da je moguće da jedan igrač ima više od jednog najboljeg odgovora na neku strategiju drugog igrača.

Par strategija (s1, s2) je Nešov ekvilibrijum akko je s1 najbolji odgovor na s2 i s2 je najbolji odgovor na s1.

Zašto Nešov ekvilibrijum?

Ekonomisti rutinski predviđaju da će igrači igrati Nešove ekvilibrijume. Filozofi takođe, ali manje rutinski. Glavni argumenti:

1. (The steady state interpretation.) Ako bi igrači ponavljali igru, poboljšavali bi svoje izbore dok oba ne bi dostigla najbolje odgovore.

2. (The self-enforcing interpretation.) Pretpostavimo da se igrači unapred dogovore kako će igrati. Onda bi oni mogli da veruju jedan drugome akko je njihov dogovor Nešov ekvilibrijum.

бр студената који су написали „1“

корист за сваког студента који је написао „1“

корист за сваког студента који је написао „2“

0 241 4 282 8 323 12 364 16 405 20 446 24 487 28 528 32

20

0бр студената који су написали „1“

Me šovite strategije

Пар-непар

Pretpostavimo da prvi igrač bira strategiju (0,5, 0,5). Tada drugi igrač može da računa očekivanu korist svoje strategije (p, 1-p) ovako:

OK(p, 1-p) = 0,5 x (p x 1) + 0,5 x (p x (-1) + 0,5 x ((1-p) x (-1)) + 0,5 x ((1-p) x 1) = 0

(0,5, 0,5) je najbolji odgovor drugog igrača na (0,5, 0,5) prvog igrača i obrnuto, dakle taj par strategija je ekvilibrijum mešovitih strategija.

Tenis

Igrač 2nepar

1 2

Igrač 1par

1 1, -1 -1, 12 -1, 1 1, -1

verovatnoće uspešnosti:

Pretpostavimo da drugi igrač koristi strategiju (0,5, 0,5).

Tada prvi igrač računa očekivanu korist svojih strategija ovako:

OK(forhend) = 0,5 x 90% + 0,5 x 20% = 55%

OK(bekhend) = 0,5 x 30% + 0,5 x 60% = 45%

Prvi igrač onda bira (naravno) da čeka servis na forhend i bude uspešan u 55% slučajeva.

Drugi igrač će onda biti uspešan 45% (igra nulte sume). Ali time on prolazi bolje nego da se drži jedne čiste strategije (kada dobija 30% ili 40%).

Koja je kombinacija najbolja za servera (drugog igrača)?

Igrač 2servira na

forhend bekhendIgrač 1 čeka

servis naforhend 90, 10 20, 80

bekhend 30, 70 60, 40

Pretpostavimo da drugi igrač koristi strategiju (p, 1-p), tj verovatnoća da će servirati na forhend je p.

Tada prvi igrač računa očekivanu korist svojih strategija ovako:

OK(forhend) = p x 90% + (1-p) x 20%

OK(bekhend) = p x 30% + (1-p) x 60%

Očekivane koristi su dakle linearne funkcije od p, pa ih možemo predstaviti pravom linijom:

% uspešnih 90vraćanjaservisa

20

0 100

verovatnoća serviranja na forhend

očekuje% uspešnih forhend 90

vraćanja očekujeservisa bekhend

60

3020

0 100

verovatnoća serviranja na forhend

Gde se seku linije?

OK(forhend) = OK(bekhend)

p x 90% + (1-p) x 20% = p x 30% + (1-p) x 60%

p = 40%

Kolika je tada uspešnost vraćanja servisa?

Ubacujemo dobijenu vrednost za p u jednu od jednačina:

p x 90% + (1-p) x 20% = 48%

očekuje% uspešnih forhend 90

vraćanja očekujeservisa bekhend

60

48

3020

0 40 100

verovatnoća serviranja na forhend

očekuje% uspešnih forhend 90

vraćanja očekujeservisa bekhend

60

48

3020

0 40 100

verovatnoća serviranja na forhend

Strategija (0,4, 0,6) je jedina strategija servera koju prvi igrač ne može da iskoristi da bi povećao uspešnost vraćanja servisa preko 48%. Na svaku drugu strategiju servera prvi igrač bi mogao da se prilagodi (vidite sliku gore) i njegova uspešnost bi se računala po gornjim, podebljanim delovima funkcija, a ne po donjim. Zato je (0,4, 0,6) najbolja strategija za drugog igrača (koji servira).

Koja je strategija najbolja za prvog igrača (koji prima servis)?

servis na% uspešnih forhend 90vraćanja servis naservisa bekhend

60

48

30 3020 20

0 30 40 100

verovatnoća očekivanja servisa na forhend

Pretpostavimo da prvi igrač koristi strategiju (q, 1-q), tj verovatnoća da će čekati servis na forhend je q.

Tada drugi igrač računa očekivanu korist svojih strategija ovako:

OK(forhend) = q x 10% + (1-q) x 70%

OK(bekhend) = q x 80% + (1-q) x 40%

Gde se seku linije?

OK(forhend) = OK(bekhend)

q x 10% + (1-q) x 70% = q x 80% + (1-q) x 40%

q = 30%

Kolika je tada uspešnost vraćanja servisa?

Ubacujemo dobijenu vrednost za q u jednu od jednačina:

q x 10% + (1-q) x 70% = 48%

Primetite da smo dobili istu vrednost kao pri računanju najbolje strategije za drugog igrača.

servis na% uspešnih forhend 90vraćanja servis naservisa bekhend

60

48

30 3020 20

0 30 40 100

verovatnoća očekivanja servisa na forhend

Ovde je strategija (0,3, 0,7) jedina strategija koju drugi igrač ne može da iskoristi da bi smanjio uspešnost vraćanja servisa ispod 48%. Na svaku drugu strategiju prvog igrača server bi mogao da se prilagodi (vidite sliku gore) i uspešnost prvog igrača bi se računala po donjim, podebljanim delovima funkcija, a ne po gornjim. Zato je (0,3, 0,7) najbolja strategija za prvog igrača (koji čeka servis).

Teorema: John von Neumann & Oscar Morgenstern:

U igrama sa nultom sumom, gde su interesi dva igrača suprotni (dobitak jednog je gubitak drugog), jedan igrač pokušava da minimizuje dobit protivnika, dok ovaj pokušava da maksimizuje svoju dobit. Kada tako rade, minimum maksimuma dobiti jednak je maksimumu minimuma. Nijedan igrač tada ne može da poboljša svoju situaciju, i njihove strategije čine ekvilibrijum.

U gornjem primeru ekvilibrijum je par mešovitih strategija:

( (0,3, 0,7), (0,4, 0,6) )

Kolika je uspešnost vraćanja servisa ako bi prvi igrač koristio strategiju (½, ½)?

uspešnost vraćanja % uspešnih servisa pri (30%, 70%) 90vraćanjaservisa

maksimum min zaminimuma 30:70

60

minimum 48 48za (½, ½) 40

uspešnost vraćanja 30

20 servisa pri (½, ½) min zaminimum za 100%100% bekh.forhend

0 40 100

verovatnoća serviranja na forhend