seminar algorithmische spieltheorie · • bewertungen vp ∈ n • nutzenfunktion up(x) = vp −...

49
Seminar Algorithmische Spieltheorie Einf¨ uhrung in die klassische Spiel- und Mechanismentheorie Hagen V¨ olzer Universit¨ at zu L¨ ubeck 10. November 2004 0

Upload: others

Post on 07-Sep-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Seminar Algorithmische Spieltheorie

Einfuhrung in die klassische Spiel- und

Mechanismentheorie

Hagen Volzer

Universitat zu Lubeck

10. November 2004

0

Uberblick

1. Spiele

2. Auktionen

3. Mechanismen

1

Gefangenendilemma

Bob schweigt Bob gestehtAlice schweigt Alice: −1, Bob: −1 Alice: −4, Bob: 0Alice gesteht Alice: 0, Bob: −4 Alice: −3, Bob: −3

lokaler Anreiz zum Gestehen, globaler Anreiz zum Schweigen

Was werden die Gefangenen tun?

2

Spiel

(P, A, u)

• P endliche Menge von Spielern

• A Menge von Aktionen (Strategien)

x : P → A heißt Profil (Notation: x ∈ AP )

• u : AP → RP ist Nutzenfunktion

up(x) := u(x)(p) ist der Nutzen von x fur p

• Spiel ist endlich, falls A endlich ist

• p praferiert x gegenuber x′, falls up(x) > up(x′)

3

Annahmen

• Aktionen werden simultan gewahlt (unabhangig voneinander)

• Spiel besteht nur aus einer Aktion fur jeden Spieler

• Praferenzen bilden Halbordnung (dabei ist Indifferenz eine

Aquivalenz)

• tatsachlich sind nur Praferenzen relevant, nicht absoluter

Nutzen

4

Beste Antwort (eines Spielers)

Fur x : P → A oder x : P \ {p} → A sei (x|pa) : P → A def. durch:

(x|pa)(q) =

a falls p = q,

x(q) sonst.

a ∈ A ist beste Antwort fur p auf x : P \ {p} → A, falls fur alle a′:

up(x |p a) ≥ up(x |p a′)

5

Dominantes Gleichgewicht

a dominiert a′ bezuglich p, falls fur alle x:

up(x |p a) ≥ up(x |p a′)

x ∈ AP ist ein dominantes Gleichgewicht, falls fur alle p,

• x(p) alle Aktionen bezuglich p dominiert,

• d.h. x(p) ist beste Antwort auf alle y : P \ {p} → A

6

Also

• Wenn Spieler nur ihren eigenen Nutzen optimieren,

• also rational und egoistisch sind,

• dann spielen sie ein dominantes Gleichgewicht,

• sofern eins existiert

7

Gefangenendilemma

Bob schweigt Bob gestehtAlice schweigt Alice: −1, Bob: −1 Alice: −4, Bob: 0Alice gesteht Alice: 0, Bob: −4 Alice: −3, Bob: −3

Gibt es ein dominantes Gleichgewicht?

8

Kampf der Geschlechter

Bob Klavier Bob OrgelAlice Klavier Alice:2, Bob:1 Alice:0, Bob:0Alice Orgel Alice:0, Bob:0 Alice:1, Bob:2

Gibt es ein dominantes Gleichgewicht?

9

Nash Gleichgewicht

• x ∈ AP heißt Nash-Gleichgewicht, falls fur alle p und a:

up(x) ≥ up(x|pa)

• d.h. fur alle p ist x(p) ist beste Antwort auf x |P\{p}• Soziale Norm: falls alle anderen sich daran halten, werde ich

nicht davon abweichen

• Jedes dominante Gleichgewicht ist Nash-Gleichgewicht

10

Kampf der Geschlechter

Bob Klavier Bob OrgelAlice Klavier Alice:2, Bob:1 Alice:0, Bob:0Alice Orgel Alice:0, Bob:0 Alice:1, Bob:2

Gibt es ein Nash-Gleichgewicht?

11

Kampf der Geschlechter II

Bob Klavier Bob OrgelAlice Klavier Alice:2, Bob:2 Alice:0, Bob:0Alice Orgel Alice:0, Bob:0 Alice:1, Bob:1

Sind verschiedene Gleichgewichte gleich plausibel?

12

Hirschjagd

Bob Hirsch Bob HaseAlice Hirsch Alice:2, Bob:2 Alice:0, Bob:1Alice Hase Alice:1, Bob:0 Alice:1, Bob:1

Sind verschiedene Gleichgewichte gleich plausibel?

13

Aufeinander zugehende Fußganger

Bob links Bob rechtsAlice links Alice:1, Bob:1 Alice:0, Bob:0Alice rechts Alice:0, Bob:0 Alice:1, Bob:1

Was wurden Sie tun?

14

Bemerkungen

• Erfahrung fuhrt zu korrektem Glauben daruber, was Mitspie-

ler spielen

• d.h. Nash-Gleichgewichte werden nur bei hinreichend starkem

Wissen uber die Mitspieler garantiert

• Bei dominanten Gleichgewichten ist dies nicht notig

• Profile die kein Nash GG sind, sind instabil

• Nash GG ist Mindestanforderung an egoistisches Verhalten

• Koalitionen spielen keine Rolle

15

Wiederholtes Entfernen streng dominierter Aktionen

• Halte eine Menge Rp ⊆ A von entfernten Aktionen, fur jedes

p; Initial: Rp = ∅• Wahle p ∈ P und streng dominierte Aktion a ∈ A \ Rp, d.h.

∃a′ ∈ A \ Rp : up(x |p a) < up(x |p a′) fur alle x so daß ∀q :

x(q) 6∈ Rq

• Fuge a zu Rp hinzu

• Iteriere

Theorem: Uberlebt genau ein Profil, so ist es das einzige Nash

Gleichgewicht.

Theorem: Jedes Nash Gleichgewicht uberlebt.

16

Berechnen von Nash-Gleichgewichten

• zuerst wiederholt streng dominierte Aktionen entfernen

• Berechne alle besten Antworten

• suche nach Nash-Gleichgewichten

• Spezialfall 2 Spieler und beste Antwort ist eindeutig

• a, a′ mit bp(a) = a′ und bq(a′) = a

17

Passende Munzen

Bob Kopf Bob ZahlAlice Kopf Alice:1, Bob:−1 Alice:−1, Bob:1Alice Zahl Alice:−1, Bob:1 Alice:1, Bob:−1

Wieviel Nash-Gleichgewichte gibt es?

18

Gemischte Strategie

• ist Wahrscheinlichkeitsverteilung σ uber A

(Notation: σ ∈ ∆A)

• gemischtes Profil γ ∈ (∆A)P

• induziert Wahrscheinlichkeitsverteilung uber AP (Produkt-

maß)

• up(γ) bezeichne den erwarteten Nutzen von p fur γ ∈ (∆A)P

• ein gemischtes Profil γ ∈ (∆A)P ist ein Nash-Gleichgewicht,

falls fur alle p und σ:

up(γ) ≥ up(γ |p σ)

19

Existenz von Gleichgewichten

Theorem: (Nash 1960): Fur jedes endliche Spiel mit gemischten

Strategien existiert ein Nash-Gleichgewicht.

20

Passende Munzen

Bob Kopf Bob ZahlAlice Kopf Alice:1, Bob:−1 Alice:−1, Bob:1Alice Zahl Alice:−1, Bob:1 Alice:1, Bob:−1

γ mit γ(Alice) = γ(Bob) = σ wobei σ(Kopf) = σ(Zahl) = 12 ist

(einziges) Nash-Gleichgewicht

uAlice(γ) = uBob(γ) =1

4· 1 +

1

4· 1 +

1

4· −1 +

1

4· −1 = 0

21

Was fehlt

• Auflosen mehrfacher Nash-Gleichgewichte (focal points, Er-

fahrung, Pareto-dominanz)

• Koalitionen von Spielern

• Zusammenhang von Gleichgewichten und Lernprozessen

• Robustheit von Gleichgewichten

• Verfeinerung der Gleichgewichtsbegriffe

• Spiele in extensiver Form (dynamisch)

• Wiederholte Spiele (; Evolution der Kooperation)

22

Uberblick

1. Spiele

2. Auktionen

3. Mechanismen

23

Zweitpreisauktion mit versiegeltem Umschlag

• Spieler: n Bieter

• Aktionen: Gebote aus N• Bewertungen vp ∈ N• Nutzenfunktion

up(x) =

vp −maxq 6=p x(q) falls x(p) > maxq 6=p x(q),

0 sonst.

• up hangt neben x auch von vp ab

• falls p Objekt bekommt und vp dafur zahlt, ist Nutzen 0

24

Gleichgewichte

• x(p) = vp ist dominantes Gleichgewicht

• sei bp = maxq 6=p x(q)

• wenn bp < vp dann ist jedes Gebot x(p) > bp optimal

• wenn bp ≥ vp dann ist jedes Gebot x(p) ≤ bp optimal

• x(p) = vp lost beide Falle

• Nash-Gleichgewichte sind zahlreich, z.B.:

x(p) =

vp falls vp > maxq 6=p vq,

0 sonst.

25

Erstpreisauktion mit versiegeltem Umschlag

up(x) =

vp − x(p) falls x(p) > maxq 6=p x(q),

0 sonst.

• es gibt i.A. kein dominantes Gleichgewicht Warum?

26

Gleichgewichte

x(p) =

maxq 6=p vq falls vp > maxq 6=p vq,

vp sonst.

ist Nash-Gleichgewicht

• in allen Gleichgewichten gewinnt Spieler mit maximalem vp

• x ist Nash GG gdw. die zwei hochsten Gebote gleich sind, eins

davon vom Spieler mit maximalem vp abgegeben wird und das

hochste Gebot zwischen den beiden hochsten Bewertungen

liegt

27

• jedes Gebot x(p) ≥ vp wird stark dominiert

• jedes Gebot x(p) < vp wird nicht stark dominiert

• jedes Gleichgewicht, das nicht dominiert wird erfullt:

• Spieler mit zweithochster Bewertung v2 bietet v2 − 1

• Spieler mit hochster Bewertung bietet v2 − 1

• Spieler mit k-hochster Bewertung vk bietet vk − 1

• ausgezeichnete Gleichgewichte in beiden Auktionstypen fuhren

fast zum selben Ergebnis (Sieger und erzielter Preis)

27

Theorem

In allen effizienten Auktionen mit gemischten Aktionen ist der

erwartete Nutzen jedes Bieters und Verkaufers derselbe.

effizient ; spater

28

Was fehlt

• ungenaue Bewertungen

• gemeinsame Bewertungen

• Mehrfachauktion

• kombinatorische Auktion

29

Uberblick

1. Spiele

2. Auktionen

3. Mechanismen

30

Offentliches Projekt (z.B. Bibliothek)

• P = alle Einwohner der Stadt, |P | = n

• θp ∈ R individueller Wert der Bibliothek fur p (ggf. negativ)

• d ∈ {0,1} Entscheidung

• vp(d, θp) = d · θp Bewertung

• Modellierung mit Kosten c ∈ R1. P ′ = P ∪ {⊥}, v⊥ = −d · c2. vp(d, θp) = d · (θp − c

n)

Wie kommt man zu einer guten Entscheidung?

31

Setting

• Spielermenge P

• D Menge von Entscheidungen (Ausgangen)

• θ : P → Θ; θp := θ(p) ist private Information (Typ) von p

• vp : D × Θ → R Bewertung (oder: personliche Wohlfahrt)

(valuation); hangt nur von θp ab (daher: privat)

32

Entscheidungsfunktion

Welche Entscheidungen sind gut?

• Entscheidungsfunktion f : ΘP → D

• f ist effizient, falls fur alle θ ∈ ΘP und alle d ∈ D:∑p

vp(f(θ), θp) ≥∑p

vp(d, θp)

• d.h. soziale Wohlfahrt wird durch f maximiert

Bibliothek: f mit f(θ) =

1 falls∑

p θp > c,

0 sonst.ist effizient

33

Weitere wunschenswerte Eigenschaften von

Entscheidungsfunktionen

• Fairness: minimiere Varianz im Nutzen

• Profit: Nutzen eines bestimmten Spielers maximieren

• Pareto optimal: alle anderen Entscheidungen bringen allen

gleichen Nutzen oder mindestens einem schlechteren Nutzen

34

Transferfunktion

Idee: Frage Spieler nach Ihren privaten Werten

ϑ ∈ ΘP sei Berichtsprofil

Problem: Spieler p hat i.A. Anreiz zu lugen, im Beispiel:

• ϑp < θp fur vp(1, θp) < 0

• ϑp > θp fur vp(1, θp) > 0

Ansatz: Transferfunktion t : ΘP → RP

• tp(ϑ) := t(ϑ)(p) ist Transferzahlung, die p erhalt (ggf. nega-

tiv), falls ϑ berichtet wurde

• t ist durchfuhrbar :∑

p tp(ϑ) ≤ 0 fur alle ϑ (feasibility)

• t ist ausgeglichen:∑

p tp(ϑ) = 0 fur alle ϑ (budget balance)

35

Soziale Auswahl

= ein Paar (f, t)

• quasilineare Nutzenfunktion: (utility)

up(ϑ, θp, f, tp) = vp(f(ϑ), θp) + tp(ϑ)

36

Auktion (eines einzelnen Objekts)

• P alle Bieter

• θp ∈ Θ = R individueller Wert fur p

• D = P , f : RP → P bildet Gebotsprofil auf Sieger ab

• tp : RP → R Transfer (hier: negativ)

vp(q, θp) =

θp falls q = p,

0 sonst.

up(ϑ, θp, f, tp) =

θp + tp(ϑ) falls p = f(ϑ),

tp(ϑ) sonst.

37

Mechanismus• M = (A, g), wobei

• A ist Menge von Aktionen und• g : AP → D × RP (Notation: g = (fg, tg))

• jedes θ ∈ ΘP induziert ein Spiel (P, A, u), wobei

up(x) = vp(fg(x), θp) + tg,p(x)

• M implementiert (f, t), falls fur jedes p

• ein xp : Θ → A existiert, so daß• fur jedes θ ∈ ΘP xθ dominantes Gleichgewicht (im von θ

induzierten Spiel) ist, so daß• g(xθ) = (f(θ), t(θ)),• wobei xθ(p) = xp(θ)

• Alternative: andere Gleichgewichte verwenden

; Bild

38

Direkter Mechanismus und Offenbarungssprinzip

• M = (A, g) ist direkt, falls A = Θ

; g = (fg, tg) ist dann eine soziale Auswahl

• g ist strategiesicher (strategyproof ), falls jedes θ ∈ ΘP ein

dominantes Gleichgewicht bzgl. θ ist

• Ist g = (fg, tg) strategiesicher, so implementiert (Θ, g) die

soziale Auswahl (fg, tg).

Theorem (Offenbarungsprinzip): Wenn M = (A, g) eine so-

ziale Auswahl (f, t) implementiert, so ist (f, t) strategiesicher.

Beweis: Folgt direkt aus (f(θ), t(θ)) = g(xθ).

39

Braucht man Transferfunktionen?

Entscheidungsfunktion f ist diktatorisch, falls ein p existiert, so

daß fur alle θ:

f(θ) ∈ argmaxd∈ranfvp(d, θp)

Theorem (Gibbard-Satterthwaite): D sei endlich und Θ enthalte

alle strikten Ordnungen∗. Dann ist fur ein f mit |ranf | > 2 die

soziale Auswahl (f,0) genau dann strategiesicher, falls f dikta-

torisch ist.

∗Fur alle surjektiven h : D → {1, . . . , |D|} und alle p ∈ P existiert ein θp ∈ Θ sodaß h(d) < h(d′) ⇒ vp(d, θp) < vp(d′, θp).

40

Groves Mechanismen (VCG Mechanismen)

Gegeben: effiziente Entscheidungsfunktion f ; mit welcher Trans-

ferfunktion t ist (f, t) strategiesicher?

Theorem: (Groves) Ist f effizient und existiert fur jedes p ein

wp : ΘP\{p} → R, so daß

tp(ϑ) = wp(ϑ |P\{p}) +∑q 6=p

vq(f(ϑ), ϑq) (1)

dann ist (f, t) strategiesicher.

41

Beispiel: Bibliothek ohne Kosten

• setzen wp(ϑ |P\{p}) = 0

f(ϑ), tp(ϑ), up(ϑ, θp) =

1,∑

q 6=p ϑq, θp +∑

q 6=p ϑq falls∑

q ϑq > 0,

0,0,0 sonst.

• θp +∑

q 6=p ϑq > 0 ; berichte θp ist dominant

• θp +∑

q 6=p ϑq < 0 ; berichte θp ist dominant

• Transfers sind nicht ausgeglichen, nicht einmal durchfuhrbar!

42

Unvertraglichkeit von Ausgeglichenheit und Effizienz

Theorem: (Green, Laffont) Ist f effizient und (f, t) strategiesi-

cher dann hat t die Form (1) (unter milden technischen Annah-

men).

Theorem: (Green, Laffont) Unter milden Annahmen sind Effi-

zienz der Entscheidungsfunktion, Ausgeglichenheit der Transfer-

funktion und Strategiesicherheit unvereinbar.

43

Clarke Mechanismus (Pivot Mechanismus)

Wahle wp(ϑ) = −maxd∈D∑

q 6=p vq(d, ϑq).

tp(ϑ) =∑q 6=p

vq(f(ϑ), ϑq)−maxd∈D

∑q 6=p

vq(d, ϑq)

• falls Anwesenheit von p sich nicht auf Entscheidung auswirkt

; tp = 0

• sonst reprasentiert tp den Wohlfahrtsverlust fur andere durch

Prasenz von p (p ist Pivot)

• Gleichgewichtsnutzen = p’s Beitrag zur sozialen Wohlfahrt

up(θ, θp) =∑q

vq(f(θ), θq)−∑q 6=p

vq(f(θ |P−p), θq)

44

Beispiel: Bibliothek ohne Kosten

up(ϑ, θp) =

θp falls

∑q ϑq ≥ 0 und

∑q 6=p ϑq ≥ 0,

θp +∑

q 6=p ϑq falls∑

q ϑq ≥ 0 und∑

q 6=p ϑq < 0,

−∑

q 6=p ϑq falls∑

q ϑq < 0 und∑

q 6=p ϑq ≥ 0,

0 falls∑

q ϑq < 0 und∑

q 6=p ϑq < 0.

• Transfers sind nicht ausgeglichen, aber durchfuhrbar!

45

Vickrey Auktion

• Beispiel fur Clarke Mechanismus

• effiziente Entscheidung: f(ϑ) ∈ argmaxpϑp

tp(ϑ) =

−maxq 6=p ϑq falls f(ϑ) = p,

0 sonst.

; also Zweitpreisauktion

laßt sich auch leicht auf Mehrfachauktion anwenden

46

Bemerkungen zu Clarke und Groves Mechanismen

• bei Clarke: Transfers sind nie positiv ; durchfuhrbar

• konnen Prinzip der freiwilligen Teilnahme verletzen, d.h.

vp(f(θ), θp) + tp(θ) ≥ 0

• Koalitionen konnen Mechanismus manipulieren

(nicht koalitionssicher (coalitionproof, group-strategyproof ))

47