game theory - vuong quan hoang

189
LÝ THUYẾT TRÒ CHƠI TS.VƯƠNG QUÂN HOÀNG DHVP Research & ĐHTH Bruxelles E-mail: [email protected] Bản Thảo Tài Liệu Nghiên Cứu Hà Nội - Ngày 1 tháng 4 năm 2011

Upload: uy-phap

Post on 08-Jul-2015

659 views

Category:

Business


40 download

DESCRIPTION

Lý thuyết trò chơi - là công cụ hữu hiệu giúp các bên đạt được lợi thế tối ưu trong mỗi quyết định "mỗi trò chơi" trong rất nhiều lĩnh vực. Nó giúp mỗi bên lựa chọn cách chơi để các bên đều có lợi chứ không phải chỉ bên mạnh mà thôi............

TRANSCRIPT

Page 1: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

TS.VƯƠNG QUÂN HOÀNGDHVP Research & ĐHTH BruxellesE-mail: [email protected]

Bản Thảo Tài Liệu Nghiên Cứu

Hà Nội - Ngày 1 tháng 4 năm 2011

Page 2: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

Vương Quân Hoàng

Page 3: Game theory   - Vuong Quan Hoang

Mục lục

Mục lục iii

Danh mục hình vẽ v

Danh mục bảng biểu vii

Lời giới thiệu ix

1 Trò Chơi 2-Người Tổng-0 Hữu Hạn 11.1 Những nét cơ bản . . . . . . . . . . . . . . . . . . . . . . 11.2 Tìm nghiệm trò chơi kích thước 2 × n và m × 2 . . . . . . 3

1.2.1 Giải các trò chơi 2 × n . . . . . . . . . . . . . . . . 31.2.2 Trò chơi m × 2 . . . . . . . . . . . . . . . . . . . . 51.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 7

1.3 Một số ví dụ và tính chất trò chơi ma trận . . . . . . . . . 9

2 Trò Chơi 2-Người Hữu Hạn 172.1 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Tìm điểm cân bằng Nash . . . . . . . . . . . . . . . . . . 19

2.2.1 Cân bằng Nash thuần . . . . . . . . . . . . . . . . 192.2.2 Trò chơi bimatrix 2 × 2 . . . . . . . . . . . . . . . 212.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 23

2.3 Một số ứng dụng và bài toán minh họa . . . . . . . . . . . 26

3 Dạng Mở Rộng Hữu Hạn 353.1 Bài toán dạng mở . . . . . . . . . . . . . . . . . . . . . . 353.2 Dạng chiến lược . . . . . . . . . . . . . . . . . . . . . . . 363.3 Quy nạp lùi và hoàn chỉnh trò chơi con . . . . . . . . . . 39

i

Page 4: Game theory   - Vuong Quan Hoang

ii c⃝ 2011 - Vương Quân Hoàng

3.4 Cân bằng Bayes hoàn hảo . . . . . . . . . . . . . . . . . . 43

4 Trò Chơi Hữu Hạn Thông Tin Không Đầy Đủ 534.1 Nhóm đặc trưng . . . . . . . . . . . . . . . . . . . . . . . 544.2 Trò chơi tĩnh, thông tin không đầy đủ . . . . . . . . . . . 544.3 Trò chơi tín hiệu . . . . . . . . . . . . . . . . . . . . . . . 59

5 Bất Hợp Tác 695.1 Khuôn khổ tổng quát: trò chơi chiến lược . . . . . . . . . 695.2 Cạnh tranh số lượng Cournot . . . . . . . . . . . . . . . . 70

5.2.1 Mô hình đơn giản, thông tin đầy đủ . . . . . . . . 715.2.2 Mô hình đơn giản, thông tin không đầy đủ . . . . 73

5.3 Cạnh tranh giá Bertrand . . . . . . . . . . . . . . . . . . . 755.4 Cân bằng Stackelberg . . . . . . . . . . . . . . . . . . . . 765.5 Chiến lược hỗn hợp và thông tin không đầy đủ . . . . . . 79

6 Trò Chơi Lặp Lại 876.1 Cân bằng hoàn hảo trò chơi con . . . . . . . . . . . . . . 87

6.1.1 Nghịch lý người tù . . . . . . . . . . . . . . . . . . 876.1.2 Quan sát tổng quát . . . . . . . . . . . . . . . . . 91

6.2 Cân bằng Nash . . . . . . . . . . . . . . . . . . . . . . . . 936.2.1 Ví dụ trò chơi bimatrix khác: . . . . . . . . . . . . 936.2.2 Một định lý dân gian cho cân bằng Nash . . . . . 95

7 Trò Chơi Tiến Hóa - 1 1017.1 Trò chơi 2-NC đối xứng và chiến lược ổn định tiến hóa . . 1027.2 Động học bộ sao chép và tính ổn định tiến hóa . . . . . . 1057.3 Trò chơi bất đối xứng . . . . . . . . . . . . . . . . . . . . 107

8 Hợp Tác Chuyển Đổi Lợi Ích 1158.1 Ví dụ và các ý niệm cơ bản . . . . . . . . . . . . . . . . . 115

8.1.1 Bài toán xuất phát . . . . . . . . . . . . . . . . . . 1168.2 Tập lõi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1188.3 Giá trị Shapley . . . . . . . . . . . . . . . . . . . . . . . . 1218.4 Hạch nhân - nucleolus . . . . . . . . . . . . . . . . . . . . 123

Page 5: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research iii

9 Mô Hình Hợp Tác 1339.1 Các dạng bài toán mặc cả . . . . . . . . . . . . . . . . . . 133

9.1.1 Nghiệm Nash cho bài toán mặc cả . . . . . . . . . 1339.2 Nền kinh tế trao đổi . . . . . . . . . . . . . . . . . . . . . 138

10 Trò Chơi Ma Trận 15110.1 Định lý Minimax . . . . . . . . . . . . . . . . . . . . . . . 15110.2 Phát biểu hệ thống về quy hoạch tuyến tính . . . . . . . . 152

11 Công Cụ Toán Học 15711.1 Thuật ngữ và khái niệm thường sử dụng . . . . . . . . . . 15711.2 Các bổ đề về lựa chọn thay thế . . . . . . . . . . . . . . . 15811.3 Định lý đối ngẫu của quy hoạch tuyến tính . . . . . . . . 16011.4 Một số định lý điểm bất động . . . . . . . . . . . . . . . . 16011.5 Định lý Birkhoff–von Neumann . . . . . . . . . . . . . . 160

Phụ lục a

Phụ lục tra cứu a

Page 6: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

Page 7: Game theory   - Vuong Quan Hoang

Danh mục hình vẽ

2.1 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1 Sơ đồ trò chơi dạng mở . . . . . . . . . . . . . . . . . . . 363.2 Sơ đồ cây - thông tin hoàn hảo . . . . . . . . . . . . . . . 373.3 Sơ đồ cây rút gọn - thông tin hoàn hảo . . . . . . . . . . . 403.4 Sơ đồ cây 3-NC . . . . . . . . . . . . . . . . . . . . . . . . 423.5 Sơ đồ 3-NC cân bằng Bayes . . . . . . . . . . . . . . . . . 45

4.1 Xung đột sở thích giới tính, thông tin không đầy đủ . . . 564.2 Trò chơi tín hiệu 1 . . . . . . . . . . . . . . . . . . . . . . 60

5.1 Cournot 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.2 Hàm lợi ích của hãng i khi độc quyền Bertrand . . . . . . 785.3 Lược đồ dạng mở trò chơi Stackelberg . . . . . . . . . . . 785.4 Cân bằng Stackelberg . . . . . . . . . . . . . . . . . . . . 78

6.1 δ và lợi ích giới hạn tại G∞p (δ) . . . . . . . . . . . . . . . . 96

6.2 δ và lợi ích giới hạn tại G∞p (δ) . . . . . . . . . . . . . . . . 96

7.1 Sơ đồ pha của trò chơi tiến hóa bất đối xứng . . . . . . . 108

8.1 Sơ đồ hợp tác tải điện 3-TP . . . . . . . . . . . . . . . . . 1168.2 Tập C trò chơi 3-TP . . . . . . . . . . . . . . . . . . . . . 120

9.1 Bài toán mặc cả: phân chia . . . . . . . . . . . . . . . . . 1349.2 Bài toán mặc cả 2-NC . . . . . . . . . . . . . . . . . . . . 1359.3 4 điều kiện Nash về nghiệm mặc cả . . . . . . . . . . . . 1369.4 Tập lõi và cân bằng Walras . . . . . . . . . . . . . . . . . 144

v

Page 8: Game theory   - Vuong Quan Hoang

vi c⃝ 2011 - Vương Quân Hoàng

11.1 Giải thích hình học bổ đề Farkas . . . . . . . . . . . . . . 159

Page 9: Game theory   - Vuong Quan Hoang

Danh mục bảng biểu

4.1 PPXS theo đặc trưng của NC có 2 đặc trưng . . . . . . . . 58

8.1 Liên minh lưới điện 3-TP . . . . . . . . . . . . . . . . . . 1168.2 Giá trị trò chơi găng tay . . . . . . . . . . . . . . . . . . . 1188.3 Giá trị theo sở nguyện NC . . . . . . . . . . . . . . . . . . 1198.4 Mô hình hoán vị lịch hẹn . . . . . . . . . . . . . . . . . . 1208.5 Giá trị Shapley cho TU-game 3-TP . . . . . . . . . . . . . 1228.6 Phép thử hạch nhân trò chơi 3-TP . . . . . . . . . . . . . 1248.7 Phép thử hạch nhân trò chơi 3-TP (b) . . . . . . . . . . . 126

vii

Page 10: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

Page 11: Game theory   - Vuong Quan Hoang

Lời giới thiệu

Lý thuyết trò chơi (LTTC) từ nửa sau của Thế kỷ XX được gọi là “cuộccách mạng kinh tế học thầm lặng” diễn ra rất mạnh mẽ, nhưng ít ồnào. Nó đã bước qua ranh giới thuần túy dành cho các nhà toán họcđể trở thành lĩnh vực ứng dụng phân tích kinh tế, chính sách dồi dàotiềm năng. LTTC nhanh chóng lan tỏa sang nhiều lĩnh vực khoa học xãhội liên quan tới hành vi con người, và trở thành một công cụ không gìsánh nổi trong việc cung cấp logic và lập luận phân tích sâu. Có lẽ chỉcó nhánh thống kê toán là có thể sánh với lý thuyết trò chơi về mức độứng dụng rộng rãi. Tuy nhiên, trong các môi trường thống kê khó hoạtđộng do tình trạng “dữ liệu bẩn” hay quá rời rạc, khó thu thập, phươngtiện duy nhất là cứu cánh cho các phân tích khoa học hợp lý, có tínhtiên lượng cao (tương đương với thống kê) còn lại chỉ có lý thuyết tròchơi. Đó là lý do mà tài liệu này ra đời, và tự đặt LTTC nhưmột bộ phậnkhông thể tách rời của các nguyên lý kinh tế toán.

Lý thuyết trò chơi: nét đại lược

Vậy LTTC là gì? Trước tiên đó là hệ thống nghiên cứu về các mô hìnhtoán học đặc tả sự xung đột và hợp tác giữa “các cá nhân ra quyết địnhmột cách khôn ngoan.” Còn nhớ ở Việt Nam năm 2009, khi mà ngườitiêu dùng bày tỏ sự bức xúc vì hàng hóa kém cỏi về chất lượng cho mứcgiá tiền phải trả nhiều một cách không tương xứng, đã có vị quan chứcgợi ý: Vậy thì “ông” người tiêu dùng phải thông thái thôi. Khẩu khí nàyrất đượm hương vị LTTC!

Gọi là lý thuyết, bởi vì lĩnh vực này cung cấp các kỹ thuật toán học đểphân tích các tình huống trong đó hai cá nhân, hoặc đông hơn nữa, tiếnhành ra các quyết định, mà các quyết định đó gây ra ảnh hưởng lên lợi

ix

Page 12: Game theory   - Vuong Quan Hoang

x c⃝ 2011 - Vương Quân Hoàng

ích của (những) người khác có mặt trong tình huống (trò chơi).

Như vậy, LTTC cung cấp sự thấu hiểu mà các nhà nghiên cứu ở tất cả(xin lưu ý là “tất cả”) các nhánh của các lĩnh vực khoa học xã hội rất cầnđể nhận biết các vấn đề hành vi con người. Các nhà kinh doanh, chínhtrị gia, chiến lược quân sự lại còn càng cần hơn, vì họ phải xử lý quanhệ đa chiều phức tạp giữa các đám đông thuộc cấp, xã hội, đối tác-đốitượng, v.v..

LTTC hiện diện từ rất lâu rồi, lẩn khuất trong các lĩnh vực xã hội,quân sự, cho dù khôngmang cái tên hiện đại như ngày hôm nay. Nhữngnghiên cứu lớn đã xuất hiện từ thế kỷ XIX, cùng với sự phát triển củabộ môn xác suất, với cái tên như Bertrand. Tuy vậy, LTTC hiện đại –với dáng dấp như một ngành khoa học hoàn chỉnh hôm nay – coi nhưđược đánh dấu từ thế kỷ XX, với những tác phẩm trứ danh của Zermelo(1913), Emile Borel (“La théorie du Jeu et les équations intégrales ànoyau symétrique,” Comptes Rendus de l’Académie des Sciences, Vol.173: 1304-1308, 1921), VonNeumann (1928), và cuốn sách rất ấn tượngcủa Von Neumann và Morgenstern (Theory of Games and EconomicBehavior, 1944).

Lý thuyết trò chơi hiện đại nợ nần nhiều đóng góp rất lớn của Prince-ton, và rất nhiều đóng góp ban đầu được công bố trong khoảng thời gianThế chiến Đệ Nhị. Nơi sinh ra những đóng góp lớn của lý thuyết tròchơi, cũng là nơi nhiều vĩ nhân của ngành vật lý sản sinh ra những đónggóp tạo ra bước tiến khổng lồ của khoa học vật lý nhân loại. Sự gần gũivề mặt không gian này, theo các nhà nghiên cứu về lịch sử phát triển

Page 13: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research xi

tri thức nhân loại, xét ở góc nhìn rộng rãi, không hề tình cờ hay ngẫunhiên. Và như vậy, nó là kết cục tất yếu. Phần lớn sự hấp dẫn, cuốnhút và những gì chứa đựng hứa hẹn lớn lao của lý thuyết trò chơi là kếtquả của vị trí trung của lý thuyết trò chơi, với tư cách nền tảng toán họcvà logic cho tất cả các ngành khoa học xã hội. Trong thời kỳ đầu thế kỷXX này, những tiến bộ lớn diễn ra trong tất cả các nhánh của các ngànhkhoa học vật lý đã sản sinh ra nghịch lý và sự xung đột tiềm tàng về vũkhí hạt nhân, và điều này đã trực tiếp đe dọa sự tồn tại của toàn bộ nềnvăn minh nhân loại.

Tiến bộ khoa học vật chất có vẻ như giúp con người biết cách thiết kếcác hệ thống vật lý để khai thác vật liệu tạo năng lượng phóng xạ, nhưnglại không đủ tri thức để tạo ra các hệ thống xã hội có thể giúp điều hòahành vi của con người trong bối cảnh xung khắc tới mức sẵn sàng tiêudiệt nhau. Yêu cầu bức bách dẫn tới sự kỳ vọng lớn lao rằng ngành khoahọc xã hội cũng sẽ đạt được những bước tiến đủ lớn, có tính căn nguyênvà đảm bảo học thuật, có khả năng cung cấp nhận thức sâu sắc tươngxứng với những tiến bộ khoa học vật chất, đặc biệt là vật lý lý thuyết vàứng dụng. Sự hy vọng lớn lao này là động lực mạnh mẽ khiến rất nhiềunhà toán học và khoa học xã hội miệt mài nghiên cứu thúc đẩy lý thuyếttrò chơi trong nửa còn lại của thế kỷ XX.

Cuối cùng thì mong mỏi đó cũng được đền đáp. Bằng chứng rất thựcvề sức mạnh của lý thuyết trò chơi có thể đặc trưng bởi quá trình mắnđẻ các ứng dụng quan trọng của nó trong kinh tế học và đời sống kinhtế toàn cầu.

Về bản chất công việc, các nhà nghiên cứu LTTC thực ra bỏ công sứcnhằm hiểu được bản chất của xung đột và hợp tác, thông qua việc tìmhiểu, xây dựng các mô hình định lượng, kèm theo đó là các ví dụ mangtính chất ước đoán về các tình huống, hành vi của cuộc sống. Các ví dụthì như chúng ta vẫn thấy, thường phải được đơn giản hóa đi (một cáchphi thực tế), nhằm cô lập một nhóm vấn đề phức tạp về một số ít vấn đềrất căn bản của bản chất xung đột hay hợp tác. Tính đơn giản này giúpgiải quyết vấn đề được thuận lợi hơn, trong khi vẫn có thể duy trì tínhtổng quát cho cả các trường hợp vô cùng rắc rối của đời sống thực. Điềunày cũng là chuyện thường thấy trong rất nhiều ngành khoa học khácnữa: Gạt bỏ các chi tiết dù là có thực, nhưng không quá quan trọng, đểtập trung cho một số ít các câu hỏi lớn, không thể bỏ qua.

Khái niệm “trò chơi” ở đây chỉ là quy ước về mặt ngôn ngữ, nhằm

Page 14: Game theory   - Vuong Quan Hoang

xii c⃝ 2011 - Vương Quân Hoàng

ám chỉ bất kỳ tình huống xã hội nào có liên quan tới ít nhất 2 người.Do cách gọi, các cá nhân liên quan tới một trò chơi thì đều được gọi là“người chơi.” Nói chính xác là họ ra các quyết định, thậm chí rất nghiêmtúc và bằng trí khôn chuẩn mực, chứ không có chơi bời gì hết.) Điềukiện để nghiên cứu là hai giả thiết: Thứ nhất, người chơi có tính hợp lý.Thứ hai, người chơi sử dụng trí khôn để ra quyết định.

Hành vi nhất quán tối đa hóa mức thỏa dụng còn được nhận biết từcác mô hình chọn lọc tiến hóa. Trong một vũ trụ mà sự hỗn loạn tănglên là một quy luật vật lý, các cơ quan phức tạp (như cơ thể con người,hay tổ chức xã hội) chỉ có thể tồn tại nếu biết cách điều chỉnh hành vi,theo hướng làm tăng xác suất sống sót và duy trì sinh sản (tái tạo cácthế hệ). Như thế, theo cách nhìn của chọn lọc tiến hóa, các cá nhân cóxu hướng tối đa hóa giá trị kỳ vọng của đại lượng “sống sót” hoặc “thíchnghi sinh sản.”

Có lẽ, chúng ta để dành các thảo luận kỹ thuật cho phần nội dung sâucủa các chương tiếp theo sau đây.

Biên soạn

Tài liệu này được biên soạn với mục đích trước tiên làm tài liệunghiên cứu nội bộ của văn phòng nghiên cứu DHVP Research (w:www.vietnamica.net), phục vụ các nghiên cứu ứng dụng về chính sáchkinh tế trong giai đoạn 2011-2015.

Quá trình biên soạn tài liệu có đóng góp quan trọng của Trần TríDũng và Nguyễn Xuân Dũng. Ngoài ra, Nguyễn Thu Hoài tham gia trợgiúp một số công việc liên quan.

Để trở thành một tài liệu hoàn chỉnh, có thể sử dụng cho giảng dạyvà in ấn rộng rãi, sẽ còn phải gia công rất nhiều, đặc biệt là đưa vào cácnghiên cứu ứng dụng kinh tế - xã hội mà LTTC đã và đang giải quyết rấthiệu quả, đưa ra nhiều ngụ ý chính sách tốt.

Hà Nội - Tháng 6-2011TS. Vương Quân Hoànge: [email protected]

Page 15: Game theory   - Vuong Quan Hoang

Chương 1

Trò Chơi 2-Người Tổng-0Hữu Hạn

1.1 Những nét cơ bản

Các dữ liệu của trò chơi 2-người tổng-0 hữu hạn có thể được tóm tắt vàomột ma trận, do đó loại trò chơi này còn được gọi là trò chơi ma trận.

Trò chơi ma trận làmộtma trậnA kích thướcm×n chứa các số thực,với m hàng, n cột.1 Chiến lược chơi của người chơi số 1 (gọi tắt là NC1)làmột phân phối xác suấtp tương ứng với các dòng củama trậnA. Điềuđó có nghĩa là, chiến lược của NC1 là một phần tử của tập

∆m := {p = (p1, . . . , pm) ∈ Rm|m∑

pi = 1, pi ≥ 0,∀i = 1, . . . , m}.

Tương tự, chiến lược của người chơi 2 (NC2) là một PPXS q trên cáccột của A; tức là một phần tử của tập

∆n := {q = (q1, . . . , qn) ∈ Rn|m∑

qj = 1, qj ≥ 0,∀j = 1, . . . , n}.

Chiến lược p của NC1 gọi là ‘thuần’ nếu chiến lược được đó lựa chọndòng thứ i một cách chắc chắn, tức là pi = 1. Chiến lược thuần này cóthể ký hiệu là ei.

1Như vậy m, n là các số nguyên dương, bé nhất là bằng 1.

1

Page 16: Game theory   - Vuong Quan Hoang

2 c⃝ 2011 - Vương Quân Hoàng

Tương tự vậy, chiến lược q của NC2 gọi là ‘thuần’ nếu lựa chọn cộtthứ j một cách chắc chắn, tức là qj = 1; ký hiệu là ej .

Ý nghĩa của ma trận A như sau. Nếu NC1 chơi hàng i, tức là lựa chọnchiến lược thuần ei, thì NC1 nhận được lợi ích tài chính aij , trong khiNC2 nhận được−aij (nghĩa là trả), tương ứng vị trí dòng i và cột j trongA.

Giả sử NC1 chơi chiến lược hỗn hợp p và NC2 q, thì lợi ích của NC1thu về tương ứng với một dãy PPXS (chính là ý nghĩa của chiến lược hỗnhợp) là: pAq =

∑m ∑n piqjaij . Khi này NC2 nhận được −pAq (tức làtrả).

Để giải bài toán trò chơi dạng ma trận như trên, ta cần thêm kháiniệm chiến lược maximin và minimax sau đây.

Chiến lược maximin và minimax. Chiến lược p được gọi là max-imin cho NC1 trong trò chơi ma trận A nếu như

min{pAq} ≥ min{p′Aq} ∀p′ ∈ ∆m,q ∈ ∆n. (1.1)

Theo cách tương tự, chiến lược minimax q của NC2 nếu như:

min{pAq} ≤ min{pAq′} ∀q′ ∈ ∆n. (1.2)

Một cách dễ hình dung, đối với NC1 chiến lược maximin là lựa chọnPPXS sao cho anh ta tối đa hóa giá trị lợi ích nhỏ nhất, tương ứng vớilựa chọn của NC2. Cònminimax là lựa chọn PPXS sao cho NC2 tối thiểuhóa giá trị thiệt hại lớn nhất tương ứng với lựa chọn của NC1.

Như vậy, để biết được lựa chọn p có phải chiến lược maximin haykhông, chỉ cần kiểm tra sự thỏa mãn dấu ≥ của bất đẳng thức (1.1) vớicác chiến lược thuần ej , với từng giá trị j = 1, 2, . . . , n.2

Nhà toán học Von Neumann chứng minh rằng với mọi trò chơi matrận A, sẽ tồn tại một trị số v = v(A) có tính chất như sau:

1. Chiến lược p của NC1 đảm bảo thu về lợi ích tối thiểu v cho NC1,nghĩa là pAq ≥ v bất kể NC2 lựa chọn chiến lược q nếu và chỉ nếu p làchiến lược maximin.

2. Chiến lược q của NC2 đảm bảo chỉ phải chi phí tối đa v mà NC2phải trả NC1, nghĩa là pAq ≤ v bất kể NC1 lựa chọn chiến lược p nào,nếu và chỉ nếu q là chiến lược minimax.

2Chứng minh chặt chẽ hơn luận điểm này sẽ được trình bày sau.

Page 17: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 3

Trong thuật ngữ của chúng ta, v = v(A) được gọi là giá trị của tròchơi A. Các chiến lược maximin và minimax như vừa nói được gọi làcác chiến lược tối ưu tương ứng với NC1 và NC2. Khi nói rằng ‘giải bàitoán’ trò chơi A nghĩa là ta ám chỉ việc xác định các chiến lược tối ưu,đồng thời cả giá trị của trò chơi.

Điểm yên ngựa. Một vị trí xác định bởi cặp (i, j) trong ma trận Ađược gọi là điểm yên ngựa - saddlepoint - nếu như aij ≥ akj với mọi giátrị k = 1, . . . , m, và aij ≤ aik với mọi k = 1, . . . , n.

Giá trị tại điểm yên ngựa aij có ý nghĩa là điểm có giá trị lớn nhấttrong cột j và nhỏ nhất trong hàng i. Từ đó ta thấy rằng, nếu (i, j) làđiểm yên ngựa, thì NC1 có thể đảm bảo nhận được giá trị lợi ích tốithiểu aij bằng cách chơi chiến lược thuần theo dòng i, tức là ei. Tươngtự, NC2 đảm bảo chỉ phải trả tối đa −aij bằng cách lựa chọn chiến lượcthuần cột ej .

Theo suy luận này, aij chắc chắn phải là giá trị của trò chơi A,v(A) = aij , đồng thời ej là chiến lược minimax tối ưu của NC2, ei màmaximin tối ưu của NC1.

1.2 Tìm nghiệm trò chơi kích thước 2 × n vàm × 2

Tiếp theo, ta xét cách tìm nghiệm trò chơi ma trận và khái niệm nghiệmtrội có liên quan tới kỹ thuật xử lý bài toán ma trận.

1.2.1 Giải các trò chơi 2 × n

Xét trò chơi 2-dòng và n-cột, với một ma trận A bằng số cụ thể có kíchthước 2 × 4.

A =(

10 2 4 12 10 8 12

)

Ta đặt các chiến lược thuần theo cột lần lượt là e1 =(

102

), e2 =(

210

), e3 =

(48

), và e4 =

(112

).

Page 18: Game theory   - Vuong Quan Hoang

4 c⃝ 2011 - Vương Quân Hoàng

Các chiến lược thuần trên là của NC2 (do lấy theo cột). Bây giờ, taxét chiến lược chơi hỗn hợp p = (p, 1− p) bất kỳ của NC1. Thiết lập cácmức lợi ích kỳ vọng NC1 thu được tương ứng với mỗi chiến lược thuầnở trên của NC2, ta sẽ có một hệ thống như sau:

pAe1 = 10p + 2(1 − p)pAe2 = 2p + 10(1 − p)pAe3 = 4p + 8(1 − p)pAe4 = p + 12(1 − p)

Sử dụngMathematica vẽ đồ thị hệ các phương trình tuyến tính ở trênta có:

In[1]:= e1[p_] := 8 p + 2; e2[p_] := 10 - 8 p;e3[p_] := 8 - 4 p; e4[p_] := 12 - 11 p;

In[3]:= Plot[{e1[p], e2[p], e3[p], e4[p]}, {p,0,1}];

Có 4 điểm đáng chú ý của đồ thị này là (0, 2), (12 , 6), (20

21 , 3221), (1, 1).

Đây là các điểm mà khi nối lại, ta thu được đường bao đáy của miềntạo bởi toàn bộ 4 đoạn thẳng trong khoảng p = [0, 1] như đã nói. Khip = 1/2 cũng là lúc toàn bộ hệ này thu được giá trị maximin là 6, và đâycũng là giá trị của trò chơi v(A) = 6.3

3Có thể dễ dàng chứng minh tính duy nhất của chiến lược tối ưu maximin từ hệphương trình, cũng như quan sát qua đồ thị.

Page 19: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 5

Đó là với NC1, còn các chiến lược tối ưu minimax của NC2 sẽ có hìnhdạng ra sao?

Trước tiên, dạng tổng quát của chiến lược minimax cho NC2 là q =(q1, q2, q3, q4). Lợi dụng việc xác định được v(A) = 6, ta sẽ loại được q4

do q4 = 0, vì nếu như q4 > 0 thì chi phí của việc chơi chiến lược thuầne4 là 1

2 · 1 + 12 · 12 > 6, điều này mâu thuẫn với nhận thức lúc trước rằng

NC2 chỉ trả nhiều nhất là bằng v(A).Tiếp tục lợi dụng v(A) = 6 và p∗ = 1/2 đã biết, sau khi biết q4 = 0, ta

lại thu được một hệ:

6 = 10q1 + 2q2 + 4q3

6 = 2q1 + 10q2 + 8q3

1 = q1 + q2 + q3

Hệ này rút gọn xuống thành:

1 = 3q1 − q2

1 = q1 + q2 + q3

Từ đây có thể thấy rằng, khi q1 = 1/3 → q2 = 0, và q1 = 1/2 → q2 = 1/2.Cả q1, q2 đều không thể lớn hơn 1/2. Ràng buộc với q3 không xác định.Tập hợp các chiến lược tối ưu cho NC2 có dạng:

{q = (q1, q2, q3, q4)|13≤ q1 ≤ 1

2, q2 = 3q1 − 1, q4 = 0}.

1.2.2 Trò chơi m × 2

Giả sử ta chuyển vị ma trận 2 × 4 vừa rồi thành trò chơi 4 × 2 có dạng:

A =

10 22 104 81 12

Bây giờ ta viết lại dạng các chiến lược thuần ei, i = 1, . . . , 4: e1 = (10, 2),e2 = (2, 10), e3 = (4, 8), e4 = (1, 12). Thực ra, đây là cách xử lý để đưađầu bài về dạng dễ giải quyết hơn, do với số cột n = 2, ta lại có tình

Page 20: Game theory   - Vuong Quan Hoang

6 c⃝ 2011 - Vương Quân Hoàng

huống NC2 có chiến lược với PPXS đơn giản, dạng tương tự khi trướcq = (q, 1 − q).4

Tiếp theo, ta thiết lập hệ các lợi ích cho NC1, tương ứng với chiếnlược q của NC2, nếu NC1 chơi chiến lược thuần ei, i = 1, . . . , 4.5

e1Aq = 10q + 2(1 − q) = 8q + 2e2Aq = 2q + 10(1 − q) = 10 − 8q

e3Aq = 4q + 8(1 − q) = 8 − 4q

e4Aq = q + 12(1 − q) = 12 − 11q

Ta xử lý sơ bộ trên đồ họa Mathematica qua một số lệnh sau:

In[1]:= e1[q_]:=8*q+2; e2[q_]:=10-8*q;In[2]:= e3[q_]:=8-4*q; e4[q_]:=12-11*q;In[4]:= Plot[{e1[q], e2[q],e3[q],e4[q]},{q,0,1}, AxesLabel ->

{"q","Player 1 Payoff"}, GridLines -> Automatic]

Ta nhận thấy 3 điểm đáng chú ý là các điểm tạo thành đường bao phíatrên của vùng xác định bởi các đoạn thẳng của hệ phương trình trên(0, 12), (10

19 , 11819 ), (1, 10). Trong các điểm có giá trị lớn nhất nằm trên

đường bao đi qua 3 điểm này, điểm có trị số nhỏ nhất là (1019 , 118

19 ), điểmgiao nhau giữa đường 12 − 11q và 8q + 2. Đây cũng là điểm cho biếtchiến lược giá trị phải trả minimax tối ưu cho NC2.

4Lưu ý: Trong bài toán A2×n thì PPXS của chiến lược ký hiệu là p.5NC1 nhận giá trị theo dòng của ma trận A.

Page 21: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 7

Giá trị của trò chơi là 11819 , và tương ứng với nó là chiến lược minimax

tối ưu với NC2 là q∗ = (1019 , 9

19).Tiếp theo là nhiệm vụ xác định chiến lược tối ưu cho NC1 p =

(p1, p2, p3, p4), tận dụng kết quả đã biết của q∗ và v(A) = 11819 . Dựa

trên đồ thị ở trên, p2 = p3 = 0, do hai đường này nằm dưới đường baophía trên tạo bởi e1Aq và e4Aq.6

Như vậy, cần tìm một phép kết hợp giữa e1 và e4 sao cho chiến lượcnày tạo ra lợi ích không nhỏ hơn 118

19 với mọi giá trị q. Điều kiện này dẫntới việc khai triển p theo hai cột của A như sau:

10p1 + 2 · 0 + 4 · 0 + p2 =11819

2p1 + 10 · 0 + 8 · 0 + 12p2 =11819

p1 + 0 + 0 + p4 = 1

Ta tìm được cặp nghiệm duy nhất, và là chiến lược maximin cho NC1dưới đây7

In[17]:= Solve[{10 p1 + p4 == 118/19, 2*p1 + 12*p4 == 118/19},{p1, p4}]

Out[17]={{p1 -> 11/19, p4 -> 8/19}}

Rõ ràng p1 + p4 = 1 cũng thỏa mãn nốt điều kiện thứ 3. Cuối cùng,ta kết luận chiến lược tối ưu maximin - và cũng là duy nhất - cho NC1 códạng (11

19 , 0, 0, 819).

1.2.3 Tính trội tuyệt đối

Tính trội tuyệt đối (strict domination) là một kỹ thuật nhằm giúp việcphân tích nghiệm củamột TC được thuận lợi hơn, thông qua việc loại bỏbớt các chiến lược thuần không thích hợp. Trước hết, ta xét khái niệm.

6Khi thay giá trị q = 1019

vào hai phương trình 2 và 3, ta thu được các giá trị lợi íchcho NC1 lần lượt là 110

19, 112

19. Cả hai giá trị này đều nhỏ hơn v(A), do đó nếu p2, p3 = 0

thì chiến lược p không thỏa mãn tính chất maximin.7Trong tài liệu này, chúng ta sử dụng Mathematica cho các tính toán số để tiết kiệm

thời gian.

Page 22: Game theory   - Vuong Quan Hoang

8 c⃝ 2011 - Vương Quân Hoàng

Tính trội tuyệtđối. GọiA làmột trò chơima trậnkích thướcm×n vài làmột dòng (hàng) củaA. Một chiến lược thuần ei gọi là lép vế (strictlydominated) nếu như tồn tại một chiến lược hỗn hợp p = (p1, . . . , pm) ∈∆m với pi = 0 sao cho pAej > eiAej , với mọi j = 1, . . . , n.

Tương tựnhưvậy, gọi j làmột cột củaA. Chiến lược thuầnej gọi là lépvế nếu tồn tại q = (q1, . . . , qn) ∈ ∆n với qj = 0 sao cho: eiAq < eiAej ,với mọi i = 1, . . . , m.

Để làm rõ khái niệm này, chúng ta xét minh họa bằng ví dụ số nhưsau. Cho ma trận A3×3:

A =

6 0 20 5 43 2 1

.

Theo quy ước, NC1 chơi theo hàng. Giả sử PPXS tạo thành chiến lượchỗn hợp của NC1 là p = ( 7

12 , 512 , 0). Theo định nghĩa, ta thực hiện phép

tính:

p · A =(

712

512 0

) 6 0 20 5 43 2 1

.

Thực hiện phép nhân này trong môi trường Mathematica

In[2]:= {{7/12, 5/12, 0}} . {{6, 0, 2}, {0, 5, 4}, {3, 2, 1}}Out[2]= {{7/2, 25/12, 17/6}}

ta thu được kết quả p · A = (312 , 2 1

12 , 256). Rõ ràng, pA > e3A bất kể

PPXS q ra sao. e3 lép vế, và dòng 3 có thể loại khỏi trò chơi, ta thu được:

B =(

6 0 20 5 4

).

Bây giờ ta xét tiếp chiến lược q = (14 , 3

4 , 0). Tính B ·q quaMathematica,ta thu được:

In[5]:= B={{6,0,2},{0,5,4}};In[6]:= q={{1/4,3/4,0}};In[7]:= B.Transpose[q]Out[7]= {{3/2},{15/4}}

Page 23: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 9

So sánh ta thấy ngay rằng

B · q =(

32

312

)<

(24

)= B · e3

Từ đây suy ra, NC2 sẽ không sử dụng phương án chơi cột 3, và ma trậntiếp tục được rút gọn còn:

C =(

6 00 5

).

Ở dạng ma trận rút gọn đơn giản này, việc giải bài toán trở nên thuậnlợi và nhanh chóng. Bản thân trò chơi C không có điểm yên ngựa, dođó sẽ không có chiến lược thuần cho NC1 đảm bảo tính chất maximin.Xét PPXS p = (p, 1 − q) với từng chiến lược thuần của NC2, ta dễ dàngthu được pAe1 = 6p và pAe2 = 5 − 5p, và giải ra được:

In[24]:= Solve[6*p==5-5*p,p]Out[24]= {{p \[Rule] 5/11}}

Như vậy p = ( 511 , 6

11), tương ứng v(A) = 3011 .

Tương tự vậy, ta xét tiếp chiến lược cho NC2, thông qua xét q =(q, 1 − q), và ta sẽ thu được kết quả hoàn toàn trùng khớp (do tính chấtđối xứng qua trục chuyển vị: q = ( 5

11 , 611). Hiển nhiên giá trị trò chơi

vẫn là v(A) = 3011 .

1.3 Một số ví dụ và tính chất trò chơi ma trận

Ví dụ 4. Cho trò chơi ma trận (3 × 4) như sau:

A =

2 −1 0 22 0 0 30 0 −1 2

,

Giải bài toán trò chơi ma trận A.Theo định nghĩa của điểm yên ngựa, ma trận A tồn tại hai điểm yên

ngựa là a22, a23. Giá trị trò chơi v(A) = a22 = a23 = 0. Xét một cáchđơn giản, do chắc chắn NC1 sẽ chơi hàng 2 - vì cả hai điểm yên ngựađều nằm trên hàng thứ 2, do đó, PPXS thể hiện chiến lược maximin của

Page 24: Game theory   - Vuong Quan Hoang

10 c⃝ 2011 - Vương Quân Hoàng

NC1 là chiến lược thuần, và có dạng p = (0, 1, 0). Hiển nhiên, p có tínhduy nhất.

Còn xét NC2, ta có thể giả sử chiến lược minimax qua PPXS dạngq = (0, q, 1− q, 0). Triển khai ta có được so sánh 3 giá trị 1, 0, 1 và giá trịminimax NC2 lựa chọn đương nhiên là 0 tương ứng với trường hợp NC1lựa chọn phương án maximin. Như vậy q = (0, q, 1 − q, 0) là nghiệmcuối cùng, với mọi giá trị 0 ≤ q ≤ 1.

Ví dụ 5. Giải ma trận

A =

1 3 12 2 00 3 2

.

Ví dụ 6. Giải ma trận

A =

16 12 22 6 168 8 60 7 8

.

Ví dụ 7. Giải ma trận

A =(

3 1 4 01 2 0 5

).

Ví dụ 8. Giải ma trận

A =

1 0 24 1 13 1 3

.

Tính chất 9. Cho A là một trò chơi ma trận m × n. Hãy chỉ ra rằngbất kỳ 2 điểm yên ngựa nào cũng có cùng giá trị, nghĩa là nếu (i, j) và(k, l) là hai điểm yên ngựa, thì aij = akl.

Tính chất 10. Nếu A(4×4) là trò chơi trong đó (1, 1) và (4, 4) là cácđiểm yên ngựa. Chứng minh rằng, A có ít nhất 2 điểm yên ngựa khácnữa.

Page 25: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 11

Ví dụ 11. Hãy tìm một ví dụ trò chơi ma trận kích thước (4 × 4) cóchính xác 3 điểm yên ngựa.

Page 26: Game theory   - Vuong Quan Hoang

12 c⃝ 2011 - Vương Quân Hoàng

Page 27: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 13

VQG ghi chú:

Page 28: Game theory   - Vuong Quan Hoang

14 c⃝ 2011 - Vương Quân Hoàng

Page 29: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 15

VQG ghi chú:

Page 30: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

Page 31: Game theory   - Vuong Quan Hoang

Chương 2

Trò Chơi 2-Người HữuHạn

Chương thứ hai này đề cập tới trò chơi 2-người, trong đó mỗi NC lựachọn phương án từ nhiều chiến lược thuần hoặc là “ngẫu nhiên hóa”1

các chiến lược này. Bài toán ta sẽ xét ở đây không yêu cầu trò chơi phảicó tổng bằng 0. Do nới lỏng yêu cầu này, ta có thể xem xétmột lớp nhiềutrò chơi hơn, có tính chất sát thực hơn với các ứng dụng kinh tế xã hội.Hai ví dụ rất điển hình của lớp trò chơi này là hai bài toán rất quen tênvới giới nghiên cứu: “Nghịch lý người tù,” và “Xung đột giới.”2

Mô hình và ý niệm về “cân bằng Nash” có vai trò quan trọng để dẫndắt việc tìm kiếm các điểm cân bằng Nash trong số các chiến lược thuầncủa các bài toán. Tính trội tuyệt đối đã giới thiệu khi trước cũng đượcđưa ra ứng dụng nhằm hỗ trợ việc tìm ra các cân bằng Nash. Hỗ trợ chochương này là Chương 12, bổ sung thêm các ý tưởng được gọt giũa sắcbén và gia tăng thêm công cụ.

2.1 Cơ sở lý thuyết

Dữ liệu cho bài toán trò chơi 2-người với số chiến lược thuần hữu hạnđược trình bày qua 2 ma trận, thường được ghép vào làmmột - ta sẽ gọilà ma trận cặp (bimatrix).

1Từ khái niệm randomizemà chúng ta sẽ làm rõ nội dung sau.2Tươngứng với những thuật ngữngàynay không xa lạ với các giáo trình là “Prisoners’

dilemma” và “Battle of sexes.”

17

Page 32: Game theory   - Vuong Quan Hoang

18 c⃝ 2011 - Vương Quân Hoàng

Định nghĩa. Một trò chơi ma trận cặp (bimatrix) là một cặp ma trậncó kích thước m × n ký hiệu (A,B).

Cách hiểu trò chơi (A,B) như sau. Nếu như NC1 (theo quy ước làchơi theo hàng, hoặc dòng) mà chơi hàng (i) và NC2 chơi cột j, thì NC1nhận lợi ích aij , và NC2 nhận bij , là các phần tử tương ứng của A và B.Các ý niệm và ký hiệu với chiến lược thuần và hỗn hợp, tập hợp chiếnlược và lợi ích kỳ vọng vẫn giống như bài toán ma trận ở chương trước.

Vấn đề trung tâm cần lưu ý với các bài toán thuộc lớp trò chơi bất hợptác (noncooperative game ) là khái niệm phản ứng tối ưu (best reply).Ý niệm của phản ứng tối ưu trước hết có thể diễn đạt bằng lời như sau.Một NC có tính toán hợp lý và vị lợi sẽ luôn tìm cách tối đa hóa lợi íchkỳ vọng của mình, thông qua hiểu biết hay phỏng đoán cá nhân về cácchiến lược mà đối thủ có thể lựa chọn.

Khái niệm phản ứng tối ưu. Chiến lược p của NC1 gọi là phản ứngtối ưu với chiến lược q của NC2 trong một trò chơi bimatrix kích thướcm × n - ký hiệu là (A,B) nếu pAq ≥ p′Aq với mọi p ∈ ∆m.

Tương tự như trên, q được gọi là phản ứng tối ưu với chiến lược pcủa NC1 nếu như pBq ≥ pBq′ với mọi q ∈ ∆n.

Kết luận đáng chú về mặt lý thuyết là tại điểm cân bằng Nash, chiếnlược củamỗi NC chính là phản hối tối ưu với người kia. Bây giờ chúngta xét tới định nghĩa của cân bằng Nash.

Cân bằng Nash. Một cặp chiến lược, ký hiệu p∗,q∗, được gọi là cânbằng Nash nếu như p∗ là phản hồi tối ưu của NC1 khi NC2 chơi chiếnlược q∗, và q∗ là phản hồi tối ưu của NC2 khi NC1 theo lựa chọn chiếnlược p∗.

Nếu p∗ và q∗ là các chiến lược thuần, thì cân bằng Nash cũng đượcgọi là cân bằng Nash thuần.

Cân bằng Nash chúng ta vừa nêu là cho trò chơi đang xét: 2-người,hữu hạn dòng, cột. Về sau này, cân bằng Nash sẽ còn được mở rộng chonhiều loại trò chơi khác nữa, nhiều người chơi, nhiều tập chiến lược vànhiều loại hàm lợi ích tương ứng. Giáo sư John Nash chứng minh rằng,với trò chơi đang xét của chúng ta, luôn tồn tại một cân bằng Nash.

Nói rộng ra, bản thân ý niệm cân bằng Nash được phát triển khôngphải để tìm một điểm cân bằng Nash, mà ngược lại là vì có nhiều điểmcân bằng Nash, và cần giải thích ý nghĩa của chúng trong trò chơi. Bản

Page 33: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 19

thân việc lựa chọn và thu hẹp lựa chọn trong nhiều điểm cân bằng Nashcủa một trò chơi là một câu hỏi rất khoa học và phù hợp với tư duy logiccủa người giải trò chơi. Một lưu ý bên lề nữa là, bản thân định nghĩavề cân bằng Nash không hề đề cập đến khả năng trên thực tế liệu ngườichơi có lựa chọn cân bằng Nash để thực hiện ý đồ hay không.

Chúng ta cũng còn một câu hỏi nữa từ ý niệm cân bằng Nash cần trảlời. Đó là, ý nghĩa củamột chiến lược hỗn hợp là gì. Liệu chiến lược hỗnhợp có nghĩa là NC trên thực tế ngẫu nhiên hóa khi chơi trò chơi không?Ở đây, một cách hiểu phổ biến và khác đi là: một chiến lược hỗn hợpcủa một NC - chẳng hạn NC1 - biểu thị niềm tin, hoặc sự phỏng đoán,của NC kia - tức là NC2 - về cách mà NC1 sẽ chơi. Như vậy, chiến lượchỗn hợp là hiện thân của tính bất trắc chiến lược của những NC trongmột trò chơi. Đây là khái niệm do von Neumann và Morgenstern đưara. Chúng ta sẽ còn đề cập lại những câu hỏi và khái niệm vừa nêu ở cácphần sau.

2.2 Tìm điểm cân bằng Nash

Trước tiên, ta cần biết rằng, việc tìm tất cả các điểm cân bằng Nash củamột trò chơi bimatrix bất kỳ là việc rất khó. Ở đây, trước mắt ta tạmthời giới hạn nhiệm vụ lại trong phạm vi tìm tất cả các cân bằng Nashthuần của trò chơi bimatrix. Tiếp theo, chúng ta xem xét việc tìm cânbằng Nash cho các bimatrix kích thước 2 × 2, 2 × 3, 3 × 2 bằng cách sửdụng đồ thị. Với các ma trận kích thước lớn hơn nữa, việc giải bằng đồthị rất khó khăn và hầu như không thể.

2.2.1 Cân bằng Nash thuần

Để tìm cân bằng Nash trong trò chơi bimatrix, trước hết ta có thể xácđịnh các phản hồi tối ưu thuần của NC2 với từng chiến lược thuần củaNC1. Rồi tiếp theo, xác định các phản hồi tối ưu của NC1 với từng chiếnlược thuần của NC2. Các cặp chiến lược đồng thời là phản hối tối ưu củacả hai NC trong trò chơi chính là các điểm cân bằng Nash của trò chơi.

Ta cần minh họa trò chơi dưới đây để làm rõ ý tưởng vừa nêu.

Page 34: Game theory   - Vuong Quan Hoang

20 c⃝ 2011 - Vương Quân Hoàng

W X Y Z

T 2, 2 4, 0 1, 1 3, 2M 0, 3 1, 5 4, 4 3, 4B 2, 0 2, 1 5, 1 1, 0

Trước tiên, ta xác định phản hồi tối ưu của NC2.

W X Y Z

T 2, 2∗ 4, 0 1, 1 3, 2∗

M 0, 3 1, 5∗ 4, 4 3, 4B 2, 0 2, 1∗ 5, 1∗ 1, 0

Tiếp theo, ta xác định phản hồi tối ưu của NC1.

W X Y Z

T 2∗, 2∗ 4∗, 0 1, 1 3∗, 2∗

M 0, 3 1, 5∗ 4, 4 3∗, 4B 2∗, 0 2, 1∗ 5∗, 1∗ 1, 0

3 điểm cân bằng Nash ta tìm được từ các chiến lược thuần là (T, W ),(T, Z) và (B, Y ).3

Xét một cách chặt chẽ, ta cũng phải xét đến các phản ứng tối ưu cótính hỗn hợp đối với một chiến lược thuần của đối thủ để kết luận xemliệu chiến lược thuần này có khả năng xảy ra ở điểm cân bằng Nash haykhông. Tuy vậy, có thể nhận thấy bất kỳ một phản ứng tối ưu hỗn hợpnào cũng là một tổ hợp các phản ứng tối ưu thuần, do đó không thể tạora lợi ích lớn hơn.

Giả sử trong bài toán trên, NC2 lựa chọn chiến lược hỗn hợp(q, 0, 0, 1− q) để đáp ứng chiến lược thuần T của NC1. Lựa chọn này dẫntới lợi ích củaNC2 trong trườnghợpnày có giá trị 2q+0+0+2(1−q) = 2.Tuy vậy, chiến lược hỗn hợp này cũng không đem lại giá trị lớn hơntrường hợp chiến lược thuần (1, 0, 0, 0 hay (0, 0, 0, 1).

Bên cạnh đó, chúng ta cũng có thể chỉ ra rằng, tất cả các cặp chiếnlược có dạng (T, (q, 0, 0, 1 − q)) với 0 ≤ q ≤ 1 đều là các điểm cân bằngNash của trò chơi bimatrix này.

3Cũng có thể sử dụng cách ký hiệu khác đi mà vẫn biểu thị cùng ý nghĩa các điểmcân bằng Nash của trò chơi đang xét. Theo cách viết cặp chiến lược thuần: e1, e1,e1, e4, e3, e3. Theo cách viết dạng mở rộng ((1, 0, 0), (1, 0, 0, 0)), ((1, 0, 0), (0, 0, 1, 0)),((0, 0, 1), (0, 0, 1, 0)).

Page 35: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 21

Ta cũng lưu ý rằng điểm cân bằng Nash không bắt buộc mang lại giátrị lợi ích tối ưu Pareto. Ta biết rằng, một cặp lợi ích được gọi là tối ưuPareto nếu như không còn cặp giá trị nào khác lớn hơn, hoặc ít nhất cómột trong hai giá trị hơn, trong khi giá trị còn lại tối thiểu bằng. Cụ thể,bằng chứng dễ thấy là cặp 4, 4 có giá trị lớn hơn hẳn các cặp cân bằngNash 2, 2, 3, 2.

2.2.2 Trò chơi bimatrix 2 × 2

Phần tiếp theo này đề cập cách sử dụng đồ thị để tìm nghiệm của tròchơi ma trận cặp (bimatrix) kích thước 2× 2, với trò chơi cho dưới đây.

(A,B) =( L R

T 2, 2 0, 1B 1, 1 3, 3

)Hai điểm cân bằng Nash trong các chiến lược thuần của trò chơi

(A,B) này là 2, 2 và 3, 3. Để tìm tất cả cân bằng Nash cho trò chơi này,ta đi tìm các phản ứng tối ưu của cả hai NC.

Xét tổng quát chiến lược hỗn hợp q, 1− q của NC2. Khi nào phản ứngtối ưu của NC1 là 1, 0 (tức là T )? Rõ ràng là chỉ khi lợi ích kỳ vọng thuđược từ chiến lược thuần T lớn hơn khi lựa chọn B hay bất kỳ tổ hợpnào giữa T và B qua PPXS p, 1 − p. Như vậy, NC1 chọn T khi:

2q + 0(1 − q) > q + 3(1 − q)

Như vậy, chọn T khi q > 34 . Tương tự, khi q < 3

4 , thì B là phản ứng tốiưu.4

Còn trường hợp khi lợi ích chơi T và B bằng nhau:

2q + 0(1 − q) = q + 3(1 − q),

chỉ xảy ra khi q = 34 . Trong trường hợp q = 3

4 , thì mọi chiến lược hỗnhợp dạng p = (p, 1− p) của NC1 đều là phản ứng tối ưu. Bây giờ, ta tómtắt lại lô-gic vừa trình bày của các phản ứng tối ưu, của NC1 và NC2.

Giả sử, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS(q, 1 − q) của NC2 là β1(q, 1 − q), thì

4Tức là đổi chiều dấu: 2q + 0(1 − q) < q + 3(1 − q).

Page 36: Game theory   - Vuong Quan Hoang

22 c⃝ 2011 - Vương Quân Hoàng

β1(q, 1 − q) =

{(1, 0)} nếu 3

4 < q ≤ 1{(p, 1 − p)|0 < p ≤ 1} nếu q = 3

4{(0, 1)} nếu 0 < q < 3

4

(2.1)

Theo cùng lô-gic, lại gọi tập các phản ứng tối ưu của NC2 đối với(p, 1 − p) là β2(p, 1 − p), thì ta cũng có:

β2(p, 1 − p) =

{(1, 0)} nếu 2

3 < p ≤ 1{(q, 1 − q)|0 < q ≤ 1} nếu p = 2

3{(0, 1)} nếu 0 < q < 2

3

(2.2)

Theo cách hiểu của trò chơi, các điểm cân bằng Nash là sự kết hợpchiến lược p∗,q∗ sao cho p∗ ∈ β1(q∗), và q∗ ∈ β2(p∗). Như vậy, các cânbằng Nash là các điểm giao nhau giữa 2 đường đồ thị cho bởi các hàm(2.1) và (2.2) - được biểu thị qua đồ thị (2.1).

Hình 2.1: Sơ đồ β2Nash-E

Nash-E

Nash-E

0

2/3

q

1

1p 2/3

3 điểm cân bằng Nash của trò chơi (qua 3 chấm tròn là nơi giaocắt các đường β1, β2 ở hình trên) là: ((1, 0), (1, 0)), ((0, 1), (0, 1)) và((2

3 , 13), (3

4 , 14)).

Page 37: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 23

2.2.3 Tính trội tuyệt đối

Về cơ bản, để tìm các điểm cân bằng Nash nhiều khi ta có thể rút gọnkích thước của trò chơi, thông qua loại bỏ các chiến lược lép vế. Khiloại bỏ các chiến lược thuần bị lép vế tìm được theo dòng hay cột, thìkích thướcma trận sẽ giảm dần, cho tới khi không còn tồn tại chiến lượcthuần lép vế nào nữa. Lý thuyết đã chứng minh rõ rằng, khi làm theocách loại trừ để giảm kích thước ma trận như vừa nêu, không có điểmcân bằng Nash nào vô tình bị loại bỏ, và cũng không có cân bằng Nashnào nảy sinh ra do giảm kích thước. Hơn nữa, thứ tự của việc loại bỏcác chiến lược lép vế cũng không quan trọng, cái nào trước, cái nào saukhông ảnh hưởng tới kết quả cuối cùng.

Về tính trội tuyệt đối, với trò chơi (A, B)m×n một chiến lược thuầnei tương ứng với hàng i gọi là lép vế, nếu như tồn tại một chiến lược hỗnhợp p = (p1, . . . , pi = 0, . . . , pm) sao cho: pAej > eiAej với từng giátrị j = 1, . . . , n. Tương tự, chiến lược thuần ej theo cột j là lép vế nếutồn tại một PPXS q = (q1, . . . , qi = 0, . . . , qn), sao cho eiBq > eiBej vớitừng giá trị i = 1, . . . , m.

Tiếp theo, chúng ta cùng xem xét một ví dụ ứng dụng để minh họa.

Rút gọn kính thướcma trận trò chơi bimatrix: Cho trò chơimatrận bimatrix sau:

W X Y Z

T 2, 2 2, 1 2, 2 0, 0M 1, 0 4, 1 2, 4 1, 5B 0, 4 3, 1 3, 0 3, 3

(2.3)

Đầu tiên, ta nhận thấy nếu xét các chiến lược thuần theo dòng (NC1),hay theo cột (NC2), thì không có chiến lược thuần nào bị lép vế hoàntoàn so với một chiến lược thuần khác đang có. Bây giờ ra ‘dò thử’ chiếnlược thuần X; điều này như ta đã biết nghĩa là q2 = 1. Hãy xem thử tồntại một PPXS q nào đó có tính trội tuyệt đối so với X hay không.

Ta áp dụng cách hiểu về tính trội tuyệt đối cho trường hợp ma trậnbimatrix (A,B) với bài toán (2.3). Như vậy, khi so với chiến lược X,trong PPXS q nào đó thích hợp thì rõ ràng q2 = 0. Lại giả sử tiếp trườnghợp q4 = 0, khi này ta xét thử PPXS (q, 0, 1 − q, 0). Ta sẽ phải thiết lậpcác biểu thức eiBq rồi đặt bất đẳng thức với dấu lớn hơn khi so với từngphần tử tương ứng theo dòng của véc-tơ cột thứ 2 của B.

Page 38: Game theory   - Vuong Quan Hoang

24 c⃝ 2011 - Vương Quân Hoàng

2q + 1 · 0 + 2(1 − q) + 0 · 0 > 10q + 1 · 0 + 4(1 − q) + 5 · 0 > 14q + 1 · 0 + 0(1 − q) + 3 · 0 > 1

Rút gọn lại ta có được

2 > 13 > 4q

4q > 1

Bất đẳng thức đầu tiên đương nhiên đúng. Điều kiện để 2 bất đẳng thứccòn lại được thỏa mãn dễ thấy là 1

4 < q < 34 . Như vậy, X lép vế khi q

trong khoảng giá trị vừa tính ra, và X có thể được loại khỏi trò chơi. Tasẽ rút gọn trò chơi thành (2.4):

W Y Z

T 2, 2 2, 2 0, 0M 1, 0 2, 4 1, 5B 0, 4 3, 0 3, 3

(2.4)

Bây giờ, khi đã quan sát trò chơi rút gọn (2.4), ta thử tìm kiếm khảnăng chiến lược thuần M (dòng 2) lép vế - nghĩa là p2 = 0 - trước mộtchiến lược hỗn hợp p = (p, 0, 1 − p) trong điều kiện p hợp lý nào đó.5

Bây giờ, ta áp dụng điều kiện của tính trội tuyệt đối cho (A) để thiếtlập các bất đẳng thức cho điều kiện của p phù hợp. Nếu tồn tại p như vậy,ta khẳng định rằng M lép vế trước chiến lược hỗn hợp p như giả định.Do NC1 (tương ứng (A)) chơi theo hàng, nên cần so sánh với e2Aej vớij lần lượt nhận các giá trị 1, 2, 3 chính là (1, 2, 1); đây chính là dòng Mcủa (A).

Sau đó, ta tính pAej và so sánh từng hàng lần lượt với các phần tửcủa M nói trên, để thu được hệ bất đẳng thức:6

5Do M lép vế, nên ta mới đề xuất dạng phân phối ở đó xác suất dòng thứ 2 được gánbằng 0 trong p = (p, 0, 1 − p).

6Để thỏamãn tính trội tuyệt đối, tất cả các bất đẳng thức xuất phát đều có vế trái lớnhơn vế phải.

Page 39: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 25

p · 2 + 0 · 1 + (1 − p) · 0 > 1p · 2 + 0 · 2 + (1 − p) · 3 > 2p · 0 + 0 · 1 + (1 − p) · 3 > 1

Rút gọn hệ này, ta dễ dàng có được:

2p > 13 − p > 0

2 > 3p

Bất đẳng thức thứ 2 của hệ này tầm thường. Từ 2 bất đẳng thức cònlại, ta thu được điều kiện cho p là: 1

2 < p < 23 . Điều này khẳng định việc

loại bỏ M khỏi chiến lược thuần của NC1, và tiếp tục rút gọn (2.4) trởthành (2.5)

( W Y Z

T 2, 2 2, 2 0, 0B 0, 4 3, 0 3, 3

)(2.5)

Ngay lập tức, ở trò chơi mới (2.5) ta nhận thấy trong (B) xuất hiệnW có tính trội tuyệt đối so với Z do đó, ta tiếp tục loại chiến lược Z của(2.5), và ta đã rút gọn về trò chơi () kích thước 2 × 2:

( W Y

T 2, 2 2, 2B 0, 4 3, 0

)(2.6)

Bây giờ ta chuyển qua giải trò chơi (2.6). Giả sử NC2 có PPXS tổngquát dạng (q, 1 − q), NC1 sẽ lựa chọn T khi:

2q + 2(1 − q) > 0q + 3(1 − q)

Nghĩa là q < 1/3. Như vậy, khi q = 1/3 thì mọi chiến lược p = (p, 1− p)đều mang lại cùng lợi ích, và NC1 không còn phải đắn đo. Ngược lại, thìlựa chọn B khi:

2q + 2(1 − q) < 0q + 3(1 − q),

Page 40: Game theory   - Vuong Quan Hoang

26 c⃝ 2011 - Vương Quân Hoàng

nghĩa là q < 1/3.Tóm tắt lại, gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS

(q, 1 − q) của NC2 là β1(q, 1 − q), thì

β1(q, 1 − q) =

{(1, 0)} nếu 0 ≤ q < 1

3{(p, 1 − p)|0 ≤ p ≤ 1} nếu q = 1

3{(0, 1)} nếu 1

3 < q ≤ 1(2.7)

Bây giờ ta lại xét phản ứng tối ưu của NC2 với PPXS chiến lược thuầnNC1 có dạng (p, 1 − p). Rõ ràng, chọn W khi:

2p + 4(1 − p) > 2p + 0(1 − p),

tức là p < 1. Khi p = 1, mọi (q, 1 − q) đều là phản ứng tối ưu. Trườnghợp p > 1 không xảy ra, do đó không nằm trong tập phản ứng tối ưu củaNC2. Tương tự, ta tóm tắt lại:

β2(p, 1 − p) ={

{(1, 0)} nếu 0 ≤ p < 1{(q, 1 − q)|0 ≤ q ≤ 1} nếu p = 1

(2.8)

Ta có sơ đồ hình học biểu diễn hai hàm phản ứng tối ưu của NC1,NC2 trong H.(2.2) dưới đây.

Sơ đồ này cho biết vô số cân bằng Nash là phản ứng tối ưu có thể tìmthấy do toàn bộ đoạn thẳng nối hai điểm tròn (trên sơ đồ) đều thỏamãncác tính chất mong muốn. Như vậy, tập hợp các chiến lược hỗn hợp làtập các PPXS sau: {((1, 0), (q, 1 − q))|13 ≤ q ≤ 1}.

Từ đây, ta suy ra tập các cân bằng Nash ở dạng của trò chơi bimatrixban đầu (nghĩa là khi chưa rút gọn) sẽ có dạng: {((1, 0, 0), (q, 0, 1 −q, 0))|13 ≤ q ≤ 1}.

2.3 Một số ứng dụng và bài toán minh họa

Ứng dụng 3: Hai công ty nhựa Hồ Tây và Trúc Bạch trực tiếp cạnhtranh trên địa bàn Hà Nội cân nhắc việc sản xuất sử dụng ghế ngoài trờivà trong nhà. Cả hai mặt hàng ghế thúc đẩy doanh số hàng hóa nhựa.Nếu cả 2 công ty cùng sản xuất ghế ngoài trời, thì mỗi công ty hưởnglợi 2 tỷ. Nếu cả hai cùng sản xuất ghế trong nhà, thì lợi ích đem lại cho

Page 41: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 27

Hình 2.2: Sơ đồ β2

Nash-E

Nash-E

0

1/3

q

1

1p

mỗi công ty là 1 tỷ. Nếu hai công ty lựa chọn loại ghế khác nhau, thì mỗicông ty thiệt hại 1 tỷ.

Yêu cầu: Dựng trò chơi bimatrix cho ứng dụng này. Giải tập hợptoàn bộ các điểm cân bằng Nash của trò chơi.

Ứng dụng 4: Trò chơi phúc lợi. Một chính phủ có kế hoạch hỗtrợ tài chính cho nông dân tăng việc làm và thu nhập. Giả sử nông dânchỉ tìm kiếm cơ hội tăng việc làm và thu nhập từ công việc nếu khôngcó nguồn phúc lợi do chính phủ hỗ trợ. Nông dân cũng có thể thất bạitrong việc cố gắng mở rộng cơ hội việc làm và thu nhập. Lợi ích tươngứng cho CP và ND là 3,2 nếu CP cấp phúc lợi và ND cố gắng tìm kiếmthêm cơ hội việc làm; là -1,1 nếu CP không hỗ trợ và ND vẫn nỗ lực tựtìm kiếm việc làm; và -1,3 nếu CP hỗ trợ và ND không nỗ lực; và 0,0trong trường hợp CP không hỗ trợ và ND cũng không cố gắng vận động.

Yêu cầu: Dựngmô hình trò chơi bimatrix. Xác định tập các điểm cânbằng Nash thể hiện chiến lược phản ứng tối ưu giữa CP và ND.

Ứng dụng 5: Trò chơi tiền lương. Hai công ty đều có một vị trítuyển dụng mới. Giả sử công ty i (i = 1, 2) đưa ra mức lương wi, trongđó 0 < 1

2w1 < w2 < 2w1 và w1 = w2.

Page 42: Game theory   - Vuong Quan Hoang

28 c⃝ 2011 - Vương Quân Hoàng

Giả sử có 2 công nhân, mỗi người có thể nộp đơn cho duy nhất chỉmột công ty. Hai công nhân đồng thời phải quyết định nộp đơn chocông ty 1 hay công ty 2. Nếu chỉ có một công nhân nộp đơn cho mộtcông ty, người đó sẽ có việc làm; nếu cả hai cùng nộp đơn cho một côngty, công ty sẽ thuê một trong hai người một cách ngẫu nhiên (với xácsuất 1/2) và người kia sẽ thất nghiệp (lợi ích bằng 0).

Yêu cầu: Xây dựng trò chơi tuyển dụng này.

Ứng dụng 6: Trò chơi quảng cáo. Hai công ty bán cùng loại sảnphẩm. Mỗi phần trăm thị phần giành được đem lại lợi ích tài chính là1. Không cần quảng cáo thì mỗi công ty chiếm thị phần là 50%. Chiphí quảng cáo là 10, và quảng cáo giúp tăng thị phần 20%, trong khicông ty kia thì mất đi tương ứng. Hai công ty quyết định việc tham giaquảng cáo đồng thời và độc lập với nhau. Tổng quy mô thị trường củasản phẩm này không đổi.

Ứng dụng 7: Trò chơi phiếu bầu. Hai đảng tranh cử mỗi đảng có3 phiếu bầu có thể sử dụng phân phối có 3 ứng viên. Một ủy ban đượclập ra gồm có 3 người. Mỗi đảng muốn có càng nhiều ứng viên trongủy ban càng tốt. Trong số 6 ứng viên, 3 ứng viên nào nhận được nhiềuphiếu bầu nhất sẽ được lựa chọn vào ủy ban; trong trường hợp số phiếubằng nhau, sẽ rút thăm những người có cùng số phiếu (xác suất phânphối đều).

Bài tập 8: Loại bỏ chiến lược lép vế. Cho ma trận bimatrix sau

( W X Y Z

T 6, 6 4, 4 1, 2 8, 5B 4, 5 6, 6 2, 8 4, 4

)(2.9)

Tìm các chiến lược thuần của NC1 và NC2 bị lép vế so với một chiếnlược thuần khác. Xác định các tổ hợp giữa hai chiến lược thuần W, Ycủa NC2 có tính trội tuyệt đối so với X. Tìm các điểm cân bằng của tròchơi này.

Bài tập 9: Cân bằng Nash. Tìm các điểm cân bằng Nash của tròchơi bimatrix (2.10).

Page 43: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 29

W X Y

T 2, 0 1, 1 4, 2M 3, 4 1, 2 2, 3B 1, 3 0, 2 3, 0

(2.10)

Bài tập 10: Trò chơi tham số. Trò chơi (2.11) có chứa tham sốa ∈ R. Xác định các cân bằng Nash cho mọi giá trị có thể của tham số a.

( L R

T 1, 1 a, 0B 0, 0 2, 1

)(2.11)

Page 44: Game theory   - Vuong Quan Hoang

30 c⃝ 2011 - Vương Quân Hoàng

Page 45: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 31

VQG ghi chú:

Page 46: Game theory   - Vuong Quan Hoang

32 c⃝ 2011 - Vương Quân Hoàng

Page 47: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 33

VQG ghi chú:

Page 48: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

Page 49: Game theory   - Vuong Quan Hoang

Chương 3

Dạng Mở Rộng Hữu Hạn

Trong phần này, ta xét loại bài toán được gọi là dạng mở rộng và mộtloạt các khái niệm liên quan như thời điểm quyết định, nút quyết định,bước chuyển động, perfection trò chơi con, quy nạp lùi, cân bằng Bayeshoàn hảo.

3.1 Bài toán dạng mở

Trò chơi dạng mở được đặc tả bằng một cây trò chơi, chứa các nút vànhánh. Mỗi nút là một nút quyết định hoặc nút may rủi, hoặc là nút kếtthúc (đưa ra giá trị lợi ích). Mỗi nhánh tương ứng với một hành độngcủa NC hoặc là lựa chọn có tính may rủi (còn gọi là bước chuyển độngvô thức -move of nature hoặc chance move).

Nút trên cùng gọi là gốc xuất phát của cây trò chơi. Trong sơ đồ này,nút gốc làmột nút quyết định củaNC1, và là xuất phát điểm của trò chơi.Từ đây, NC1 sẽ lựa chọn trong 3 bước chuyển động A,B, C. NC2 nhậnthức được 3 lựa chọn này của NC1. Sự kiện đầu tiên của NC2 trong sơđồ là đường gạch đứt quảng nối giữa hai nút quyết định bên hai nhánhtrái. Khi này, NC2 có 2 quyết định l, r. Cặp 2 nút được nối bằng gạchđứt nét này được gọi là tập thông tin của NC2. Với tập thông tin này,NC2 biết rằng tiến hành trò chơi sẽ dẫn tới một trong hai nút quyết địnhkhi NC2 đến lượt, tuy nhiên lại không thể đoán biết là bước chơi trướccủa NC1 sẽ dẫn tới điểm nào.

Nếu NC1 đi bước C, thì sẽ xuất hiện một bước may rủi, chia 2 nhánhU,D. Nếu rơi vào nhánh U , với xác suất 1/3 thì sẽ đến lượt NC2 quyết

35

Page 50: Game theory   - Vuong Quan Hoang

36 c⃝ 2011 - Vương Quân Hoàng

Hình 3.1: Sơ đồ trò chơi dạng mởNC1

C May rủi

U

1/4

D

3/4

08

88

NC1NC2

00

84

A

41

72

B

63

40

l r l r L R a b

NC2

định, ngược lại ở nhánh D, với xác suất 3/4 sẽ đến lượt NC1. Ta cũnglưu ý các ký hiệu nhánh L,R, a, b. Còn lại các nút ở hàng cuối là các nútkết thúc. Các cặp giá trị tại mỗi nút kết thúc cho biết lợi ích của NC1ở hàng trên, và NC2 dòng dưới. Các nút kết thúc cũng gọi là tập thôngtin, nhưng có tính chất tầm thường. Tập thông tin chứa (nối) ít nhất 2nút quyết định gọi là tập thông tin không tầm thường. Những trò chơichứa tập thông tin không tầm thường gọi là trò chơi với thông tin khônghoàn hảo. Ngược lại là trò chơi hoàn hảo, chỉ chứa các tập thông tin tầmthường thu được qua các nút đơn nhất.

3.2 Dạng chiến lược

Trong trò chơi dạng mở (3.1) đang xét, có hai khái niệm khác biệt cầnlưu ý là hành động và chiến lược. Hành động là một bước chơi có thểxảy ra của một NC trước một tập thông tin. Trong trò chơi ví dụ ở sơ đồcây phía trên, NC1 có các hành động A,B, C, a, b, và NC2 là l, r, L,R.

Chiến lược - theo cách hiểu của LTTC - là một kế hoạch hoàn chỉnhđể chơi toàn bộ trò chơi. Ví dụ về một chiến lược của NC trong sơ đồ tròchơi (3.1) là “Chuyển động đầu tiên là bước C, sau đó nếu bước may

Page 51: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 37

rủi cho kết cục D thì thực thi a.”Điều đáng chú ý là khái niệm chiến lược còn chấp nhận cả kế hoạch

hoàn chỉnh, nhưng không thể xảy ra trong sơ đồ trò chơi, ví dụ như, vớiNC1 có thể có chiến lược sau: “Chơi bướcA, sau đó nếu kết cục may rủilà D thì chơi nước b.” Với lô-gic bình thường, kế hoạch chơi này trôngrất kỳ quặc, vì nếu đã chơi bước A rồi, thì NC1 không còn cơ hội để chơinước b nữa. Tuy vậy, LTTC vẫn chấp nhận đây là một phương án hoànchỉnh các nước chơi để hoàn tất một trò chơi.

Đối với NC2, tồn tại chiến lược chơi: “Chơi l nếu NC1 chơi A hoặcB, và chơi L nếu NC2 hành động C và bước may rủi cho kết cục U.” Rõràng, trong kế hoạch chơi trọn vẹn này, NC2 không thể biết NC1 có lựachọn A hay B hay không, do đó phản ánh suy nghĩ này vào cách chơi củamình. Trường hợp này khác hẳn so với khi ta bỏ gạch nối ở nhánh bêntrái của sơ đồ (3.1), và trò chơi có thông tin hoàn hảo, như trong sơ đồ(3.2).

Hình 3.2: Sơ đồ cây - thông tin hoàn hảoNC1

C May rủi

U

1/4

D

3/4

08

88

NC1NC2

00

84

A

NC2

41

72

B

NC2

63

40

l r l r L R a b

Với trường hợp cho ở hình (3.2), NC2 biết chính xác mình cần đibước nào sau bước A hoặc B của NC1.

Cuối cùng, có thể viết lại khái niệm chiến lược chơi là một dãy cáchành động, trong đó tại mỗi tập thông tin của mỗi người chơi, chỉ có

Page 52: Game theory   - Vuong Quan Hoang

38 c⃝ 2011 - Vương Quân Hoàng

duy nhất một bước đi (hành động) được thực hiện.

Trong cả 2 lược đồ trên, thì chiến lược củaNC1đều có 2hànhđộng, doxuất hiện 2 tập thông tin, trong đó có 1 tập là tầm thường. NC1 có 3 hànhđộng có thể thực hiện ở tập thông tin 1, và 2 ở nút tập thứ 2. Theo đó,tập chiến lược của NC1 có thể được ký hiệu là {Aa,Ab, Ba,Bb,Ca,Cb}.

Tuy nhiên, với NC2 thì tập chiến lược khác biệt lớn giữa hai sơ đồ(3.1) và (3.2).

Trước tiên, với sơ đồ H.(3.1), thông tin không hoàn hảo, NC2 có tậpchiến lược {lL, lR, rL, rR}. Nhưng trong H.(3.2), tập chiến lược củaNC2 có dạng {llL, llR, lrL, lrR, rlL, rlR, rrL, rrR}.

Lý do quan trọng bậc nhất của việc xét tập chiến lược là vì qua đó,trò chơi có thể được rút gọn trò chơi đi một bước kiểu ma trận cặp. Mộtkhi đã xác định được các tổ hợp chiến lược của người chơi trong trò chơi(trong các ví dụ đang xét là cặp chiến lược, có thể đi tới tính toán giá trịlợi ích theo hành trình của sơ đồ cây.

Xét thử cặp chiến lược (Cb, rL) trong trò chơi ở lược đồ H.(3.1). Khinày, NC1 khai cuộc với hành độngC, sau đó là bướcmay rủi; nếuU xuấthiện, NC2 đánh L, ngược lại nếu là D, thì NC2 đi nước b. Như vậy, vớixác suất 1/4, cặp lợi ích sinh ra là (0, 0), và 3/4 là (0, 8). Lợi ích kỳ vọngcho NC1 là 0, và NC2 là 6. Theo cách làm này, có thể tính ra 6 × 4 cặplợi ích cho trò chơi H.(3.1), và 6 × 8 cặp lợi ích cho H.(3.2). Các cặp lợiích này được viết lại thành dạng một ma trận cặp (bimatrix) lợi ích (kỳvọng) như sau.

Tương ứng với H.(3.1), ta thu được:

lL lR rL rR

Aa 4, 1 4, 1 7∗, 2∗ 7∗, 2∗

Ab 4, 1 4, 1 7∗, 2∗ 7∗, 2∗

Ba 6∗, 3∗ 6, 3∗ 4, 0 4, 0Bb 6∗, 3∗ 6, 3∗ 4, 0 4, 0Ca 6, 6 8∗, 7∗ 6, 6 8∗, 7∗

Cb 0, 6 2, 7∗ 0, 6 2, 7∗

, (3.1)

Page 53: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 39

và tương ứng H.(3.2), thì có:

llL llR lrL lrR rlL rlR rrL rrR

Aa 4, 1 4, 1 4, 1 4, 1 7∗, 2∗ 7, 2∗ 7∗, 2∗ 7, 2∗

Ab 4, 1 4, 1 4, 1 4, 1 7∗, 2∗ 7, 2∗ 7∗, 2∗ 7, 2∗

Ba 6∗, 3∗ 6, 3∗ 4, 0 4, 0 6, 3∗ 6, 3∗ 4, 0 4, 0Bb 6∗, 3∗ 6, 3∗ 4, 0 4, 0 6, 3∗ 6, 3∗ 4, 0 4, 0Ca 6∗, 6 8∗, 7∗ 6∗, 6 8∗, 7∗ 6, 6 8∗, 7∗ 6, 6 8∗, 7∗

Cb 0, 6 2, 7∗ 0, 6 2, 7∗ 0, 6 2, 7∗ 0, 6 2, 7∗

(3.2)

Trò chơi ma trận cặp như trên được gọi là dạng chiến lược của tròchơi dạng mở. Định nghĩa cân bằng Nash cho trò chơi dạng mở cũngđồng thời là cân bằng Nash của dạng chiến lược. Điều này đúng với cáccân bằng Nash thuần, và nói chung cũng đúng với các cân bằng Nashtrong chiến lược hỗn hợp.

3.3 Quy nạp lùi và hoàn chỉnh trò chơi con

Xét trò chơi ở sơ đồ H.(3.2); trò chơi dạng mở với thông tin hoàn hảo.Có thể tiến hành phân tích trò chơi này dựa trên nguyên lý quy nạplùi. Ta bắt đầu với các nút ngay trước nút kết thúc, và biến đổi chúngthành các nút kết thúc với các giá trị lợi ích được tính ra từ bước chơi tốiưu. Quy nạp lùi như trên giúp thu gọn trò chơi H.(3.2) trở thành dạngH.(3.3).

Ở sơ đồ rút gọn ở H.(3.3), chiến lược của NC2 đã được xác định hoàntoàn là lựa chọn rlR.

NC1 chọn a trong tập thông tin bên dưới. Tiếp theo, trong trò chơirút gọn, NC1 chọn bước đi đem lại lợi ích tối đa. Do A mang lại lợi ích7, và B mang lại 6, C có lợi ích kỳ vọng 8 (1

4 + 34) × 8, lựa chọn tối ưu

của NC1 là C. Từ đó suy ra, ta có cặp chiến lược (Ca, rlR) với cặp lợi íchtương ứng (8, 7). Đây là một trong 10 điểm cân bằng Nash của trò chơidạng chiến lược (3.2), có tên gọi điểm cân bằng quy nạp lùi. Các nhàtoán học đã chứng minh rằng áp dụng nguyên lý quy nạp lùi luôn tìmra một cân bằng Nash (thuần); có thể hình dung trực giác kết luận này,nhưng việc chứng minh điều này không đơn giản.

Bên cạnh đó, ta nhận thấy trò chơi thông tin hoàn hảo có ít nhất mộtcân bằng Nash trong các chiến lược thuần, và điểm này có thể tìm rabằng phương pháp quy nạp lùi.

Page 54: Game theory   - Vuong Quan Hoang

40 c⃝ 2011 - Vương Quân Hoàng

Hình 3.3: Sơ đồ cây rút gọn - thông tin hoàn hảoNC1

C May rủi

U

1/4

D

3/4

88

84

A

72

B

63

Cũng cần phân biệt giữa điểm cân bằng quy nạp lùi - trong trò chơiđang xét là (Ca, rlR)) - và kết cục quy nạp lùi. Kết cục quy nạp lùi ámchỉ các bước triển khai chơi thực sự, hay nói một cách tương đương kháclà một quỹ tích cân bằng, trong trường hợp này là (Ca, R). Ta quan sátthấy tồn tại nhiều điểm cân bằng Nash khác trong trò chơi tạo ra cùngkết cục hay quỹ tích, chẳng hạn như (Ca, llR), (Ca, lrR), và (Ca, rrR):chúng đều dẫn đến quỹ đạo (Ca, R), nhưng lại khác nhau ở phần bêntrái của cây trò chơi, trong đó NC2 có ít nhất một quyết định dưới mứctối ưu. Như vậy, nguyên lý quy nạp lùi giúp đảm bảo rằng mọi ngườichơi luôn đi bước tối ưu, thậm chí ngay cả ở những phần của cây tròchơi không thực sự được chơi trên thực tế.

Cách tổng quát để tiến hành quy nạp lùi là sử dụng ý tưởng về tròchơi con (subgame perfection)., với định nghĩa trò chơi con như sau:“Một trò chơi con là một phần bất kỳ của một cây trò chơi, khởi đầu ởmột nút quyết định đơn của một NC hoặc là một nút may rủi, mà sauđó không bị kết nối với cây trò chơi qua một tập thông tin nào sau đó.”

Trò chơi trong sơ đồ H.(3.2) có tới 6 trò chơi con khác nhau, baogồm: (1) toàn bộ trò chơi; (2) trò chơi bắt đầu từ bướcmay rủi; (3,4,5,6)4 trò chơi bắt đầu từ 4 nút ngay trước nút kết thúc.

Định nghĩa của điểm cân bằng hoàn hảo của trò chơi con như sau:Đó là một kết hợp chiến lược dẫn đến cân bằng Nash trong tất cả cáctrò chơi con. Xét H.(3.2), để một kết hợp chiến lược trở thành cân bằnghoàn hảo của trò chơi con, sự kết hợp đó buộc phải sinh ra một điểmcân bằng Nash ở tất cả các trò chơi con. Do toàn bộ trò chơi cũng chínhlà trò chơi con, nên một điểm cân bằng như thế bắt buộc phải là cân

Page 55: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 41

bằng Nash của toàn bộ trò chơi, và suy ra, cả 10 cân bằng Nash của sơđồ đang xét đều là ứng viên cho điểm cân bằng hoàn hảo đó. Vì thế,một điểm cân bằng hoàn hảo của trò chơi con bắt buộc luôn phải là mộtcân bằng Nash. Cân bằng hoàn hảo đó cũng phải dẫn đếnmột điểm cânbằng trong cả 4 trò chơi con một người chơi trước nút kết thúc.1

Trong ví dụ này, nó có nghĩa là các bước đi r, l, R, và a.

Suy ra rằng, NC lựa chọn tối ưu trong cả trò chơi con khởi đầu từ nútmay rủi. Tổng kết lại, ta tìm (các) cân bằng Nash và điểm duy nhất thỏamãn là (Ca, rlR). Do đó, điểm cân bằng hoàn hảo trò chơi con duy nhấtcủa trò chơi này là (Ca, rlR), và đây cũng là điểm cân bằng quy nạp lùi.Trong trò chơi thông tin hoàn hảo, các điểm cân bằng quy nạp lùi và cânbằng hoàn hảo trò chơi trùng nhau.

Tiếp theo, tìm hiểu trò chơi với thông tin không hoàn hảo trong sơđồ H.(3.1). Trong trò chơi này, nguyên lý quy nạp lùi không áp dụngđược cho nhánh bên trái của cây trò chơi, vì lý do NC2 không biết liệuNC1 sẽ đi bước A hay B trong khi NC2 phải lựa chọn một bước đi trongtập thông tin phía nhánh trái, và NC này không thể quyết định giữa l vàr. Về trò chơi con, khi này tồn tại: (1) toàn bộ trò chơi; (2,3) 2 trò chơicon theo kết cục U và D; và (4) trò chơi con khởi đầu từ bước may rủi.Như vậy, ràng buộc của phép hoàn chỉnh trò chơi con là, NC1 đi bước a,NC2 đi R, và sự kết hợp chiến lược này là điểm cân bằng Nash của toànbộ trò chơi.

Trong số 6 điểm cân bằng Nash của trò chơi ma trận cặp (??), chỉcòn hai điểm cân bằng phù hợp là (Ca, lR) và (Ca, rR). Và đây là haiđiểm cân bằng hoàn hảo trò chơi con của H.(3.1).

Có thể thấy rằng, phép hoàn chỉnh trò chơi con có khả năng ứng dụngtổng quát hơn so với của nguyên lý quy nạp lùi thông qua trò chơi choở cây H.(3.4). Trò chơi này có 3 người chơi và phép quy nạp lùi khôngáp dụng được.

Còn với phép hoàn chỉnh trò chơi con, ta lưu ý tới thực tế là trò chơinày chỉ có 2 trò chơi con duy nhất là (1) toàn bộ; và (2) trò chơi khởiđầu từ nút quyết định của NC2. Trò chơi (2) diễn ra giữa NC2 và NC3có dạng chiến lược (3.3).

1Có thể coi các điểm cân bằng Nash cho trò chơi 1-NC là NC đó sẽ chọn bước đi cólợi tối ưu.

Page 56: Game theory   - Vuong Quan Hoang

42 c⃝ 2011 - Vương Quân Hoàng

Hình 3.4: Sơ đồ cây 3-NCNC1

NC2

L

A

l r

R

rl

331

000

000

113

B

200

NC3

( l r

L 3, 1 0, 0R 0, 0 1, 3

). (3.3)

Trò chơi dạng chiến lược (3.3) có 2 điểm cân bằng Nash thuần là(L, l) và (R, r). Như vậy, nếu chơi theo chiến lược cân bằng đầu tiên, thìNC1 chơi A, thu về lợi ích bằng 3, trong khi đánh B thu về 2. Nếu theođiểm cân bằng thứ hai trong trò chơi con, NC1 rõ ràng chơi B vì đánhnước A chỉ thu về lợi ích là 1. Do đó, hai cân bằng trò chơi con hoàn hảolà (A,L, l) và (B, R, r).

Một cách khác là, ta có thể tính trước tiên các cân bằngNash của toànbộ trò chơi. Dạng chiến lược của trò chơi được thể hiện trong các matrận lợi ích khi NC1 đánh A và B.

1 : A

( l r

L 3∗, 3∗, 1∗ 0, 0, 0R 0, 0, 0 1, 1∗, 3∗

)1 : B

( l r

L 2, 0∗, 0∗ 2∗, 0∗, 0∗

R 2∗, 0∗, 0∗ 2∗, 0∗, 0∗

)

Page 57: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 43

Trong các ma trận này, phản ứng tối ưu được đánh dấu sao. NC1 phảiso sánh lợi ích từ cả hai ma trận để cân nhắc. Các cân bằng Nash thuầnthu được là (A,L, l), (B, L, r), (B, R, l), và (B,R, r). Cân bằng hoàn hảotrò chơi con là cân bằng thực hiện được phối hợp chiến lược chơi (L, l)hoặc (R, r) dẫn ta tới kết luận về hai điểm cân bằng nói ở trên.

3.4 Cân bằng Bayes hoàn hảo

Các khái niệm cân bằng Nash và cân bằng trò chơi con hoàn hảo cònđược tiếp tục phát triển tinh tế hơn qua khái niệm cân bằng Bayes hoànhảo. Xét một tập thông tin của một NC trong trò chơi dạng cây. Mộtniềm tin của NC đó chỉ đơn giản hiểu là một PPXS qua các nút của tậpthông tin, hoặc trên các hành động đáp ứng trước tập thông tin đó. Nếutập thông tin tầm thường (tức là chỉ làmột nút đơn) thì niềm tin đó cũngtầm thường, tức là gán xác suất bằng 1 cho nút quyết định duy nhất đó.Một cân bằng Bayes hoàn hảo của một trò chơi dạng cây (mở rộng) làmột sự kết hợp các chiến lược và một quy ước về niềm tin sao cho haiđiều sau đây được thỏa mãn: 1) Niềm tin nhất quán với các chiến lượcđang xét; và 2) Những NC lựa chọn một cách tối ưu với sự tồn tại củacác niềm tin đã biết.

Điều kiện thứ nhất được gọi là tính nhất quán Bayes về niềm tin, vàđiều kiện thứ hai là tính hợp lý tuần tự. Điều kiện đầu phát biểu rằngniềm tin cần thỏa mãn cập nhật thông tin dạng Bayes đối với các chiếnlược bất kỳ khi nào có thể. Điều kiện sau yêu cầu NC cần hành độngnhằm tối đa hóa lợi ích kỳ vọng dựa trên niềm tin của mình.

Ta xét ví dụ minh họa (3.1). Trò chơi này có một tập thông tin khôngtầm thường. Giả sử niềm tin của NC2 trước tập thông tin này được chobởi xác suất α cho nút bên trái và 1−α cho nút bên phải. Mọi tập thôngtin khác đều tầm thường, vì vậy niềm tin sẽ gán xác suất 1 cho mỗi núttương ứng. Áp dụng điều kiện (2) ngụ ý NC2 cần lựa chọn R và NC1chọn a tại các tập thông tin tương ứng.

Trước tập thông tin không tầm thường, NC2 cần lựa chọn hành vitối đa hóa lợi ích kỳ vọng. Mức kỳ vọng từ lựa chọn l của NC2 làα · 1 + (1α) · 3 = 32α và từ hành vi chọn r là α · 2 + (1α) · 0 = 2α. Vì thế,chiến lược chọn l là tối ưu nếu như 32α ≥ 2α; điều này có nghĩa là khiα ≤ 3/4. Và, r cho kỳ vọng tối đa nếu α ≥ 3/4.

Trong trò chơi đang xét, với NC1, lựa chọn C luôn tối ưu, với yếu tố

Page 58: Game theory   - Vuong Quan Hoang

44 c⃝ 2011 - Vương Quân Hoàng

kết cục R, a cho trước: C cho lợi ích 8 trong khi đó A,B chỉ mang lạitối đa là 7. Nhưng nếu NC1 không lựa chọn A hoặc B thì điều kiện (1)không đặt ra ràng buộc nào với niềm tin [α] của NC2. Một cách chặtchẽ thì, nếu NC1 chọn C thì tập thông tin không tầm thường của NC2không có khả năng sử dụng, và vì thế xác suất [α] không được hiệu chỉnhBayes, tức là, bằng việc tính xác suất có điều kiện khả năng chạm tới núttrái hay phải của tập thông tin NC2. Điều này có nghĩa là ta có thể chọnbất kỳ giá trị α nào mong muốn, nhưng tương ứng với giá trị α đó NC2cần lựa chọn tối ưu. Từ đó suy ra, về cơ bản ta có 2 cân bằng Bayes hoànhảo, đó là (Ca, lL) ứng với niềm tin α ≤ 3/4, và (Ca, rL) khi α ≥ 3/4.Ta lại lưu ý rằng đây chính là hai cân bằng trò chơi con hoàn hảo, chỉ cóđiều bây giờ được hỗ trợ bởi ý niệm về mức độ tin tưởng của NC2 vàotập thông tin không tầm thường của mình.

Đồng thời, ta cũng nhận thấy một cân bằng Bayes hoàn hảo luônđóng vai trò cân bằng trò chơi con hoàn hảo, và vì thế cũng là một cânbằng Nash. Thực ra, bằng cách gán các xác suất cho các nút của một tậpthông tin, chúng ta cũng tạo điều kiện để áp dụng nguyên lý quy nạp lùi.

Điều kiện của cân bằng Bayes có ảnh hưởng mạnh hơn phép hoànchỉnh trò chơi con. Giả sử vẫn xét trò chơi này, ta thay cặp lợi ích (4, 1)sau A và l bằng cặp (4, 3). Kiểm tra nhanh ta có các cân bằng trò chơicon hoàn hảo vẫn là (Ca, lL), (Ca, rL). Đương nhiên NC2 tỉnh táo sẽkhông bao giờ lựa chọn r tại tập thông tin không tầm thường vì l đemlại lợi ích lớn hơn, nhưng phép hoàn chỉnh trò chơi con lại không loạibỏ khả năng này. Tuy thế, rõ ràng không khả năng NC2 gán niềm tin đểr là lựa chọn tối ưu. Với PPXS (α, 1 − α) đã giả sử, r đem lại lợi ích 2α,trong khi l đem lại 3, mà 0 ≤ α ≤ 1 Vậy thì, cân bằng Bayes hoàn hảoduy nhất có được là (Ca, lL), bất kể trị số niềm tin của NC2 trước tậpthông tin không tầm thường ở mức nào.

Một minh họa khác là trò chơi 3-NC trong sơ đồ (3.5). Có hai cáchtìm các cân bằng Bayes hoàn hảo của sơ đồ chơi này. Ta có thể tìm cáccân bằng trò chơi con hoàn hảo và các xác suất gán niềm tin tương ứng.Theo cách khác, ta có thể áp dụng quy nạp lùi.

Nếu sử dụng quy nạp lùi, bắt đầu với NC3. Nếu NC3 lựa chọn l thìlợi ích (kỳ vọng) là α. Còn nếu NC3 chọn r, thì lợi ích là 33α. Suy ra, llà lựa chọn tối ưu nếu α ≥ 3/4, và r tối ưu nếu α ≤ 3/4.

Bây giờ, giả sử NC3 chọn l. NC2 rõ ràng chọn L. Khi này, điều kiện(1) của cân bằng Bayes hoàn hảo dẫn đến kết cục α = 1: điều này có

Page 59: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 45

Hình 3.5: Sơ đồ 3-NC cân bằng BayesNC1

NC2

L

A

l

[α]

r

R

rl

331

000

000

113

B

200

[1 − α]

NC3

nghĩa là NC3 trên thực tế phải tin rằng NC2 đã lựa chọn L. Rõ ràng, khinày 1 = α > 3/4, nên l chính là hành vi tối ưu của NC3. Rốt cục, NC1lựa chọn A, thu được lợi ích 3 (thay vì chơi B để đạt 2). Như vậy, chúngta có một điểm cân bằng Bayes hoàn hảo (A,L, l) với niềm tin α = 1.

Nếu NC3 chơi r, NC2 về logic sẽ chơi R, điều này dẫn đến α = 0, dođó NC3 chọn r trên thực tế. Lúc này, NC1 cần chơi B, và như vậy ta cóđược cân bằng Bayes hoàn hảo (B, R, r) với niềm tin α = 0.

Page 60: Game theory   - Vuong Quan Hoang

46 c⃝ 2011 - Vương Quân Hoàng

Page 61: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 47

VQG ghi chú:

Page 62: Game theory   - Vuong Quan Hoang

48 c⃝ 2011 - Vương Quân Hoàng

Page 63: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 49

VQG ghi chú:

Page 64: Game theory   - Vuong Quan Hoang

50 c⃝ 2011 - Vương Quân Hoàng

Page 65: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 51

VQG ghi chú:

Page 66: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

Page 67: Game theory   - Vuong Quan Hoang

Chương 4

Trò Chơi Hữu Hạn ThôngTin Không Đầy Đủ

Trong trò chơi với thông tin không đầy đủ, những NC có thể thiếu thôngtin về hành động của NC khác. Mọi trò chơi 1-nước, chuyển động đồngthời đều thuộc nhóm thông tin không hoàn hảo. Cũng có khả năng NCcủa trò chơi loại này không có thông tin về một số tính chất của trò chơihay đặc tính của NC. Chẳng hạn, một NC có thể không biết hết thôngtin về các hành vi có thể của những NC khác, hoặc về lợi ích có thể đạtđược của NC khác.

Ởđây, ta xây dựngmôhình trò chơi thông tin không đầy đủ bằng cáchgiả định rằng mỗi NC thuộc một số nhóm đặc trưng khác nhau (type)..Đặc trưng của NC bao quát tất cả các thông tin liên quan (đặc biệt làhành động và lợi ích) về NC đó. Hơn nữa, cũng giả sử rằng mỗi NC biếtrõ mình thuộc đặc trưng nào, và có một PPXS trên các đặc trưng củanhững NC khác. Thường thì các PPXS này được giả định có tính nhấtquán, theo nghĩa rằng, các PPXS này được đúc kết từ một loại PPXS đãbiết, có tính chung nhất, trên tất cả các tổ hợp đặc trưng của NC trongtrò chơi.

Ta vẫn chỉ xét trò chơi có số NC hữu hạn, số nhóm đặc trưng hữuhạn, và số chiến lược chơi hữu hạn. Các trò chơi này có thể là trò chơitĩnh (đồng thời, 1-bước) hoặc động (dạng mở rộng/cây). Một cân bằngNash trong bối cảnh này cũng còn được gọi là cân bằng Bayes.

53

Page 68: Game theory   - Vuong Quan Hoang

54 c⃝ 2011 - Vương Quân Hoàng

4.1 Nhóm đặc trưng

Ta xét một tập hợp người chơi, N = {1, 2, ..., n}. Với mỗi NC i ∈ N , tồntại một tập hữu hạn các đặc trưng Ti mà NC đó có thể sở hữu. Nếu ta kýhiệu T = T1×T2×· · ·×Tn cho tập hợp T = {(t1, t2, . . . , tn)|t1 ∈ T1, t2 ∈T2, . . . , tn ∈ Tn},1 thì một trò chơi thông tin không đầy đủ quy địnhmộttrò chơi với mọi tổ hợp có thể t = (t1, t2, . . . , tn) ∈ T . Ta giả định rằngmỗi NC i biết rõ đặc trưng ti của mình, và với đặc trưng ti đó sẽ gáncác xác suất p(t1, . . . , ti−1, ti+1, . . . , tn|ti) cho tất cả các tổ hợp đặc trưngt1 ∈ T1, . . . , ti−1 ∈ Ti−1, ti+1 ∈ Ti+1, . . . , tn ∈ Tn của những NC khác

Thông thường, các xác suất nói trên được tính ra từ một phân phốixác suất chung p trên T , trong đó p(t) là xác suất mà tổ hợp đặc trưng làt. Hơn nữa, giả định mỗi NC i, ngoài đặc trưng ti của mình, còn nhậnthức rõ về PPXS p. Vì thế, nếu NC i có đặc trưng ti, thì NC này có thểtính được xác suấtmà loại tổ hợp đặc trưng của nhữngNC khác là véc-tơ(t1, . . . , ti−1, ti+1, . . . , tn). Xác suất này bằng xác suất có điều kiện

p(t1, . . . , ti−1, ti+1, . . . , tn|ti) =p(t1, . . . , ti−1, ti, ti+1, . . . , tn)∑p(t′1, . . . , t

′i−1, ti, t

′i+1, . . . , t

′n)

trong đó, tổng ở mẫu được tính ra từ tất cả các đặc trưng có thể củanhững NC khác, tức là trên mọi khả năng t′1 ∈ T1, . . . , t

′i−1 ∈ Ti−1, t

′i+1 ∈

Ti+1, . . . , t′n ∈ Tn. Do đó, tổng ở mẫu này chính là xác suất để NC i có

đặc trưng ti.Một NC trong trò chơi thông tin không đầy đủ có thể hành động phụ

thuộc vào đặc trưng cá nhân của riêng mình, nhưng không phụ thuộcvào đặc trưng của những NC khác. Tuy nhiên, vì NC này biết được cácxác suất của các đặc trưng của NC khác, nên có thể tính toán được lợiích kỳ vọng của từng bước chơi.

4.2 Trò chơi tĩnh, thông tin không đầy đủ

Ví dụ được đưa ra dưới đây giúp minh họa trò chơi tĩnh thông tin khôngđầy đủ, với những khái niệm chúng ta vừa cung cấp ở trên.

1Tức là tập hợp của tất cả các tổ hợp các đặc trưng có thể tồn tại trong trò chơi.

Page 69: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 55

Xung đột sở thích giới tính: Tình huống xảy ra giữa một chàngtrai và một cô gái, muốn hẹn gặp nhau, hoặc xem một trận bóng đá,hoặc dự một buổi diễn ba-lê. Hai người đều không nhớ về quyết định điđâu trong lần hẹn. Họ ở khác chỗ nhau và phải tự quyết định đi đâu; dĩnhiên giả sử không có phương tiện thông tin để liên lạc. Mục tiêu chínhlà phải gặp được nhau. Chàng trai thích bóng đá hơn, ngược lại cô gáithích ba-lê hơn.2

Trong bài toán này, NC1 không biết liệu NC2 (cô gái) muốn hò hẹnvới anh ta hay không, nghĩa là không thể chắc chắn bản thânmìnhmuốnlựa chọn Yes hay No. Mô hình được viết lại cho tính bất trắc chiến lượcnày như sau.

Y :( S B

S 2, 1 0, 0B 0, 0 1, 2

)Y :

( S B

S 2, 0 0, 2B 0, 1 1, 0

)(4.1)

trong đó, S là đi xem đá bóng (viết tắt chữ Soccer) và B là ba-lê. Chàngtrai là người chơi theo hàng (NC1) và cô gái theo cột (NC2). Tình huốngcần hợp tác này liên quan trực tiếp tới sự tổ hợp các lựa chọn cá nhân,và khái niệm cân bằng Nash.3

NC1 gán xác suất bằng 1/2 cho mỗi trò chơi con Y,N . NC2 cũng biếtthông tin này. Theo cách chúng ta định nghĩa ở trên về đặc trưng thìđiều này có nghĩa là NC1 chỉ có 1 đặc trưng, biểu thị qua 1. Nhưng NC2có 2 đặc trưng là Y và N . Hai tổ hợp đặc trưng của trò chơi là (1, y) và(1, n), đều có xác suất xuất hiện là 1/2.

NC2 biết rõ đặc trưng của NC1 cũng như của bản thân, có nghĩa làbiết chắc trò chơi nào đang diễn ra. NC1 thì phải gán xác suất cho từngđặc trưng của NC2, đều là 1/2. Sơ đồ dạng cây của tình huống xung độtnói trên được cung cấp trong H.(4.1), có thể giúp giải quyết việc tìm cânbằng Nash thuận lợi hơn.

Sơ đồ cho biết trò chơi bắt đầu ở nút May-Rủi, và đi đến lựa chọnmột trong hai ma trận cặp để chơi, với xác suất 1/2. Theo diễn đạt vềđặc trưng NC, trò chơi này lựa đặc trưng của NC2. NC2 được thông tin,

2Peter, Hans (2008) Game theory: a multi-leveled approach. Springer Verlag,Heidelberg, Germany.

3Nash, John F. (1951) “Non-cooperative games.” Annals of Mathematics,54:286–295.

Page 70: Game theory   - Vuong Quan Hoang

56 c⃝ 2011 - Vương Quân Hoàng

Hình 4.1: Xung đột sở thích giới tính, thông tin không đầy đủMay-Rủi

NC2Y

1/2

S

S B

B

BS

21

00

00

12

NC2N

1/2

B

BSS B

20

01

02

10

NC1

nhưng NC1 thì không. NC2 có 4 chiến lược khác nhau, nhưng NC1 chỉcó 2. Từ sơ đồ dạng chiến lược của trò chơi, có thể quan sát thấy mọicân bằng Nash đều có tính hoàn hảo trò chơi con, vì không có trò chơicon nào không tầm thường. Đồng thời, mọi cân bằng Nash đều hoànhảo Bayes, tập thông tin không tầm thường duy nhất (của NC1) sẽ đượctận dụng cho dù NC2 có đi phương án nào, như vậy niềm tin hoàn toànđược xác định qua chiến lược của NC2 nhờ bổ sung thông tin Bayes.

Dạng chiến lược của trò chơi cho ở H.(4.2). Trong sơ đồ, chữ cái đầutiên trong một chiến lược của NC2 cho biết NC2 chơi gì nếu Y xuất hiệnở bước May-Rủi. Tương tự, chữ cái thứ 2 tương ứng với trường hợp N .Phản ứng tối ưu được đánh dấu.

( SS SB BS BB

S 2∗, 0.5 1∗, 1.5∗ 1∗, 0 0, 1B 0, 0.5 0.5, 0 0.5, 1.5∗ 1∗, 1∗

)(4.2)

Từ dạng chiến lược, thấy rằng trò chơi có cân bằng Nash thuần duynhất là (S, SB). Trong cân bằng này, NC1 chọn S, đặc trưng Y của NC2chọn S và đặc trưng N của NC 2 chọn B.

Điểm cân bằng này cũng còn gọi là cân bằng Bayes, tuy nhiên nó là

Page 71: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 57

một cân bằng Nash của một dạng trò chơi sơ đồ cây theo một quy cáchphù hợp. Cân bằng Nash thuần của một trò chơi dạng này có thể xácđịnh mà không cần vẽ sơ đồ cây hay tính ra ma trận dạng chiến lược.Giả sử rằng, NC1 lựa chọn S tại điểm cân bằng. Khi này, phản ứng tốiưu của NC2 là chơi S nếu cô gái có đặc trưng Y , và lựa chọn B, nếu đặctrưng của cô ta là N .

Lợi ích kỳ vọng của NC1 là 1; thế nên nếu NC2 lựa chọn B thì chỉ thuđược lợi ích kỳ vọng 0,5. Do vậy, (S, SB) là cân bằng Nash.

Mặt khác, nếu như NC1 chọn B, thì phản ứng tối ưu của NC2 chứađặc trưng Y là B, còn đặc trưng N thì là S. Lợi ích của NC1 là 0,5, trongkhi đó nếu chơi S thì lợi ích của NC2 là 1, trong tình huống này. Do đó,không có điểm cân bằng khi NC1 lựa chọn B.

Trường hợp thông tin không đầy đủ từ cả hai phía Đây là mộtví dụ của việc tiếp tục chỉnh sửa đầu bài của trò chơi xung đột lợi íchgiới tính vừa đề cập ở trên. Trong trò chơi mới này, không NC nào biếtchắc liệu rằng NC kia có muốn gặp mình không.

Y :( S B

S 2, 1 0, 0B 0, 0 1, 2

)Y :

( S B

S 2, 0 0, 2B 0, 1 1, 0

)(4.3)

Y :( S B

S 2, 1 0, 0B 0, 0 1, 2

)Y :

( S B

S 2, 0 0, 2B 0, 1 1, 0

)(4.4)

Chúng ta có 4 trò chơi ma trận cặp trong dạng chiến lược cho bởi(4.3) và (4.4).

Các trò chơi này tương ứng với 4 tổ hợp đặc trưng có thể của NC1 vàNC2. Từ đây ta cũng có PPXS của 4 tổ hợp đặc trưng này trong bảng(4.1).

Một phương án tìm các cân bằng Nash của trò chơi này là phác họadạng sơ đồ cây và tính ra các dạng chiến lược tương ứng. Cách khác làkiểm tra một cách hệ thống 16 cặp chiến lược có thể.

Page 72: Game theory   - Vuong Quan Hoang

58 c⃝ 2011 - Vương Quân Hoàng

Bảng 4.1: PPXS theo đặc trưng của NC có 2 đặc trưngt Y1Y2 Y1N2 N1Y2 N1N2

p(t) 2/6 2/6 1/6 1/6

PPXS phụ thuộc theo loại có thể tính từ bảng (4.1), theo công thứcBayes xác suất toàn phần ().

p(Y2|Y1) =p(Y1Y2)

p(Y1Y2) + p(Y1N2)=

2/6(2/6 + 2/6)

= 1/2

Theo cách này, các xác suất có điều kiện (theo loại đặc trưng) khácđược tính ra kết quả từ bài toán như sau: p(N2|Y1) = 1/2, p(Y2|N1) =1/2, p(N2|N1) = 1/2, p(Y1|Y2) = 2/3, p(N1|Y2) = 1/3, p(Y1|N2) = 2/3,p(N1|N2) = 1/3.

Giả sử NC1 chọn chiến lược SS, tức là chàng trai chọn S (chữ S đứngtrước) nếu đặc trưng của anh ta là Y1 và cũng S (chữ đứng sau) ngay cảkhi đặc trưng làN1. (Trong toàn bộ biện luận này, ký hiệu đầu của chiếnlược lựa chọn tương ứng với đặc trưng Y và chữ đứng sau ứng với N).

Khi đó, lợi ích kỳ vọng cho đặc trưng Y2 của NC2 nếu như cô tachọn S là (2/3) · 1 + (1/3) · 1 = 1. Nếu NC2 chọn B thì kỳ vọng là(2/3) · 0 + (1/3) · 0 = 0. Từ đó suy ra, phản ứng tối ưu của đặc trưng Y2

là S.Tương tự, với N2 của NC2, chọn S cho lợi ích 0, và B đem lại 2. B là

phản ứng tối ưu. Kết hợp lại, phản ứng tối ưu của NC2 đáp ứng lại chiếnlược SS của NC1 là SB.

Như thế chơi S đem lại cho đặc trưng Y1 củaNC1mộtmức kỳ vọng lợiích là (1/2) · 2 + (1/2) · 0 = 1. Chọn B đem lại (1/2) · 0 + (1/2) · 1 = 1/2,cho nên S là phản ứng tối ưu cho đặc trưng Y1 của NC1. Tương tự, vớiđặc trưng N1 thì chọn S đem lại lợi ích (1/2) · 0 + (1/2) · 2 = 1 trong khiđó chọn B đem lại 1/2. Vì thế, S vẫn là phản ứng tối ưu cả khi đặc trưnglà N1. Suy ra rằng, phản ứng tối ưu của NC1 trước chiến lược chơi SBcủa cô gái là SS. Ta kết luận rằng, trong trường hợp này, (SS, SB) làcân bằng Nash.

Tiếp theo, giả sử rằng NC1 chọn SB. Tính toán theo cách tương tựcho thấy NC2 có 2 phương án phản ứng tối ưu, là SB và BB. Nếu NC2chọn SB, thì chiến lược tối ưu của NC1 là SS, theo cùng lô-gic đã lập

Page 73: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 59

luận lúc trước, và không có phương án tối ưu SB. Điều này chứng tỏđây không phải là cân bằng Nash. Còn phương án NC2 làBB, phản ứngtối ưu của NC1 là BS, chứ không phải SB, tổ hợp này cũng không tạothành cân bằng Nash.

Thứ ba, giả sử rằng, NC1 chọn chiến lược BS. Như vậy, NC2 có haiphản ứng tối ưu là BS và BB. Nếu NC2 chọn BS, phản ứng tối ưu củaNC1 là SS và không phải BS, tổ hợp này không tạo thành cân bằngNash. Trường hợp, NC2 chọn BB, chiến lược tối ưu của NC1 là BS, vàlúc này tổ hợp chiến lược (BS, BB) chính là một cân bằng Nash.

Cuối cùng ta lại giả sử rằng NC1 đi BB. NC2 phản ứng tối ưu quaBS, dẫn đến NC1 cần phản ứng lựa chọn tốt nhất SS và không phảiBB.Suy ra, BB không phải bộ phận của cân bằng Nash ta mong muốn.

Có thể kết luận rằng trò chơi đang xét có 2 cân bằng Nash thuần: (1)Cả hai loại đặc trưng của NC1 dẫn đến lựa chọn S, đặc trưng Y2 của NC2cũng dẫn tới hành động S, nhưng đặc trưng N2 của NC2 lại hướng đếnphương án B; và, (2) Loại đặc trưng Y1 của NC1 dẫn đến lựa chọn B,trong khi N1 là S. Trong khi đó, cả 2 đặc trưng của NC2 đều có lựa chọnB tối ưu. Các điểm cân bằng này còn được gọi là cân bằng Nash có tínhchất Bayes.

4.3 Trò chơi tín hiệu

Dạng mở rộng của trò chơi có thể giúp nghiên cứu loại trò chơi tĩnh,thông tin không đầy đủ, bằng cách bắt đầu trò chơi với nút May-Rủi,tại đó lựa chọn loại đặc trưng của NC. Xét tổng quát hơn, dạng mở rộngcó thể mô hình hóa các trò chơi thông tin không đầy đủ, mà trong đónhững NC chuyển động tuần tự. Một lớp trò chơi quan trọng này là lớptrò chơi phát tín hiệu. GS. Spence đã xây dựngmô hình trò chơi tín hiệuthị trường đặc trưng cho loại bài toán này.4

Trò chơi tín hiệu (hữu hạn) khởi đầu với bước May-Rủi dẫn đến lựachọn đặc trưng của NC1. NC1 có thông tin về các loại đặc trưng củamình, nhưng NC2 thì không có thông tin về đặc trưng này. NC1 hànhđộng trước, NC2 quan sát lựa chọn của NC1, rồi mới chuyển động, sauđó trò chơi kết thúc. Mô hình bài toán này được gọi là trò chơi tín hiệubởi lẽ chuyển động của NC1 có thể là tín hiệu nhận biết loại đặc trưng,

4Spence, Michael A. (1973) “Job market signalling.” Quarterly Journal of Eco-nomics, 87: 355–374.

Page 74: Game theory   - Vuong Quan Hoang

60 c⃝ 2011 - Vương Quân Hoàng

và nhờ đó NC2 có thể suy diễn ra thông tin nào đó về đặc trưng của NC1.

Ví dụ trò chơi tín hiệu: Ta xét sơ đồ trò chơi tín hiệu 1 trong hình(4.2).

Hình 4.2: Trò chơi tín hiệu 1

May-Rủi

0, 2

0, 4

8, 0

2, 6

4, 2

2, 0

0, 0

4, 2

d

u

d

u

d

u

d

uL

L

R

R

[1 − α]

[α]

[1 − β]

[β]t

t′

1/2

1/2

NC2 NC2

Trong trò chơi này, NC1 biết được kết cục của bước May-Rủi, nhưngNC2 không có thông tin này. Theo ngôn ngữ của chúng ta, có hai tổ hợpđặc trưng là (t, 2) và (t′, 2), xác suất đều là 1/2.

Để phân tích trò chơi và tìm các cân bằng Nash (thuần), một phươngán là tính ra được dạng chiến lược của trò chơi, và cả 2 NC đều có 4chiến lược chơi. NC1 có tập chiến lược {LL,LR, RL, RR}, trong đó kýhiệu chữ cái đầu là hành động của đặc trưng t, và ký hiệu sau là của đặctrưng t′.

NC2 có tập chiến lược {uu, ud, du, dd}, trong đó chữ cái đầu là bướcđi tương ứng với việc NC1 lựa chọn L (do đó, đến nhánh trái của tậpthông tin NC2), và ký hiệu sau tương ứng hành động thực hiện nếu nhưNC1 lựa chọn R (do đó, đến nhánh phải của tập thông tin NC2). Dạngchiến lược của trò chơi này được tính theo cách đã quen thuộc và cho tama trận cặp (4.5). Từ các phản ứng tối ưu (thuần) cho thấy trò chơi nàycó 2 cân bằng Nash là (RL, uu) and (LL, ud).

Page 75: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 61

uu ud du dd

LL 3, 7∗ 3∗, 7∗ 4, 1 4, 1LR 2, 3 2, 5∗ 5∗, 0 5∗, 2RL 4∗, 5∗ 2, 4 2, 2 0, 1RR 3, 1 1, 2∗ 3, 1 1, 2∗

(4.5)

Ta quan sát thấy rằng trò chơi con duy nhất là toàn bộ trò chơi, vì thếcả hai cân bằng này đều là cân bằng trò chơi con tầm thường.

Tiếp tục xét cân bằng (RL, uu). Điều kiện nhất quán độ tin cậy yêucầu rằngα = 0 và β = 1. Với niềm tin cho trước này uu là phản ứng tốiưu của NC2. Như vậy, cặp chiến lược (RL, uu) là cân bằng Bayes hoànhảo với niềm tin α = 0 và β = 1. Điểm cân bằng này được gọi là cânbằng phân chia: nó phân định hai loại đặc trưng của NC1, vì những đặctrưng này dẫn đến hành động khác biệt. Tại cân bằng này, hành vi củaNC1 là tín hiệu về đặc trưng của anh/chị ta. Nói cách khác, cân bằngnày giúp bộc lộ thông tin.

Tiếp theo, xét cân bằng Nash (LL, ud). Điều kiện nhất quán dẫn đếnα = 1/2; đó là vì mỗi đặc trưng của NC1 đều dẫn tới phản ứng L, xácsuất phụ thuộc của hai nút quyết định ở tập thông tin phía trái của NC2đều bằng 1/2.

Với α = 1/2 có thể suy diễn rằng u là phản ứng tốt nhất với tập thôngtin trái của NC2 (trên thực tế, trong trò chơi này u tối ưu với mọi trị sốcủa α). Niềm tin (β, 1β) không bị ràng buộc bởi các điều kiện nhất quánvì ở điểm cân bằng, tập thông tin bên tay phải không có ý nghĩa (xácsuất bằng 0); Nhưng các trị số xác suất tin cậy này cần thỏa mãn rằng,hành động của NC2 d là tối ưu tại tập thông tin bên phải của NC2, phùhợp với điều kiện về tính hợp lý tuần tự.

Từ đó ta thấy rằng, lợi ích kỳ vọng của NC2 khi chọn d cần tối thiểulớn bằng kỳ vọng khi chọn u, vì thế 4(1β) ≥ 2β. Suy ra, β ≤ 2/3. Suy ra,(LL, ud) là cân bằng Bayes hoàn hảo với niềm tin α = 1/2 và β ≤ 2/3.Cân bằng này gọi là cân bằng gộp (pooling equilibrium) vì nó gộp cácđặc trưng của NC1 trong cùng lô-gic cân nhắc. Tại đây, hành động củaNC1 không cho biết thông tin về đặc trưng của NC1.

Tính toán cân bằng Bayes hoàn hảo trong dạng mở rộng: Cóthể tính cân bằng Bayes hoàn hảo không cần qua dạng chiến lược bằngcách trước tiên giả định tồn tịa cân bằng khi NC1 chọn LL. Do đó

Page 76: Game theory   - Vuong Quan Hoang

62 c⃝ 2011 - Vương Quân Hoàng

β = 1/2 theo điều kiện nhất quán, và NC2 có phương án tối ưu tại tậpthông tin bên trái sau bước L là u. Tại tập thông tin bên phải, hành vitối ưu của NC2 là u nếu β ≥ 2/3, và là d nếu β ≤ 2/3. Nếu NC2 chọn usau R, thì đặc trưng t của NC1 sẽ được cuộc thông qua việc chọn R thayvì L, do đó đây không phải một cân bằng.

Còn nếu NC2 chọn d sau R, thì không có đặc trưng nào của NC1 dẫntới lựa chọn R thay cho L.

Ta đã lập luận ở trên rằng (LL, ud) với α = 1/2 và β ≤ 2/3 là mộtcân bằng Bayes hoàn hảo (gộp).

Thứ hai, giả sử NC1 chọn LR tại điểm cân bằng. Trị số niềm tin củaNC2 là α = 1 và β = 0, và phản ứng tối ưu của NC2 là ud. Nhưng nếuthế thì đặc trưng t của NC1 sẽ được cuộc thông qua hành động chọn Rthay cho L, do vậy đây không thể là điểm cân bằng.

Thứ ba, giả sử NC1 chọnRL thì α = 0, β = 1, và NC2 phản ứng tối ưuqua uu. Với hành động uu, NC1 phản ứng tối ưu quaRL, suy ra (RL, uu)là cân bằng Bayes hoàn hảo (phân chia) với niềm tin α = 0, β = 1.

Cuối cùng, giả sử NC1 chọn RR thì β = 1/2 và NC2 chọn d sau bướcR. Sau bước L, phản ứng tối ưu của NC2 là u bất kể mọi giá trị của α.Trước chiến lược ud của NC2, thì đặc trưng t của NC1 được cuộc bằngcách chọn chơi L chứ không phải R. Vì thế RR không phải là cấu thànhcủa một cân bằng.

Page 77: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 63

Page 78: Game theory   - Vuong Quan Hoang

64 c⃝ 2011 - Vương Quân Hoàng

VQG ghi chú:

Page 79: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 65

Page 80: Game theory   - Vuong Quan Hoang

66 c⃝ 2011 - Vương Quân Hoàng

VQG ghi chú:

Page 81: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 67

Page 82: Game theory   - Vuong Quan Hoang

68 c⃝ 2011 - Vương Quân Hoàng

VQG ghi chú:

Page 83: Game theory   - Vuong Quan Hoang

Chương 5

Bất Hợp Tác

Chúng ta vừa tìm hiểu một số dạng trò chơi bất hợp tác trong đó NC cósố chiến lược hữu hạn. Các ý tưởng cơ bản của LTTC đã được đề cập cóthể ứng dụng cho những trò chơi có tính tổng quát hơn rất nhiều. Trongmột tình huống trò chơi lý thuyết, một khi đã xác định được NC, chiếnlược có thể, lợi ích liên quan, thì các khái niệm về phản ứng tối ưu vàcân bằng Nash có thể áp dụng được. Các kỹ thuật xử lý như quy nạp lùi,hoàn chỉnh trò chơi con và tìm cân bằng Bayes cũng có thể ứng dụngcho các trò chơi dạng mở rộng tổng quát. Với trò chơi thông tin khôngđầy đủ, khái niệm đặc trưng NC và cân bằng Nash Bayes có thể áp dụngkể cả có vô số chiến lược.

Trong chương này, chúng ta chỉ ra rằng các phương tiện LTTC có thểđược áp dụng cho rất nhiều tình huống xung đột khác nhau. Trước tiênmột số khái niệm quan trọng đã bàn sẽ được đề cập ở mức độ tổng quáthóa cao hơn. Các bài toán quan trọng với nhận thức LTTC như cạnhtranh Cournot với thông tin đầy đủ/không đầy đủ, cạnh tranh Bertrand,ý niệm cân bằng Stackelberg, đấu giá, chiến lược hỗn hợp với xác suấtkhách quan, và mặc cả tuần tự... được lần lượt đề cập.

5.1 Khuôn khổ tổng quát: trò chơi chiến lược

Một trò chơi chiến lược n-NC là một bộ 2n + 1 số

G = (N,S1, . . . , Sn, u1, . . . , un),

trong đó:

69

Page 84: Game theory   - Vuong Quan Hoang

70 c⃝ 2011 - Vương Quân Hoàng

(a) N = {1, . . . , n}, với n ∈ N , n ≥ 1, là tập hợp NC trong trò chơi;

(b) Với mọi i ∈ N , Si là tập chiến lược của NC i;

(c) Với mọi i ∈ N , ui : S = S1 × · · · × Sn → R là hàm lợi íchcủa NC i; nghĩa là, với mọi tổ hợp chiến lược (s1, ..., sn) ∈ S trong đós1 ∈ S1, . . . , sn ∈ Sn, ui(s1, . . . , sn) → R chính là lợi ích của NC i.

Phản ứng tối ưu của NC i đối với một tổ hợp chiến lược của nhữngNC khác - ký hiệu: (s1, . . . , si−1, si+1, . . . , sn) - là một chiến lược si ∈ Si

sao cho:

ui(s1, . . . , si−1, si, si+1, . . . , sn) ≥ ui(s1, . . . , si−1, s′i, si+1, . . . , sn),

với mọi s′i ∈ Si.

Một cân bằng Nash của trò chơi G là một tổ hợp chiến lược - kýhiệu (s∗1, . . . , s

∗n) ∈ S - sao cho mỗi NC i, s∗i là phản ứng tối ưu đối với

(s∗1, . . . , s∗i−1, s

∗i+1, . . . , s

∗n).

Chiến lược s′i ∈ Si của NC i bị lép vế tuyệt đối so với si ∈ Si nếu nhưui(s1, . . . , si−1, si, si+1, . . . , sn) > ui(s1, . . . , si−1, s

′i, si+1, . . . , sn) vớimọi

(s1, . . . , si−1, si+1 . . . , sn) ∈ S1 ×· · ·×Si−1 ×Si+1 ×· · ·Sn, tức là với mọitổ hợp chiến lược của những NC khác không phải i. Rõ ràng là mộtchiến lược bị lép vế sẽ không bao giờ được xuất hiện trongmột cân bằngNash.

Chiến lược s′i ∈ Si là lép vế tương đối so với si ∈ Si nếu nhưui(s1, . . . , si−1, si, si+1, . . . , sn) ≥ ui(s1, . . . , si−1, s

′i, si+1, . . . , sn) vớimọi

(s1, . . . , si−1, si+1, . . . , sn) ∈ S1 × · · ·Si−1 × Si+1 × · · · × Sn, sao cho ítnhất có một trong các bất đẳng thức ở trên là chặt.

Ta cũng thấy trò chơi ma trận và ma trận cặp đã đề cập trong cácphần trước là những trường hợp đặc biệt của khuôn khổ tổng quát vừagiới thiệu. Tương tự, các khái niệm cân bằng Nash hay tính trội đã bànkhi trước cũng là các trường hợp đặc biệt.

5.2 Cạnh tranh số lượng Cournot

Ở mục này, ta tìm hiểu mô hình nổi tiếng mang tên Cournot ở mức độgiản dị, chủ yếu để minh họa cho khuôn khổ tổng quát như mục tiêu đãnêu ở trên.

Page 85: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 71

5.2.1 Mô hình đơn giản, thông tin đầy đủ

Hai hãng sản xuất hàng hóa đồng nhất và cạnh tranh nhau về số lượngsản phẩm. Mỗi hãng cung cấpmột lượng hàng này trên cùng thị trường.Giá cả tùy thuộc vào tổng cung: cung càng cao thì giá càng giảm. Lợinhuận tính bằng tổng doanh thu trừ đi tổng chi phí.

Đầu bài này dẫn đến trò chơi 2-NC, trong đó các chiến lược chơi làcác mức cung hàng hóa ra thị trường và các hàm lợi ích là các mức lợinhuận. Ở mức độ ít phức tạp giá phụ thuộc tuyến tính vào tổng cung,và chi phí biên không đổi, trong khi đó tạm coi như chi phí cố định bằng0.1

Ta xét trò chơi có quy cách cụ thể như sau: (a) Tập NC là N = {1, 2}.(b) Mỗi NC i = 1, 2 có tập chiến lược tương ứng ký hiệu là Si = [0,∞),với phần tử tiêu biểu qi. (c) Hàm lợi ích của NC thứ i là Πi(q1, q2) =qiP (q1, q2) − cqi, với mọi q1, q2 ≥ 0, trong đó

P (q1, q2) ={

a − q1 − q2 nếu q1 + q2 ≤ a0 nếu q1 + q2 > a

chính là giá thị trường của hàng hóa và c là chi phí biên, với a > c ≥ 0.Một cân bằng Nash trong trò chơi này là cặp (qC

1 , qC2 ), với qC

1 , qC2 ≥ 0,

của các phản ứng tối ưu qua lại lẫn nhau, tức là: Π1(qC1 , qC

2 ) ≥ Π1(q1, qC2 ),

Π2(qC1 , qC

2 ) ≥ Π2(qC1 , q2) for all q1, q2 ≥ 0 .

Cân bằng này được đặt tên là cân bằng Cournot. Để tìm cân bằngnày, trước tiên ta tính các hàm phản ứng tối ưu. Hàm phản ứng của NC1là β1(q2) tìm được nhờ giải bài toán tối đa hóa:

maxq1≥0

Π1(q1, q2)

với từng giá trị cho trước của q2 ≥ 0. Với q2 ≤ a cân bằng này có nghĩalà tối đa hóa hàm:

q1(a − q1 − q2) − cq1 = q1(a − c − q1 − q2) với q1 ≥ 0.

Với q2 ≤ a − c, cho đạo hàm bậc nhất a − 2q1 − q2 − c (theo q1) bằng0, ta thu được q1 = (a− c− q2)/2. Đối với trường hợp a− c < q2 ≤ a, lợinhuận tối ưu khi q1 = 0 vì nếu không thì lợi nhuận sẽ âm. Trên thực tế,

1Cournot, A (1838) Recherches sur les principes mathématiques de la théorie desrichesses, bản dịch tiếng Anh (1897) của Macmillan, New York.

Page 86: Game theory   - Vuong Quan Hoang

72 c⃝ 2011 - Vương Quân Hoàng

Hình 5.1: Cournot 1

q10

q2

a − c

a−c2

a − ca−c2

qC

q1 + q2 ≤ a trong các trường hợp trên. Nếu q2 > a, thì P (q1, q2) = 0 sẽđộc lập với lựa chọn q1, và như vậy, NC1 tối đa hóa lợi nhuận −cq1 khiq1 = 0 nếu c > 0 và q1 ∈ [0,∞) nếu c = 0. Tổng kết lại ta có hàm phảnứng (5.1) của NC1 dưới đây:

β1(q2) =

{1

2(a − c − q2)} nếu q2 ≤ a − c{0} nếu a − c < q2 ≤ a{0} nếu a < q2 và c > 0

{[0,∞)} nếu a < q2 vàc = 0

(5.1)

Tương tự vậy, ta cũng thu được hàm phản ứng của NC2 (5.2):

β2(q1) =

{1

2(a − c − q1)} nếu q1 ≤ a − c{0} nếu a − c < q1 ≤ a{0} nếu a < q1 và c > 0

{[0,∞)} nếu a < q1 và c = 0

(5.2)

Cân bằng Nash là giao điểm của hai hàm phản ứng tối ưu, thông quagiải đồng thời hệ q1 = (a− c− q2)/2 and q2 = (a− c− q1)/2; kết quả thuđược là:

(qC1 , qC

2 ) =(

a − c

3,a − c

3

).

Page 87: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 73

Tính tối ưu Pareto Cặp chiến lược (q1, q2) được xem là tối ưu Pareto(Pareto optimal) nếu không tồn tại một cặp (q′1, q

′2) khác sao cho các lợi

ích theo đó ít nhất ngang bằng cho cả hai NC, và tốt hơn với ít nhất mộtNC. Chúng ta không ngạc nhiên trong trò chơi khi cân bằng (qC

1 , qC2 )

không có tính chất tối ưu Pareto.Ví dụ, cả hai NC có thể đều hưởng lợi ích từ việc tối đa hóa lợi ích,

qua việc giải bài toán:

maxq1,q2≥0

Π1(q1, q2) + Π2(q1, q2).

Các điều kiện bậc nhất dẫn đến phương trình a − 2q1 − 2q2 − c = 0,cho nên bất kỳ cặp (q1, q2) ≥ 0 với q1 + q2 = (a − c)/2 đều thỏa mãn.Cho q1 = q2 = (a − c)/4 đều mang lại cho mỗi NC lượng lợi nhuận(a − c)2/8, trong khi đó, ở cân bằng Nash, mỗi NC chỉ nhận được mứclợi ích (a − c)2/9. Trên hình (5.1), phần diện tích nằm trong vùng giaogiữa hai đường cong bên dưới qC chứa các cặp chiến lược có tính Pareto-vượt trội so với cân bằng Nash; tại mỗi điểm thuộc miền đó, các lợi íchđi kèm ít nhất ngang bằng so với tại cân bằng Nash, và ít nhất vượt trộicho một trong hai NC.

5.2.2 Mô hình đơn giản, thông tin không đầy đủ

Vẫn xét bài toán trên, và ta thay đổi một giả thiết rằng chi phí biên củahãng thứ 2 hoặc ở mức cao cH , hoặc ở mức thấp cL: cH > cL ≥ 0. Hãng2 biết thông tin về chi phí, nhưng hãng 1 chỉ biết cH có xác suất ϑ, hoặccL xác suất 1−ϑ. Chi phí của hãng 1 là c và là thông tin các bên đều biết.Như vậy, NC1 chỉ có một đặc trưng, còn NC2 có hai đặc trưng cH và cL.Trò chơi tương ứng được xác lập như sau:a) Tập NC là {1, 2}. b) Tập chiến lược của NC1 là [0,∞) với phần tử điểnhình q1, và của NC2 là [0,∞) × [0,∞) với phần tử (qH , qL). Ở đây qH làsố lượng được lựa chọn nếu NC2 có đặc trưng cH , và qL là số lượng khiđặc trưng là cL. c) Các hàm lợi ích của NC là các hàm kỳ vọng, có dạng:Πi(q1, qH , qL) = ϑΠi(q1, qH) + (1 − ϑ)Πi(q1, qL), với mọi i = 1, 2, trongđó Πi(·, ·) là hàm lợi ích từ mô hình Cournot.

Để tìm cân bằng Nash (Bayes) trước tiên tính hàm phản ứng tối ưucủa NC1, thông qua cực đại 1(q1, qH, qL) trên khoảng q10, với qH và qLcoi như đã cho. Do đó, ta giải quyết bài toán:

maxq1≥0

ϑ[q1(a − c − q1 − qH)] + (1 − ϑ)[q1(a − c − q1 − qL)].

Page 88: Game theory   - Vuong Quan Hoang

74 c⃝ 2011 - Vương Quân Hoàng

Giả sử rằng qH , qL ≤ a − c (sau đó ta sẽ kiểm tra tính hợp lý của giảthiết này với điểm cân bằng), bài toán được giải qua việc đặt đạo hàmbậc nhất theo q1 bằng 0, dẫn tới:

q1 = q1(qH , qL) =a − c − ϑqH − (1 − ϑ)qL

2. (5.3)

So với bài toán gốc thì thay đổi số lượng kỳ vọng bây giờ làϑqH +(1−ϑ)qL

thay cho q2.Với NC2, ta xét với q1 cho trước, bài toán có dạng:

maxqH ,qL≥0

ϑ[qH(a − cH − q1 − qH)] + (1 − ϑ)[qL(a − cL − q1 − qL)].

Vì phần trước của hàm chỉ phụ thuộc vào qH và phần sau chỉ qL, giảibài toán này bằng cách lấy cực đại hai phần riêng rẽ. Giả sử q1 ≤ a− cH

(và do đó q1 ≤ a − cL), điều này dẫn đến:

qH = qH(q1) =a − cH − q1

2(5.4)

vàqL = qL(q1) =

a − cL − q1

2. (5.5)

Giải đồng thời hệ (5.3,5.4,5.5), cho ta nghiệm là cân bằng Nash.Nghiệm thu được là bộ 3:

qC1 =

a − 2c + ϑcH + (1 − ϑ)cL

3

qCH =

a − 2cH + c

3+

1 − ϑ

6(cH − cL)

qCL =

a − 2cL + c

3− ϑ

6(cH − cL).

Giả sử các tham số của trò chơi đảm bảo cả 3 giá trị này không âm, vàrằng q1 ≤ a− cH và qH , qL ≤ a− c, đây chính là cân bằng Cournot-Nashcó tính chất Bayes của trò chơi. Nghiệm này cần được so sánh với cânbằng Nash trongmô hình đầy đủ thông tin ở trên. Đặc trưng chi phí caocủa hãng 2 khiến hãng này sản xuất nhiều hơn trong trường hợp thôngtin đầy đủ; hãng này thu được lợi ích từ thực tế rằng hãng 1 không biếtchắc về chi phí, và do đó hãng 1 sản xuất ít đi so với mức tối ưu khi hãngnày biết chắc rằng hãng 2 có mức chi phí cao hơn.

Page 89: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 75

5.3 Cạnh tranh giá Bertrand

Xét hai hãng cạnh tranh giá trên cùng loại sản phẩm. Giả sử nhu cầu qđối với sản phẩm cho bởi q = q(p) = max{a− p, 0} với mọi p ≥ 0. Hãngnào đưa ra mức giá thấp hơn sẽ bán được cho toàn bộ thị trường. Nếugiá bằng nhau, hai hãng chia đôi thị phần. Mỗi hãng có cùng mức chiphí biên 0 ≤ c < a, và chi phí cố định giả định bằng 0. Nếu hãng 1 đặtmức giá p1 và hãng 2 mức p2, thì lợi nhuận của hãng 1 xác định bởi:

Π1(p1, p2) =

(p1 − c)(a − p1) nếu p1 < p2 vàp1 ≤ a12(p1 − c)(a − p1) nếu p1 = p2 và p1 ≤ a0 trong các trường hợp khác

Tương tự vậy, lợi nhuận hãng 2 cho bởi:

Π1(p1, p2) =

(p2 − c)(a − p2) nếu p2 < p1 vàp2 ≤ a12(p2 − c)(a − p2) nếu p1 = p2 và p2 ≤ a0 trong các trường hợp khác

Trên phương diện LTTC, các hàm lợi ích của NC1,2 ở trên tương ứngvới các tập chiến lược [0,∞) và các nhân tố đặc trưng p1, p2. Để tìm cânbằng Nash (trường hợp này còn có tên cân bằng Bertrand) ta trước hếttính các hàm phản ứng tối ưu. Giá có một vai trò đặc biệt quan trọngtrong đầu bài này, một khi nhờ giá mà một hãng có thể chiếm toàn thịtrường, tối đa hóa lợi ích và trở thành mức giá cạnh tranh độc quyềnpM = 1

2(a + c). Dạng hàm lợi nhuận của bài toán này là dạng toànphương, và lợi nhuận tăng tương ứng khi giá tăng tiến đến mức giá độcquyền.

Để xác định hàm phản ứng tối ưu của NC1 β1(p2) ta biện luận riêngcác trường hợp.

Nếu p2 < c, thì bất kỳ mức giá p1 ≤ p2 đều mang lại lợi ích nhỏ hơn0, trong khi đó p1 > p2 có mức lợi ích là 0. Do đó, tập các phản hồi tốiưu là toàn bộ khoảng (p2,∞).

Nếu p2 = c, thì bất kỳ mức giá p1 < p2 đều có lợi ích âm cho NC1, vàp1 ≥ p2 mang lại lợi ích 0. Tập phản ứng tối ưu khi này là khoảng [c,∞).

Nếu c < p2 ≤ pM , thì phản hồi tối ưu của NC1 là mức giá thấp hơnp2 và càng tiến tới sát mức giá độc quyền càng tốt, nhưng mức giá đó lạikhông tồn tại: với mọi mức giá p1 < p2, một mức giá nằm trong khoảnggiữa p1 và p2 vẫn đủ tốt để cân nhắc. Vì thế, trong tình huống này, tậpphản ứng tối ưu của NC1 là tập rỗng.

Page 90: Game theory   - Vuong Quan Hoang

76 c⃝ 2011 - Vương Quân Hoàng

Nếu p2 > pM thì phản ứng tối ưu duy nhất của NC1 chính là giá độcquyền pM . Ta tóm tắt lại các kết cục như sau:

β1(p2) =

{p1|p1 > p2} nếu p2 < c{p1|p1 ≥ c} nếu p2 = c∅ nếu c < p2 ≤ pM

{pM} nếu p2 > pM

Với NC2, ta có dạng kết cục hoàn toàn tương tự:

β2(p1) =

{p2|p2 > p1} nếu p1 < c{p2|p2 ≥ c} nếu p1 = c∅ nếu c < p1 ≤ pM

{pM} nếu p1 > pM

Giao điểm của các hàm phản ứng tối ưu này có thể tìm được quaphương pháp đồ thị, hoặc trực tiếp khảo sát điều kiện như sau. Nếup2 < c thì phản ứng tối ưu p1 thỏa mãn p1 > p2. Nhưng khí đó, theoβ2(p1), ta luôn có p2 ≥ p1 hoặc p2 = pM , và đây là một mâu thuẫn. Vìvậy, tại điểm cân bằng, ta luôn có p2 ≥ c. Nếu p2 = c, thì p1 ≥ c; tuy vậynếu p1 > c, thì khả năng duy nhất xảy ra là p2 = pM , cũng là một mâuthuẫn. Do đó, p1 = c và p1 = p2 = c là một cân bằng Nash. Nếu p2 > c,thì khả năng duy nhất xảy ra là p1 = pM nhưng khi này p2 lại không thểlà phản ứng tối ưu. Ta kết luận cân bằng Nash (Bertrand) duy nhất làp1 = p2 = c.

Cũng có thể lập luận đi tới kết cục này không cần tính hàm phản ứngtối ưu. Giả sử, tại điểm cân bằng, p1 = p2, chẳng hạn p1 < p2. Nếu nhưp1 < pM , thì NC1 có thể tăng lợi ích thu về bằng cách đặt mức giá caolên, nhưng vẫn thấp hơn p2. Nếu p1 ≥ pM , thì NC2 cũng làm tương tự.Cả hai NC đều hiểu nguyên tắc này, và do đó điểm cân bằng chỉ có thểlà p1 = p2.

Nếumức giá chung này thấp hơn c thì mỗi NC đều có thể cải thiện lợiích bằng cách tăng giá. Nếu mức đó lớn hơn c, mỗi NC cải thiện bằngcách hạ giá. Như vậy, khả năng duy nhất còn lại là p1 = p2 = c, và đâychính là điểm cân bằng ta cần tìm. Minh họa cho bởi Hình (5.2).

5.4 Cân bằng Stackelberg

Xét lại trò chơi Cournot đầu tiên, bây giờ ta giả định tình huống khácđi (hàm lợi ích vẫn vậy) rằng, NC1 chuyển động trước, và NC2 quan

Page 91: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 77

sát rồi mới chuyển động tiếp theo. Trò chơi này có dạng chiến lượctrong Hình (5.3). NC1 có tập chiến lược vô hạn [0,∞), mang yếu tố đặctrưng q1.2 NC2 có số hành động là vô hạn [0, ) với yếu tố đặc trưng q2.Một chiến lược của NC2 sẽ gán cho mỗi tập thông tin, do đó là gán chotừng nút quyết định một hành động.3 Một chiến lược của NC2 là hàms2 : [0,∞) → [0,∞).

Rõ ràng ta thấy được số chiến lược của NC2 cũng là vô hạn.4 Kháiniệm nghiệm phù hợp cho tình huống này là cân bằng quy nạp lùi hoặccân bằng trò chơi con hoàn hảo. Trò chơi con ở đây là toàn bộ trò chơivàmột số lượng vô hạn các trò chơi 1-NC, khởi đầu tư các nút quyết địnhcủa NC2, nghĩa là tiếp theo sau mỗi lựa chọn q1 của NC1.

Như vậy, cân bằng hoàn hảo của trò chơi con có thể xác định thôngqua quy nạp lùi như sau. Trong mỗi trò chơi con của NC2, NC2 cầnchuyển động tối ưu. Điều này có nghĩa là NC2 cần chơi tương ứng vớihàm phản ứng tối ưu β2(q1) cho bởi hệ (5.2). Như vậy, đi ngược về gốctrò chơi, NC1 cần lựa chọn q1 ≥ 0 sao cho có thể tối đa hóaΠ1(q1, β2(q1)).Nói cách khác, NC1 tính đến phản ứng tối ưu của NC2 khi lựa chọn q1.

Giả sử rằng q1 ≤ a − c (ta cũng dễ dàng kiểm tra rằng, q1 > a − ckhông phải phương án tối ưu), thì NC1 sẽ tối đa hóa biểu thức sau:

q1

(a − c − q1 −

(a − c − q1)2

).

Giá trị cực đại đạt được khi q1 = (a−c)/2, và dođó q2 = β2(12(a−c)) =

(a− c)/4. Do vậy, cân bằng hoàn hảo của trò chơi con là: q1 = (a− c)/2,q2 = β2(q1).

Kết cục cân bằng hoàn hảo trò chơi con theo định nghĩa là các hànhđộng được lựa chọn dựa trên quỹ tích các điểm cân bằng ở dạng trò chơichiến lược. Trong trường hợp này, kết cục đó là:

qS1 = (a − c)/2, qS

2 = (a − c)/4.

Nóimột cách chính xác hơn, điểm cânbằng hoànhảo trò chơi connàyđược gọi là cân bằng Stackelberg với NC1 là dẫn dắt và NC2 đi theo. Tahãy kiểm tra để nhận thấy rằng lợi ích của NC1 tại cân bằng Stackelbergcaohơn tại cânbằngCournot, vàngược lại vớiNC2: qC

1 = qC2 = (a−c)/3.

Cân bằng Stackelberg được minh họa trong Hình (5.4).2Đường dích-dắc trong sơ đồ biểu thị số hành động nhiều vô kể.3Trò chơi này có thông tin đầy đủ.4Biểu diễn toán học của tập chiến lược của NC2 là [0,∞)[0,∞).

Page 92: Game theory   - Vuong Quan Hoang

78 c⃝ 2011 - Vương Quân Hoàng

Hình 5.2: Hàm lợi ích của hãng i khi độc quyền Bertrand

Hình 5.3: Lược đồ dạng mở trò chơi Stackelberg

Hình 5.4: Cân bằng Stackelberg

Page 93: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 79

5.5 Chiến lược hỗn hợp và thông tin khôngđầy đủ

Xét trò chơi ma trận cặp:

G =( L R

T 2, 1 2, 0B 3, 0 1, 3

),

với cân bằng Nash duy nhất là ((p∗, 1 − p∗), (q∗, 1 − q∗)), và p∗ = 3/4,q∗ = 1/2.

Giải nghĩa chiến lược hỗn hợp và cân bằng Nash chiến lược hỗn hợplà một vấn đề tồn tại từ lâu trong LTTC. Một cách hiểu là NC trên thựctế ứng xử dựa trên một PPXS tại điểm cân bằng. Trên thực tế, cũng cómột số bằng chứng thống kê về cách hiểu này có thể xảy ra trong thựctiễn, nhưng cách diễn giải này không thuyết phục mấy, đặc biệt là nếutại cân bằng Nash, NC không có thái độ phân biệt giữa các chiến lượcthuần có mặt trong cân bằng với xác suất lớn hơn 0.

Một cách diễn giải khách là chiến lược hỗn hợp của một NC-A đạidiện cho niềm tin của những người chơi khác về cách lựa chọn chiếnlược của NC-A. Chẳng hạn ở điểm cân bằng nói trên, NC2 tin rằng NC1sẽ chơi T với xác suất 3/4. Nhược điểm của cách hiểu này là: Nhữngniềm tin đó hoàn toàn chủ quan, và khôngmang lại ý nghĩa rõ rệt về việcvì sao niềm tin đó được hình thành. Nhà nghiên cứu Harsanyi đề xuấtphương pháp tìm điểm cân bằng Nash của chiến lược hỗn hợp thôngqua tìm giới hạn của các cân bằng Nash (Bayes) thuần trong các trò chơithu được nhờ việc bổ sung tính bất trắc khách quan về lợi ích thu về từtrò chơi. Theo cách này, bất trắc chiến lược của NC được thể hiện quaniềm tin của họ sẽ được thay thế bằng bất trắc khách quan của bướcchuyển động may rủi.5

Trong ví dụ của ta, giả sử lợi ích với NC1 từ chiến lược (T,L) là giá trịkhông chắc chắn 2 + α và lợi ích của NC2 từ (B, R) là giá trị không chắcchắn 3 + β. Giả sử rằng cả α lẫn β đều được gán trị số từ một phân phốiđồng nhất trên khoảng [0, x], trong đó x > 0. Hơn nữa, NC1 biết giá trịđúng của α và NC2 biết β, và cả hai đều nhận thức được thực tế này. Về

5Harsanyi, J.C. (1973) “Games with randomly disturbed payoffs: a new rationale ofmixed strategy equilibrium points.” International Journal of Game Theory, 2:1–23.

Page 94: Game theory   - Vuong Quan Hoang

80 c⃝ 2011 - Vương Quân Hoàng

khía cạnh đặc trưng, NC1 biết đặc trưng α của mình, và NC2 biết đặctrưng β. Các lợi ích mới được cho bởi ma trận cặp:

( L R

T 2 + , 1 2, 0B 3, 0 1, 3 +

).

Một chiến lược (thuần) củamộtNC sẽ gán cho từngđặc trưng củaNCnàymột hành động. Vì vậy, với NC1, đó là một ánh xạ s1 : [0, x] → {T, B},và với NC2 là ánh xạ: s2 : [0, x] → {L,R}.

Để tìm một cân bằng của trò chơi thông tin không đầy đủ này, giả sửrằng NC2 lựa chọn chiến lược tương đối đơn giản: đi L nếu β nhỏ, vàR nếu β lớn. Cụ thể hơn, cho n ∈ [0, x] sao cho mỗi đặc trưng β ≤ b sẽchơi L, và mỗi đặc trưng β > b chơiR. Gọi chiến lược này là s2(b). Phảnứng tối ưu của NC1 trước s2(b) là gì? Giả sử đặc trưng của NC1 là α. NếuNC1 chơi T , thì lợi ích kỳ vọng là 2 + α nhân với xác suất mà NC2 chơiL, rồi công với 2 lần xác suất mà NC2 chơi R.

Xác suất NC2 đánh L, dựa trên chiến lược s2(b) bằng với xác suất màβ lớn nhất là bằng b, do đó bằng b/x vì β phân phối đều trên khoảng[0, x]. Do vậy, lợi ích kỳ vọng với NC1 từ việc lựa chọn T là:

(2 + α) · b

x+ 2(1 − b

x) = 2 + α

b

x.

Tương tự vậy, lợi ích kỳ vọng của NC1 khi đánh B là:

3 · b

x+ 1(1 − b

x) = 1 + 2

b

x.

Từ đây có thể nhận thấy T tốt hơn hoặc cùng lắm là bằng B nếu nhưβ ≥ (2b − x)/b. Như thế, chiến lược sau của NC1 là phản ứng tối ưutrước chiến lược giả định của NC2: “Chơi T nếu nwh α ≥ a và B nếuα < a, trong đó a = (2b − x)/b. Ta ký hiệu chiến lược này là s1(a).”

Ngược lại, giả sử NC1 đánh s1(a). Để tìm phản ứng tối ưu của NC2trước s1(a) ta cũng tiến hành lập luận tương tự. Nếu đặc trưng β củaNC2 dẫn đến lựa chọn L thì lợi ích kỳ vọng là 1 nhân với xác suất màNC1 chơi T ; tức là 1 · (x − a)/x. Nếu đặc trưng β của NC2 chọn R thìkỳ vọng là 3 + β nhân với xác suất mà NC1 chơi B, tức là (3 + β)a/x.Vì vậy L tốt hơn hoặc bằng R nếu như β ≤ (x − 4a)/a. Suy ra, phản

Page 95: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 81

ứng tối ưu của NC2 nếu NC1 chơi s1(a) là chiến lược - ký hiệu s2(b) - vớib = (x − 4a)/a.

Kết hợp các lập luận này, ta thấy (s1(a), s2(b)) là cân bằng Nash vớia = (2b − x)/b, b = (x − 4a)/a. Giải 2 phương trình này đồng thời chonghiệm a, b ∈ [0, x] thu được:

a = (1/4)(x + 4√

x2 + 16), b = (1/2)(x − 4 +√

x2 + 16).

Trong cân bằng này, xác suất tiên nghiệm để NC1 chơi T , tức là xácsuất chơi T trước khi NC biết đặc trưng của mình, là (x− a)/x, nghĩa làbằng (

√x2 + 16 + 3x − 4)/4x. Tương tự, xác suất tiên nghiệm để NC2

chơi L bằng b/x, suy ra bằng (x − 4 +√

x2 + 16)/2x.Điều gì xảy ra với các xác suất này một khi mức độ bất trắc giảm đi,

tức là x → 0? Khi này, với NC1 thì:

limx→0

√x2 + 16 + 3x4

4x= lim

x→0

x/√

x2 + 16 + 34

=34,

trong đó phần tử đầu theo quy tắc l’Hôpital. Tương tự với NC2:

limx→0

x4 +√

x2 + 162x

= limx→0

1 + x/√

x2 + 162

=12.

Nói cách khác, các xác suất đó hội tụ tới một cân bằng Nash của chiếnlược hỗn hợp của trò chơi ban đầu.

Ví dụ và bài toán minh họa

Bài toán Cournot với chi phí đối xứng: Xét mô hình Cournot,nhưng giả thiết thêm rằng các hãng có mức chi phí biên khác nhau:c1, c2 ≥ 0. Tính cân bằng Nash, biện luận các trường hợp tương ứng vớigiá trị c1, c2.

Bài toán Cournot thông tin không đầy đủ Xử lý lại bài toán gốcvới các tham số a = 1, c = 0, ϑ = 1/2, cL = 0, cH = 1/4. Tìm cân bằngNash và so sánh với bài toán gốc.

Page 96: Game theory   - Vuong Quan Hoang

82 c⃝ 2011 - Vương Quân Hoàng

Khởi nghiệp đầu tư: Một doanh nhân khởi nghiệp cần vốn từ bênngoài để triển khai một dự án hấp dẫn. NC này có thông tin không côngkhai về năng lực sinh lợi của công ty hiện tại, nhưng lợi ích của dự ánmới không thể bóc tách khỏi lợi ích của công ty đang hoạt động. Giả sửanh ta chào bán cổ phần chomột nhà đầu tư tiềm tàng để lấy tiền đầu tư.Vậy trong hoàn cảnh nào và với lượng cổ phần nào, dự án sẽ được triểnkhai. Để xây dựng trò chơi này, giả sử rằng lợi nhuận của công ty hiệntại có thể ở mức thấp hay cao Π = L hoặc Π = H , trong đó H > L > 0.

Giả sử lượng đầu tư cần cho dự án là I, lợi ích là R, lợi suất của nhàđầu tư là r, với R > I(1 + r). Trò chơi được chơi như sau: 1. May rủixác định lợi nhuận của công ty. Xác suất để Π = L là p. 2. Nhà khởinghiệp biết Π và chào bán lượng cổ phần s, trong đó 0 ≤ s ≤ 1. 3. Nhàđầu tư quan sát s, nhưng không quan sát được Π, và sẽ quyết định hoặcchấp nhận hoặc từ chối cuộc chơi. 4. Nếu nhà đầu tư từ chối thì lợiích của anh ta là I(1 + r) − I và lợi ích của nhà khởi nghiệp là Π. Nếuanh ta chấp nhận chơi, lợi ích là s(Π + R) − I và của nhà khởi nghiệplà (1 − s)(Π + R). (a) Xây dựng trò chơi dạng mở và chiến lược cho tròchơi tín hiệu này. (b) Tính cân bằng tuần tự nếu có.

Page 97: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 83

Page 98: Game theory   - Vuong Quan Hoang

84 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 99: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 85

Page 100: Game theory   - Vuong Quan Hoang

86 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 101: Game theory   - Vuong Quan Hoang

Chương 6

Trò Chơi Lặp Lại

Trong chương này, ta xét lớp bài toán trò chơi lặp lại vô số lần giữa haiNC. Các định lý Folk được trình bày cho cả cân bằng Nash và cân bằnghoàn hảo trò chơi con. Chủ yếu ta sử dụng ví dụ để làm rõ ý tưởng.

6.1 Cân bằng hoàn hảo trò chơi con

Chúng ta quay lại với khái niệm cân bằng trò chơi con hoàn hảo trongcác bài toán nhiều vô số lượt chơi.

6.1.1 Nghịch lý người tù

Xét trò chơi cho ở ma trận dưới đây

Gp =( C D

C 50, 50 30, 60D 60, 30 40, 40

).

Trong trò chơi Gp mỗi NC có một hành động trội tuyệt đối, ký hiệuD, và (D, D) là cân bằng Nash duy nhất của trò chơi, nếu như các chiếnlược hỗn hợp được chấp nhận.

Ta giả định rằng Gp được chơi lặp đi lặp lại vô số lần, tại cácthời điểm t = 0, 1, 2, . . . , và rằng sau mỗi lượt chơi, NC biết bướcchơi nào đã được thực hiện, tức là họ biết phần tử nào của tập{(C, C), (C, D), (D, C), (D, D)} đã xảy ra. Các bước hiện thực hóa nàydẫn đến một dãy vô hạn các lợi ích liên quan, và ta giả định rằng tồn tại

87

Page 102: Game theory   - Vuong Quan Hoang

88 c⃝ 2011 - Vương Quân Hoàng

một nhân tử chiết khấu 0 < δ < 1 sao cho mức lợi ích thu về cuối cùngcủa mỗi NC là giá trị chiết khấu ở mức δ của dãy vô hạn các lợi ích. Tứclà, NC i (i = 1, 2) thu được

∑∞t=0 δt

i (lợi ích từ lượt chơi thứ t), trong đóδi = δ, với i = 1, 2.

Với khái niệm chiến lược là một kế hoạch đầy đủ tiến hành trò chơi,tại mỗi thời điểm t, chiến lược cần chỉ ra một bước chơi của một NC –một chiến lược thuần hay hỗn hợp - cho mỗi lịch sử trò chơi tới thờiđiểm t, tức là, một hành động cho mỗi dãy thời gian t của các phần tửtừ tập {(C, C), (C, D), (D, C), (D, D)}. Rõ ràng chiến lược đó có thể rấtphức tạp, và số lượng các chiến lược khác biệt có thể của tập chiến lượcđó có thể rất lớn. Chúng ta cần tập trung chú ý vào một số chiến lượcđơn giản.

Trò chơi dạng mở rộng vô số bước đi vừa định nghĩa được ký hiệu làG∞

p (δ). Một ý niệm nghiệm tự nhiên cho trò chơi này là cân bằng Nashhoàn hảo của trò chơi con.

Mỗi trò chơi con trong G∞p (δ) về cơ bản tương đương với chính trò

chơi đó: sự khác biệt giữa 2 trò chơi con là sự khác biệt giữa hai lịch sửchơi dẫn đến các trò chơi con đó. Chẳng hạn, tại thời điểm t = 6, tồn tại46 lịch sử có thể của các lượt chơi và do đó, cũng có 46 trò chơi con khácnhau. Tuy nhiên, mỗi trò chơi con trong tổng số 46 này đều có dạnggiống hệt G∞

p (δ).Ta sẽ tìm hiểu một vài cân bằng hoàn hảo trò chơi con của G∞

p (δ).Trước tiên, xét chiến lược đơn giản: D∞: chơi D tại từng thời điểmt = 0, 1, 2, . . . , độc lập với lịch sử của trò chơi.

Trước tiên, hãy quan sát rằng D∞ là một chiến lược được xác địnhrõ. Nếu cả hai NC chơi D∞ thì lợi ích sinh ra là

∞∑t=0

40δt = 40/(1 − δ)

cho mỗi NC.Chúng ta nói rằng (D∞, D∞) là cân bằng hoàn hảo trò chơi con trong

G∞p (δ). Xét bất kỳ t = 0, 1, . . . và bất kỳ trò chơi con nào khởi đầu từ

thời điểm t. Vì thế, (D∞, D∞) dẫn đến một cân bằng Nash trong tròchơi con: biết rằng NC2 luôn chơi D, NC1 không thể có cách chơi nàokhác ngoài D, và ngược lại cũng thế. Do đó (D∞, D∞) là một cân bằnghoàn hảo trò chơi con. Ở cân bằng này, mỗi NC chỉ chơi cân bằng Nashcủa một trò chơi con tại mọi thời điểm t.

Page 103: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 89

Một điểm cân bằng hoàn hảo trò chơi con khác nữa như sau. Xétchiến lược: Tr(C): tại t = 0 và tại mọi thời điểm t sao cho trong quákhứ chỉ có (C,C) đã xuất hiện ở các lượt chơi, tức là chơiC. Nếu không,chơi D.

Chiến lược Tr(C) được gọi là chiến lược giữ cò súng. Một người chơikiểu chiến lược này khởi đầu với phương án C và tiếp tục C miễn là haiNC vẫn tiếp tục C; khi có bất kỳ thay đổi nào (không chơi C nữa), NCnày chuyển sang chơi D và giữ nguyên tắc chơi D mãi. Tr(C) là chiếnlược được định nghĩa rõ, và nếu cả hai cùng chơi Tr(C), thì mỗi NCnhận được lợi ích:

∞∑t=0

50δt = 50/(1 − δ).

Liệu (Tr(C), T r(C)) có phải cũng là một cân bằng hoàn hảo trò chơicon không? Câu trả lời là đúng, nếu như δ đủ lớn. Điểm then chốt củalập luận như sau. Tại mỗi giai đoạn của trò chơi, một NC có động lựclợi ích để từ bỏ chơi C và thực hiện hành động trội tuyệt đối D, và nhờđó thu được lợi ích tức thời là 10. Tuy vậy, việc từ bỏ nguyên tắc giữ còsúng lại gây ra sự trừng phạt kéo dài từ phía NC kia: cũng chơiD mãi vềsau. Phản ứng tối ưu với sự trừng phạt này là cũng tiếp tục chơi D, tạora một khoản thiệt hại 10 kể từ lượt chơi sau trở đi. Như vậy, nếu giá trịchiết khấu của khoản thiệt hại này bằng 10δ/(1 − δ), và để giữ cho NCkhỏi phá quy luật chơi, khoản thiệt hại này cần ít nhất lớn bằng mức lợiích tức thời do việc từ bỏ quy tắc chơi. Trường hợp này xảy ra nếu vàchỉ nếu δ ≥ 1/2.

Theo cách chính thống, ta có thể phân biệt hai loại trò chơi con cóliên quan tới kết hợp chiến lược (Tr(C), T r(C)). Một loại là các trò chơicon mà ở đó không phải luôn luôn chơi (C,C) trong quá khứ. Trongtrò chơi loại này, Tr(C) nhắc nhở NC đánh D, và vì thế phản ứng tối ưucủa NC kia cũng làm tương tự, tức là chơi theo Tr(C). Như thế, trongtrò chơi con này, (Tr(C), T r(C)) là một cân bằng Nash. Trong loại tròchơi con khác, không có tình trạng từ bỏ quy tắc chơi: Luôn luôn (C, C)trong quá khứ. Xét trò chơi này tại thời điểm T và giả sử rằng NC2 chơiTr(C). Nếu NC1 chơi Tr(C), lợi ích của người này bằng:

T−1∑t=0

50δt +∞∑

t=T

50δt.

Page 104: Game theory   - Vuong Quan Hoang

90 c⃝ 2011 - Vương Quân Hoàng

Nếu tại thời điểm T , chuyển sang chơi D, thì NC1 nhận được lợi ích

T−1∑t=0

50δt + 60δT +∞∑

t=T+1

40δt.

Vì vậy, để tránh phát vỡ quy tắc (và biến Tr(C) thành phản ứng tốiưu của NC1 trong trò chơi con), ta cần có điều kiện rằng lợi ích đầu tiênkhông bé hơn thứ hai, dẫn đến bất đẳng thức:

50δT /(1 − δ) ≥ 60δT + 40δT+1/(1 − δ)

hoặc, một cách tương đương, δ ≥ 1/2. Ta kết luận rằng với mọi δ ≥ 1/2,(Tr(C), T r(C)) là một cân bằng hoàn hảo trò chơi con của trò chơiG∞

p (δ). Sự tồn tại của cân bằng này là lý do quan trọng để chúng ta phảinghiên cứu các trò chơi lặp lại vô hạn lần. Nói một cách dễ hiểu, nó chobiết rằng quá trình hợp tác có thể trở nên bền vững nếu như sự vi phạmcó thể bị trừng phạt đủ mạnh, và điều này sẽ trở thành thực tế nếu nhưtương lai là một trọng số quan trọng.

Để minh họa một điểm cân bằng hoàn hảo trò chơi con khác với(D∞, D∞) và (Tr(C), T r(C)), xét các chiến lược sau:

Tr1: chừng nào dãy (C,D), (D, C), (C,D), (D, C), (C, D), (D, C), . . .đã từng xảy ra trong quá khứ từ thời điểm 0 trở đi, chơi C tại thời điểmt ∈ {0, 2, 4, 6, . . . }; chơi D tại t ∈ {1, 3, 5, 7, . . . }. Nếu khác đi, chơi D.

Tr2: chừng nào dãy (C,D), (D, C), (C,D), (D, C), (C,D), (D, C), . . .đã từng xảy ra trong quá khứ từ thời điểm 0 trở đi, chơi D tại t ∈{0, 2, 4, 6, . . . }; chơi C tại t ∈ {1, 3, 5, 7, . . . }. Nếu khác đi, chơi D.

Ta lưu ý rằng đây là các chiến lược giữ cò súng: Các bên chơi ngầmđồng ý một dãy chơi nhất định, nhưng sẽ chuyển hướng sang chơi Dvĩnh viễn sau một hiện tượng vi phạm quy tắc. Nếu NC1 chơi Tr1 vàNC2 chơi Tr2, thì dãy (C, D), (D, C), (C, D), (D,C), . . . là kết cục. Đểhiểu vì sao (Tr1, T r2) có thể là một cân bằng hoàn hảo trò chơi con, hãylưu ý rằng tính trung bình một NC thu được lợi ích 45 từ mỗi lượt chơi,mức này lớn hơn 40 là mức thu về nếu vi phạm dãy ngầm thỏa thuậntừ đầu và chơi D vĩnh viễn. Nói một cách chính xác, giả sử NC2 chơiTr2 và giả sử NC1 tính toán việc từ bỏ nguyên tắc chơi Tr1. Phương ántối ưu là vi phạm tại một thời điểm chẵn, ví dụ t = 0. Hành vi này dẫnđến mức lợi ích trước mắt tăng thêm 10, và mức thiệt hại tương lai chiếtkhấu là 20(δ1 + δ3 + δ5 + . . . )10(δ2 + δ4 + δ6 + . . . ).

Page 105: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 91

Để giữ cho NC1 không từ bỏ nguyên tắc đã ngầm đồng thuận, thì mứcthiệt hại phải lớn ít nhất bằng mức lợi ích gia tăng 10, do đó:

20δ

1 − δ2− 10δ2

1 − δ2≥ 10.

Từ đây rút ra δ ≥ 1/2. Ta kết luận rằng với mọi δ ≥ 1/2, (Tr1, T r2)là một cân bằng hoàn hảo trò chơi con trong G∞

p (δ).Một cách tổng quát hơn, bằng việc chơi các dãy phần tử phù hợp từ

một tập các kết cục khả thi {(C,C), (C,D), (D, C), (D,D)} của trò chơigiai đoạn Gp, những người chơi có thể ở mức trung bình đạt được mộtkết hợp dạng tập lồi của các lợi ích liên quan trong dài hạn. Tức là, xétbất kỳ kết hợp nào dạng

α1(50, 50) + α2(30, 60) + α3(60, 30) + α4(40, 40),

trong đó αi ∈ R, αi ≥ 0 với mọi i = 1, . . . , 4, và∑4

i=1 αi = 1. Bằngviệc lựa chọn dãy các kết cục có thể sao cho (C,C) xuất hiện (trong dàihạn) trong một phần của α1 của các giai đoạn, (C,D) trong một phầnα2, (D, C) trong α3, và (D,D) trong α4, thì các lợi ích ở trên sẽ đạtđược như các giá trị trung bình tại giới hạn. Một khi các lợi ích trungbình giới hạn này vượt 40 với mỗi N, các chiến lược giữ cò súng tươngứng có thể được xây dựng dẫn đến các mức lợi ích này và tạo ra cáchchơi vĩnh viễn (D,D) sau một lần vi phạm, tương tự như các chiến lượcTr(C), T r1, T r2 ở trên.

Với mức δ đủ lớn, các chiến lược này hình thành nên một cân bằnghoàn hảo trò chơi con trong G∞

p (δ). Hình minh họa dưới đây (6.1) chothấy các mức lợi ích có thể đạt được theo cách này khi lấy giới hạn cácmức lợi ích trung bình tại cân bằng hoàn hảo trò chơi con của G∞

p (δ)khi δ đủ lớn. Với mọi cặp lợi ích trong vùng sẫmmàu, tồn tại một mức δđủ lớn sao cho cặp lợi ích này có thể thu được thông qua giới hạn trungbình trong dài hạn tại cân bằng hoàn hảo trò chơi con G∞

p (δ).

6.1.2 Quan sát tổng quát

Trong bài toán nghịch lý người tù, ta đã tiến hành biện luận rằng mỗiNC luôn chọn phương án D là một cân bằng hoàn hảo trò chơi con củaG∞

p (δ) với mọi 0 < δ < 1. Định đề tiếp theo đây phản ánh chính xáclô-gic này.

Page 106: Game theory   - Vuong Quan Hoang

92 c⃝ 2011 - Vương Quân Hoàng

Định đề: Gọi G là một trò chơi n-NC bất kỳ (không nhất thiết là hữuhạn lượt đi) và gọi sự kết hợp chiến lược s = (s1, . . . , si, . . . , sn) là mộtcân bằng Nash trong trò chơi G. Cho 0 < δ < 1. Vậy thì, mỗi NC i lựachọn chiến lược si tại mỗi thời điểm t là một cân bằng hoàn hảo trò chơicon trong G∞(δ).

Cụ thể, định đề này đúng với bất kỳ trò chơi ma trận cặp nào, cũngnhư bất kỳ cân bằng Nash nào (nhất là cân bằng thuần) trong trò chơima trận cặp bimatrix.

Gọi G = (A, B) là một ma trận bimatrix cấp m× n. Cho P (G) là baolồi của tập {(aij , bij) ∈ R2|i = 1, . . . ,m, j = 1, . . . , n}. Tức là,

P (G) =

m∑

i=1

n∑j=1

αij(aijbij)|m∑

i=1

n∑j=1

αij = 1,∀i, j : αij ≥ 0

.

Đối với trò chơi nghịch lý người tù Gp, P (Gp) là góc phần tư với cácđỉnh (40, 40), (30, 60), (60, 30), và (50, 50). Các phần tử (cặp lợi ích) củaP (G) có thể thu được thông qua tính giới hạn trong dài hạn của lợi íchtrung bình trong trò chơi lặp lại vô hạn lần G qua một dãy hợp lý cáclượt chơi. P (G) còn đôi lúc được gọi là không gian lợi ích hợp tác. Cácphần tử của không gian này có thể đạt được nếu những NC có thể nhấttrí lựa chọn các cặp lợi ích một cách ngẫu nhiên - tức là nhất trí trênPPXS nào đó, được gọi là chiến lược tương quan (correlated strategy)– trên các cặp lợi ích của tập {(aij , bij)}.)

Định đề tiếp theo phát biểu rằng mỗi cặp lợi ích trong P (G) vượt trộituyệt đối các cặp lợi ích gắn liền với một cân bằng Nash của G có thểthu được khi giới hạn của các lợi ích trung bình tại cân bằng trò chơicon hoàn hảo của G∞(δ) với δ đủ lớn. Định đề này được gọi tên là địnhlý dân gian.

Định lý dân gian về cân bằng hoàn hảo trò chơi con: 1 Cho(p∗,q∗) lf một cân bằng Nash của G, và cho x = (x1, x2) ∈ P (G) saocho x1 > p∗Aq∗ và x2 > p∗Bq∗. Vậy thì sẽ tồn tại một 0 < δ∗x < 1 saocho với mọi δ ≥ δ∗x, sẽ tồn tại một cân bằng hoàn hảo trò chơi con trongG∞(δ) với lợi ích trung bình giới hạn x.

1Gọi là định lý dân gian vì nó tồn tại trước khi hệ thống LTTC được quy chuẩn hóavà trở thành một nhánh nghiên cứu hoàn chỉnh.

Page 107: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 93

6.2 Cân bằng Nash

Kết cục sẽ ra sao nếu ta nới lỏng yêu cầu về phép hoàn chỉnh trò chơicon cho một cân bằng Nash trong trò chơi lặp lại vô hạn lần? Khi nghĩvề các chiến lược giữ cò súng, ta thấy những vi phạm (từ bỏ nguyên tắcchơi) có thể bị trừng phạt đủ nặng, vì điểm cân bằng không nhất thiếtphải dẫn đến một cân bằng Nash trong trò chơi con trừng phạt.

Đối với trò chơi nghịch lý người tù lặp lại vô hạn lần, không có hậuquả nào cụ thể. Trong trò chơi G∞

p (δ), mỗi NC có thể đảm bảo nhậnđược lợi ích 40 tại mỗi lượt chơi, như vậy không thể gọi là trừng phạtnặng. Dưới đây, ta xét một ví dụ khác đi.

6.2.1 Ví dụ trò chơi bimatrix khác:

Xét trò chơi ma trận cặp sau

G1 =( L R

U 1, 1 0, 0D 0, 0 −1, 4

).

TậpP (G1) làmột tam giác với các đỉnh (1, 1), (0, 0), và (−1, 4). Trongtrò chơi G1 chiến lược U là chiến lược trội tuyệt đối của NC1. Cân bằngNash duy nhất là (U,L). NC1 luôn chơi U và NC2 giữ vững nguyêntắc chơi L là một cân bằng hoàn hảo trò chơi con trong G∞

1 (δ) với mọi0 < δ < 1.

Định lý dân gian không bổ sung thêm gì vào quan sát này, vì P (G1)không chứa bất kỳ cặp lợi ích nào có trị số lớn hơn (1, 1) cho mỗi NC.Bây giờ xét các chiến lược sau trong trò chơi lặp lại vô hạn lần G∞

1 (δ):N1: Tại thời điểm t = 0, chọn D. Sau một lịch sử trong đó (D, R)

được thực hành tại các ván đánh số t = 0, 4, 8, 12, . . . và (U,L) trong cácván khác Sau bất kỳ lịch sử chơi nào khác với chiến lược hỗn hợp 4

5 , 15 ,

nghĩa là chơi U với xác suất 45 và D với xác suất 1

5 .N2: Tại t = 0 chơi R. Sau một lịch sử chơi với (D, R) tại các ván

đánh số t = 0, 4, 8, 12, . . . và (U,L) trong các lượt còn lại. Sau một lịchsử chơi khác, chơi R. Lưu ý rằng các chiến lược này là chiến lược giữcò súng. Chúng dẫn đến một dãy các lượt chơi, trong đó cứ mỗi khi trảiqua 4 lượt, thì (D, R) lại được chơi 1 lần, và (U,L) được chơi 3 lần. Saumột lần vi phạm của NC1, thì hành động hỗn hợp 4

5 , 15 và NC2 chơi R

vĩnh viễn.

Page 108: Game theory   - Vuong Quan Hoang

94 c⃝ 2011 - Vương Quân Hoàng

Như vậy, trong một trò chơi con theo sau một lần vi phạm quy tắc,NC không còn chơi ở cân bằng Nash: nếu NC2 chọn R vĩnh viễn, thìphản ứng tối ưu của NC1 là vĩnh viễn chơi U . Do đó, (N1, N2) khôngphải là cân bằng hoàn hảo trò chơi con.

Tuy nhiên, chúng ta lại nói rằng (N1, N2) là cân bằng Nash nếu nhưδ đủ lớn.

Trước tiên, quan sát rằng NC2 không bao giờ có thể thu lợi từ việc viphạm, vì nếu NC1 chơi N1 thì N2 bắt buộc NC2 phải chơi phản ứng tốiưu mọi ván chơi tại mọi thời điểm t.

Hơn nữa, sau mỗi vi phạm, NC1 chơi 45 , 1

5 tại mọi thời điểm t, nên cảL lẫn R đều có cùng lợi ích kỳ 4

5 cho NC2, bé hơn 1 và càng bé hơn 4.Giả sử NC2 chơi N2. Nếu NC1 muốn vi phạm luật chơi N1, thời điểm

tốt nhất để thực hiện là vào lúc người này được giả sử sẽ chơi D, tức làtại t = 0, 4, . . . . Giả sử NC1 chọn việc vi phạm xảy ra vào t = 0. Thế thì(U,R) diễn ra tại t = 0, đem lại lợi ích 0 cho NC1. Sau đó, NC2 chơi Rvĩnh viễn, và phản ứng tối ưu của NC1 là chơiU vĩnh viễn. Điều này dẫnđến lợi ích thu về là 0 vĩnh viễn. Nếu không vi phạm, tổng lợi ích đãchiết khấu của NC1 là:

−1(δ0 + δ4 + δ+ . . . ) + 1(δ1 + δ2 + δ3 + δ5 + δ6 + δ7 + . . . ).

Để giữ cho NC1 không vi phạm luật chơi, biểu thức trên cần có kếtquả tối thiểu bằng 0, tức là:

−11 − δ4

+[

11 − δ

− 11 − δ4

]≥ 0.

Điều này đúng khi và chỉ khi δ ≥ δ∗ ≃ 0, 54. Như vậy, với các giá trịnày của δ, (N1, N2) là cân bằng Nash trong G∞

1 (δ). Lợi ích trung bìnhgiới hạn trong cân bằng này là 3

4(1, 1) + 14(−1, 4), tức là (1

2 , 74).

Các hành vi thực hiện ở cân bằng này sau một vi phạm có bản chấtlà các hành động khiến đối thủ nhận được lợi ích maximin. Để quan sátđiều này, xét hành động của NC2 là R. Ma trận lợi ích của NC1 là:

A =( L R

U 1 0D 0 −1

).

Giá trị trò chơi A là 0 và trên thực tế (U,R) là một điểm yên ngựa..Do đó, NC1 có thể luôn đạt lợi ích tối thiểu bằng 0. Khi chơi R, chính

Page 109: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 95

là lựa chọn chiến lược tối ưu của NC2 trong A, NC2 có thể đẩy NC1 tớitrạng thái chỉ luôn nhận được giá trị 0, và đây cũng là trừng phạt nặngnhất mà NC2 có thể giáng vào lợi ích của NC1, khi người này vi phạmquy tắc chơi.

Tương tự như vậy, nếu chúng ta xét ma trận lợi ích B của NC2, ta có

−B =( L R

U −1 0D 0 −4

).

Trong trò chơi này (45 , 1

5) là một chiến lược tối ưu cho NC1, đem lạigiá trị của trò chơi bằng−4

5 . Như thế, NC2 có thể đảm bảo thu được lợiích tối thiểu 4

5 , nhưng NC1 có thể đảm bảo NC2 không bao giờ có thểnhận được hơn như thế bằng cách giữ nguyên chiến lược (4

5 , 15). Việc

giới hạn mức lợi ích này là đòn giáng nặng nhất của NC1 lên NC2, nếunhư NC2 vi phạm luật chơi.

Bằng cách sử dụng các trừng phạt trong duy trì chiến lược chơi giữcò súng này, lô-gic tương tự cho ta thấy rằng bất kỳ cặp lợi ích nào trongP (G1) mà vượt trội tuyệt đối cặp giá trị (v(A),−v(−B)) = (0, 4

5) có thểđạt được tại giới hạn trung bình của các giá trị lợi ich tại ngay cân bằngNash của trò chơi G∞

1 (δ) khi δ đủ lớn.Minh họa cho trong Hình (6.2). Với mỗi cặp lợi ích trong vùng sẫm

màu, tồn tại một mức δ đủ lớn sao cho cặp lợi ích này có thể thu đượcbằng cách lấy giới hạn trung bình dài hạn tại cân bằng Nash của trò chơiG∞

1 (δ).

6.2.2 Một định lý dân gian cho cân bằng Nash

Cho G = (A,B) là một trò chơi ma trận cặp bất kỳ, cấp m× n. Gọi v(A)là giá trị của trò chơi ma trận A, và v(−B) là giá trị của trò chơi −B.Gọi P (G) là không gian lợi ích hợp tác. Định đề dưới đây tổng quát hóanhận thức vừa nói của ta về trò chơi G1.

Định lý dân gian về cân bằng Nash: Đặt x = (x1, x2) ∈ P (G) saocho x1 > v(A) và x2 > −v(−B). Sẽ tồn tại 0 < δ∗x < 1 sao cho với mọiδ ≥ δ∗x, sẽ tồn tại cân bằng Nash trong G∞(δ) với lợi ích trung bình giớihạn x.

Page 110: Game theory   - Vuong Quan Hoang

96 c⃝ 2011 - Vương Quân Hoàng

Hình 6.1: δ và lợi ích giới hạn tại G∞p (δ)

Hình 6.2: δ và lợi ích giới hạn tại G∞p (δ)

Page 111: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 97

Page 112: Game theory   - Vuong Quan Hoang

98 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 113: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 99

Page 114: Game theory   - Vuong Quan Hoang

100 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 115: Game theory   - Vuong Quan Hoang

Chương 7

Trò Chơi Tiến Hóa - 1

Trong một trò chơi tiến hóa, NC được xem như dân số cộng đồng. Cácxác suất trong một chiến lược hỗn hợp của một NC của ma trận cặpđược hiểu như như các bộ phận cư dân. Các cá thể trong cùng một bộphận chơi các chiến lược thuần giống nhau. Ý niệm về nghiệm chủ yếulà một chiến lược ổn định theo diễn biến của sự tiến hóa.

LTTC với hành trình tiến hóa có vai trò quan trọng trong ứng dụngcác nguyên lý sinh học tiến hóa cho tới hành vi hợp lý bị chặn của conngười. Nó có vai trò quan trọng trong việc xây dựng kết nối với các hệthống động học và ý niệm LTTC như cân bằng Nash.

Phần này trình bày mô tả tổng quan về trò chơi tiến hóa. Trước tiên,ta xét các trò chơi 2-NC đối xứng và các chiến lược ổn định tiến hóa.Tính ổn định của hành trình tiến hóa có ý nghĩa nắm bắt ý tưởng sự kiệnđột biến trong sinh học. Ta sẽ lập luận rằng chiến lược ổn định tiến hóalà một phần của một cân bằng Nash. Tiếp theo, ta đề cập khái niệmreplicator dynamics, giúp nắm bắt ý tưởng tiến hóa dựa trên tính phùhợp. Cuối cùng, các trò chơi bất đối xứng sẽ được tìm hiểu sơ bộ, cùngvới việc kết nối ý tưởng replicator dynamics với cân bằng Nash.

101

Page 116: Game theory   - Vuong Quan Hoang

102 c⃝ 2011 - Vương Quân Hoàng

7.1 Trò chơi 2-NC đối xứng và chiến lược ổnđịnh tiến hóa

Một ví dụ rất kinh điển của LTTC tiến hóa là trò chơi Diều Hâu-Bồ Câu(Hawk-Dove):

( Hawk Dove

Hawk 0, 0 3, 1Dove 1, 3 2, 2

).

Trò chơi này mô phỏng tình huống sau. Các cá thể của một nhómdân cư lớn gặp nhau một cách ngẫu nhiên, thành từng đôi, và cư xử mộtcách sấn sổ (diều hâu-Hawk) hoặc thụ động (bồ câu-Dove). Cuộc chiếnliên quan tới nơi làm tổ hoặc lãnh thổ kiếmmồi. Kiểu hành vi đặc trưngđược quy định bởi gien, vì thế một cá thể nào đó không thực sự tiếnhành lựa chọn giữa 2 kiểu hành vi đặc trưng. Lợi ích thu về phản ánh sựthích nghi kiểu Darwin, ví dụ như số lượng sinh sản.

Trong bối cảnh này, NC1 và NC2 chỉ là 2 thành viên khác nhau củacùng một cộng đồng dân cư ngẫu nhiên gặp nhau. Trò chơi này có tínhchất đối xứng, và ta cần một định nghĩa chính thức về tính chất này.

Một chiến lược hỗn hợp p = (p1, p2) (của NC1 hoặc NC2) được diễngiảimột cách tựnhiên là sựbiểu thị tỷ trọng các cá thể trongdân số chungđược đặc trưng bởi cùng một loại hành vi. Nói cách khác, p1 × 100% củadân số là diều-hâu và p2 × 100% là bồ-câu.

Theo cách hiểu này, tiếp sau đây ta quan tâm cụ thể tới các cân bằngNash đối xứng, tức là các cân bằng Nashmà tại đó NC có cùngmột chiếnlược. Trò chơi Hawk–Dove có 3 cân bằng Nash, và chỉ một trong số đócó tính chất đối xứng, đó là ((1

2 , 12), (1

2 , 12)).

Định nghĩa chính thống về trò chơi đối xứng và cân bằng Nash đốixứng như sau:

Định nghĩa trò chơi đối xứng: Gọi G = (A, B) là một trò chơi matrận cặp cấp m × n. G có tính đối xứng nếu như m = n và B = AT ,trong đó AT là ký hiệu của ma trận A chuyển vị (nghĩa là, bij = aji vớimọi i, j = 1, . . . , m).

Một cân bằng Nash (p∗, q∗) của G có tính đối xứng nếu như p∗ = q∗.Dưới đây là một tính chất đã được chứng minh.

Page 117: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 103

Định đề về cân bằng Nash đối xứng: Mọi ma trận bimatrix đốixứng G đều chứa một cân bằng Nash đối xứng.

Về ý nghĩa của tính chất này, ta xét thử G = (A,B) là một trò chơiđối xứng. Điều kiện đủ là ma trận lợi íchA vìB = AT . Về sau, khi ta nóitới ma trò chơi ma trận đối xứng A, chúng ta có ý nói tới G = (A, AT ).Cho A là một ma trận m × m, ta đã nói trước đây ∆m ký hiệu tập cácchiến lược hỗn hợp (cho NC1 hoặc NC2).

Ta cũng có định nghĩa dưới đây.

Chiến lược ổn định tiến hóa: Một chiến lược x ∈ ∆m là một chiếnlược ổn định tiến hóa (ESS)1 trong A nếu với mọi chiến lược y ∈ ∆m,thì y = x, thì tồn tại ϵy ∈ (0, 1) sao cho với mọi ϵ ∈ (0, ϵy) chúng ta đềucó

xA(ϵy + (1 − ϵ)x) > yA(ϵy + (1 − ϵ)x). (7.1)

Diễn giải ESS x như sau. Xét một bước tiến hóa nhỏ ϵy + (1 − ϵ)xcủa x. Điều kiện (7.1) khi này cho biết, trước tiến hóa nhỏ, chiến lượcnguyên thủy x tốt hơn chiến lược y thay đổi. Nói cách khác, nếu nhưdân số x bị xâm lược bởi một bộ phận nhỏ cư dân đột biến y, thì x vượtqua được tình trạng vì có khả năng sinh sống tốt hơn y kết cục thay đổi.Tính ổn định tiến hóa được coi như sự biểu thị tính ổn định của mộtnhóm cư dân trước những đột biến. Ta sẽ thấy rằng, tính ổn định tiếnhóa dẫn đến các kết cục động học và LTTC.

Tiếp theo là các định đề chỉ ra rằng ESS sẽ dẫn đến một cân bằngNash đối xứng, với một tính chất đặc biệt bổ sung.

ĐịnhđềESS: ChoA làma trậnkích thướcm×mvàchox ∈ ∆m làmộtESS thuộc A. Khi này (x,x) là một cân bằng Nash trong G = (A,AT ).

Chứng minh. Gọi y ∈ ∆m, điều kiện đủ là chỉ ra rằng xAx ≥ yAx.Cho ϵy như định nghĩa trên, thì:

xA(ϵy + (1 − ϵ)x) > yA(ϵy + (1 − ϵ)x)

với mọi 0 < ϵ < ϵy. Bằng cách cho ϵ → 0, ta suy ra rằng xAx ≥ yAx.Mệnh đề vừa xong cho biết các chiến lược tiến hóa ổn định sẽ dẫn

đến các cân bằng Nash đối xứng. Như vậy, để tìm ESS điều kiện đủ làgiới hạn nỗ lực vào tìm các cân bằng Nash đối xứng. Một tính chất rấttiện lợi khác của ESS được phát biểu ở định đề dưới đây.

1Evolutionary Stable Strategy.

Page 118: Game theory   - Vuong Quan Hoang

104 c⃝ 2011 - Vương Quân Hoàng

Định đề ESS thứ 2: Với x,y như định đề vừa rồi, và y = x, ta có:

xAx = yAx ⇒ xAy > yAy (7.2)

Ngược lại, nếu C × ∆m là một cân bằng Nash trong G = (A,AT ) và(7.2) thỏa mãn, thì x là một ESS.

Chứng minh. Cho x ∈ ∆m là một ESS. y ∈ ∆m với y = x vàxAx = yAx. Giả sử rằng yAy ≥ xAy. Vậy thì, với bất kỳ ϵ ∈ [0, 1],yA(ϵy + (1 − ϵ)x) ≥ xA(ϵy + (1 − ϵ)x), mâu thuẫn với (7.1).

Ngược lại, cho (x,x) ∈ ∆m × ∆m là một cân bằng Nash trong G =(A,AT ) và điều kiện (7.2) thỏa mãn cho x. Nếu xAx > yAx, thìxA(ϵy + (1 − ϵ)x) > yA(ϵy + (1 − ϵ)x) với ϵ đủ bé. Nếu xAx = yAx,thì xAy > yAy, suy ra (7.1) thỏa mãn với mọi ϵ ∈ (0, 1].

Hai định đề vừa phát biểu cho biết rằng ESS là những chiến lược xmà (i) xuất hiện trong một cân bằng Nash đối xứng, và (ii) vận hành tốthơn hẳn căn cứ trên bất kỳ một phản ứng tối ưu khác nào của đối thủ(tức là, y).

Do vậy, các chiến lược tiến hóa ổn định cho một ma trận Am×m cóthể được tìm theo cách sau. Trước tiên, tính các cân bằng Nash đốixứng của trò chơi G = (A,B) với B = AT . Việc này tiến hành nhờ cácphương pháp ta đã xét ở Chương 2. Tiếp theo, với mỗi cân bằng (x,x),kiểm tra xem liệu điều kiện (7.2) có được thỏa mãn. Nếu có, thì x chínhlà một ESS.

Ta áp dụng phương pháp vừa nêu cho trò chơi diều hâu-bồ câu. Vớitrò chơi này, ta có kết cấu đầu bài:

A =(Hawk Dove

Hawk 0 3Dove 1 2

).

Cân bằng đối xứng duy nhất là x = (12 , 1

2). Gọi y = (y, 1 − y) là mộtchiến lược bất kỳ, vậy thì điều kiện xAx = yAx trong (7.2) luôn đượcthỏa mãn. Có thể thấy điều này nhờ tính trực tiếp, nhưng cũng có thểthông qua quan sát rằng (x,x) là một cân bằng Nash. Do đó, ta phảikiểm tra tiếp liệu

xAy > yAy

với mọi y = (y, 1 − y) = x. Bất đẳng thức này được rút gọn thành4y2 − 4y + 1 > 0, và điều này đúng với mọi y = 1

2 .Vì vậy, ta kết luận rằng: x = (1

2 , 12) là ESS trong trò chơi A.

Page 119: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 105

7.2 Động học bộ sao chép và tính ổn định tiếnhóa

Các ý niệm trung tâm của thuyết tiến hóa là đột biến và chọn lọc. Nếunhư ý tưởng đột biến được nắm bắt thông qua khái niệm tính ổn địnhtiến hóa, thì ý tưởng về chọn lọc được biểu hiện qua cái gọi là động họccủa bộ sao chép (kiểu như tự phân chia tế bào- replicator dynamics).Ta sẽ làm rõ khái niệm này từ trò chơi Hawk–Dove:

(Hawk Dove

Hawk 0, 0 3, 1Dove 1, 3 2, 2

).

Xét chiến lược hỗn hợp hoặc trong tình huống đang nghiên cứu làmột véc-tơ phân bố dân cư x = (x, 1 − x). Xét một cá thể bất kỳ củacộng đồng dân cư. Chơi Hawk với dân cư x thu về lợi ích kỳ vọng hoặcsự thích nghi

0 · x + 3 · (1 − x) = 3(1 − x),

và chơi Dovemang lại:

1 · x + 2 · (1 − x) = 2 − x.

Do đó, khả năng thích ứng bình quân (average fitness của dân số là:

x · 3(1 − x) + (1 − x) · (2 − x) = 2 − 2x2.

Tiếp theo, ta giả định rằng tỷ trọng dân số phát triển qua thời gian,tức là x là một hàm số của thời gian t, và rằng, thay đổi của x - được môtả qua đạo hàm x = x(t) = dx(t)/dt, tỷ lệ với sự khác biệt so với mứcthích ứng bình quân. Tức là, ta giả định rằng x được cho bởi phươngtrình sau:

x(t) = dx(t)/dt = x(t)[3(1 − x(t)) − (2 − 2x(t)2)]. (7.3)

Biểu thức (7.3) là động học bộ sao của trò chơi Hawk–Dove. Phươngtrình này phát biểu rằng, dân số của Hawks (diều hâu) thay đổi liên tục(biểu thị qua dx(t)/dt), và thay đổi này tỷ lệ với sự sai biệt của mức độthích ứng tại thời điểm t (đó là, 3(1 − x(t))) so với mức thích ứng trung

Page 120: Game theory   - Vuong Quan Hoang

106 c⃝ 2011 - Vương Quân Hoàng

bình của dân cư (bằng 2− 2x(t)2). Giản lược (7.3) và đơn giản hóa cáchviết x thay vì viết x(t) ta có:

x = dx/dt = x(x − 1)(2x − 1).

(Có thể vẽ diagram của dx/dt như hàm của biến x, cái này còn gọi làsơ đồ pha.)

Ta nhận thấy động học bộ sao này có 3 nghiệm khác biệt - còn gọi làcác điểm nghỉ (hoặc điểm cân bằng, điểm tới hạn, điểm dừng) - đó là:x = 0, x = 1

2 , và x = 1. Tại các giá trị x này, trị số của đạo hàm dx/dtbằng 0, nghĩa là tỷ trọng dân số không thay đổi: hệ thống động học ởđiểm nghỉ.

Trong trường hợp x = 0 tất cả thành viên của các loài đều là Dove,sự thích nghi của chúng bằng với mức thích ứng trung bình, và do đókhông có gì thay đổi. Nhưng điểm dừng này không ổn định. Một xáotrộn nhỏ, ví như đột biến gien sinh ra một Hawk, sẽ khiến cho số lượngHawk tăng lên vì dx/dt > 0. Sự tăng lên này sẽ tiếp diễn cho tới khichạm điểm dừng x = 1

2 .

Tình huống tương tự xảy ra với điểm nghỉ x = 1, trong đó dân số chỉchứa toàn Hawk. Giả sử như hệ thống tại điểm dừng x = 1

2 . Ta lưu ýsau một xáo trộn theo bất kỳ hướng nào, hệ thống sẽ trở lại trạng tháitại đó 1/2 dân số là Dove. Như vậy, trong cả 3 điểm nghỉ nhận thấy, chỉcó x = 1

2 là có tính ổn định.

Trong phần trước, ta đã có x = (12 , 1

2) là ESS duy nhất của trò chơiHawk–Dove. Ta có định đề tiếp theo được phát biểu (không chứngminh).

Định đề ESSma trận 2× 2: Cho A là một ma trận kích thước 2× 2.(1) A có ít nhất một ESS. (2) x = (x, 1− x) là một ESS của A, nếu và chỉnếu x là một điểm dừng ổn định của động học bộ sao chép (replicatordynamics).

Với cácma trận tổng quátm×m thì tập các điểm nghỉ hỗn hợp trùngvới các chiến lược Nash đối xứng hỗn hợp. Cũng tồn tại mối liên hệgiữa tính ổn định của các điểm dừng với các tính chất khác của cân bằngNash, mà ta sẽ có dịp tìm hiểu về sau.

Page 121: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 107

7.3 Trò chơi bất đối xứng

Tiếp cận kiểu tiến hóa với LTTC không nhất thiết bị giới hạn trong cáctình huống đối xứng, tức là chỉ các trò chơi ma trận dạng (A,AT ) trongđó hàng và cột biểu hiện các chiến lược trùng khớp nhau. Trong sinhhọc cũng như kinh tế học, ta tìm thấy vô vàn các tình huống bất đốixứng. Ví như hai loài cạnh tranh nhau giành lãnh thổ trong thế giới sinhhọc. Đối với kinh tế học, ta có thể lấy ví dụ sau đây từ Gardner (1995).2

Xét ma trận cặp 2 × 2:

(A,B) =( L R

T 0, 0 2, 2B 1, 5 1, 5

).

Ta tư duy về hai nhóm dân số, theo hàng (dòng) và theo cột. Trongnhóm dân cư dòng có hai đặc trưng khác biệt là T, B; và cột là đặc trưngL,R. Các cá thể của một nhóm dân số ngẫu nhiên và liên tục đối chọivới một cá thể khác của nhóm dân số kia, và ta lại quan tâm tới sự thayđổi của tỷ trọng dân cư.

Để bắt đầu, giả định rằng tỷ trọng của đặc trưng T và B theo dân cưdòng là x và 1 − x. Tỷ trọng đặc trưng L và R trong dân cư cột tươngứng là y và 1 − y.

Kỳ vọng lợi ích củamột cá thể thuộc đặc trưngT cho bởi: 0 ·y+2 ·(1−y) = 2−2y. Với cá thể đặc trưngB, kỳ vọng lợi ích là 1 ·y+1 ·(1−y) = 1.

Với cá thể có đặc trưng L lợi ích là: 0 ·x + 5 · (1−x) = 5− 5x. Và đặctrưng R: 2 · x + 5 · (1 − x) = 5 − 3x.

Trung bình của các đặc trưng hàng là: x[2(1−y)]+1 · (1−x) và độnghọc bộ sao chép của tỷ trọng dân cư x(t) của các cá thể đặc trưng T đượccho bởi:

dx/dt = x[2(1 − y) − x[2(1 − y)] − (1 − x)] = x(1 − x)(1 − 2y). (7.4)

Ở đây x là cách viết gọn của x(t) và y thay cho y(t). Tương tự, ta cũngviết ra động học bộ sao chép cho dân số cột:

dy/dt = y(1 − y)(−2x). (7.5)

Một lần nữa ta quan tâm đến các điểm nghỉ của các hệ thống động(7.4,7.5), và đặc biệt làm điểm dừng ổn định.

2Gardner, R. (1995) Games for business and economics. New York: Wiley.

Page 122: Game theory   - Vuong Quan Hoang

108 c⃝ 2011 - Vương Quân Hoàng

Ta tham khảo sơ đồ các trị số của x và y. Đường đen đậm là x, y theo(7.4). Đường nhạt là theo (7.5).

Hình 7.1: Sơ đồ pha của trò chơi tiến hóa bất đối xứng

Các giao điểm là nơi hệ thống nghỉ, tức là tập:

(0, y)|0 ≤ y ≤ 1 ∪ {(1, 0)} ∪ {(1, 1)}. (7.6)

Trong hình (7.1), các mũi tên chỉ hướng chuyển động của x, y. Chẳnghạn nếu 1 > y ≥ 1

2 và 0 < x < 1 ta có dx/dt < 0 và dy/dt < 0, vì thếtrong vùng x và y. Một điểm dừng ổn định là điểmmà nếu như hệ thốngđộng học tại đó bị xáo trộn và xuất hiện một số thay đổi nhỏ sang cácđiểm tương đối gần, thì sẽ sớm muộn chuyển động trở lại điểm dừngđó.

Theo các mũi tên trong hình minh họa, có thể hiểu rằng một điểmnghỉ ổn định là điểm mà mọi mũi tên trong vùng lân cận điểm đó đềuhướng về đó. Trong ví dụ đang xét, có thể thấy rõ điểm (1, 0) là điểmduy nhất có được các tính chất này. Do vậy, tình huống mà dân số theohàng chỉ chứa duy nhất các cá thể mang đặc trưng T (x = 1) và dân sốtheo cột chỉ chứa cá thể đặc trưng R (y = 0) là tình trạng ổn định duynhất, xét trên góc độ động học bộ sao chép.

Page 123: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 109

Vậy điều này có quan hệ gì với cân bằng Nash? Ta có thể kiểm trarằng tập các cân bằng Nash trong ví dụ này là tập:

{(T, R), (B, L)} ∪ {(B, (q, 1 − q))|12≤ q ≤ 1}.

Từ đó suy ra, điểm nghỉ ổn định (T,R) là một cân bằng Nash. Hơnnữa, điểm này có một đặc tính là cân bằng Nash chặt duy nhất của tròchơi. Một cân bằng Nash chặt trong trò chơi là cân bằng mà tại đó mỗiNC không chỉ không được thu lợi, mà trên thực tế sẽ thiệt hại nếu lệchra khỏi vị trí đó. Lấy ví dụ, nếu NC theo hàng dịch chuyển từ T của cânbằng Nash (T, R) thì anh ta sẽ nhận được lợi ích bé hơn 2. Tất cả cáccân bằng khác trong trò chơi đều không có đặc tính vừa nói. Chẳng hạn,nếu NC cột dịch từ L sang R trong cân bằng Nash (B, L), thì anh ta vẫnthu được lợi ích bằng 5.

Quan sát của ta về điểm nghỉ ổn định của động học bộ sao trùng vớicân bằng Nash chặt không phải là sự tình cờ. Định đề dưới đây phátbiểu mối liên hệ này. (Không chứng minh.)

Quan hệ điểm dừng ổn định và cân bằng Nash chặt: Trongmột trò chơi 2 × 2, một cặp chiến lược là điểm dừng (nghỉ) ổn định củahệ động học bộ sao chép nếu và chỉ nếu nó là cân bằng Nash chặt. Vớicác trò chơi kích thước lớn hơn, bất kỳ điểm dừng ổn định nào cũng làmột cân bằng Nash chặt, nhưng điều ngược lại không nhất thiết đúng.

Page 124: Game theory   - Vuong Quan Hoang

110 c⃝ 2011 - Vương Quân Hoàng

Page 125: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 111

VQH ghi chú:

Page 126: Game theory   - Vuong Quan Hoang

112 c⃝ 2011 - Vương Quân Hoàng

Page 127: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 113

VQH ghi chú:

Page 128: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

Page 129: Game theory   - Vuong Quan Hoang

Chương 8

Hợp Tác Chuyển Đổi LợiÍch

Một giả định ngầm trong trò chơi hợp tác là những người chơi có thểthành lập các liên minh và xây dựng các thỏa ước bắt buộc nhau thựchiện đối với nhiệm vụ phân chia lợi ích của các liên minh này. Trò chơihợp tác trừu tượng hơn trò chơi bất hợp tác theo nghĩa là các chiến lượckhông được xây thành các mô hình hiện. Sự khác biệt này biểu hiện ởchỗ, trò chơi mô tả mục đích mà từng liên minh (có thể) thu được nếuhợp tác với nhau.

Trong trò chơi hợp tác với lợi ích có thể chuyển nhượng, ta giả thiếtrằng lợi ích của một liên minh có thể biểu diễn qua một con số. Có thểcoi con số này là một lượng tiền, có thể phân chia giữa những NC theocách dễ hiểu (kể cả nếu đây là khoản lỗ) nếu liên minh đó thực sự tồntại và vận hành. Tổng quát hơn, đó là một đại lượng thỏa dụng nào đóvà giả định ngầm rằng có thể chuyển qua lại cho nhau lượng thỏa dụngnày giữa các NC, chẳng hạn nhờ một phương tiện trao đổi chẳng hạnnhư tiền. Chúng ta sẽ sử dụng các ví dụ và ý niệm về nghiệm như tậplõi, giá trị Shapley và hạch nhân (nucleolus) để tìm hiểu bước đầu.

8.1 Ví dụ và các ý niệm cơ bản

Chúng ta có một số ví dụ về trò chơi hợp tác với lợi ích chuyển nhượngđược như trò chơi 3 thành phố, găng tay, giao hoán, và bỏ phiếu.

115

Page 130: Game theory   - Vuong Quan Hoang

116 c⃝ 2011 - Vương Quân Hoàng

8.1.1 Bài toán xuất phát

Các bài toán trình bày dưới đây là xuất phát điểm để đưa ra các kháiniệm có ích cho việc phát triển các trò chơi hợp tác và tìm kiếm nghiệm.

Hợp tác truyền tải điện 3 thành phố muốn nối với lưới điện lâncận. Các đầu mối truyền tải có thể và chi phí tương ứng được cho trongsơ đồ dưới đây. Mỗi thành phố có thể thuê bất kỳ đầu kết nối nào. Nếucác thành phố hợp tác trong việc thuê các điểm kết nối thì họ có thể tiếtkiệm chi phí.

Hình 8.1: Sơ đồ hợp tác tải điện 3-TP

Mô hình: Người chơi trong tình huống này là 3 thành phố, ta ký hiệutập NC là N = {1, 2, 3}. Những NC này có thể tạo nên các liên minh:bất kỳ tập con S thuộc N đều được gọi là một liên minh.

Bảng 8.1: Liên minh lưới điện 3-TPS {1} {2} {3} {1, 2} {1, 3} {2, 3} {1, 2, 3}c(S) 100 140 130 150 130 150 150v(S) 0 0 0 90 100 120 220

Trong bảng liên minh (8.1) ta có thông số về chi phí và số tiền tiếtkiệm được của mỗi liên minh. c(S) có được nhờ tính toán các đường tảichi phí thấp nhất nối các thành phố trong liên minh S với nguồn điện.Phần tiết kiệm chi phí v(S) được xác định bởi

v(S) :=∑i∈S

c({i}) − c(S) với mỗi S ∈ N, S = ∅.

Page 131: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 117

Phần tiết kiệm v(S) cho liên minh S bằng phần chênh lệch chi phítương ứng với tình huống ở đó tất cả thành viên của liên minh S hoạtđộng riêng rẽ và tình huống họ hợp tác với nhau cùng hành động. Cặp(N, v) được gọi là một trò chơi hợp tác.

Để hình thành liên minh cần sự nhất trí của các thành viên, tuy vậynhiều khả năng là sự nhất trí này lại phụ thuộc vào lợi íchmà thành viênnhận được khi tham gia liên minh. Cụ thể, thường ta giả định liên minhlớn N có tất cả các thành viên được thành lập, và câu hỏi rút gọn lạitrở thành phân phối phần tiết kiệm chi phí v(N) thế nào giữa các thànhviên. Trong ví dụ ở trên, khoản tiền 220 (chính là v(N)) phân chia cho 3thành phố thế nào? Nghĩa là, ta phải tìm ra véc-tơ x = (x1, x2, x3) ∈ R3

sao cho x1 + x2 + x3 = 220, trong đó, NCi nhận được xi, i ∈ {1, 2, 3}.Một phương án có thể là chọn x1 = x2 = x3 = 220/3, nhưng cách này

không phản ánh được tính bất đối xứng của tình huống: có liên minhtiết kiệm được nhiều hơn so với liên minh khác. LTTC cung cấp một sốcác nghiệm khác nhau cho bài toán phân phối này, trong số đó có thểliệt kê là lõi, giá trị Shapley, và hạch nhân (nucleolus). “Tập lõi” chứacác phân phối lợi íchmà không thể cải thiện tốt hơn thông qua xây dựngcác liên minh có kích thước nhỏ hơn. Ở đây, điều này có nghĩa là tập lõichứa các véc-tơ (x1, x2, x3) sao cho x1 + x2 + x3 = 220, x1, x2, x3 ≥ 0,x1 + x2 ≥ 90, x1 + x3 ≥ 100, và x2 + x3 ≥ 120.

Vì thế, đây là một tập lớn và tương đối bất định. Ngược lại, giá trịShapley chứa định nghĩa về một điểm (véc-tơ) trong trường hợp này làphân phối (65, 75, 80). Hạch nhân chứa đúng một điểm, ở đây là véc-tơ(562

3 , 7623 , 862

3).

Trò chơi găng tay Giả sử có 3 NC. NC1 và NC2 mỗi người có mộtchiếc găng tay bên phải. NC3 có chiếc găng trái. Một cặp găng tay đủtrái phải có giá trị 1. 3 NC hợp tác nhau nhằm tạo ra giá trị.

Trò chơi hợp tác găng tay này được hình dung qua mô hình cho ởbảng (8.2). Lõi của trò chơi này chứa đúng một véc-tơ. Giá trị Shapleygán 2/3 cho NC3, và 1/6 cho cả NC1 lẫn NC2. Hạch nhân là phần tử duynhất của lõi.

Trò chơi hoán vị NC1, 2, 3 có lịch hẹn với bác sỹ lần lượt vào thứ 2,3 và 4. Lịch hẹn này không hẳn là phù hợp nhất với mỗi NC, do nhiềuyếu tố khác nhau. Sở nguyện củamỗi NC được cho trong bảng (8.3) (giá

Page 132: Game theory   - Vuong Quan Hoang

118 c⃝ 2011 - Vương Quân Hoàng

trị gán bằng số).Tình huống này làm nảy sinh trò chơi trong đó các liên minh được

xây dựng để tạo ra giá trị bằng cách hoán đổi lịch hẹn cho nhau. Chẳnghạn NC1 và NC2 có thể đổi cho nhau lịch hẹn để tạo ra giá trị 14 thay vì7. Trò chơi được trình bày trong bảng đầy đủ (8.4).

Lõi của trò chơi này là một bao lồi của các véc-tơ (15, 5, 4), (14, 6, 4),(8, 6, 10), và (9, 5, 10). Giá trị Shapley là véc-tơ (91

2 , 612 , 8) và hạch nhân

là véc-tơ (1112 , 51

2 , 7).

Trò chơi bỏ phiếu: Hội đồng Bảo an LHQ gồm có 5 thành viênthường trực (Mỹ, Nga, Anh, Pháp và Trung Quốc), và 10 thành viênkhông thường trực khác. Mỗi chuyển động nghị quyết cần được phêchuẩn bởi 9 thành viên, bao gồm bắt buộc cả 5 thành viên thường trực.Đây là tình huống dẫn đến trò chơi 15-NC, gọi là trò chơi bỏ phiếu (N, v)với v(S) = 1 nếu như liên minh S chứa 5 thành viên thường trực và ítnhất 4 không thường trực, và v(S) = 0 với các tình huống khác. Các liênminh với giá trị bằng 1 gọi là thắng cuộc, và các liên minh khác thua.Đây là một dạng trò chơi sẽ cần được nghiên cứu sau.

Định nghĩa: Một trò chơi hợp tác có thể chuyển nhượng lợi ích (viếttắt TU-game) là một cặp (N, v), trong đó N = {1, 2, . . . , n} với n ∈ Nlà tập người chơi, và v là hàm gán cho mỗi liên minh S, tức là mỗi tậpcon S ∈ N một số thực v(S), sao cho v(∅) = 0. Hàm v được gọi là hàmđặc trưng và v(S) được gọi là giá trị của S. Liên minh N được gọi là liênminh lớn. Một phân phối lợi ích cho liên minh S là một véc-tơ các sốthực (xi)i∈S .

8.2 Tập lõi

Xét trò chơi 3 thành phố. Giả sử liên minh lớn hoạt động và có mộtđề xuất x1 = 40, x2 = 40, và x3 = 140 phân phối phần tiết kiệm

Bảng 8.2: Giá trị trò chơi găng tayS {1} {2} {3} {1, 2} {1, 3} {2, 3} {1, 2, 3}v(S) 0 0 0 0 1 1 1

Page 133: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 119

v(N) = 220 trên bàn đàm phán. Tưởng tượng người đề xuất là NC3.Trong trường hợp này, NC1,2 có thể phản đối thành công vì họ có thểtiết kiệm v({1, 2}) = 90 > 80 = x1 + x2 mà không cần có NC3. Khinày ta nói rằng x = (x1, x2, x3) không thuộc lõi của trò chơi này. Tổngquát hơn, tập lõi của trò chơi 3-TP là tập hợp các phân phối lợi ích choN = {1, 2, 3} sao cho tổng của các lợi ích bằng v(N) = 220 và mỗi liênminh S không rỗng thu được lợi ích thấp nhất cũng bằng giá trị tự thâncủa liên minh. Đó là tập:

C = {(x1, x2, x3) ∈ R3 | x1, x2, x3 ≥ 0x1 + x2 ≥ 90, x1 + x3 ≥ 100, x2 + x3 ≥ 120x1 + x2 + x3 = 220}.

Để hình dung rõ hơn khái niệm tập lõi, ta xem hình (8.2). Dù rằngC là tập con của R3, ràng buộc x1 + x2 + x3 = 220 khiến cho C nằmtrong tập con 2-chiều của R3, tức là mặt phẳng qua các điểm (220, 0, 0),(0, 220, 0), và (0, 0, 220). Tam giác tạo thành bởi 3 điểm này có thể thấytrong hình. C là tập con của tam giác này vì xi ≥ 0 với mọi i = 1, 2, 3,rút ra từ điều kiện xi ≥ v({i}) với i = 1, 2, 3. Tập lõi C là phần tô sẫm,chặn bởi các ràng buộc của các liên minh 2-NC.

Như vậy, theo hình (8.2) tập lõi của trò chơi 3-TP là đa giác với cácđỉnh (100, 120, 0), (0, 120, 100), (0, 90, 130), (90, 0, 130), và (100, 0, 120).Sau đây là khái niệm chính thống về tập lõi và một số khái niệm liênquan.

Để tiện lợi ta dùng ký hiệu x(S) :=∑

i∈S xi chomột phân phối lợi íchx = (x1, . . . , xn) ∈ Rn vàmột liênminh không rỗngS ⊆ N = {1, . . . , n}.

Định nghĩa tập lõi: Với trò chơi TU-game (N, v), một phân phốix = (x1, . . . , xn) ∈ Rn có tính chất:

Bảng 8.3: Giá trị theo sở nguyện NCT2 T3 T4

NC1 2 4 8NC2 10 5 2NC3 10 6 4

Page 134: Game theory   - Vuong Quan Hoang

120 c⃝ 2011 - Vương Quân Hoàng

Bảng 8.4: Mô hình hoán vị lịch hẹnS {1} {2} {3} {1, 2} {1, 3} {2, 3} {1, 2, 3}v(S) 2 5 4 14 18 9 24

Hình 8.2: Tập C trò chơi 3-TP

Page 135: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 121

i Hiệu quả nếu x(N) = v(N)

ii Hợp lý trên phương diện cá thể nếu xi ≥ v({i}) với mọi i ∈ N

iii Hợp lý trên phương diện liên minh nếu x(S) ≥ v(S) với mọi liênminh không rỗng S.

Tập lõi của trò chơi (N, v) là tập:

C(N, v) = {x ∈ Rn|x(N) = v(N) và x(S) ≥ v(S) ∀∅ = S ⊆ N}.

Vì thế, tập lõi của (N, v) là tập tất cả các phân phối lợi ích hợp lý trênphương diện liên minh và có hiệu quả. Tập lõi của một trò chơi có thểlà tập lớn, hay nhỏ, hoặc có thể là tập rỗng. Xét tổng quan, các phầntử của tập lõi có thể tính được nhờ các phương pháp quy hoạch tuyếntính. Với các trò chơi 2-NC, 3-NC, tập lõi có thể tính được thuận lợi nhờphương pháp đồ thị.

8.3 Giá trị Shapley

Giá trị Shapley là một ý niệm về nghiệm của trò chơi dạng TU-game,khá khác biệt so với ý niệm tập lõi. Nếu như tập lõi là một tập (có thểtập rỗng), thì giá trị Shapley gán một phân phối lợi ích duy nhất choliên minh lớn đối với từng trò chơi TU-game. Giá trị Shapley không căncứ quá nhiều vào các lựa chọn chiến lược mà gán cho mỗi NC một mứcđóng góp biên trung bình (marginal contribution) trong trò chơi mà NCđó tham gia.

Xét trò chơi 3-Tp. Ta hình dungmột cấu trúc trong đó những NC lầnlượt vào một phòng đàm phán, và ngay khi bước vào mỗi NC yêu cầu vànhận được phần đóng góp biên. Giả sử NC1 vào trước, rồi NC2 sau, vàNC3 cuối cùng. NC1 vào một phòng trống và có thể nhận mức đóng gópbiên v({1}) − v(∅) = 0 − 0 = 0.

Khi NC2 bước vào, NC1 đã có mặt, và NC2 nhận mức đóng góp biêncủa mình v({1, 2}) − v({1}) = 90 − 0 = 90.

Cuối cùng, NC3 tiến vào, thì liên minh {1, 2} đã có mặt. Do đó, NC3nhận phần đóng góp biên v({1, 2, 3}) − v({1, 2}) = 220 − 90 = 130.

Thủ tục như trên sinh ra phân phối lợi ích (0, 90, 130), được gọi làmột véc-tơ biên. Bản thân phân phối này dường như không được côngbằng vì nó phụ thuộc vào thứ tự tiến vào phòng đàm phán, và thứ tự này

Page 136: Game theory   - Vuong Quan Hoang

122 c⃝ 2011 - Vương Quân Hoàng

khá tùy tiện. Trên thực tế, còn 5 phương án tiến vào phòng khác nữa.Giá trị Shapley xem xét các véc-tơ biên của cả 6 phương án bước vàophòng, và gán cho trò chơi TU-gamemột giá trị trung bình. Trong bảngkết quả (8.5), ta tính giá trị Shapley cho trò chơi 3-TP. Giá trị Shapleylà các tổng đóng góp biên chia cho 6.

Bảng 8.5: Giá trị Shapley cho TU-game 3-TPThứ tự 1 2 31,2,3 0 90 1301,3,2 0 120 1002,1,3 90 0 1302,3,1 100 0 1203,1,2 100 120 03,2,1 100 120 0Tổng 390 450 480Shapley 65 75 80

Với một TU-game bất kỳ (N, v) với tập NC N = {1, . . . , n}, giá trịShapley có thể tính theo cách tương tự, trước tiên bằng việc tính cácvéc-tơ biên tương ứng với n! thứ tự khác nhau của NC, và sau đó tínhgiá trị trung bình, tức là cộng tất cả các véc-tơ đó rồi chia tổng cho n!.Nếu số NC lớn quá, thì công việc này rất nặng nhọc.1

Tuy vậy, có cách khác để tính đóng góp biên của một NC hiệu quảhơn. Ví dụ, cho (N, v) là trò chơi TU-game có 10-NC. Xét NC thứ 7và liên minh {3, 5, 9}. Đóng góp biên v({3, 5, 9, 7}) − v({3, 5, 9}) cộngdồn cho NC7 xuất hiện trên nhiều hơn 1 véc-tơ biên. Vậy nó nằm ởbao nhiêu véc-tơ biên? Để tính ra, lưu ý rằng trước tiên NC3, NC5 vàNC9 cần bước vào, và có thể xảy ra 3! thứ tự xuất hiện. Rồi NC7 mớibước vào. Cuối cùng, 6 NC khác bước vào, và có thể có 6! trình tự khácnhau. Vì thế, tổng số các véc-tơ biên trong đó NC7 nhận đóng góp biênv({3, 5, 9, 7}) − v({3, 5, 9}) là 3! × 6!.

Ta lặp lại lập luận này cho một TU-game (N, v) bất kỳ, một NC bấtkỳ i ∈ N , và một liên minh S bất kỳ không chứa NCi. Theo cùnglập luận, tổng số các véc-tơ biên trong đó NCi nhận được đóng góp

1Trong trò chơi Hội Đồng Bảo An LHQ, công việc này tương đương với 15! tức làhơn 1.300 tỷ véc-tơ biên.

Page 137: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 123

biên (S ∪ {i}) − v(S) bằng số các thứ tự khác nhau trong đó những NCthuộc liên minh S có thể bước vào trước, |S|!, nhân với số các trìnhtự xuất hiện khác nhau trong đó những NC không thuộc S ∪ {i} cóthể bước vào sau NCi, tức là (n − |S| − 1)!. Như vậy, đóng góp tổngmà NCi nhận được khi bước vào phòng đàm phán sau liên minh S là|S|!(n − |S| − 1)![v(S ∪ {i}) − v(S)]. Giá trị Shapley cho NCi được tínhbằng tổng trên tất cả liên minh S không chứa NCi, và chia cho n!. Vàđây chính là định nghĩa của giá trị Shapley.

Giá trị Shapley: Giá trị Shapley của TU-game (N, v) được ký hiệu làΦ(N, v). Tọa độ thứ i, nghĩa là lợi ích giá trị Shapley cho NCi ∈ N , đượctính bởi:

Φ(N, v) =∑

S⊆N :i∈S

|S|!(n|S|1)!n!

[v(S ∪ {i}) − v(S)].

Giá trị Shapley của trò chơi 3-TP là một phần tử của tập lõi của tròchơi đó. Tuy nhiên, đây không phải là một quy luật, kể cả khi tập lõikhông rỗng.

8.4 Hạch nhân - nucleolus

Ta gọi một TU-game (N, v) là căn bản nếu v(N) ≥∑

i∈N v({i}). Nhưvậy, một trò chơi căn bản có các phân phối lợi ích cho liên minh lớnvừa có tính hiệu quả, và có tính hợp lý trên phương diện liên minh. Cácphân phối lợi ích như thế được gọi là giá trị quy kết (imputation). Tập

I(N, v) = {x ∈ RN |x(N) = v(N), xi ≥ v({i}) ∀i ∈ N}

được gọi là tập giá trị quy kết của trò chơi (N, v). Như vậy (N, v) là tròchơi căn bản nếu và chỉ nếu I(N, v) = ∅.

Cho (N, v) là trò chơi TU-game căn bản, cho x ∈ I(N, v), và S là mộtliên minh không rỗng, S = N . Độ dư (excess) của S tại x, ký hiệu làe(S,x), được định nghĩa bởi:

e(S,x) = v(S) − x(S).

Độ dư này có thể được xem như số đo về mức độ không thỏamãn củaliên minh S với giá trị quy kết x: e(S,x) càng lớn, liên minh nhận được

Page 138: Game theory   - Vuong Quan Hoang

124 c⃝ 2011 - Vương Quân Hoàng

tại x càng bé đi một cách tương đối so với giá trị v(S). Cụ thể, nếu độdư này là số dương, thì S nhận được giá trị thấp hơn giá trị tự thân.

Phát biểu bằng lời thì hạch nhân (nucleolus) của một trò chơi TU-game căn bản (N, v) được định nghĩa như sau.

Trước hết, vớimọi giá trị quy kếtx tính tất cả các độ dư. Sau đó, chọnra những phân phối giá trị quy kết có độ dư tối đa là nhỏ nhất. Nếu điềunày xảy ra với trường hợp tại một phân phối giá trị quy kết duy nhất, thìgiá trị đó là hạch nhân của trò chơi. Nếu không, thì xét các độ dư lớnthứ nhì của các imputation đã chọn lọc và tiếp tục chọn lựa bằng cáchlấy những imputation sao cho với chúng những độ dư lớn thứ hai là nhỏnhất.

Nếu điều này xảy ra với giá trị quy kết duy nất, thì đó chính là hạchnhân (nucleolus). Nếu không, tiếp tục với các độ dư lớn thứ 3 cho tớikhi tìm được giá trị quy kết duy nhất, và đây chính là hạch nhân.

Ý tưởng sâu xa của nucleolus là làm sao để mức độ không hài lòngcàng thấp càng tốt. Ta sử dụng minh họa từ trò chơi 3-TP tóm tắt trongbảng (8.6). Dòng thứ 3 của bảng này cung cấp giá trị độ dư tại phânphối giá trị quy kết (70, 70, 80).

Lựa chọn giá trị quy kết cụ thể này là ngẫu nhiên: Chúng ta sử dụngnó là điểm xuất phát để tìm hạch nhân của trò chơi. Độ dư lớn nhấttại phân phối quy kết này là −30, tức là liên minh {2, 3}. Rõ ràng ta cóthể giảm nữa độ dư này bằng cách tăng cho NC2, NC3 và giảm bớt NC1.Làm như thế suy ra rằng độ dư của {1, 2} hoặc {1, 3} hoặc của cả 2 liênminh này đều sẽ tăng lên. Xét giá trị quy ước (562

3 , 7623 , 862

3). Tại phânphối quy ước này, các độ dư của 3 liên minh 2-NC bằng nhau. Và đâycũng là các độ dư lớn nhất.

Bảng 8.6: Phép thử hạch nhân trò chơi 3-TP

S {1} {2} {3} 1, 2 {1, 3} {2, 3} {1, 2, 3}v(S) 0 0 0 90 100 120 220e(S, (70, 70, 80)) -70 -70 -80 -50 -50 -30e(S, (562

3 , 7623 , 862

3)) −5623 −762

3 −8623 −431

3 −4313 −431

3

Trước tiên quan sát rằng các độ dư tối đa là nhỏ nhất. Đó là vfi tổngcác độ dư của 3 liên minh 2-NC tại bất kỳ phân phối giá trị quy kết nào

Page 139: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 125

đều phải bằng nhau, tức là bằng -130:

e({1, 2},x) + e({1, 3},x) + e({2, 3},x) = v({1, 2}) + v({1, 3}) + v({2, 3})−2(x1 + x2 + x3)

= 310 − 2 · 220= −130.

Từ đây suy ra rằng không thể giảm bất kỳ độ dư nào mà lại khôngphải tăng một độ dư khác. Thứ hai, phân phối giá trị quy kết mà tại đócác độ dư này bằng nhau là duy nhất, vì hệ thống dưới đây:

90 − x1 − x2 = 100 − x1 − x3

100x1x3 = 120x2x3

x1 + x2 + x3 = 220x1, x2, x3 ≥ 0

chỉ có 1 nghiệm duy nhất, chính là (5623 , 762

3 , 8623). Do đó, phân phối

quy kết này bắt buộc phải là hạch nhân của trò chơi 3-TP.Ví dụ này dường như gợi ý rằng, ít nhất với trò chơi TU-game 3-NC,

tìm hạch nhân không quá phức tạp, bằng cách đặt độ dư của 3 liênminh2-NC bằng nhau. Tuy nhiên, điều nay không chính xác. Cách này chỉlàm được nếu như giá trị tự thân của các liên minh 2-NC lớn tương đốiso với giá trị của liên minh 1-NC, còn nói chung không giúp tìm ra hạchnhân trong trường hợp khác đi.

Xét trò chơi TU-game 3-NC trong bảng (8.7), giống như trò chơi lúctrước, chỉ khác ở điểm bây giờ v({1} = 20.

Dòng thứ 3 cho biết các độ dư tại (5623 , 762

3 , 8623) trong trò chơi này

(véc-tơ này vẫn là một phân phối giá trị quy kết). Độ dư tối đa bây giờ là−362

3 đối với liên minh 1-NC {1}. Rõ ràng, phân phối quy kết ban đầukhông còn là hạch nhân: Độ dư của {1} có thể giảm đi bằng cách chuyểnlợi ích cho NC1 nhiều hơn và lấy bớt đi của NC2 và/hoặc NC3. Giả sử tađặt độ dư của {1} và {2, 3}, giải phương trình 20 − x1 = 120 − x2 − x3.Cùng với phương trình x1 +x2 +x3 = 220 ta có x1 = 60 và x2 +x3 = 160.Thử phân phối quy kết (60, 75, 85), bằng cách lấy bớt đi lợi ích bằng nhaucủa cả NC2, NC3, cho ta các độ dự ở dòng thứ 4 của bảng. Ta kết luậnrằng (60, 75, 85) là hạch nhân của trò chơi TU-game này.

Page 140: Game theory   - Vuong Quan Hoang

126 c⃝ 2011 - Vương Quân Hoàng

Độ dư tối đa là−40 với cả liênminh {1} và {2, 3}, và độ dư này khôngthể giảm được nữa: Giảm độ dư của 1 trong 2 liênminh này dẫn tới tăngđộ dư của liên minh còn lại. Do đó, x1 buộc phải bằng 60 trong phânhạch. Độ dư lớn thứ hai là −45, đạt được bởi các liên minh {1, 2} và{1, 3}. Vì x1 đã được cố định tại giá trị 60, một mức giảm độ dư của 1trong 2 liên minh này dẫn đến tăng độ dư của liên minh còn lại. Vì thếx2 và x3 cũng được ấn định trị số lần lượt là 75 và 85.

Hai ví dụ trên cho thấy rằng tính toán hạch nhân không hề đơn giảnnhư thoạt nghĩ. Nhìn chung, có thể tính được thông qua việc giải mộtloạt các hệ tuyến tính. Lô-gic vừa áp dụng ở trên nhằm chứngminh rằngmột phân phối quy kết nào đó là một hạch nhân thực ra đã sử dụng mộttính chất tổng quát của hạch nhân, được gọi là tiêu chuẩn Kohlberg.2

Mặc dù không hề dễ tính toán, nhưng hạch nhân là một nghiệm rấthấp dẫn trong quá trình giải trò chơi. Nó gán một phân phối quy kếtduy nhất cho từng trò chơi căn bản, và hơn nữa, nếu trò chơi đó có tậplõi không rỗng, hạch nhân gán cho nó một phần tử lõi.

2Nghiên cứu kỹ hơn về xác định hạch nhân sẽ cần một phần xử lý riêng.

Bảng 8.7: Phép thử hạch nhân trò chơi 3-TP (b)

S {1} {2} {3} 1, 2 {1, 3} {2, 3} {1, 2, 3}v(S) 20 0 0 90 100 120 220e(S, (562

3 , 7623 , 862

3)) −3623 −762

3 −8623 −431

3 −4313 −431

3e(S, (60, 75, 85)) -40 -75 -85 -45 -45 -40

Page 141: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 127

Page 142: Game theory   - Vuong Quan Hoang

128 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 143: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 129

Page 144: Game theory   - Vuong Quan Hoang

130 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 145: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 131

Page 146: Game theory   - Vuong Quan Hoang

132 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 147: Game theory   - Vuong Quan Hoang

Chương 9

Mô Hình Hợp Tác

Trong phần này, ta xem xét một số mô hình LTTC hợp tác.

9.1 Các dạng bài toán mặc cả

9.1.1 Nghiệm Nash cho bài toán mặc cả

Định nghĩa bài toán mặc cả 2-NC: Một bài toán mặc cả 2-NC làmột cặp (S,d), trong đó: (1) S ⊆ R2 là một tập lồi, đóng và bị chặn.(2) d = (d1, d2) ∈ S sao cho tồn tại điểm x = (x1, x2) ∈ S với x1 > d1

vàx2 > d2.S là tập khả thi và d là điểm bất đồng ý kiến.Cách hiểu bài toán mặc cả (S, d) như sau. 2 NC mặc cả trên các kết

cục khả thi của S. Nếu họ đạt được một thỏa thuận x = (x1, x2) ∈ S,thì NC1 thu về mức thỏa dụng x1 và NC2 nhận được x2. Nếu họ khôngthể thỏa thuận, thì trò chơi kết thúc tại điểm bất đồng ý kiến d, manglại thỏa dụng d1 cho NC1 và d2 cho NC2.

Ví dụ bài toán phân chia: 2 NC phải thỏa thuận phân chia mộtmón hàng (ví dụ một thỏi vàng). Nếu đạt thỏa thuận, ví dụ (α, β) trongđó α, β ≥ 0 và α+β ≤ 1, thì họ sẽ phân chia món hàng theo thỏa thuận;ngược lại, không ai nhận được gì cả. Mức độ ưa thích món hàng này củamỗi NC được đặc trưng bằng hàm thỏa dụng.

Giả sử NC1 có hàm thỏa dụng u1(α) = α và NC2 là hàm u2(α) =√

α.Như vậy, một phân phối (α, 1 − α) của món hàng dẫn tới một cặp mức

133

Page 148: Game theory   - Vuong Quan Hoang

134 c⃝ 2011 - Vương Quân Hoàng

thỏa dụng tương ứng (u1(α), u2(1 − α)) = (α,√

1 − α). Cho α chạy từ0 đến 1, ta thu được tất cả các cặp thỏa dụng tương ứng với tất cả cácphân phối khả dĩ có thể tồn tại, như trong hình (9.1). John Nash đưa rahướng giải bài toán mặc cả này: Tối đa hóa tích của các mức thỏa dụngcủa người chơi trên vùng sẫm trên hình. Vì mức tối đa này sẽ đạt đượctrên đường bao quanh, bài toán tương đương với

max0≤α≤1

α√

1 − α.

Cực đại đạt được khi α = 23 . Vì vậy, nghiệm của bài toán là mức thỏa

dụng (23 , 1

3

√3), chính là điểm z trong đồ thị (9.1).

Hình 9.1: Bài toán mặc cả: phân chia

Suy ra, NC1 nhận 23 và NC2 1

3 của món hàng. Trong ví dụ vừa rồi, tậpkhả thi và điểm bất đồng ý kiến được cho bởi:

S = {x ∈ R2|0 ≤ x1, x2 ≤ 1, x2 ≤√

1 − x1}, d1 = d2 = 0.

Nhìn chung, một bài toán mặc cả sẽ có dạng như trong Hình (9.2). Tậphợp tất cả các bài toán mặc cả dạng này được ký hiệu là B. Nash đặtvấn đề như sau: với bất kỳ bài toán mặc cả (S,d), thỏa hiệp thế nào là

Page 149: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 135

hợp lý? Câu trả lời là nhiệm vụ xác định một ánh xạ F : B → R2. Ánhxạ này gán một điểm khả thi cho mỗi bài toán mặc cả, tức là thỏa mãnF (S,d) ∈ S với mọi (S,d) ∈ B. Ánh xạ này được gọi là một nghiệm bàitoán mặc cả (2-NC).1

Hình 9.2: Bài toán mặc cả 2-NC

Theo Nash, nghiệm mặc cả cần thỏa mãn 4 điều kiện là : Tối ưuPareto, đối xứng, hiệp biến kích thước, và độc lập với các phương ánthay thế không phù hợp. Hình (9.3) minh họa các điều kiện này về mặthình học.

Với bài toánmặc cả (S,d) ∈ B, các điểm tối ưu Pareto củaS là nhữngđiểm mà tại đó mức thỏa dụng của bất kỳ NC nào cũng không thể tăngthêm đượcmà lại không làm giảm độ thỏa dụng của người chơi kia. Nếubiểu diễn toán học thì:

P (S) = {x ∈ S|∀y ∈ S với y1 ≥ x1, y2 ≥ x2, ta có y = x}

là tập con tối ưu Pareto của S. Nghiệm mặc cả F có tính chất Pareto-optimal nếu F (S,d) ∈ P (S) với mọi (S,d) ∈ B. Do đó, một nghiệmmặc cả tối ưu Pareto sẽ gán một điểm tối ưu Pareto cho từng bài toánmặc cả. (Hình 9.3:a).

Bài toán (S,d) ∈ B có tính đối xứng nếu d1 = d2 và nếu S đối xứngqua đường 45◦ đi qua d, tức là nếu:

S = {(x2, x1) ∈ R2|(x1, x2) ∈ S}.

Trong bài toán đối xứng, không có cách nào phân biệt giữa những NCngoài cách lựa chọn trục đồ thị một cách ngẫu nhiên. Nghiệm mặc cả

1Nash, JF (1950) “The bargaining problem.” Econometrica, 18:155–162.

Page 150: Game theory   - Vuong Quan Hoang

136 c⃝ 2011 - Vương Quân Hoàng

đối xứng nếu F1(S,d) = F2(S,d) với từng bài toán (S,d) ∈ B. Do vậy,nghiệmmặc cả đối xứng gán cùngmức thỏa dụng cho từng NC trong bàitoán mặc cả đối xứng; hình (b).

Hình 9.3: 4 điều kiện Nash về nghiệm mặc cả

Với bài toán đối xứng (S, d), tính tối ưu Pareto và tính đối xứng sẽhoàn toàn xác định điểm nghiệm F (S,d), vì chỉ có một điểm tối ưuPareto đối xứng duy nhất trong S.

Điều kiện hiệp biến kích thước phát biểu rằng, một nghiệm mặccả không phụ thuộc vào việc lựa chọn gốc xuất phát hoặc các nhân tửcủa hàm thỏa dụng. Chẳng hạn, với ví dụ chia món hàng ở trên, sẽkhông thành vấn đề cho dù hàm thỏa dụng là u1(α) = a1α + b1 vàu2(α) = a2

√α + b2, trong đó a1, a2, b1, b2 ∈ R với a1, a2 > 0. Điều này

có nghĩa là kết cục cuối cùng của bài toán mặc cả không phụ thuộc vàocác hàm này. Ta có thể nghĩ tới u1, u2 biểu thị cùng mức độ ưa thíchvới món hàng vì u1, u2 có đơn vị khác nhau. Một nghiệm mặc cả F cótính hiệp biến kích thước với mọi (S,d) ∈ B và mọi a1, a2, b1, b2 ∈ R vớia1, a2 > 0 ta có:

F ({(a1x1 + b1, a2x2 + b2) ∈ R2 | (x1, x2) ∈ S}, (a1d1 + b1, a2d2 + b2))= (a1F1(S,d) + b1, a2F2(S,d) + b2).

Page 151: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 137

Điều kiện cuối cùng được coi là gây tranh cãi. Xét bài toán mặc cảS,d) với kết cục nghiệm z = F (S,d) ∈ S. Theo một nghĩa, z có thể coinhư thỏa hiệp tối ưu trong S theo F . Xét bài toánmặc cả nhỏ hơn (T,d)với T ⊆ S và z ∈ T . Do z là thỏa hiệp tối ưu trong S, nó cũng chắc chắnlà thỏa hiệp tối ưu trong T : z có mặt trong T và mọi điểm thuộc T cũngthuộc S. Do đó, ta kết luận rằng F (T,d) = z = F (S,d). Giả sử nhưbài toán chia món hàng 50:50, với mức thỏa dụng (1/2,

√1/2). Giả sử

không NC nào muốn dùng món hàng đó hơn 3/4, thì tập khả thi lúc nàylà:

T = {x ∈ R2|0 ≤ x1 ≤ 3/4, 0 ≤ x2 ≤√

3/4, x2 ≤√

1 − x1}.

Theo lô-gic trên, vẫn chia món hàng 50:50, T ⊆ S và (1/2,√

1/2) ∈ T .Phương án này trông hợp lý, tuy vậy không khó để sửa đầu bài đi mộtchút khiến cho lập luận trên trở nên khó thống nhất (gây tranh cãi).Chẳng hạn có thể giả định NC1 muốn sử dụng món hàng càng nhiềucàng tốt, nhưng NC2 không có nhu cầu nhiều hơn 1/2 món hàng đó.Tập khả thi trở thành:

T ′ = {x ∈ R2|0 ≤ x1 ≤ 1, 0 ≤ x2 ≤√

1/2, x2 ≤√

1 − x1},

và chúng ta vẫn chia món hàng tỷ lệ 50:50. Như vậy, NC2 sẽ đạt đượcmức thỏa dụng khả khi tối đa: (1/2,

√1/2) dường như không còn là thỏa

hiệp hợp lý vì chỉ có NC1 phải nhượng bộ về tỷ lệ phân chia.Về mặt biểu diễn chính thống, nghiệm mặc cả F độc lập với các

phương án không thích hợp nếu với mọi (S,d), (T,d) ∈ B với T ⊆ S vàF (S,d) ∈ T , ta có F (T,d) = F (S,d). (Hình (d)).

J. Nash đã chứng minh được rằng 4 điều kiện này xác định mộtnghiệm mặc cả duy nhất FNash, được định nghĩa như sau. Với (S,d) ∈B, FNash(S,d) bằng với điểm duy nhất z ∈ S với zi ≥ di với i = 1, 2 vàsao cho:

(z1 − d1)(z2 − d2) ≥ (x1 − d1)(x2 − d2) ∀x ∈ S; xi ≥ di, i = 1, 2.

Nghiệm FNash được gọi là nghiệm mặc cả Nash.

Nghiệmmặc cả Nash: FNash là nghiệm duy nhất của bài toán mặccả, có tính chất tối ưu Pareto, đối xứng, hiệp biến kích thước và độc lậpvới các phương án không thích hợp.

Page 152: Game theory   - Vuong Quan Hoang

138 c⃝ 2011 - Vương Quân Hoàng

Cả bài toánmặc cả 2-NC và TU-game đã xét ở chương trước đều là cáctrường hợp đặc biệt của mô hình tổng quát các trò chơi hợp tác khôngchuyển nhượng lợi ích, thường viết tắt là NTU-game. Trong một tròchơi NTU-game, một tập các véc-tơ thỏa dụng khả thi V (T ) được gáncho từng liên minh T . Với trò chơi TU-game (N, v) và một liên minh T ,tập này có dạng đặc biệt V (T ) = {x ∈ Rn|

∑i∈T xi ≤ v(T )}, tức là một

liên minh T có thể đạt được bất kỳ véc-tơ các mức thỏa dụng sao chotổngmức thỏa dụng cho tất cảNC trongT không vượt quá giá trị của liênminh. Trong trò chơi mặc cả 2-NC (S,d), ta có thể cho V ({1, 2}) = S vàV ({i}) = {α ∈ R|α ≤ di} với i = 1, 2.

9.2 Nền kinh tế trao đổi

Trong một nền kinh tế có trao đổi thương mại với n chủ thể (có thể coinhư NC) và k hàng hóa, mỗi chủ thể ban đầu có sẵn một số lượng hànghóa nhất định (endowment). Mỗi chủ thể có mức sở thích khác nhauvới các nhóm hàng hóa, biểu diễn qua một hàm thỏa dụng tương ứng.Thông qua trao đổi hàng hóa với nhau, về cơ bản có thể tăng mức thỏadụng của tất cả các chủ thể của nền kinh tế. Một trong những cách thựchiện là đưa vào mô hình trao đổi này yếu tố giá. Với các mức giá chotrước, lượng hàng hóa có sẵn của các chủ thể đại diện chomức thu nhậpcủa họ, nhờ có thu nhập này họ có thể chi tiêu để mua các loại hàngkhác, nhằm tối đa hóa mức thỏa dụng của từng chủ thể. Nếu mức giáđược đưa ra hợp lý để cân bằng cung cầu thị trường (clear) cho từng loạihàng, thì các mức giá đó chính là mức cân bằng: Cân bằng này được gọilà cân bằng cạnh tranh, hoặc cân bằngWalras (Walrasian equilibrium).

Theo cách khác, việc tái phân phối hàng hóa có thể được coi là tập lõicủa nền kinh tế trao đổi. Việc tái phân phối tổng thể lượng hàng hóa cósẵn nằm trong tập lõi nền kinh tế trao đổi nếu như không có liên minhnào giữa các chủ thể có thể cải thiện mức thỏa dụng của các thành viênliên minh bằng cách phân phối lại tổng lượng hàng hóa có sẵn bàn đầutrong số các thành viên. Trong kinh tế học, sự phân phối tại cân bằngcạnh tranh được thừa nhận là một ví dụ về phân phối cốt lõi.

Ở đây, ta xét nền kinh tế trao đổi với 2-NC là NCA, NCB, và 2hàng hóa, ký hiệu 1, 2. NCA có lượng hàng hóa phân bổ sẵn là eA =(eA

1 , eA2 ) ∈ R2

+), và hàm thỏa dụng uA : R2+ → R, biểu diễn mức thỏa

mãn của NCA với các nhóm hàng hóa. Tương tự với NCB là phân bố

Page 153: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 139

sẵn eB = (eB1 , eB

2 ) ∈ R2+, và hàm thỏa dụng uB : R2

+ → R. (Ký tự chỉ sốtrên là NC, và dưới là hàng hóa.)

Ta gán trị số cho đầu bài như sau: eA = (2, 3), eB = (4, 1),uA(x1, x2) = x2

1x2 và uB(x1, x2) = x1x22. Như vậy, tổng lượng hàn

hóa sẵn có của nền kinh tế là e = (6, 4), và mục tiêu của quá trình traođổi là tái phân phối lượng hàng hóa sẵn có sao cho cả hai NC đều đượcthỏa mãn cao hơn.

Gọi p = (p1, p2) là một véc-tơ giá các hàng hóa. Với các mức giá đãcho này, cả 2 NC muốn tối đa hóa mức thỏa dụng của mình. Nhờ giá,lượnghànghóa có sẵnđược quy đổi giá trị, ví dụ vớiNCA là: p1e

A1 +p2e

A2 .

Bài toán của NCA là giải quyết vấn đề tối đa hóa:

maximize uA(x1, x2)s.t. p1x1 + p2x2 = p1e

A1 + p2e

A2 , x1, x2 ≥ 0.

(9.1)

Nghiệm của bài toán tối đa hóa này là một véc-tơ xA(p) =(xA

1 (p), xA2 (p)), gọi là hàm cầu của NCA. (9.1) gọi là bài toán người

tiêu dùng của NCA. Và theo lô-gic tương tự, bài toán của NCB là (9.2):

maximize uB(x1, x2)s.t. p1x1 + p2x2 = p1e

B1 + p2e

B2 , x1, x2 ≥ 0.

(9.2)

Bài toán (9.1) với các trị số đã cho trở thành:

maximize x21x2)

s.t. p1x1 + p2x2 = 2p1 + 3p2, x1, x2 ≥ 0.

Sử dụng phương pháp nhân tử Lagrange hoặc phương pháp thay thếta có thể giải quyết bài toán này. Ví dụ, nếu thế theo x1, ta quy bài toánvề

maximize x21((2p1 + 3p2 − p1x1)/p2)

với ràng buộc x1 ≥ 0 và 2p1 + 3p2 − p1x1 ≥ 0. Lấy đạo hàm bậc nhấttheo x1 và đặt bằng 0, ta thu được:

2x1(

2p1 + 3p2p1x1

p2

)− x2

1

(p1p2

)= 0.

Từ đây, sau một số phép giản lược, ta thu được hàm nhu cầu NCA làx1 = xA

1 (p) = (4p1 + 6p2)/3p1. Tiếp theo, với điều kiện ràng buộc thunhập xA

2 (p) = (2p1 + 3p2)/3p2.

Page 154: Game theory   - Vuong Quan Hoang

140 c⃝ 2011 - Vương Quân Hoàng

Xử lý cùng lô-gic trên với bài toán tối đa hóa (9.2), sử dụng trị số đãcho, ta thu được xB

1 (p) = (4p1 + p2)/3p1 và xB2 (p) = (8p1 + 2p2)/3p2.

Véc-tơ giá p chứa các mức giá cân bằng Walras nếu như trên thịtrường cung cầu được cân bằng. Trong mô hình tổng quát, điều này cónghĩa là xA

1 (p) + xB1 (p) = eA

1 + eB1 và xA

2 (p) + xB2 (p) = eA

2 + eB2 .

Với trị số của ví dụ, ta có hệ thống sau:

(4p1 + 6p2)/3p1 + (4p1 + p2)/3p1 = 6(2p1 + 3p2)/3p2 + (8p1 + 2p2)/3p2 = 4.

Cả hai phương trình đều dẫn đến cùng một điều kiện là 10p17p2 = 0.Trên thực tế, các mức giá đại diện cho tỷ lệ trao đổi giữa hai hàng hóa,và chúng có ý nghĩa ngay cả khi tiền tệ không tồn tại trong nền kinh tế.Như vậy, p = (7, 10) là các mức giá cân bằng trong nền kinh tế trao đổinày.

Các mức cầu ở véc-tơ giá cân bằng là xA(7, 10) = (88/21, 22/15) vàxB(7, 10) = (38/21, 38/15).

Với việc xét tập lõi của nền kinh tế trao đổi. Một hành động tái phânphối hàng hóa sẵn có nằm trong tập lõi nếu không có liên minh nào cóthể cải thiện mức thỏa dụng trên lượng hàng hóa đó. Trong trò chơi2-NC của nền kinh tế trao đổi chỉ có 3 liên minh (bỏ đi liên minh làtập rỗng) là {A}, {B}, và {A,B}. Ta xét một phân phối (xA,xB) vớixA

1 + xB1 = eA

1 + eB1 và xA

2 + xB2 = eA

2 + eB2 .

Để loại trừ khả năng NCA và NCB có thể cải thiện trên (xA,xB) tabổ sung điều kiện:

uA(xA) ≥ uA(eA), uB(xB)) ≥ uB(eB), (9.3)

chính là các điều kiện ràng buộc về tính hợp lý trên phương diện cánhân.

Để tránh liên minh lớn {A,B} có thể cải thiện trên (xA,xB) ta cầncó điều kiện:

Không tồn tại : (yA,yB)Mà : yA

1 + yB1 = eA

1 + eB1 và yA

2 + yB2 = eA

2 + eB2

Sao cho : uA(yA) ≥ uA(xA), uB(yB) ≥ uB(xB)có ít nhất một dấu bất đẳng thức chặt.

(9.4)

Page 155: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 141

(9.4) có tên gọi là ràng buộc tính tối ưu Pareto, phát biểu: Không tồntại một cách phân chia hàng hóa sẵn có nào khác mà cơ bản tất cả NCđều có thỏa dụng không nhỏ hơn, và ít nhất có một NC hưởng mức thỏadụng lớn hơn (chặt).

Áp dụng (9.3) và (9.4) vào ví dụ của ta đang xét, khi này điều kiện vềtính hợp lý cá nhân trở thành:

(xA1 )2xA

2 ≥ 12, xB1 (xB

2 )2 ≥ 4.

Các phân bố tối ưu Pareto, thỏa mãn điều kiện (9.4), được tính nhưsau. Cố định một mức thỏa dụng của 1 trong 2 NC, ví dụ B, rồi tối đahóa mức thỏa dụng của A theo mức thỏa dụng đã ấn định của B. Bằngcách thay đổi mức ấn định cho B, ta sẽ tìm được tất cả các phân phối tốiưu Pareto.

Trong ví dụ, ta phải tối đa hóa cho c ∈ R:

maximize : (xA1 )2xA

2

subject to : xA1 + xB

1 = 6,xA

2 + xB2 = 4,

xB1 (xB

2 )2 = c,xA

1 , xA2 , xB

1 , xB2 ≥ 0.

Bằng phương pháp thế, bài toán được rút gọn thành::

maximize : (xA1 )2xA

2

subject to : (6 − xA1 )(4 − xA

2 )2 = c,xA

1 , xA2 ≥ 0.

Hàm Lagrange tương ứng là:

(xA1 )2xA

2 − λ[(6 − xA1 )(4 − xA

2 )2 − c].

Suy ra, các điều kiện bậc nhất là

2xA1 xA

2 + λ(4 − xA2 )2 = 0,

(xA1 )2 + 2λ(6 − xA

1 )(4 − xA2 ) = 0.

Rút λ ra khỏi 2 PT trên và giản lược đi ta thu được:

xA2 =

4xA1

24 − 3xA1

.

Page 156: Game theory   - Vuong Quan Hoang

142 c⃝ 2011 - Vương Quân Hoàng

Như vậy, với mọi giá trị của xA1 chạy từ 0 đến 6 thì biểu thức này

cho giá trị tương ứng của xA2 , sinh ra một phân phối tối ưu Pareto với

xB1 = 6 − xA

1 và xB2 = 4 − xA

2 .Có thể kiểm tra được ngay rằng phân phối cân bằng Walras

xA(7, 10) = (88/21, 22/15) và xB(7, 10) = (38/21, 38/15) tìm được lúctrước có tính chất Pareto-optimal. Đây không phải là điều tình cờ. địnhlý First Welfare Theorem phát biểu rằng trong một nền kinh tế có traođổi hàng hóa, một phân phối cân bằngWalras có tính chất tối ưu Pareto.

Kết hợp ràng buộc tính hợp lý cá nhân của NCA với ràng buộc tínhtối ưu Pareto cho thấy 4(xA

1 )3/(24− 3xA1 ) ≥ 12, và điều này đúng khi xA

1

lớn hơn xấp xỉ 3,45. Tương tự vậy đối với NCB, ta suy ra:

(6 − xA1 )

(96 − 16xA

1

24 − 3xA1

)2

≥ 4,

và điều này đúng khi xA1 nhỏ hơn xấp xỉ 4,88. Do đó, tập lõi của nền

kinh tế trao đổi trong ví dụ đang xét là tập:

{(xA1, xA2, xB1, xB2) ∈ R4 | 3, 45 ≤ xA1 ≤ 4, 88,

xA2 = 4xA

1

24−3xA1,

xB1 = 6 − xA

1 ,xB

2 = 4 − xA2 }.

Phân phối cân bằngWalras thuộc tập lõi, vì 3, 45 ≤ 88/21 ≤ 4, 88 và đâycũng không phải tính chất tình cờ. Như vậy, việc phi tập trung hóa quátrình tái phân bổ thông quá giá dẫn đến một phân phối nằm trong tậplõi.

Minh họa bằngEdgeworth box, như trong hình (9.4) hỗ trợ việc nắmvững nguyên lý. Edgeworth box chứa tất cả các điểm tái phân phốikhả dĩ của 2 hàng hóa. Trong hình, các đường cong không thiên vị(indifference curve) của 2 NC đi qua điểm phân phối sẵn có ban đầuđược xây dựng cùng với đường cong hợp đồng, tức là tập các phân phốitối ưu Pareto. Tập lõi là tập con của đường con hợp đồng nằm giữa cácđường không thiên vị.

Trên hình (9.4) đường cong hợp đồng là đường cong đi qua các điểmc và c′. Điểm c là điểm giao cắt của đường cong hợp đồng và đường congkhông thiên vị của NCA thông qua điểm endowment e. Điểm c′ là điểmgiao cắt của đường cong hợp đồng và đường cong không thiên vị của

Page 157: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 143

NCB, cũng đi qua điểm endowment e. Tập lõi bao gồm các phân phốitrên đường cong hợp đồng nằm giữa c và c′. Đường thằng (gọi là đườngngân sách) đi qua điểm e là đồ thị của phương trình ngân sách của NCAtại các mức giá cân bằng, tức là 7x1 +10x2 = 44, và điểm giao cắt của nóvới đường cong hợp đồng (điểm w) là phân phối cân bằng Walras. Tạinơi đây, các đường cong không thiên vị của cả hai NC đều tiếp xúc vớiđường ngân sách (tiếp tuyến).

Page 158: Game theory   - Vuong Quan Hoang

144 c⃝ 2011 - Vương Quân Hoàng

Hình 9.4: Tập lõi và cân bằng Walras

Page 159: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 145

Page 160: Game theory   - Vuong Quan Hoang

146 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 161: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 147

Page 162: Game theory   - Vuong Quan Hoang

148 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 163: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 149

Page 164: Game theory   - Vuong Quan Hoang

150 c⃝ 2011 - Vương Quân Hoàng

VQH ghi chú:

Page 165: Game theory   - Vuong Quan Hoang

Chương 10

Trò Chơi Ma Trận

Trong chương này, ta đi sâu hơn để tìm hiểu bằng cách nàomột trò chơima trận có thể được giải, giúp tìm ra các chiến lược tối ưu và giá trị củatrò chơi, với công cụ chủ yếu là kỹ thuật quy hoạch tuyến tính.

10.1 Định lý Minimax

Cho A là một ma trận m × n. Với mọi chiến lược p ∈ ∆m của NC1, gọiv1(p) = minq∈∆n pAq. Có thể thấy rằng v1(p) = minj∈{1,...,n} pAej , vìpAq là một tổ hợp lồi của các số pAej . Trong trò chơi ma trận A, NC1có thể đảm bảo thu lợi ích tối thiểu là:

v1(A) := maxp∈∆m

v1(p).

Tương tự, với mọi chiến lược q ∈ ∆n của NC2, cho v2(q) =maxp∈∆m pAq = maxi∈{1,...,m} eiAq, thì NC2 có thể đảm bảo chỉ phảitrả nhiều nhất là:

v2(A) := minq∈∆n

v2(q).

Xét về trực giác, NC1 không thể đảm bảo nhận được nhiều hơn mức tốiđa mà NC2 có thể đảm bảo chi trả.

Ta cũng có bổ đề sau.

Bổ đề: Với mọi trò chơi ma trân m × n, v1(A) ≤ v2(A).

151

Page 166: Game theory   - Vuong Quan Hoang

152 c⃝ 2011 - Vương Quân Hoàng

Định lý Minimax cho trò chơi ma trận Với mọi trò chơi ma trậnA cấp mn, v1(A) = v2(A).

10.2 Phát biểu hệ thống về quy hoạch tuyếntính

Cho A là một trò chơi ma trận m×n. Cộng thêm cùng một số vào tất cảcác phần tử của A không làm thay đổi các chiến lược tối ưu của mọi NC.Ta định nghĩa ma trận B kích thước (m + 1) × (n + 1) như sau:

−1−1

A...

−1−1 −1 . . . −1 0

Cho b = (0, . . . , 0,−1) ∈ Rn+1 và c = (0, . . . , 0,−1) ∈ Rm+1. Định

nghĩa V := {x ∈ Rm+1|xB ≥ b,x ≥ 0} vàW := {y ∈ Rn+1|By ≤ c,y ≥0}. Có thể chứng minh rằng V,W = ∅.

Định lý đối ngẫu quy hoạch tuyến tính giúp suy ra rằng:

Hệ quả: min{x · c|x ∈ V } = max{b · y|y ∈ W}.Các bài toán cực đại, cực tiểu trong hệ quả này được gọi là các bài

toán quy hoạch tuyến tính (LP). Nếu ta gọi các bài toán tối thiểu hóalà bài toán gốc, thì ta gọi bài toán tối đa hóa là bài toán đối ngẫu (hoặcngược lại). Cực đại/cực tiểu chung được gọi là giá trị của LP, và x và yđạt được giá trị của bài toán gọi là các nghiệm tối ưu. Ta ký hiệu cácnghiệm tối ưu đó lần lượt là Omin và Omax.

Định lý: Cho A là trò chơi ma trậnm×n với mọi phần tử đều dương.(1) Nếu p ∈ ∆m là một chiến lược tối ưu của NC1, và q ∈ ∆n là chiếnlược tối ưu của NC2, thì (p, v(A)) ∈ Omin và (q, v(A)) ∈ Omax. Giátrị của LP là −v(A). (2) Nếu x = (x1, . . . , xm, xm+1) ∈ Omin và y =(y1, . . . , yn, yn+1) ∈ Omax, thì (x1, . . . , xm) là một chiến lược tối ưu củaNC1 trong trò chơi A, (y1, . . . , yn) là một chiến lược tối ưu của NC2, vàv(A) = xm+1 = yn+1.

Page 167: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 153

Page 168: Game theory   - Vuong Quan Hoang

154 c⃝ 2011 - Vương Quân Hoàng

VQG ghi chú:

Page 169: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 155

Page 170: Game theory   - Vuong Quan Hoang

156 c⃝ 2011 - Vương Quân Hoàng

VQG ghi chú:

Page 171: Game theory   - Vuong Quan Hoang

Chương 11

Công Cụ Toán Học

Các công cụ toán học thường xuyên sử dụng trong quá trình nghiên cứuLTTC. Để đảm bảo tính tổng quan, chỉ có một số tính chất và định lýđược chứng minh. Nhiều chứng minh khác có thể tìm trong các tài liệuliên quan, và sẽ được dẫn chiếu khi cần thiết.

11.1 Thuật ngữ và khái niệm thường sử dụng

Một tập con Z ⊆ Rn là tập lồi nếu với mỗi cặp 2 điểm x, y ∈ Z, đoạnthẳng nối hai điểm x, y cũng thuộc Z. Phát biểu toán học:

∀x, y ∈ Z, ∀0 ≤ λ ≤ 1 : λx + (1 − λ)y ∈ Z.

Một tập con Z ⊆ Rn là tập đóng nếu nó chứa các giới hạn của mọidãy hội tụ trong chính nó Z.

Nếu Z là một tập đóng thì với tính lồi (convexity) điều kiện đủ làkiểm tra với λ = 1/2. Có thể nhận thấy không khó khăn rằng,Z ⊆ Rn làtập lồi nếu và chỉ nếu:

∑kj=1 λjxj ∈ Z, ∀x1, . . . , xk ∈ Z và mọi số không

âm λ1, . . . , λk ∈ R với∑k

j=1 λj = 1.Tổng

∑kj=1 λjxj được gọi là một tổ hợp lồi (convex combination) của

xj .Với các véc-tơ x = (x1, . . . , xn) ∈ Rn, và y = (y1, . . . , yn) ∈ Rn, thì:

x · y :=n∑

i=1

xiyi

157

Page 172: Game theory   - Vuong Quan Hoang

158 c⃝ 2011 - Vương Quân Hoàng

được gọi là tích trong của x và y,, và

∥∥x − y∥∥ :=

√√√√ n∑i=1

(xi − yi)2

là khoảng cách Euclide (Euclidean distance) giữa x và y.Một tập C ⊆ Rn là một nón (lồi) nếu với mỗi cặp x,y ∈ C và λ ∈ R,

λ ≥ 0, thì λx ∈ C và x + y ∈ C.

Định lý phân tách ChoZ ⊆ Rn làmột tập lồi đóng và chox ∈ Rn\Z.Tồn tại một véc-tơ y|inRn với y · z > y · x với mọi z ∈ Z.1

Chứng minh: Cho z′ ∈ Z sao cho 0 <∥∥x − z′

∥∥ ≤∣∣x − z

∣∣ với mọiz ∈ Z.

Véc-tơ z như vậy tồn tại nhờ định lý Weierstrass, do khoảng cáchEuclide từ x là một hàm liên tục trên tậpZ, với cực tiêu của z →

∥∥x−z∥∥

trên Z, ta lưu ý riêng tới tập compact của Z.Cho y = z′ − x. Cho z ∈ Z. Với bất kỳ α, 0 ≤ α ≤ 1, tính lồi của Z

suy ra rằng z′ + α(z − z′) ∈ Z, và như vậy:∥∥z′ + α(z − z′) − x∥∥2 ≥

∥∥z′ − x∥∥2

.

Như thế, 2α(z′ − x) · (z − z′) + α2∥∥z − z′

∥∥2 ≥ 0.Khi này, đặt α ↓ 0, ta thấy rằng (z′ − z) · (z − z′) ≥ 0. Từ đây suy ra,

(z′ − x) · z ≥ (z′ − x) · z′ = (z′ − x) · x + (z′ − x) · (z′ − z) > (z′ − z) · x.Do z là tùy ý, suy ra y · x > y · x với mọi z ∈ Z.

Ghi chú: Một hệ quả của định lý phân tách nói trên là tồn tại các sốthực α, β thỏa mãn y · z > α và y · x < α, và y · z > β và y · x = β, vớimọi z ∈ Z.

11.2 Các bổ đề về lựa chọn thay thế

Các bổ đề này có điểm chung là chúng mô tả hai hệ bất đẳng thức vàphương trình tuyến tính, và chỉ có một trong số đó có một nghiệm.

1Định lý này phát biểu rằng về mặt hình học, một tập lồi đóng và một điểm khôngthuộc tập đó có thể phân tách thông qua một mặt siêu phẳng.

Page 173: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 159

Bổ đề về lựa chọn thay thế cho các ma trận: Cho A là một matrận m × n. Chỉ có 1 trong 2 mệnh đề sau đúng: (1) Tồn tại y ∈ Rn vàz ∈ Rm với (y, z) ≥ 0, (y, z) = 0 và Ay + z = 0; (2) Tồn tại một véc-tơx ∈ Rm với x > 0 và xA > 0.

Bổ đề Farkas: ChoA là ma trậnm×n và bRn. Chỉ có 1 trong 2mệnhđề sau là đúng: (1) Tồn tại x ∈ Rm với x > 0 và xA = b; (2) Tồn tại mộtvéc-tơ y ∈ Rn với Ay ≥ 0 và b · y < 0.

(Ta không chứng minh các bổ đề này.)

Các bổ đề vừa nêu có thể được giải thích về mặt hình học, chẳng hạnnhư bổ đề Farkas trong hình (11.1).

Hình 11.1: Giải thích hình học bổ đề Farkas

Xét các véc-tơ dòng ri của A như các điểm trong Rn. Tập các tổ hợptuyến tính không âm của ri tạo thành nón C. Mệnh đề phát biểu rằnghệ thức (1) của bổ đề này không có nghiệm không âm có nghĩa là véc-tơb không nằm trong C. Trong trường hợp này, bổ đề kết luận rằng sựtồn tại của một véc-tơ y tạo nên một góc tù với b và một góc không tùvới từng véc-tơ dòng ri. Điều này có nghĩa là siêu mặt phẳngL trực giaovới y có nón C ở một mặt và điểm b ở mặt phía bên kia.

Page 174: Game theory   - Vuong Quan Hoang

160 c⃝ 2011 - Vương Quân Hoàng

11.3 Định lýđốingẫucủaquyhoạch tuyến tính

Định lý đối ngẫu của quy hoạch tuyến tính. Cho A là một matrận n × p, b ∈ Rp, và c ∈ Rn. Giả sử V := {x ∈ Rn|xA ≥ b,x ≥ 0} = ∅và W := {y ∈ Rp|Ay ≤ x,y ≥ 0} = ∅. Thì min{x · c|x ∈ V } =max{b · y|y ∈ W}.

11.4 Một số định lý điểm bất động

Cho Z ∈ Rn là một tập compact lồi không rỗng. Gọi f : Z → Z là mộthàm liên tục. Một điểm x∗ ∈ Z là điểm bất động nếu f(x∗) = x∗.

Nếu n = 1 thì Z là một khoảng đóng [a, b] ∈ R, và rõ ràng từ trực giáccó thể thấy f phải có một điểm bất động. Tổng quát hơn, ta xét một vàiđịnh lý điểm bất động (và không chứng minh).

Định lý Brouwer: Cho Z ∈ Rn là một tập lồi, compact không rỗng,và f : Z → Z là một hàm liên tục. Vậy thì f có một điểm bất động.

Định lý Kakutani: Cho Z ∈ Rn là một tập lồi, compact không rỗng,và cho F : Z → Z là một phép tương ứng nửa liên tục trên và lồi. F cómột điểm bất động.

11.5 Định lý Birkhoff–von Neumann

Gọi C là một tập lồi trong không gian tuyến tính V . Một phần tử e ∈ Cgọi là điểm cực biên (extreme point) của C nếu với tất cả x, y ∈ C vớie = 1

2(x + y) thì x = y(= e). Tập các điểm cực biên của C được ký hiệulà ext(C).

Ma trận D cấp n × n gọi là ngẫu nhiên hai lần nếu 0 ≤ dij ≤ 1 vớimọi i, j = 1, . . . , n,

∑nj=1 dij = 1,∀i, và

∑ni=1 dij = 1,∀j. Nếu hơn thế

nữa, dij ∈ {0, 1} với mọi i, j = 1, . . . , n, thì D được gọi là ma trận hoánvị. Cho Dn×n là một tập tất cả các ma trận ngẫu nhiên hai lần, và Pn×n

là tập tất cả các ma trận hoán vị (ta chú ý rằng, Dn×n là tập compactlồi, và Pn×n là tập con hữu hạn của Dn×n). Ta có định lý Birkhoff–vonNeumann biểu thị quan hệ và một số bổ đề liên quan.

Page 175: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 161

Định lý Birkhoff–von Neumann: (1) ext(Dn×n) = Pn×n; (2)Dn×n = conv(Pn×n).

Một tập con của V có thể biểu diễn qua dạng a + L trong đó a ∈ Vvà L là không gian con tuyến tính của V , thì được gọi là không gian conaffine. Với không gian con affine a + L thuộc V , kích thước được địnhnghĩa theo kích thước của không gian con tuyến tínhL. Với một tập contùy ý A ⊂ V , kích thước của nó dim(A) được định nghĩa là kích thướccủa không gian con affine nhỏ nhất của V có chứa tập A.

Bổ đề: ChoC là một tập con lồi không rỗng củaRn và a ∈ Rn \C. Thìtồn tại p ∈ Rn \ {0} với p · a ≤ p · c,∀c ∈ C.

Định lý Krein–Milman: Cho C là một tập lồi compact không rỗngthuộc Rn. Vậy thì, ext(C) = ∅ và C = conv(ext(C)).

Page 176: Game theory   - Vuong Quan Hoang

162 c⃝ 2011 - Vương Quân Hoàng

Page 177: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 163

VQG ghi chú:

Page 178: Game theory   - Vuong Quan Hoang

164 c⃝ 2011 - Vương Quân Hoàng

Page 179: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 165

VQG ghi chú:

Page 180: Game theory   - Vuong Quan Hoang

166 c⃝ 2011 - Vương Quân Hoàng

Page 181: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 167

VQG ghi chú:

Page 182: Game theory   - Vuong Quan Hoang

168 c⃝ 2011 - Vương Quân Hoàng

Page 183: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 169

VQG ghi chú:

Page 184: Game theory   - Vuong Quan Hoang

170 c⃝ 2011 - Vương Quân Hoàng

Page 185: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research 171

VQG ghi chú:

Page 186: Game theory   - Vuong Quan Hoang

LÝ THUYẾT TRÒ CHƠI

Page 187: Game theory   - Vuong Quan Hoang

Phụ lục tra cứu

G∞1 (δ), 95

G∞p (δ), 91

đóng góp biên - marginal contri-bution, 121

đường cong không thiên vị - indif-ference curve, 142

đường ngân sách, 143đặc trưng, 53, 60định lý

đối ngẫu, 160điểm bất động, 160Birkhoff–von Neumann, 161Brouwer, 160dân giancân bằng hoàn hảo trò chơicon, 92

Kakutani, 160Krein–Milman, 161minimax, 152

đối ngẫu, 152độ dư - excess, 123, 124động học

bộ sao chép, 105, 106tự phân chia, 105

điểm bất động - fixed point, 160điểm cực biên - extreme point, 160điểm yên ngựa, 94

average fitness, 105

bổ đềFarkas, 159

best reply - phản ứng tối ưu, 18, 21,76

bimatrix - ma trận cặp, 17

cân bằngBertrand, 75gộp, 61Nash, 72, 73, 93, 95đối xứng, 104chặt, 109

Nash-Cournot, 74phân chia, 61Stackelberg, 69, 76Walras, 138, 140, 142phân phối, 143

cân bằng Bayes, 53, 61cân bằng Bayes hoàn hảo, 43cân bằng Nash, 53, 58

có tính chất Bayes, 59thuần, 59

cạnh tranhBertrand, 69, 75Cournot, 69, 70

chance move, 35

a

Page 188: Game theory   - Vuong Quan Hoang

b c⃝ 2011 - Vương Quân Hoàng

chiến lược, 1, 36ổn định tiến hóa, 103ESS, 103hỗn hợp, 20, 21, 79hỗn hợp - p,q, 2lép vế, 23tối ưu, 3, 21thuần, 20thuần - ei, ej , 1

ESS, 103, 104, 106

gamebimatrix, 79extensive form, 35

giá trị quy kết - imputation, 123giá trị Shapley, 121, 123

hàng hóa có sẵn - endowment, 138,139

hành động, 36, 43, 59hạch nhân - nucleolus, 123, 124hiệp biến kích thước, 135hiệu chỉnh Bayes, 44

information set - tập thông tin, 35

không gianlợi ích hợp tác, 92

không gian con affine, 161khoảng cách Euclide - Euclidean

distance, 158

lợi íchmaximin, 94

mặc cả, 133Mathematica, 8maximin, 2

chiến lược, 10

minimax, 2chiến lược, 10

nón lồi - convex cone, 158nền kinh tế trao đổi, 142Nash equilibrium - cân bằng Nash,

17–19, 21, 22, 39pure - thuần, 18thuần, 42

ngẫu nhiên hóa, 19nghiệm

mặc cảNash, 137

noncooperative game - trò chơi bấthợp tác, 18

Pareto-optimal, 21, 73, 135, 142phân phối lợi ích, 119phân phối xác suất - PPXS, 1, 8, 21,

23, 26, 43, 53, 79phép hoàn chỉnh trò chơi con, 40,

44, 77

quy hoạch tuyến tính, 151quy hoạch tuyến tính - LP, 152quy nạp lùi, 77

điểm cân bằng, 39quy nạp lùi - backward induction,

39, 44

replicator dynamics, 105, 106

saddlepoint, 94saddlepoint - điểm yên ngựa, 3, 9space

cooperative payoff, 92strategicuncertainty -bất trắc chiến

lược, 19

Page 189: Game theory   - Vuong Quan Hoang

Lý Thuyết Trò Chơi - DHVP Research c

strict domination - tính trội tuyệtđối, 7, 17, 23

subgame perfection, 40

tích trong - inner product, 158tính chất

Bayes, 74tính lồi - convexity, 157tập compact, 158tập chiến lược, 38tập lõi - core, 118tập lồi, 157tập thông tin, 40, 43, 60

không tầm thường, 36, 43tối ưu

Pareto, 21, 73, 135, 141tổ hợp lồi - convex combination,

157theorem

duality, 160Folk, 92

tiêu chuẩn Kohlberg, 126trò chơi

đối xứng, 102bất đối xứng, 107bất hợp tác, 18bỏ phiếu, 118Bertrand, 75bimatrix, 18, 21, 23, 38, 92rút gọn, 26

chiến lược, 69Cournot, 70dạng chiến lược, 36, 41dạng mở, 35diều hâu-bồ câu, 104giá trị - v(A), 3hawk-dove, 102, 104, 105hoán vị - permutation, 117

ma trận, 152ma trận cặp, 21, 79, 107Stackelberg, 76tín hiệu, 59thông tin không đầy đủ, 53tĩnh, 54, 59

tiến hóa, 101TU-game, 121

căn bản, 123tập lõi, 126véc-tơ biên -marginal vector,

121type of player, 53

Walrasian equilibrium, 138