kanehira m

学習エージェントを用いた

人工市場における価格形成の分析に関する研究

調和系工学分野

修士２年

兼平大輔

均衡価格均衡価格・・・市場に潜在する需要供給から求まる理論価格

•均衡価格 Po = 250

•均衡需給量 Qo = 3

ある商品を1つ保有する効用

売りエージェント買いエージェント

A 150 F 150

B 200 G 200

C 250 H 250

D 300 I 300

E 350 J 350

取引価格均衡価格・・・市場に潜在する需要供給から求まる理論価格

取引価格・・・市場への注文から形成される顕在する実際の価格

供給

需要

P

Q

35% 5

%

15%

30%

10%

5%

10%

20%

30%

25%

ミクロ経済学－新古典派の均衡理論

無限の計算能力がある理想的なエージェントにより構成される市場の取引価格は均衡価格へ収束する．

売りエージェント買いエージェント

A 150 203 F 150 120

B 200 210 G 200 140

C 250 288 H 250 238

D 300 390 I 300 225

E 350 385 J 350 315

•取引価格 P = 232

•取引量 Q = 2

35%

5%

15%

30%

10%

20%

30%

25%

10%

5%

関連研究

予算を課した被験者実験による均衡理論の検証 [Smith.,1962,1992]

予算内での注文を行う被験者による実験を行い，取引価格の均衡価格への急速な収束を観測．

計算機実験による均衡価格への収束要因の調査 [Gode,D.K.,1992,1993]

予算内でランダムな価格で注文を行うエージェント（Zero-Intelligence-

Trader）でも取引価格は均衡価格に近づいたことから，取引価格の収束はエージェントではなく市場の機構に要因があると分析．

理論と実験の両アプローチからの収束要因の検証 [Cliff, D., 1997]

Zero-Intelligence-Trader に需給が非対称になるような予算を与えた場合は，

理論による取引価格の期待値の算出でも，計算機実験でも均衡へ収束しないことから、市場の機構が取引価格の均衡価格への収束要因ではないことを示す．

予算を課すことにより，実際には観測できない効用を規定できる．

目的

関連研究をまとめると予算の制約を与えた人間による取引価格は均衡価格に収束する．

取引価格の均衡価格への収束は需給が対称的な場合には市場の機構が要因となりうるが，それだけが要因ではない．

市場の機構だけが要因ではなく、トレーダにも要因があるのではないか？

市場の方式としてザラバ方式だけでしか検証していないが，他の方式ではどうなるのか？

目的

学習エージェントが参加する人工市場モデルを構築し，その市場で形成される取引価格の挙動から，学習が均衡価格への収束要因となりうるかを分析する．

また，ザラバ方式と同様に売買締結方式として一般的な板寄せ方式を導入し，両方式による取引価格の振る舞いを比較する．

モデル

市場には売りエージェントと買いエージェントが存在する．（立場の交代はない）

エージェントは1日に1単位の商品の取引を目的としている．

エージェントの注文は1ステップに1回．

Start

ステップ日

時間

Mステップ

1日目 2日目

End

N日目

1試行はN日間で構成される．

1日はMステップで構成される．

1試行

売り注文買い注文

取引結果

・・・・・・買いエージェント売りエージェント

Market（市場）買い/売り注文価格

モデルの時間の流れ概念図モデルの概念図

市場制度板寄せ方式

注文を一定期間集め，集まった注文の中で取引を成立させる方法．

ザラバ方式

新たな注文が来るたびにストックされている注文との間で取引を成立させる方法．

A B

C D

A B

C D

一定期間後

注文

A B

C D

A

B

C D

新しい注文

AD,BC間取引成立 BD間取引成立

注文A

注文B

注文C

注文D

ストック

ストック

注文A

注文B

注文C

ストック

ストック

注文A

注文C

注文

注文価格

エージェント i の予算（制約）とは売りエージェント（買いエージェント）ならば，それ以下（以上）の注文価格で売却（購入）することが出来ないという下限（上限）価格．

売りエージェント

買いエージェント

注文価格は，各エージェントに固有に与えられている予算（制約価格）と戦略から導き出される利益率を用いて算出される．

エージェント予算（制約） limitiP,

limitiP,

shoutiP,

limitiP, profitiR ,

売りエージェント

買いエージェント 10 )1( ,,,,, profitilimitilimitiprofitishouti RPPRP

profitilimitilimitiprofitishouti RPPRP ,,,,, 0 )1(

shoutilimiti PP ,,

shoutilimiti PP ,,

shoutiP,

)0( , limitiP

shoutiP,

Zero Intelligence (ZI)

戦略：一様乱数から得られた値を利益率として注文価格を算出する．

ZIエージェント・QLエージェント

本モデルで利用するエージェント．

予算内でランダムな価格で注文を行う Zero Intelligence (ZI)

エージェント

予算内で学習（Q-Learning）に基づき注文を行う Q-Learning

（QL）エージェント

profitiR ,

shoutiP,

5.00 , profitiR

[Gode,D.K.,1992,1993]

ZIエージェント・QLエージェント

Q-Learning (QL)

戦略 : Q-Learning を用いて利益率を導く．

profitiR ,

0.5 0.4, 0.3, 0.2, 0.1, 0,, profitiR

)},(),(max{),(),( 1 ttta

ttttt asQasQrasQasQ

学習率: 割引率: 報酬: 状態: 行動:

行動選択－グリーディ方策

報酬は取引が成立した場合は注文の利益率．

状態は現在の1日の中でのステップ．

行動は利益率．

ts tr ta

Q値の更新式

tr profitiR ,

ts

ta profitiR ,

注文を繰り返した後に売買が成立するという試行錯誤的な環境．市場

実験設定

NB NS Bmin Bmax Smin Smax Nb, NS:買いと売りのエージェント数．

Bmin,Bmax:買いエージェントに与える予算の最小値と最大値．

Smin,Smax:売りエージェントに与える予算の最小値と最大値．

設定1 11 11 75 325 75 325

設定2 11 11 200 200 75 325

設定3 6 11 50 50 200 200

設定4 11 6 200 200 320 320

1試行を1000日，1日を10ステップ．

板寄せ，ザラバ方式を適用した2種類の市場．

売買締結方式の違いにより取引価格の振る舞いの比較．

ZI,QLエージェントの2エージェントが市場に参加．

学習が取引価格に与える影響の調査．

人数と予算（制約価格）の組み合わせは以下の4種類．

需給の偏りがある市場における取引価格の均衡価格への収束の調査

*学習エージェントを用いた実験は5試行．

実験設定均衡価格 = 200，均衡需給量 = 6

設定1 E(p) = 200

設定3 E(p) = 125

設定2 E(p) = 233

設定4 E(p) = 260

実験結果：設定1

1:板寄せZI (5.21，198.9) 3:ザラバZI(5.49，188.8)

2:板寄せQL(5.85，200.5) 4:ザラバQL(5.95，191.7)

平均取引量と平均取引価格

設定に関わらずQLがZIよりも均衡点に近い

3

2

1 4 996 997 998 999 1000

板寄せ市場の取引価格の例

996 997 998 999 1000

ザラバ市場の取引価格の例

実験結果：設定1 1日の取引価格の推移

1日の取引価格の標準偏差の推移

板寄せ

板寄せ

ザラバ

ザラバ

平均取引価格は常にQLがZIより均衡価格である200に近い．

取引価格の標準偏差は常にQLがZIより小さい

実験結果：その他の設定設定毎の均衡点との比較

ZI QL

取引価格取引量取引価格取引量

設定1 板寄せ 1.1 0.79 0.5 0.15

ザラバ 11.2 0.51 8.3 0.05

設定2 板寄せ 8.2 1.11 2.0 0.02

ザラバ 16.6 1.14 12.7 0.33

設定3 板寄せ 54.8 0 0.1 0

ザラバ 54.9 0 55.1 0

設定4 板寄せ 17.1 0.02 8.3 0

ザラバ 28.2 0 26.7 0

平均取引価格は常にQL，ZIの順で均衡価格である200に近い．

取引価格の標準偏差は常にQL＜ZIである．

考察

学習により，売り（買い）エージェントは売買が成立する価格の中で最も高（低）い価格で注文するようになった結果，取引価格は均衡化価格に収束する．

均衡点との比較：ZIよりQL，ザラバより板寄せで均衡に近い．

取引価格の推移：売買締結方式によらずZIよりQLで均衡価格200に近い．

標準偏差の推移：ザラバZI>ザラバQL＞板寄せZI＞板寄せQL

板寄せ市場にはザラバ市場に比べ，取引価格を均衡価格に収束させる性質がある．

エージェントの学習には，取引価格を均衡価格へ収束させる性質がある．

学習により、市場には超過利益を許さない性質が創発する．

結論

予算の制約を与えたランダムに取引をするエージェント，学習をするレーダの2種類のエージェントエージェントを参加させた人工市場を構築し経済シミュレーションを行った．

エージェントの学習は，取引価格を均衡価格へ収束させ，市場には超過収益を許さない性質が創発する．

板寄せ市場にはザラバ市場に比べ，取引価格を均衡価格に収束させる性質がある．

また，本発表では触れなかったが，

本研究ではフリーウェアとして広く

公開することを目的とした経済シ

ミュレータの作成も行った．

kanehira m

Documents