概 要 institute of mathematics for industry iminishii/fujitsuws/...3 データ例 n r 13 ≤...

8
1 MI IMI 1 概要 (Zero-One Inflated Distribution) ARX Zero-Inflated Poisson 2 概要 (Zero-One Inflated Distribution) ARX Zero-Inflated Poisson 3 Institute of Mathematics for Industry IMI 2011 4 http://www.imi.kyushu-u.ac.jp/ 4 IMI 5 Study Group Workshop 2011 http://sgw2011.imi.kyushu-u.ac.jp/ 2011/8/1-3( ), 8/8-9( ) Minimization of test costs and defect costs NTT 6

Upload: others

Post on 12-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 概 要 Institute of Mathematics for Industry IMInishii/FujitsuWS/...3 データ例 N R 13 ≤ 目的変数,説明変数の強度 (1km 2) n=8538 14 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

1

時空間現象の統計モデリングと応用西井西井西井西井龍映龍映龍映龍映九州九州九州九州大学大学大学大学 マスマスマスマス・・・・フォアフォアフォアフォア・・・・インダストリインダストリインダストリインダストリ研究所研究所研究所研究所((((MI研究所研究所研究所研究所、、、、IMI))))2011/11/30富士通WS

1

概 要

�マスフォアインダストリ研究所統計グループの紹介�時空間現象の統計モデリング環境データへの応用

(Zero-One Inflated Distribution)

�産学連携の共同研究の応用例・ARXモデル・Zero-Inflated Poisson 分布�産学連携についての雑感

2

概 要

�マスフォアインダストリ研究所統計グループの紹介�時空間現象の統計モデリング環境データへの応用

(Zero-One Inflated Distribution)

�産学連携の共同研究の応用例・ARXモデル・Zero-Inflated Poisson 分布�産学連携についての雑感

3

Institute of Mathematics for Industry IMI

2011年4月九大数理学研究院から分離独立設立目的: 純粋・応用数学を流動性・汎用性をもつ形に融合再編しつつ産業界からの要請に応えようとすることで生まれる,未来技術の創出基盤となる数学の新研究領域を開拓すること�数学テクノロジー先端研究部門穴井,増田,秦,西井,神山,田上,平岡�応用理論研究部門 二宮,栄,木村,手老�基礎理論研究部門�連携推進・技術相談窓口 http://www.imi.kyushu-u.ac.jp/

4

九州大学 IMI の統計グループと活動増田弘毅 確率過程,統計数学,統計的漸近理論秦 攀 制御理論,時系列データ解析二宮嘉行 数理統計学,計量生物学西井龍映 時空間統計解析,パターン認識、画像解析九大数理学研究院前園宜彦 ノンパラメトリック統計解析百武弘登 多変量解析統計グループ活動BIC発行(北川敏男情報学創設,富士通国際情報社会科学研究所長)金曜セミナー,学会対応(統計関連学会連合大会開催),統計合宿IMIの4人産学連携活動(統計分野) 5

Study Group Workshop 2011 http://sgw2011.imi.kyushu-u.ac.jp/

2011/8/1-3(九大), 8/8-9(東大) 目的産業界における数学的問題を解決すること、あるいは数学を軸にした産業界との共同研究や連携活動の種を見出し、その芽を育てること問題提供(株)富士通研 Minimization of test costs and defect costs富士通(株)(株)三菱化学科学技術研究センター日本電気(株)新日本製鐵(株)NTT 情報流通プラットフォーム研究所(株)オー・エル・エム・デジタル

6

Page 2: 概 要 Institute of Mathematics for Industry IMInishii/FujitsuWS/...3 データ例 N R 13 ≤ 目的変数,説明変数の強度 (1km 2) n=8538 14 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

2

概 要

�マスフォアインダストリ研究所統計グループの紹介�時空間現象の統計モデリング環境データへの応用

(Zero-One Inflated Distribution)

�産学連携の共同研究の応用例・ARXモデル・Zero-Inflated Poisson 分布�産学連携についての雑感

7

森林被覆率の統計モデリング森林被覆率の統計モデリング共同研究共同研究共同研究共同研究田中章司郎田中章司郎田中章司郎田中章司郎 ((((島根大学島根大学島根大学島根大学総合理工学部総合理工学部総合理工学部総合理工学部))))宮田大毅宮田大毅宮田大毅宮田大毅((((九州大学大学院数理学府九州大学大学院数理学府九州大学大学院数理学府九州大学大学院数理学府))))森林減少の原因

9Soybean field, AmazonGrazingFuel woodsLoggingReclamation for residenceAcid rain

9

森林減少

すべてすべてすべてすべて人口人口人口人口のののの増大増大増大増大とととと関連関連関連関連

(Lambin, 1997; Myers, 1990)

10

11

: 目的 森林被目的 森林被目的 森林被目的 森林被覆率覆率覆率覆率のののの統統統統計計計計モモモモデリデリデリデリンンンンググググ≤≤≤≤sF F====

sN N====

sR R====

:

:

:

:

:

s

s

s

N

F

R

森森森森目的変数目的変数目的変数目的変数説説説説明変数明変数明変数明変数 林被林被林被林被覆覆覆覆人口人口人口人口起起起起 率率率率密度密度密度密度伏伏伏伏量量量量回回回回帰帰帰帰モモモモデルデルデルデル起 伏 量

ij

R

12

Page 3: 概 要 Institute of Mathematics for Industry IMInishii/FujitsuWS/...3 データ例 N R 13 ≤ 目的変数,説明変数の強度 (1km 2) n=8538 14 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

3

データ例

N R

13

目的変数,説明変数の強度

(1km2) n=8538

14

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

200

400

600

800

1000

1200

1400

1600

1800

森林被覆率森林被覆率森林被覆率森林被覆率ののののヒストグラムヒストグラムヒストグラムヒストグラム区間 [0,1] 上のベータ分布から

Zero-One Inflated 分布15

159 sites, 6825 sites, 1713 sit0 : 0 1: 1 es:s s s

F F F= < < =

n=85381

0

2

{ | }:

{ | }:

{ | 0 1}:

1

0 s

s

s

s D F

s D F

D

D

s D

D

F

= ∈ =

= ∈ =

= ∈ < <

完全に森森林がない領域森林が部分的に林の領域ない領域全観測領域 D の分割

0D 1D2D

{( , ) }: s s

N R s D= ∈ 全説明変数X16

Zero-One Inflated 分布

• Lesaffre, Rizoupoulus & Tsonaka (2007)• Ospina and Ferrari (2010) • 提案手法・ 3群の分割: に対する3項ロジスティック分布・ 拡張ロジスティック-正規回帰モデル10 2

, ,D D D

17

モデリングs

1 2 , ss

U U

空間依存性中心区画への影響

Page 4: 概 要 Institute of Mathematics for Industry IMInishii/FujitsuWS/...3 データ例 N R 13 ≤ 目的変数,説明変数の強度 (1km 2) n=8538 14 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

4

非負値の巾変換

( ) 1 if 0

( ; ) f

1

1

or 0

log( ) if 0

x

x x

x

+

+

−≠

= ≥ =

λ

λφ λ λ

λ

19 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

1

2

3

4

5

power = 1

power = 0.5

power = 0 (log)

power = −0.5

中心と近傍における説明変数の巾変換20

Covariates:

=

s

s

s

Nx

R変換した説明変数の近傍での平均:( ; ):

( ; )

φ

φ

λ

λ

=

N

s

s R

sN

Ru巾変換

( ; )1

( ;

)| | ∈

=

s

t

t U t

NU

s

Rs URU

vN λ

λ

φ

φ

:

=

s

s

s

u

vz 新しい説明変数

3群のロジスティックモデリング21

0

0

0 0

0 0 0 1 1

exp( ) ( )

1 exp( ) ex ( )0

p

s

T

s

T

s T

s

z

zP F

z

+= =

+ + + +

ξ

ξ ξX

ξξξξ

ξ ξξ ξξ ξξ ξ

0

0

1 1

0 0 01 1

exp( ) ( )

1 exp( ) ex ( )1

p

s

T

s

T

s T

s

z

zP F

z

ξ

ξ ξ

+= =

+ + + +

ξ

ξ ξX

0 0 0 01 1

1 (0 1 )

1 exp( ) exp ( )s T

s

T

s

Fz z

Pξ ξ

< < =+ + + +ξ ξ

X

= s

s

sv

uz 中心と周辺の説明変数 (巾変換したもの)(a) 3群の判別

10 2, ,D D D 3群判別モデルのAICによる評価

22

中心区画への巾変換 近傍区画への巾変換 AIC

Raw

covariates1 1 - - 7276

Transformed

covariates0.288 0.614 - - 7181

Raw

covariates1 1 1 1 5050

Transformed

covariates0.202 -0.498 -0.399 0.952 3008

0 1 2| | 8538D D D∪ ∪ =

23

真のカテゴリ独立 & 巾変換 (0.21) 空間従属性 & 巾変換 (0.07)

の判別結果10 2, ,D D D

10 01 10

log ( ) ( ) ( )1

( ) * : ,

( ) :

( )

/ (1 ( 1) ), , ...

I( ) log( / ), ,

( ) :

( )

..

:

.

ss s s

s

s

N

Fs g N h R e

F

s

g N

R

c ss D

e

D

R

h R

c

δβ γ

β γ β

α

α

α αα

= + + +

+

− + +

=

>

+ スプラインスプ加法モデル の近傍区画からの影響回帰関数回帰関 ライン数空間従属性をもつ誤差

(b)D2 でのロジスティック-正規回帰モデル

24Tanaka & Nishii (IEEE TGRS, 2009)

Page 5: 概 要 Institute of Mathematics for Industry IMInishii/FujitsuWS/...3 データ例 N R 13 ≤ 目的変数,説明変数の強度 (1km 2) n=8538 14 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

5

自然3次スプライン関数

滑らかに接続した区分3次多項式パラメトリック回帰関数の候補where

4

1

1

2

2 3

1

12

2 3

3

3

( ) log( 1)

( )

( )1 exp( )

( ) {1 exp(

( )1 exp(

)}

( )

)

{1 exp( )}

b

a

b

a

a

b

g Nn

g N n n N

g N n

g Nn

g N n

g N n

β

β

β

α

α

β

β β

γ α

γ α

β

β β

=− ≡ +

=−

=−+ −

= −

= −

=−

+ −

1

2

4

2

1 3 1

12

2 3

13

2 3

( ) I( ) log( 1)

( ) exp( )

( )1 exp( )

( )1 exp

( ) I( ) log( )

( )

s

R

s

h R R R

h R e

h R

R

R

h RR

h R R

β

β

θ δ θ

β β

β

β β

β

β

θ δ

β

θ−

= > ⋅ − +

= −

=+ −

=

+

>

= ⋅

パラメトリック回帰関数によるモデルのAIC

Functions hs1 hs2 h1 h2 h3

g1a -10184.9 -10330.0 -8868.5 -8253.4 -9426.3

g1b(spatial)

-10260.9 -10431.5

(-10553.7)

-10328.3 -10089.4 -10306.8

g2a(spatial)

-10288.4 -10443.8

(-10557.4)

-10367.4 -9944.0 -10395.9

g2b(spatial)

-10288.7 -10445.6

(-10559.6)

-10368.9 -9989.3 -10403.3

g3a -10245.3 -10417.5 -10304.1 -10005.5 -10236.1

g3b -10248.2 -10422.7 -10343.6 -10114.1 -10264.9

3次スプライン関数によるAIC

Dependency θ ρ1 ρ2 σ2 AIC

θ = 0 independent 0 0 0 1.33750 -11257.6

logit 1st order 0 0.1725 0 1.18274 -11689.2

trans. 2nd order 0 0.1349 0.0616 1.18167 -11735.7

θ≠ 0 independent -0.02563 0 0 1.22728 -11314.7

p-logit 1st order -0.03257 0.1791 0 1.05031 -11789.4

transf. 2nd order -0.03297 0.1388 0.0634 1.04891 -11839.2パラメトリック非線形回帰関数を用いたモデルのAIC = -10559.6

推定された回帰関数

29

log(N+1) log(R+1)

Red →最良パラメトリック回帰関数Blue→最良スプライン回帰関数

g(N) h(R)

森林被覆率のモデル化:まとめ森林被覆率のモデル化:まとめ

• 尤度関数の分解(a) ロジスティック判別モデル(b) 拡張ロジスティックー正規回帰モデル

• (a)、 (b) いずれの場合も近傍の説明変数がモデルを大きく改良• いずれの場合も巾変換が有効•柔軟なスプライン関数、空間相関を考慮したモデルが

(b) を大きく改良

Page 6: 概 要 Institute of Mathematics for Industry IMInishii/FujitsuWS/...3 データ例 N R 13 ≤ 目的変数,説明変数の強度 (1km 2) n=8538 14 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

6

概 要

�マスフォアインダストリ研究所統計グループの紹介�時空間現象の統計モデリング環境データへの応用

(Zero-One Inflated Distribution)

�産学連携の共同研究の応用例・ARXモデル・Zero-Inflated Poisson 分布�産学連携についての雑感

31

ARXモデルとモデル選択車両走行の車線逸脱の予測モデル32

Mobileye C2-270 Daytime Lane Departure Warning - YouTube.flv� 目的変数:車両の車線逸脱量� 説明変数:車両の走向情報ドライバの運転情報ドライバの生体情報車線逸脱するときを2秒前に予測したい・予測モデルは?・どの説明変数をどれくらい前まで?

33

興味がある目的変数の領域

34

1 1

Auto-Regressive model with eXogeneous variables

( )

:

:

:

t

t t

p q

i j t

i

t

j

ji t

y

x

y y x−= =

−= + +∑ ∑

車線逸脱量説明変数(多次元) 予測モデル目的変数 一期先α β ε

� 逸脱度が大きいときの2秒先の予測力重視→ 最尤法(最小2乗法)から重み付き最小2乗法へ

� GICによるモデル選択� 共同論文 2009, 2010九大・マツダの共同特許を出願 (2011)

� 秦によるさらなる発展部品の品質保証

� Study Group での(株)富士通研からの問題Minimization of test costs and defect costs

2コの部品(部品ペア)を組み込んだ製品をテスト1回目:エラー率の大きい部品ペアを廃棄2回目:ペアを組み替え,エラー率の大きい部品ペアを廃棄問題:エラー率が閾値を超える部品が出荷される確率?

35

部品のエラー

数の分布

� 1回目 誤差ゼロの部品数 18274正 の部品数 5112

� 2回目 誤差ゼロの部品数 22903正 の部品数 48336

Page 7: 概 要 Institute of Mathematics for Industry IMInishii/FujitsuWS/...3 データ例 N R 13 ≤ 目的変数,説明変数の強度 (1km 2) n=8538 14 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

7

部品のエラー数の統計モデル

37

0

0 0

1

, 0

0

0

0

Bivariate Zero-Inflated (BZI)

( , ) ~ ( , | )

(( , ) (

, ) ( , )

( , ) ( 1,...,

, )) 0 ( , 0,1), 1

( , ) 2

( , )

( , )

)

ij ij

i i

i j

i

X Y f x y

P U V

X Y UX VY

x y

i j i j

X Y

iY

x

nX

θ

π π=

= = ≥ = =

=

=

: 分布例. が 次元ポアソン分布のときBZIP分布からの観測値: ケース1:完全データ (ケース2:

00 10 01

( , )

if ( )

, , ,

:

EM

if ( )

)

i

i

T Tx

T

I

I x

θ π π π

• • >

>   未 閾値知母数 アルケース ゴリズ(  いずれも によム3: り推定可能ZIP分布による周辺分布の推定

38

0 0

0 0

, ~ Poisson( )

( 0) 1 0.2186, ( 1)

, ~ Poisson( )

0.2186

0.0207 ( 0) 1 0.0207, ( 1)

4.205e+09

10 0.02073

9.636

36.15

30 0

X UX X

P U P U

Y VY Y

P V P V

=

= = − = =

=

= = − = =2回目のテストで 回の実験中 以上のエラーが起きる確率 以上のエラーが起きる確率 .02044

50 0.00372

70 2.9988e-6

100 5.0670e-15

以上のエラーが起きる確率 以上のエラーが起きる確率 以上のエラーが起きる確率概 要

�マスフォアインダストリ研究所統計グループの紹介�時空間現象の統計モデリング環境データへの応用

(Zero-One Inflated Distribution)

�産学連携の共同研究の応用例・ARXモデル・Zero-Inflated Poisson 分布�産学連携についての雑感

39

九州大学数理学研究院, IMIの歴史昭和昭和昭和昭和17171717年年年年~~~~ :::: 旧理学旧理学旧理学旧理学部数学科部数学科部数学科部数学科・・・・理学研究科数学専攻理学研究科数学専攻理学研究科数学専攻理学研究科数学専攻平成平成平成平成 6666 年年年年~~~~ :::: 大学院重点化大学院重点化大学院重点化大学院重点化 「数理学研究科」の発足「基幹数理部門」、「機能数理部門」平成平成平成平成12121212年年年年~~~~ :::: 学府学府学府学府・・・・研究院制度研究院制度研究院制度研究院制度 「数理学府」, 「数理学研究院」「数学部門」, 「数理科学部門」平成平成平成平成15151515年年年年~~~~20202020年年年年:::: 21212121世紀世紀世紀世紀COECOECOECOE 「機能数理学の構築と展開」平成平成平成平成19191919年年年年 :::: 産業産業産業産業技術数理研究技術数理研究技術数理研究技術数理研究センターセンターセンターセンター発足発足発足発足平成平成平成平成19191919年年年年~~~~22222222年年年年:::: 大学院大学院大学院大学院GPGPGPGP「産業技術が求める数学博士と新修士養成プログラム」平成平成平成平成20202020年年年年~~~~25252525年年年年: : : : グローバルグローバルグローバルグローバル COECOECOECOE「マス・フォア・インダストリ教育研究拠点」平成平成平成平成21212121年年年年~~~~ : 伊都キャンパスに移転平成平成平成平成22222222年年年年~~~~29292929年年年年: : : : 特別特別特別特別経費経費経費経費「大学院数学教育のインターナショナルスタンダード」平成平成平成平成23232323年年年年 : : : : Math Math Math Math for Industry for Industry for Industry for Industry 研究所研究所研究所研究所40

産学連携産学連携産学連携産学連携によるによるによるによる社会貢献社会貢献社会貢献社会貢献IMI数理学府 企業共共共共 同同同同 研研研研 究究究究•研究研究研究研究ののののNeeds, Seeds

•企業企業企業企業ののののノウハウノウハウノウハウノウハウ•数理的数理的数理的数理的ノウハウノウハウノウハウノウハウ•人材人材人材人材 (若手研究者若手研究者若手研究者若手研究者,,,,技術者技術者技術者技術者)近い将来• 社会的な知の創造• 福祉社会への貢献• 多方面への貢献

4142

共同研究共同研究共同研究共同研究ののののメリットメリットメリットメリット大学� 共同研究に動機付けられた論文作成� 院生への生きたデータ・問題の提供, アルバイト代企業� 企業が数理的アプローチの重要性を認識・手法の定着いろいろな現象に数理手法が使えるのではないかとの模索� 院生・PDのリクルート,少ない共同研究費(外国企業からソフト購入)双方� 特許の共同出願� インターン生やポスドクの就職 (多様なキャリアパス)社会貢献� 実用化されたときの貢献 (交通事故の減少、品質保証等)

Page 8: 概 要 Institute of Mathematics for Industry IMInishii/FujitsuWS/...3 データ例 N R 13 ≤ 目的変数,説明変数の強度 (1km 2) n=8538 14 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

8

43

共同研究共同研究共同研究共同研究ののののディメリットディメリットディメリットディメリット大学� 守秘義務により研究成果公開の遅れ,不可能� 共同研究の成果は必ずしも数学では評価されない� ポスドクの雇用期間終了後の処遇� プログラム完成後は数理の貢献が軽視される可能性� 長い作業時間契約締結,PDの雇用(入管), 出張や学内でのうちあわせ,中間・最終報告書の作成,過剰な要求 (作業見積もりができない)企業� 共同研究成果によるプログラムのエンドユーザー化� 費用対効果

共同研究共同研究共同研究共同研究をををを行行行行ってのってのってのっての感想感想感想感想

� 共同研究は異文化コミュニケーション(異種格闘技)異文化の価値観の尊重(物理モデル vs 統計モデル)用語、言語、常識の共有代数と幾何の専門家同士の共同研究とは全く異なる� コーディネーターが必須(特に産業側)産業:コミュニケ-ション能力数理的手法の理解力・評価力適応可能性に対する動物的勘数学:興味,コミュニケ-ション能力広範な数理的手法に明るく,自ら手法を提案できるか,適当な文献・専門家を紹介できる

44

産学連携産学連携産学連携産学連携によるによるによるによる企業貢献企業貢献企業貢献企業貢献からからからから社会貢献社会貢献社会貢献社会貢献へへへへ数学 産業数学数学数学数学とととと産業産業産業産業のののの連携研究所連携研究所連携研究所連携研究所行 政� 新しい数理学カルチャーの創出� 数理手法による企業貢献実用化による社会貢献

45

〒819-0395 福岡市西区元岡744九州大学 IMI西井龍映[email protected]

ごごごご静聴静聴静聴静聴ありがとうございましたありがとうございましたありがとうございましたありがとうございました。。。。