lassoにおける 半解析的ブートストラップ法と そ …neutral variables 3 citric acid...

31
LASSOにおける 半解析的ブートストラップ法と それを用いた現実的な変数選択法 小渕智之, 樺島祥介 東工大 情報理工

Upload: others

Post on 08-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

LASSOにおける半解析的ブートストラップ法と

それを用いた現実的な変数選択法

小渕智之, 樺島祥介東工大 情報理工

Page 2: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

背景:統計的推定

• データ(インプット:x,アウトプット:y)

• 真のモデル(unknown) vs推定モデル(withパラメータ:w)

• 統計的推定(sは何らかの数学的操作)

y = f(x) y = f(x;w)

• 推定値はどのくらい``信頼’’できるのか?– データのランダムネスに対してどのくらいゆらぐか

• データを何度も取り直す←難しい場合も...→ブートストラップ法

:推定値

DM = {(x1, y1), (x2, y2), · · · (xM , yM )}

w(DM ) = s(DM ; y = f(x;w))

vs

Page 3: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

“pulloneselfoverafencebyone'sbootstraps”,USadynaton

背景:ブートストラップ法

• ブートストラップ法– 今あるデータをリサンプリングして新しいデータセットを作る

概要

Pemp x, y( ) = 1M

δ x − xµ( )δ y − yµ( )µ=1

M

∑サイズMBのリサンプリング (データ点の重複OK)

推定

経験分布

DM = {(x1, y1), (x2, y2), · · · (xM , yM )}

D(b)MB

=n

(x(b)1 , y(b)1 ), (x(b)

2 , y(b)2 ), · · · , (x(b)MB

, y(b)MB)o

{w(b)}Bb=1:ヒストグラム繰り返しw(b) = s(D(b)

MB)

Page 4: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

ブートストラップ法の問題点と今回の研究

• 問題点– 繰り返しに計算量がかかる– ブートストラップサンプル数Bの有限性に起因する誤差

• 今回の研究内容– リサンプリングを半解析的に行うことで上記問題を解決• レプリカ法(+Cavity法による近似)

– それを利用し現実的な変数選択法を提案• Stabilityselectionを利用(後述)

{w(b)}Bb=1:ヒストグラム繰り返しw(b) = s(D(b)

MB)

Page 5: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

Outline

• BootstrapinLASSO• Semi-analyticresamplingusingreplica+cavity• Applicationto“stabilityselection”• Summary

5/31

Page 6: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

LASSO

ELASSO w λ,D( ) = 12 yµ − xµiwii=1

N

∑⎛⎝⎜

⎞⎠⎟

2

+ λ wii=1

N

∑µ=1

M

MN

y ~

D = xµ , yµ( ){ }µ=1

M

Parameter w

ExplanatoryvariablesObjectivevariable

Inference/learning

! w x1⊤

x2⊤

xM⊤

6/31

Page 7: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

BootstrapinLASSO

D4 = x1, y1( ), x2, y2( ), x3, y3( ), x4 , y4( ){ }

Ex)

D*4 = x2, y2( ), x3, y3( ), x2, y2( ), x4 , y4( ){ }

Descriptionofbootstrapsamplesó Countinghowmanytimeseachpairisresampled

c = c1,c2,c3,c4( ) = 0,2,1,1( )

Resampling

#sofresampledtimes

0 2 1 1

MB = M=4( )Bootstrapsample

Originalsample

7/31

Page 8: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

• #sofresampledtimesfollowmultinomialdistribution→ Productofindependent Poissondistribution

P c( ) = MB( )!

c1!c2 !…cM !1M

⎛⎝

⎞⎠

MB Stirling's formulafor M ,MB≫1⎯ →⎯⎯⎯⎯ e

−MBM

MB

M⎛⎝

⎞⎠

cµ !µ=1

M

BootstrappedDataandStatisticalMechanicalFormulation

Page 9: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

BootstrappedDataandStatisticalMechanicalFormulation

• #sofresampledtimesfollowmultinomialdistribution→ Productofindependent Poissondistribution

• Statisticalmechanicsassessmentofthebootstrapaverage P c( ) = MB( )!

c1!c2 !…cM !1M

⎛⎝

⎞⎠

MB Stirling's formulafor M ,MB≫1⎯ →⎯⎯⎯⎯ e

−MBM

MB

M⎛⎝

⎞⎠

cµ !µ=1

M

• Boltzmanndistribution

E

BSLASSO(w|�, Dc) =

1

2

MX

µ=1

yµ �

NX

i=1

xµiwi

!2

+ �

NX

i=1

|wi|

Z =

Zdw e��EBS

LASSO(w|�,Dc)

P (w|�, Dc) =1

Ze��EBS

LASSO(w|�,Dc) �!1����! �(w � w(�, Dc))

Page 10: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

• Inferenceproblemofasinglesampleinstabilityselection

• Replicaexpressionofr-th bootstrapmomentofestimator

[wri (�, Dc)]c,� =

"1

Zr(�, Dc)

Z (rY

a=1

dwa wai P0(w

a|�)P (Dc|wa)

)#

c,�

= limn!0

"Zn�r(�, Dc)

Z (rY

a=1

dwa wai P0(w

a|�)P (Dc|wa)

)#

c,�

.= lim

n!0

"Z (nY

b=1

dwb

)(rY

a=1

wai

)(nY

b=1

P0(wb|�)P (Dc|wb)

)#

c,�

.

[· · ·]c: expectationw.r.t. resampling[· · ·]�: expectationw.r.t.λ

Replicatrick(+cavitymethod)

P w λ,Dc( ) = 1ZP0 w λ( )P Dc w( )

10/31

BootstrapAverageandReplicaMethod

Page 11: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

• Employthecavitymethodforn-replicatedsystemforn=1,2,…

P w c( ) ∝ e−βcµ yµ −xµ ⋅w( )2

2 ×µ=1

τM

∏ e−βλ wii=1

N

P w1,w2,…,wn( ) = Trc

P wa c( )a=1

n

∏⎛⎝⎜⎞⎠⎟P c( ) ∝ e

−βcµ yµ −xµ ⋅w

a( )22

a=1

n

∏⎡

⎣⎢⎢

⎦⎥⎥cµ

×µ=1

τM

∏ e−βλ wia

a=1

n

∏i=1

N

n-replication+ bootstrapaverage

Boltzmann-dist forabootstrapsample

BootstrapAverageandReplicaMethod

Page 12: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

• Employthecavitymethodforn-replicatedsystemforn=1,2,…

P w c( ) ∝ e−βcµ yµ −xµ ⋅w( )2

2 ×µ=1

τM

∏ e−βλ wii=1

N

P w1,w2,…,wn( ) = Trc

P wa c( )a=1

n

∏⎛⎝⎜⎞⎠⎟P c( ) ∝ e

−βcµ yµ −xµ ⋅w

a( )22

a=1

n

∏⎡

⎣⎢⎢

⎦⎥⎥cµ

×µ=1

τM

∏ e−βλ wia

a=1

n

∏i=1

N

n-replication+ bootstrapaverage

Boltzmann-dist forabootstrapsample

e−βcµ yµ −xµ ⋅w( )2

2

e−βλ wi

wi

e−βcµ yµ −xµ ⋅w

a( )22

a=1

n

∏⎡

⎣⎢⎢

⎦⎥⎥cµ

wia{ }a=1

n

e−βλ wia

a=1

n

n-replication+ bootstrapaverage

Ec1!( ) Ec2

!( )

12/31

BootstrapAverageandReplicaMethod

Page 13: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

Cavitymethod(orBeliefpropagation)

• Horizontalstep

• Verticalstep

• Belief

mµ→i wi1,wi

2,…,win( ) = α µ→i e

−βcµ yµ −xµ ⋅w

a( )22

a=1

n

∏⎡

⎣⎢⎢

⎦⎥⎥cµ

mj→µ wj1,wj

2,…,wjn( ) dwj

a

j≠i,a∏

j≠i∏∫

mi→µ wi1,wi

2,…,win( ) = α i→µ

a=1

n

∏e−βλ wia

mν→iν≠µ∏ wi

1,wi2,…,wi

n( )

bi wi1,wi

2,…,win( ) = α i

a=1

n

∏e−βλ wia

mµ→i wi1,wi

2,…,win( )

µ=1

M

13/31

Page 14: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

RSansatz andanalyticalcontinuation

• Parameterize themessagesinthefollowingformemployingthereplicasymmetricansatz (+centrallimittheorem)

• Deriveanalgorithmforupdatingthesetofparameters inthelimitofanalyticallycontinuingtheresultingexpressiontorealn.

mi→µ wi1,wi

2,…,win( )

∝ exp −βAi→µ

2wi

a( )2a=1

n

∑ +β 2Ci→µ

2wi

a

a=1

n

∑⎛⎝⎜⎞⎠⎟

2

+ βBi→µ wia

a=1

n

∑ − βλ wia

a=1

n

∑⎛

⎝⎜

⎠⎟

= dze− z

2

2

2πexp β −

Ai→µ

2wi

a( )2 + Bi→µ + Ci→µ z − sgn wia( )( )wi

a⎛⎝⎜

⎞⎠⎟

⎛⎝⎜

⎞⎠⎟a=1

n

∏∫

n→ 0,β → ∞

14/31

Page 15: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

AlgorithmdevelopedunderRSansatz

wi = Sλ Bi + Ci z;Ai( )Dz∫χ i =

∂∂Bi

Sλ Bi + Ci z;Ai( )Dz∫Wi = Sλ Bi + Ci z;Ai( )( )2

Dz − wi2∫

Vµ = xµi2 χ i

i=1

N

∑Uµ = xµi

2Wi i=1

N

aµ = c1+ cVµ

⎣⎢

⎦⎥c

yµ − xµiwii=1

N

∑ +Vµaµ⎛⎝⎜

⎞⎠⎟

Rµ = aµc

1+ cVµ

⎣⎢

⎦⎥c

Ai = xµi2 c1+ cVµ

⎣⎢

⎦⎥cµ=1

M

Bi = xµiaµµ=1

M

∑ + Aiwi

Ci = xµi2

Uµc

1+ cVµ

⎝⎜⎞

⎠⎟

2⎡

⎣⎢⎢

⎦⎥⎥c

+

Rµ2 c

1+ cVµ

⎝⎜⎞

⎠⎟

2⎡

⎣⎢⎢

⎦⎥⎥c

− c1+ cVµ

⎣⎢

⎦⎥c

2⎛

⎝⎜⎜

⎠⎟⎟

⎜⎜⎜⎜⎜

⎟⎟⎟⎟⎟

µ=1

M

Sλ h;A( )

λ−λ

h0

h − λ( ) A

h + λ( ) A

SoftthresholdBootstrapmean Bootstrapvariance

15/31

Page 16: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

Experimentalvalidation• N=1000,M=500,#ofnon-zerosintruesignalsK=200

Noisevarianceσ2=0.01,strengthofL1-penaltyλ=0.01

Onecanevaluateaccurateapproximatesofbootstrapmean/variancewithoutactuallyperformingresampling!

-5 0 5Semi analytic

-5

0

5

Experimental

0 0.2 0.4 0.6 0.8Semi analytic

0

0.2

0.4

0.6

0.8

Experimental

16/31

Page 17: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

StabilitySelection(SS)

• StabilitySelection(SS):LASSOにおける変数選択法– 基本アイデア1.ブートストラップ +λのランダム化による,推定値の分布を計算

2.分布から変数wiが非ゼロの確率Πi (陽性確率)を求める

3.Πiが大きければ有意,そうでなければ棄却

– 実装•

• 正則化付き線形回帰(LASSO)`1

w(DM ,�) = argminw

(1

2

MX

µ=1

�yµ � x

>µw

�2+

NX

i=1

�i|wi|)

P (�; p, a) =NY

i=1

{p�(�i � �/a) + (1� p)�(�i � �)}

MB = ⌧M

Meinshausen andBuhlmann,J.R.Statist.Soc.B(2010)

Page 18: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

StabilitySelection(SS)

• StabilityPath– 陽性確率Πi (λ)のλに対するプロット

Meinshausen andBuhlmann,J.R.Statist.Soc.B(2010)

赤:サポート内変数

a=1(norandom) a=0.5 a=0.2

• 人工データでの数値実験(M=N=200)青&黒:サポート外変数

• Stabilitypathに上手く閾値 (緑点線)を切ることで変数選択可– 偽陽性変数(青)が,λのランダム化で陰性化

相関あり

Page 19: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

StabilitySelection(SS)Meinshausen andBuhlmann,J.R.Statist.Soc.B(2010)

赤:サポート内変数

a=1(norandom) a=0.5 a=0.2

• 人工データでの数値実験(M=N=200)青&黒:サポート外変数

• Stabilitypathに上手く閾値 (緑点線)を切ることで変数選択可– 偽陽性変数(青)が,λのランダム化で陰性化

相関あり

Stabilitypathによる大域的情報により,ロバストな変数選択が出来る.しかし計算量がかかる.

↓半解析的リサンプリング

• StabilityPath– 陽性確率Πi (λ)のλに対するプロット

Page 20: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験1

y = Xw0 + ⇠

w0 ⇠Y

i

{⇢0N (·|0, 1/⇢0) + (1� ⇢0)�(w0i)}

• 人工データ

⇠ ⇠ N (0,�2⇠I) Xµi ⇠ N (0, 1/N),

• 半解析的 vs数値的リサンプリング– 半解析的:AMPRをMatlabでコーディング(not fast)– 数値的

• Glmnetを使用• Nsamp=1000サンプルから陽性確率を評価

• SSのパラメータ: a=τ=p=0.5に固定

Page 21: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験1• 人工データ

10-2 10-1 100 1010

0.2

0.4

0.6

0.8

1

Posi

tive

prob

abili

ties

102 103 104100

101

102

103

104

105

Tim

e (s

ec)

Stabilitypath 計算時間

{⇧i(�)}i2S

{⇧i(�)}i2Sc

TP:サポート変数集合 のq=14,86パーセンタイル点

FP:非サポート変数集合 のq=14,86パーセンタイル点

数値・半解析の同時プロット(ほぼ完全に一致)

(N=8000)

M=2N

Page 22: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験2

• Winequalitydataset– UCIMachinelearningrepositoryから– 目的変数:ワインの味10段階評価

• プロによるブラインドチェック,M=4898(白ワインのみ)– 説明変数:密度,酸度,糖度などの化学的性質,N=11

• 前処理として,ランダム説明変数(noise variable)をNnoise個追加

– zero-meanガウシアンからのi.i.d.:– 新しい信頼区間の定義

• NoisevariableのStabilitypath分布を利用

xµi ⇠ N (0, 1/N)

Page 23: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験2

• Winequalitydataset– UCIMachinelearningrepositoryから– 目的変数:ワインの味10段階評価

• プロによるブラインドチェック,M=4898(白ワインのみ)– 説明変数:密度,酸度,糖度などの化学的性質,N=11

xµi ⇠ N (0, 1/N)

• 前処理として,ランダム説明変数(noise variable)をNnoise個追加

– zero-meanガウシアンからのi.i.d.:– 新しい信頼区間の定義

• NoisevariableのStabilitypath分布を利用

Y X{M=4898

{N=11

⇡w

X XnoiseY⇡

{11 {Nnoise

N=11+Nnoise {w

Page 24: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験2• LASSOのSolution pathと交差検証誤差

10-1 100 101

0.55

0.6

0.65

0.7

0.75

0.8

CV er

ror

10-1 100 101

-20

-10

0

10

20

30

Coefficients

10-1 100 101

0.55

0.6

0.65

0.7

0.75

0.8

CV er

ror

10-1 100 101

-20

-10

0

10

20

30

Coefficients

• ノイズ変数によるバイアスは,誤差の最小値周辺では弱い

Page 25: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験2• LASSOのSolution pathと交差検証誤差

10-1 100 101

0.55

0.6

0.65

0.7

0.75

0.8

CV er

ror

10-1 100 101

-20

-10

0

10

20

30

Coefficients

• λの最良点で– i=1,2,4,5,6,10,11の変数が選ばれる

• Importantvariableと以下呼ぶ– i=3,7,8,9をneutralvariableと呼ぶ– i=12~700はランダムなnoise variable

• この区別の下,Stability pathを見る

λの最良値(One-sigma rule)

交差検証誤差の最小点

Page 26: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験2(Stabilitypath)

10-1 100 1010

0.2

0.4

0.6

0.8

1Neutral variables and 16% interval

3 citric acid7 total sulfur dioxide8 density9 pHFP (16%)

10-1 100 1010

0.2

0.4

0.6

0.8

1Neutral variables

3 citric acid7 total sulfur dioxide8 density9 pH

10-1 100 1010

0.2

0.4

0.6

0.8

1Important variables

1 fixed acidity2 volatile acidity4 residual sugar5 chlorides6 free sulfur dioxide10 sulphates11 alcohol

10-1 100 1010

0.2

0.4

0.6

0.8

1Noise variables

Page 27: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験2(Stabilitypath)

10-1 100 1010

0.2

0.4

0.6

0.8

1Neutral variables and 16% interval

3 citric acid7 total sulfur dioxide8 density9 pHFP (16%)

10-1 100 1010

0.2

0.4

0.6

0.8

1Neutral variables

3 citric acid7 total sulfur dioxide8 density9 pH

10-1 100 1010

0.2

0.4

0.6

0.8

1Important variables

1 fixed acidity2 volatile acidity4 residual sugar5 chlorides6 free sulfur dioxide10 sulphates11 alcohol

10-1 100 1010

0.2

0.4

0.6

0.8

1Noise variables

Noisevariables:誤差最小値を

すぎるまでほぼゼロ

Importantvariables:最良値周辺での早い立ち上がり

Page 28: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験2(Stabilitypath)

10-1 100 1010

0.2

0.4

0.6

0.8

1Neutral variables and 16% interval

3 citric acid7 total sulfur dioxide8 density9 pHFP (16%)

10-1 100 1010

0.2

0.4

0.6

0.8

1Neutral variables

3 citric acid7 total sulfur dioxide8 density9 pH

10-1 100 1010

0.2

0.4

0.6

0.8

1Important variables

1 fixed acidity2 volatile acidity4 residual sugar5 chlorides6 free sulfur dioxide10 sulphates11 alcohol

10-1 100 1010

0.2

0.4

0.6

0.8

1Noise variables

Noisevariableを使った棄却領域の導入

Neutralvariable:微妙な振る舞い...

Neutralのうち,i=8,9は有意そう.逆に3,7はnoisevariableの

棄却領域に飲み込まれてるので棄却すべきと判断

Page 29: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

数値実験2(Stabilitypath)

10-1 100 1010

0.2

0.4

0.6

0.8

1Neutral variables and 16% interval

3 citric acid7 total sulfur dioxide8 density9 pHFP (16%)

10-1 100 1010

0.2

0.4

0.6

0.8

1Neutral variables

3 citric acid7 total sulfur dioxide8 density9 pH

10-1 100 1010

0.2

0.4

0.6

0.8

1Important variables

1 fixed acidity2 volatile acidity4 residual sugar5 chlorides6 free sulfur dioxide10 sulphates11 alcohol

10-1 100 1010

0.2

0.4

0.6

0.8

1Noise variables

Noisevariableを使った棄却領域の導入

Neutralvariable:微妙な振る舞い...

Neutralのうち,i=8,9は有意そう.逆に3,7はnoisevariableの

棄却領域に飲み込まれてるので棄却すべきと判断

計算時間AMPR:1057sec.

数値サンプリング:2859sec.

あんまり得していないが,AMPRの実装がMatlabに対して,

GlmnetはCで書かれていることに注意

Page 30: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

まとめ2

• 半解析的ブートストラップ法+Stability Selectionによる現実的な変数選択法 inLASSOの提案.– AMPRアルゴリズム:O(NM)=普通のAMPと同じスケール– 計算量メリットを活かし,Noise variableを説明変数に足すことで,合理的な棄却領域を作り出すことを提案

• 人工・実データでの有用性の検証

• 今後の課題– 一般化線形モデル等他のモデルへの展開– より一般的な場合に使える近似手法の開発

• Cavity法では説明変数間のCorrelationを無視– StateevolutionによるAMPRの収束性に関する議論の補強

TOandYK, arXiv:1802.10254

Page 31: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important

全体のまとめ

• 機械学習のトレンドとして,今後は信頼性・解釈性の評価がより重要になってくる(はず)

– 交差検証・仮説検定・信頼区間などが再度重要化– 数値的リサンプリングだけでは,データの大規模化+モデルの複雑化に対応できない

→リサンプリングを解析的に近似!

• 交差検証法・ブートストラップ法の解析的近似 inLASSO– データサイズMが大きくなくても(漸近領域でなくても)OK

• 今後の課題– 他のモデルへの展開(一般化線形モデルなど)– より一般的な近似手法の開発(説明変数間のCorrelation)