lassoにおける 半解析的ブートストラップ法と そ …neutral variables 3 citric acid...
TRANSCRIPT
![Page 1: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/1.jpg)
LASSOにおける半解析的ブートストラップ法と
それを用いた現実的な変数選択法
小渕智之, 樺島祥介東工大 情報理工
![Page 2: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/2.jpg)
背景:統計的推定
• データ(インプット:x,アウトプット:y)
• 真のモデル(unknown) vs推定モデル(withパラメータ:w)
• 統計的推定(sは何らかの数学的操作)
y = f(x) y = f(x;w)
• 推定値はどのくらい``信頼’’できるのか?– データのランダムネスに対してどのくらいゆらぐか
• データを何度も取り直す←難しい場合も...→ブートストラップ法
:推定値
DM = {(x1, y1), (x2, y2), · · · (xM , yM )}
w(DM ) = s(DM ; y = f(x;w))
vs
![Page 3: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/3.jpg)
“pulloneselfoverafencebyone'sbootstraps”,USadynaton
背景:ブートストラップ法
• ブートストラップ法– 今あるデータをリサンプリングして新しいデータセットを作る
概要
Pemp x, y( ) = 1M
δ x − xµ( )δ y − yµ( )µ=1
M
∑サイズMBのリサンプリング (データ点の重複OK)
推定
経験分布
DM = {(x1, y1), (x2, y2), · · · (xM , yM )}
D(b)MB
=n
(x(b)1 , y(b)1 ), (x(b)
2 , y(b)2 ), · · · , (x(b)MB
, y(b)MB)o
{w(b)}Bb=1:ヒストグラム繰り返しw(b) = s(D(b)
MB)
![Page 4: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/4.jpg)
ブートストラップ法の問題点と今回の研究
• 問題点– 繰り返しに計算量がかかる– ブートストラップサンプル数Bの有限性に起因する誤差
• 今回の研究内容– リサンプリングを半解析的に行うことで上記問題を解決• レプリカ法(+Cavity法による近似)
– それを利用し現実的な変数選択法を提案• Stabilityselectionを利用(後述)
{w(b)}Bb=1:ヒストグラム繰り返しw(b) = s(D(b)
MB)
![Page 5: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/5.jpg)
Outline
• BootstrapinLASSO• Semi-analyticresamplingusingreplica+cavity• Applicationto“stabilityselection”• Summary
5/31
![Page 6: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/6.jpg)
LASSO
ELASSO w λ,D( ) = 12 yµ − xµiwii=1
N
∑⎛⎝⎜
⎞⎠⎟
2
+ λ wii=1
N
∑µ=1
M
∑
MN
y ~
D = xµ , yµ( ){ }µ=1
M
Parameter w
ExplanatoryvariablesObjectivevariable
Inference/learning
! w x1⊤
x2⊤
xM⊤
6/31
![Page 7: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/7.jpg)
BootstrapinLASSO
D4 = x1, y1( ), x2, y2( ), x3, y3( ), x4 , y4( ){ }
Ex)
D*4 = x2, y2( ), x3, y3( ), x2, y2( ), x4 , y4( ){ }
Descriptionofbootstrapsamplesó Countinghowmanytimeseachpairisresampled
c = c1,c2,c3,c4( ) = 0,2,1,1( )
Resampling
#sofresampledtimes
0 2 1 1
MB = M=4( )Bootstrapsample
Originalsample
7/31
![Page 8: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/8.jpg)
• #sofresampledtimesfollowmultinomialdistribution→ Productofindependent Poissondistribution
P c( ) = MB( )!
c1!c2 !…cM !1M
⎛⎝
⎞⎠
MB Stirling's formulafor M ,MB≫1⎯ →⎯⎯⎯⎯ e
−MBM
MB
M⎛⎝
⎞⎠
cµ
cµ !µ=1
M
∏
BootstrappedDataandStatisticalMechanicalFormulation
![Page 9: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/9.jpg)
BootstrappedDataandStatisticalMechanicalFormulation
• #sofresampledtimesfollowmultinomialdistribution→ Productofindependent Poissondistribution
• Statisticalmechanicsassessmentofthebootstrapaverage P c( ) = MB( )!
c1!c2 !…cM !1M
⎛⎝
⎞⎠
MB Stirling's formulafor M ,MB≫1⎯ →⎯⎯⎯⎯ e
−MBM
MB
M⎛⎝
⎞⎠
cµ
cµ !µ=1
M
∏
• Boltzmanndistribution
E
BSLASSO(w|�, Dc) =
1
2
MX
µ=1
cµ
yµ �
NX
i=1
xµiwi
!2
+ �
NX
i=1
|wi|
Z =
Zdw e��EBS
LASSO(w|�,Dc)
P (w|�, Dc) =1
Ze��EBS
LASSO(w|�,Dc) �!1����! �(w � w(�, Dc))
![Page 10: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/10.jpg)
• Inferenceproblemofasinglesampleinstabilityselection
• Replicaexpressionofr-th bootstrapmomentofestimator
[wri (�, Dc)]c,� =
"1
Zr(�, Dc)
Z (rY
a=1
dwa wai P0(w
a|�)P (Dc|wa)
)#
c,�
= limn!0
"Zn�r(�, Dc)
Z (rY
a=1
dwa wai P0(w
a|�)P (Dc|wa)
)#
c,�
.= lim
n!0
"Z (nY
b=1
dwb
)(rY
a=1
wai
)(nY
b=1
P0(wb|�)P (Dc|wb)
)#
c,�
.
[· · ·]c: expectationw.r.t. resampling[· · ·]�: expectationw.r.t.λ
Replicatrick(+cavitymethod)
P w λ,Dc( ) = 1ZP0 w λ( )P Dc w( )
10/31
BootstrapAverageandReplicaMethod
![Page 11: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/11.jpg)
• Employthecavitymethodforn-replicatedsystemforn=1,2,…
P w c( ) ∝ e−βcµ yµ −xµ ⋅w( )2
2 ×µ=1
τM
∏ e−βλ wii=1
N
∏
P w1,w2,…,wn( ) = Trc
P wa c( )a=1
n
∏⎛⎝⎜⎞⎠⎟P c( ) ∝ e
−βcµ yµ −xµ ⋅w
a( )22
a=1
n
∏⎡
⎣⎢⎢
⎤
⎦⎥⎥cµ
×µ=1
τM
∏ e−βλ wia
a=1
n
∏i=1
N
∏
n-replication+ bootstrapaverage
Boltzmann-dist forabootstrapsample
BootstrapAverageandReplicaMethod
![Page 12: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/12.jpg)
• Employthecavitymethodforn-replicatedsystemforn=1,2,…
P w c( ) ∝ e−βcµ yµ −xµ ⋅w( )2
2 ×µ=1
τM
∏ e−βλ wii=1
N
∏
P w1,w2,…,wn( ) = Trc
P wa c( )a=1
n
∏⎛⎝⎜⎞⎠⎟P c( ) ∝ e
−βcµ yµ −xµ ⋅w
a( )22
a=1
n
∏⎡
⎣⎢⎢
⎤
⎦⎥⎥cµ
×µ=1
τM
∏ e−βλ wia
a=1
n
∏i=1
N
∏
n-replication+ bootstrapaverage
Boltzmann-dist forabootstrapsample
e−βcµ yµ −xµ ⋅w( )2
2
e−βλ wi
wi
e−βcµ yµ −xµ ⋅w
a( )22
a=1
n
∏⎡
⎣⎢⎢
⎤
⎦⎥⎥cµ
wia{ }a=1
n
e−βλ wia
a=1
n
∏
n-replication+ bootstrapaverage
Ec1!( ) Ec2
!( )
12/31
BootstrapAverageandReplicaMethod
![Page 13: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/13.jpg)
Cavitymethod(orBeliefpropagation)
• Horizontalstep
• Verticalstep
• Belief
mµ→i wi1,wi
2,…,win( ) = α µ→i e
−βcµ yµ −xµ ⋅w
a( )22
a=1
n
∏⎡
⎣⎢⎢
⎤
⎦⎥⎥cµ
mj→µ wj1,wj
2,…,wjn( ) dwj
a
j≠i,a∏
j≠i∏∫
mi→µ wi1,wi
2,…,win( ) = α i→µ
a=1
n
∏e−βλ wia
mν→iν≠µ∏ wi
1,wi2,…,wi
n( )
bi wi1,wi
2,…,win( ) = α i
a=1
n
∏e−βλ wia
mµ→i wi1,wi
2,…,win( )
µ=1
M
∏
13/31
![Page 14: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/14.jpg)
RSansatz andanalyticalcontinuation
• Parameterize themessagesinthefollowingformemployingthereplicasymmetricansatz (+centrallimittheorem)
• Deriveanalgorithmforupdatingthesetofparameters inthelimitofanalyticallycontinuingtheresultingexpressiontorealn.
mi→µ wi1,wi
2,…,win( )
∝ exp −βAi→µ
2wi
a( )2a=1
n
∑ +β 2Ci→µ
2wi
a
a=1
n
∑⎛⎝⎜⎞⎠⎟
2
+ βBi→µ wia
a=1
n
∑ − βλ wia
a=1
n
∑⎛
⎝⎜
⎞
⎠⎟
= dze− z
2
2
2πexp β −
Ai→µ
2wi
a( )2 + Bi→µ + Ci→µ z − sgn wia( )( )wi
a⎛⎝⎜
⎞⎠⎟
⎛⎝⎜
⎞⎠⎟a=1
n
∏∫
n→ 0,β → ∞
14/31
![Page 15: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/15.jpg)
AlgorithmdevelopedunderRSansatz
wi = Sλ Bi + Ci z;Ai( )Dz∫χ i =
∂∂Bi
Sλ Bi + Ci z;Ai( )Dz∫Wi = Sλ Bi + Ci z;Ai( )( )2
Dz − wi2∫
Vµ = xµi2 χ i
i=1
N
∑Uµ = xµi
2Wi i=1
N
∑
aµ = c1+ cVµ
⎡
⎣⎢
⎤
⎦⎥c
yµ − xµiwii=1
N
∑ +Vµaµ⎛⎝⎜
⎞⎠⎟
Rµ = aµc
1+ cVµ
⎡
⎣⎢
⎤
⎦⎥c
Ai = xµi2 c1+ cVµ
⎡
⎣⎢
⎤
⎦⎥cµ=1
M
∑
Bi = xµiaµµ=1
M
∑ + Aiwi
Ci = xµi2
Uµc
1+ cVµ
⎛
⎝⎜⎞
⎠⎟
2⎡
⎣⎢⎢
⎤
⎦⎥⎥c
+
Rµ2 c
1+ cVµ
⎛
⎝⎜⎞
⎠⎟
2⎡
⎣⎢⎢
⎤
⎦⎥⎥c
− c1+ cVµ
⎡
⎣⎢
⎤
⎦⎥c
2⎛
⎝⎜⎜
⎞
⎠⎟⎟
⎛
⎝
⎜⎜⎜⎜⎜
⎞
⎠
⎟⎟⎟⎟⎟
µ=1
M
∑
Sλ h;A( )
λ−λ
h0
h − λ( ) A
h + λ( ) A
SoftthresholdBootstrapmean Bootstrapvariance
15/31
![Page 16: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/16.jpg)
Experimentalvalidation• N=1000,M=500,#ofnon-zerosintruesignalsK=200
Noisevarianceσ2=0.01,strengthofL1-penaltyλ=0.01
Onecanevaluateaccurateapproximatesofbootstrapmean/variancewithoutactuallyperformingresampling!
-5 0 5Semi analytic
-5
0
5
Experimental
0 0.2 0.4 0.6 0.8Semi analytic
0
0.2
0.4
0.6
0.8
Experimental
16/31
![Page 17: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/17.jpg)
StabilitySelection(SS)
• StabilitySelection(SS):LASSOにおける変数選択法– 基本アイデア1.ブートストラップ +λのランダム化による,推定値の分布を計算
2.分布から変数wiが非ゼロの確率Πi (陽性確率)を求める
3.Πiが大きければ有意,そうでなければ棄却
– 実装•
•
• 正則化付き線形回帰(LASSO)`1
w(DM ,�) = argminw
(1
2
MX
µ=1
�yµ � x
>µw
�2+
NX
i=1
�i|wi|)
P (�; p, a) =NY
i=1
{p�(�i � �/a) + (1� p)�(�i � �)}
MB = ⌧M
Meinshausen andBuhlmann,J.R.Statist.Soc.B(2010)
![Page 18: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/18.jpg)
StabilitySelection(SS)
• StabilityPath– 陽性確率Πi (λ)のλに対するプロット
Meinshausen andBuhlmann,J.R.Statist.Soc.B(2010)
赤:サポート内変数
a=1(norandom) a=0.5 a=0.2
• 人工データでの数値実験(M=N=200)青&黒:サポート外変数
• Stabilitypathに上手く閾値 (緑点線)を切ることで変数選択可– 偽陽性変数(青)が,λのランダム化で陰性化
相関あり
![Page 19: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/19.jpg)
StabilitySelection(SS)Meinshausen andBuhlmann,J.R.Statist.Soc.B(2010)
赤:サポート内変数
a=1(norandom) a=0.5 a=0.2
• 人工データでの数値実験(M=N=200)青&黒:サポート外変数
• Stabilitypathに上手く閾値 (緑点線)を切ることで変数選択可– 偽陽性変数(青)が,λのランダム化で陰性化
相関あり
Stabilitypathによる大域的情報により,ロバストな変数選択が出来る.しかし計算量がかかる.
↓半解析的リサンプリング
• StabilityPath– 陽性確率Πi (λ)のλに対するプロット
![Page 20: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/20.jpg)
数値実験1
y = Xw0 + ⇠
w0 ⇠Y
i
{⇢0N (·|0, 1/⇢0) + (1� ⇢0)�(w0i)}
• 人工データ
⇠ ⇠ N (0,�2⇠I) Xµi ⇠ N (0, 1/N),
• 半解析的 vs数値的リサンプリング– 半解析的:AMPRをMatlabでコーディング(not fast)– 数値的
• Glmnetを使用• Nsamp=1000サンプルから陽性確率を評価
• SSのパラメータ: a=τ=p=0.5に固定
![Page 21: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/21.jpg)
数値実験1• 人工データ
10-2 10-1 100 1010
0.2
0.4
0.6
0.8
1
Posi
tive
prob
abili
ties
102 103 104100
101
102
103
104
105
Tim
e (s
ec)
Stabilitypath 計算時間
{⇧i(�)}i2S
{⇧i(�)}i2Sc
TP:サポート変数集合 のq=14,86パーセンタイル点
FP:非サポート変数集合 のq=14,86パーセンタイル点
数値・半解析の同時プロット(ほぼ完全に一致)
(N=8000)
M=2N
![Page 22: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/22.jpg)
数値実験2
• Winequalitydataset– UCIMachinelearningrepositoryから– 目的変数:ワインの味10段階評価
• プロによるブラインドチェック,M=4898(白ワインのみ)– 説明変数:密度,酸度,糖度などの化学的性質,N=11
• 前処理として,ランダム説明変数(noise variable)をNnoise個追加
– zero-meanガウシアンからのi.i.d.:– 新しい信頼区間の定義
• NoisevariableのStabilitypath分布を利用
xµi ⇠ N (0, 1/N)
![Page 23: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/23.jpg)
数値実験2
• Winequalitydataset– UCIMachinelearningrepositoryから– 目的変数:ワインの味10段階評価
• プロによるブラインドチェック,M=4898(白ワインのみ)– 説明変数:密度,酸度,糖度などの化学的性質,N=11
xµi ⇠ N (0, 1/N)
• 前処理として,ランダム説明変数(noise variable)をNnoise個追加
– zero-meanガウシアンからのi.i.d.:– 新しい信頼区間の定義
• NoisevariableのStabilitypath分布を利用
Y X{M=4898
{N=11
⇡w
X XnoiseY⇡
{11 {Nnoise
N=11+Nnoise {w
![Page 24: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/24.jpg)
数値実験2• LASSOのSolution pathと交差検証誤差
10-1 100 101
0.55
0.6
0.65
0.7
0.75
0.8
CV er
ror
10-1 100 101
-20
-10
0
10
20
30
Coefficients
10-1 100 101
0.55
0.6
0.65
0.7
0.75
0.8
CV er
ror
10-1 100 101
-20
-10
0
10
20
30
Coefficients
• ノイズ変数によるバイアスは,誤差の最小値周辺では弱い
![Page 25: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/25.jpg)
数値実験2• LASSOのSolution pathと交差検証誤差
10-1 100 101
0.55
0.6
0.65
0.7
0.75
0.8
CV er
ror
10-1 100 101
-20
-10
0
10
20
30
Coefficients
• λの最良点で– i=1,2,4,5,6,10,11の変数が選ばれる
• Importantvariableと以下呼ぶ– i=3,7,8,9をneutralvariableと呼ぶ– i=12~700はランダムなnoise variable
• この区別の下,Stability pathを見る
λの最良値(One-sigma rule)
交差検証誤差の最小点
![Page 26: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/26.jpg)
数値実験2(Stabilitypath)
10-1 100 1010
0.2
0.4
0.6
0.8
1Neutral variables and 16% interval
3 citric acid7 total sulfur dioxide8 density9 pHFP (16%)
10-1 100 1010
0.2
0.4
0.6
0.8
1Neutral variables
3 citric acid7 total sulfur dioxide8 density9 pH
10-1 100 1010
0.2
0.4
0.6
0.8
1Important variables
1 fixed acidity2 volatile acidity4 residual sugar5 chlorides6 free sulfur dioxide10 sulphates11 alcohol
10-1 100 1010
0.2
0.4
0.6
0.8
1Noise variables
![Page 27: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/27.jpg)
数値実験2(Stabilitypath)
10-1 100 1010
0.2
0.4
0.6
0.8
1Neutral variables and 16% interval
3 citric acid7 total sulfur dioxide8 density9 pHFP (16%)
10-1 100 1010
0.2
0.4
0.6
0.8
1Neutral variables
3 citric acid7 total sulfur dioxide8 density9 pH
10-1 100 1010
0.2
0.4
0.6
0.8
1Important variables
1 fixed acidity2 volatile acidity4 residual sugar5 chlorides6 free sulfur dioxide10 sulphates11 alcohol
10-1 100 1010
0.2
0.4
0.6
0.8
1Noise variables
Noisevariables:誤差最小値を
すぎるまでほぼゼロ
Importantvariables:最良値周辺での早い立ち上がり
![Page 28: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/28.jpg)
数値実験2(Stabilitypath)
10-1 100 1010
0.2
0.4
0.6
0.8
1Neutral variables and 16% interval
3 citric acid7 total sulfur dioxide8 density9 pHFP (16%)
10-1 100 1010
0.2
0.4
0.6
0.8
1Neutral variables
3 citric acid7 total sulfur dioxide8 density9 pH
10-1 100 1010
0.2
0.4
0.6
0.8
1Important variables
1 fixed acidity2 volatile acidity4 residual sugar5 chlorides6 free sulfur dioxide10 sulphates11 alcohol
10-1 100 1010
0.2
0.4
0.6
0.8
1Noise variables
Noisevariableを使った棄却領域の導入
Neutralvariable:微妙な振る舞い...
Neutralのうち,i=8,9は有意そう.逆に3,7はnoisevariableの
棄却領域に飲み込まれてるので棄却すべきと判断
![Page 29: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/29.jpg)
数値実験2(Stabilitypath)
10-1 100 1010
0.2
0.4
0.6
0.8
1Neutral variables and 16% interval
3 citric acid7 total sulfur dioxide8 density9 pHFP (16%)
10-1 100 1010
0.2
0.4
0.6
0.8
1Neutral variables
3 citric acid7 total sulfur dioxide8 density9 pH
10-1 100 1010
0.2
0.4
0.6
0.8
1Important variables
1 fixed acidity2 volatile acidity4 residual sugar5 chlorides6 free sulfur dioxide10 sulphates11 alcohol
10-1 100 1010
0.2
0.4
0.6
0.8
1Noise variables
Noisevariableを使った棄却領域の導入
Neutralvariable:微妙な振る舞い...
Neutralのうち,i=8,9は有意そう.逆に3,7はnoisevariableの
棄却領域に飲み込まれてるので棄却すべきと判断
計算時間AMPR:1057sec.
数値サンプリング:2859sec.
あんまり得していないが,AMPRの実装がMatlabに対して,
GlmnetはCで書かれていることに注意
![Page 30: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/30.jpg)
まとめ2
• 半解析的ブートストラップ法+Stability Selectionによる現実的な変数選択法 inLASSOの提案.– AMPRアルゴリズム:O(NM)=普通のAMPと同じスケール– 計算量メリットを活かし,Noise variableを説明変数に足すことで,合理的な棄却領域を作り出すことを提案
• 人工・実データでの有用性の検証
• 今後の課題– 一般化線形モデル等他のモデルへの展開– より一般的な場合に使える近似手法の開発
• Cavity法では説明変数間のCorrelationを無視– StateevolutionによるAMPRの収束性に関する議論の補強
TOandYK, arXiv:1802.10254
![Page 31: LASSOにおける 半解析的ブートストラップ法と そ …Neutral variables 3 citric acid 7 total sulfur dioxide 8 density 9 pH 10-1 100 101 0 0.2 0.4 0.6 0.8 1 Important](https://reader034.vdocuments.net/reader034/viewer/2022042414/5f2f1f489751da1b8f5dc5ab/html5/thumbnails/31.jpg)
全体のまとめ
• 機械学習のトレンドとして,今後は信頼性・解釈性の評価がより重要になってくる(はず)
– 交差検証・仮説検定・信頼区間などが再度重要化– 数値的リサンプリングだけでは,データの大規模化+モデルの複雑化に対応できない
→リサンプリングを解析的に近似!
• 交差検証法・ブートストラップ法の解析的近似 inLASSO– データサイズMが大きくなくても(漸近領域でなくても)OK
• 今後の課題– 他のモデルへの展開(一般化線形モデルなど)– より一般的な近似手法の開発(説明変数間のCorrelation)