bagplot: 二変数の箱ひげ図 (kashiwar#9)
DESCRIPTION
Kashiwa.R#9 (2013年10月11日・東京大学駒場キャンパス) にてtsutatsutaの発表したスライドです.Bagplotという2変数の箱ひげ図のようなものの解説です.TRANSCRIPT
Bagplot: 二変数の箱ひげ図
Kashiwa.R#9
東京大学大学院新領域創成科学研究科
蔦谷匠2013-10-11
1第9回 Kashiwa.R 駒場キャンパスhttp://www14.atwiki.jp/kashiwar/pages/23.html
Kashiwa.RとはRの勉強会のひとつ
2011年11月より千葉県柏市周辺で活動 (今回で9回目)情報生命・生命科学系のユーザが多い
参加者・発表者募集中です!!開催情報はML (メーリングリスト) にて配信しています
2
http://www14.atwiki.jp/kashiwar/
#KashiwaR
質問など
自己紹介 3
蔦谷 匠 (つたや たくみ)東京大学・新領域・先端生命・D2生物学 → 会社員 → 人類学同位体分析, 子供, 古人骨
連絡先:– @tsutatsuta– tsutayatakumi[at]gmail.com
http://tsutatsuta.net/
内容 4
● 二変数のデータを図示する– 正規分布してる?
◯ Bagplotの原理– 二変数への「順位」の拡張
◯ RでBagplot– aplpackパッケージを利用
こんなときにBagplot・正規分布を仮定できない・変数のあいだに関連性がある
二変数のデータを図示する 5
まずはじめに一変数データの図示正規分布にしたがう場合は平均±1SDが一般的正規分布にしたがわなければ箱ひげ図
正規分布rnorm(1000)
対数分布rexp(1000) - 1
平均±1SD
箱ひげ
ヒストグラム
0.0 ± 1.00.0 ± 1.0
二変数のデータを図示する 6
二変数データの場合は…?
平均±1SD
x
y
平均±1SD
二変数のデータを図示する 7
正規分布が仮定できない場合「平均±1SD」は正しくない分布の形状・変数間の関連性がわからなくなってしまう
x
y
分布に偏り!?
相関がある!?
内容 8
◯ 二変数のデータを図示する– 正規分布してる?
● Bagplotの原理– 二変数への「順位」の拡張
◯ RでBagplot– aplpackパッケージを利用
こんなときにBagplot・正規分布を仮定できない・変数のあいだに関連性がある
Bagplotの原理 9
二変数への「順位」の拡張同じ順位に属する点から形成される層をつくっていく最も浅い層 (≒ 最大・最小) → 最も深い層 (≒ 中央値)
二変数データセットZ = {z1, z2, z3, ..., zn}
Bagplotの原理: 層の形成 10
ldepth(θ, Z)θを通る直線上および“左”にある点の最小個数等しいldepthの直線は閉じられたポリゴンを形成する
ldepth = 1に対応する直線
= 2 = 5
θZ中の任意の点θ
Bagplotの原理: 層の形成 11
ldepth(θ, Z) = 1θを通る直線上および“左”にある点の最小個数が1であるような点
ldepth = 1の層
Bagplotの原理: 層の形成 12
ldepth(θ, Z) = 2θを通る直線上および“左”にある点の最小個数が2であるような点
Bagplotの原理: 層の形成 13
ldepth(θ, Z) = 2θを通る直線上および“左”にある点の最小個数が2であるような点
ldepth = 2の層
Bagplotの原理: 層の形成 14
ldepth(θ, Z) = 3θを通る直線上および“左”にある点の最小個数が3であるような点
Bagplotの原理: 層の形成 15
ldepth(θ, Z) = 3θを通る直線上および“左”にある点の最小個数が3であるような点
ldepth = 3の層
Bagplotの原理: 層の形成 16
ldepth(θ, Z) = 4θを通る直線上および“左”にある点の最小個数が4であるような点
Bagplotの原理: 層の形成 17
ldepth(θ, Z) = 4θを通る直線上および“左”にある点の最小個数が4であるような点すべての点がいずれかの層に分類されたので終了
ldepth = 4の層
Bagplotの原理: 中央値“median”の設定 18
ldepth(θ, Z)が最大の最も深い層最大ldepthをもつθが一点に定まればその点が中央値そうでなければ最深層の重心が中央値
ldepth = 1
2
3
4
中央値
Bagplotの原理: 四分位範囲“bag”の設定 19
深度kの領域Dkに含まれる点の数#Dk#Dk ≦ [n/2] < #Dk-1 にあたる層が四分位範囲ちなみに, Dk-1 は Dk に含まれる
#Dk = 14
9
5
2
n/2 = 7
Bagplotの原理: 四分位範囲“bag”の設定 20
深度kの領域Dkに含まれる点の数#DkDkとDk-1を点の数に応じた比率で分ける範囲
#D2 = 9
#D3 = 5
(7 - 5) : (9 - 7) の点
Bagplotの原理: 四分位範囲“bag”の設定 21
深度kの領域Dkに含まれる点の数#DkDkとDk-1を点の数に応じた比率で分ける範囲
四分位範囲“Bag”
Bagplotの原理: 最大小値“fence”の設定 22
最大・最小値: 四分位範囲の3倍まで
四分位範囲“Bag”
中央値“Median”
その領域の外は外れ値“Outlier”
Bagplotの原理: 最大小値“fence”の設定 23
最大・最小値: 四分位範囲の3倍まで
四分位範囲“Bag”
中央値“Median”
四分位範囲の3倍
最大最小範囲“Fence”
外れ値以外の点をつないだ領域が新たなFenceになる
内容 24
◯ 二変数のデータを図示する– 正規分布してる?
◯ Bagplotの原理– 二変数への「順位」の拡張
● RでBagplot– aplpackパッケージを利用
こんなときにBagplot・正規分布を仮定できない・変数のあいだに関連性がある
RでBagplot 25
aplpackパッケージを使いましょう詳細は ?bagplot を見てくださいね〜
x
y
RでBagplot 26
分布の形状や変数の関連性がある程度わかる図の表し方も自由にできる (領域に色をつける, 点の形を変える, ...)
x
y
四分位範囲“Bag”
中央値“Median”
最大最小範囲“Fence”外れ値“Outlier”
RでBagplot 27
使いどころは…?生データだとごちゃごちゃするし平均±1SDも正しくない…など
未発表データ
参考文献 28
Rousseeuw PJ, Ruts I, and Tukey JW. 1999. The bagplot: a bivariate boxplot. Am. Stat. 53:37–41.
→ S-PlusとMATLABでBagplotのコードを作った
Tukey JW. 1975. Mathematics and the picturing of data. Proc Int Congr Math 2:523–532.
→ Bagplotの原理を考えた
こんなときにBagplot・正規分布を仮定できない・変数のあいだに関連性がある