データをうまくまとめるにはngtskk.xii.jp/a02_data.pdf本日のテーマ...
TRANSCRIPT
2.データをうまくまとめるには
講師:赤城病院 副院長
群馬大学医学部 医学統計学講師(非常勤)
藤田 晴康
平成25年度 新潟精神看護研究会 秋季研修会
1
本日のテーマ
1.データの分類
2.データを簡単にまとめる
(1変数の場合)
特に,代表値と散布度
3.2変数を合わせてまとめる
~ここまでのクイズ~
4.推定と検定【略】
5.まとめたデータから解析手法へ
2
1.データの分類を知ろう
3
尺度による分類
分類(水準) 例 別分類
名義尺度 職業・性別・背番号・診断名 質的データ
(カテゴリカル・データ)
順序尺度 服のサイズ(L・M・S)
薬効(悪化・無効・有効・著効)
間隔尺度 摂氏~華氏の温度・暦年
量的データ
比尺度 長さ・重さ・濃度・人数・
絶対温度 4
どの教科書にも登場する
この分類の特徴
分類(水準) 例 別分類
名義尺度 職業・性別・背番号・診断名 質的データ
(カテゴリカル・データ)
順序尺度 服のサイズ(L・M・S)
薬効(悪化・無効・有効・著効)
間隔尺度 摂氏~華氏の温度・暦年
量的データ
比尺度 長さ・重さ・濃度・人数・
絶対温度
(1)下に行くほど情報量が多い (2)下から上への変換可だが, 逆は不可 「155,167,184」→「低,中,高」
解析実務上まとめてよいことが多い 「間隔尺度以上」と よぶ
5
「質的データ」とは数え上げて解析するデータ 「質的研究」とは別
問.順序尺度の差や比は?
質問票の回答データで
1. 少ない 2. 中程度 3. 多い
この1,2,3は「量」ではない 1と2,2と3の間が等しいとは限らない 解析に工夫が必要
量データを順位に変換して解析することあり (2.4,3.6,1.7,3.8)⇒(2,3,1,4)
小さい方から2位,3位,1位,… 6
別の分類
連続量(実数で)/離散量(整数で)
二値データ(0-1データ):男女,生死等
循環するデータ:じゃんけん(グー・チョキ・パー)や12~24時間制の時刻
7
2.データを簡単にまとめる (1変数のまとめ)
8
健診結果の例
どのようなデータか? 簡約表現できるか?
9
1)カテゴリカルデータ(分類)の場合
まず数え上げる:集計
割合を求める
2)量的データ(連続量)の場合
グラフ化
指標計算
(中心とばらつき )
データをまとめる基本
AB
O
B
A
10
図はこんなふうに見て下さい
正規分布の場合
分布
実データ
表示
11
問.棒グラフとヒストグラムの違い
棒グラフ ヒストグラム
棒の間が空いている? 棒が接している?
12
2つのグラフが異なるとき
階級の幅が等しい場合同じに見えるが…
階級の幅が等しくない場合は,下記のように異なる
13
40 50 60 70才代 40 50 60 70才
+80才代
横軸が問題!
棒グラフ ヒストグラム
分類・離散量 連続量
14
【注意】ばらつき・歪み・偏り
ばらつきが大きい
歪みが大きい
偏りがある
15
アメリカの高校の問題
問.次の分布の形を言葉で表してください
a) b)
答.a)Approximately normal with an outlier ほぼ正規分布しているが,はずれ値あり b)Bi-modal, somewhat skewed to the left 二峰性で,やや左に歪んでいる
16
2-1.分布の中心(代表値)
17
中心の位置とばらつきの程度
がわかればよい
量的データを 2つの指標でまとめる!
▲ 値
頻度
18
問.平均値の欠点は?
分布が左右対称でないときは平均値は代表値らしくない
■3
■3
2 ■3 ■7 100
■ ■3 ■7 ■
▲(平均値=16)
多くの値が代表値より小さくなってしまう
算術平均は物理学で「重心」
19
平均値以外に中央値を知ろう
上下に50%ずつのデータがある 分布が歪んでいるときの代表値としてよい
中央値△ 平均値△⇒⇒ 年収・生存時間など
20
中央値を求めるには
1)データが奇数個の場合
1, 1, 1, 2, 3, 3, 99
の中央値は 2(平均値は55)
2)データが偶数個の場合〔中央2個の平均〕
1, 1, 1, 2, 3, 3, 3, 99
の中央値は 2.5(平均値は56.5)
21
2-2.バラツキの指標(散布度)
22
数理的に扱いやすい指標 分散(V,σ2)
分散=
▲
23
n
xi 2
中心からのずれ : (xi –平均値)の2乗を使う
(総合して1つの値 ⇒平均をとる)
実務でよく使われる指標 標準偏差(SD,σ)
標準偏差=
▲
24
分散これだけ!
標準偏差は 正規分布と相性が良い
中心から2σ 離れると約95%が入る
中心から3σ 離れると99.7% (ほぼ全部)入る
μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ
正規分布は平均値と標準偏差(σ)で決まる
25
標準偏差の1.96倍 (切りのよい数値)
-1.96σ 0 +1.96σ
↑
1.96 は統計学でよく登場
±2σよりやや内側
26
問:クラスの身長の標準偏差は?
平均値155cm,最大値170cmとする
身長データは正規分布に従うとする
正規分布の性質を利用して
中心から最大まで3σ
155cm 170cm 15
標準偏差(SD) =15÷3 =5
27
中心の位置とばらつきの程度
がわかればよい
ここに戻ります
▲ 値
頻度
平均値と標準偏差 中央値と○○○?
28
中央値は二分割した ~今度は四分割して考える~
25%の人 25%の人
第1四分位点 中央値 第3四分位点
四分位範囲
(四分位偏差)
これをばらつきの指標に
中央50%が入る 29
歪んだ分布で便利な箱ひげ図
体重のヒストグラム 箱ひげ図
(回転して表示)
ヒゲはばらつきの目安
30
箱の上下間で全体の50%
箱の縦幅が四分位範囲
箱中の線は中央値
表・グラフ表現のまとめ
A1)平均値と標準偏差を±でつないで記す
… 37.2 ± 5.8(mean ± SD)
A2)中央値と四分位範囲の表記は定型なし
B1)棒グラフ+エラーバー
B2)箱ひげ図
5.8
37.2
31
中央値を示すことが多い
バーの端は最大値ではない
これは「ひげ」
四分位範囲
3.2つの変数を合わせて簡約記述
32
2変数の簡約記述
ここでは2つの変数(項目)をまとめて簡約記述する場合を説明する
1つずつの変数(項目)について記述する場合と異なり,2者の関係性が問題となる
33
疾患B
あり なし
性別 男 50 80
女 60 90
疾患A
あり なし
性別 男 100 20
女 10 150
(1)2つの質的変数の関係の強さとは?
34
下の2つのクロス集計からみて,
「病気になりやすさ」と「性別」の間の関連
が強そうなのはA,Bのいずれであろうか?
直観的に左の疾患Aの方であるとわかる
(2)2つの量的変数の関係の強さ
35
「相関係数」という指標に注目
直線的な関係の強さを表す
点の並びがどの程度直線に近いか
単位は無い
正・負がある
-1≦ 相関係数 ≦1
記号はρ(ロー),r
身長
180170160150140
体重
70
60
50
40
30
性別
女性
男性
散布図
相関係数の例(1):身長と体重
• 20歳~62歳の男性1936名 r=0.454
身長
200190180170160150140
体重
140
120
100
80
60
40
36
相関係数の例(2):腹囲と体重
• 20歳~62歳の男性561名 r=0.858
腹囲
12011010090807060
体重
140
120
100
80
60
40
体重との相関は身長より腹囲の方が大きい!
37
相関の大小の基準
相関係数がどの程度あれば相関が大と
いえるか? 明確な基準はない
人間の感覚と相関係数の2乗が合致するといわれる
38
39
【注意】相関係数解釈
40
1)曲線的な関係性がある場合(U字型ではr =0)
2)はずれ値に影響される場合
3)2つ以上の集団が混在している場合
4)本来の集団の一部のみを見ている場合
1) 2) 3) 4)
散布図で検討するとよい
質的変数×量的変数のまとめ
平均値を棒グラフなどで表すことが多い.
エラーバー(標準偏差など)を付ける
41
A B C A B C
ストリップチャート or ドットチャート
2変数でまとめるとよい
★3つに分けると見通しが良くなる
変数 質的×質的 量的×量的 質的×量的
図表 クロス集計表 散布図 棒グラフ・箱ひげ図
指標 関連係数 相関係数 (相関比)
解析 χ2検定 相関・回帰 t 検定・分散分析
42
記述統計ができれば… 全くの初心者から大きな一歩前進
???
えーと あれがこうで,これはああで
正規分布していて 平均値57.3
標準偏差11.8 ね! 2変数の相関係数は0.87と大きい!
43
確認クイズ(記述統計)
Q1.棒グラフとヒストグラムの使い分けは? Q2.平均値と中央値の使い分けは? Q3.分散と標準偏差の違いは? Q4.標準偏差はなぜよく使われる? Q5.平均値と標準偏差を組み合わせる… では中央値と組み合わせるのは? Q6.相関係数が0ならば,2変数の間に関係 性はない?[正・誤]
44
4.推定と検定
46
5.まとめたデータから解析へ
47
解析手法は沢山あって覚えられない!?
解析目的とデータ構造を基に
【再】2変数でまとめるとよい
★3つに分けると見通しが良くなる
変数 質的×質的 量的×量的 質的×量的
図表 クロス集計表 散布図 棒グラフ・箱ひげ図
指標 関連係数 相関係数 (相関比)
解析 χ2検定 相関・回帰 t 検定・分散分析
49
【復習】対応のある/ないの別に注意
1)対応のない(non-paired)場合
2)対応のある(paired)場合(同じ人を2回測定)
この差(▲)の 1群を問題にする ▲ ▲ ▲ … ▲
バイアスの入る余地あり:性別,年齢などいずれかが多いなど
疾患群 ● ● ● … ●
健常群 ● ● ● … ● ●
処置前 ● ● ● … ●
処置後 ● ● ● … ●
50
解析手法選択の視点
51
視点 選択肢 注釈
A 何を行うか
比較 検定手法で多い 差の有無,大小を知る
予測や判別 回帰分析
内部構造を知る 因子分析など
B 変数の種類
量的変数 手法が多い 質的変数に変換可能
質的変数 数え上げたデータ(何人,何個)を用いる
解析手法選択:もう少し細かく
52
視点 例 注釈
1 データの種類
名義/順序/量
2 解析対象(群の特性)
平均値/中央値/… 1の制約を受ける
3 群の数 1群/2群/多群=3群以上
4 データの構造
2群では,対応あり/なし 多群では一元配置/二元配置/…
1.クロス集計表のデータから
(1)一般に,χ2検定
2×2表では比率の差の検定と同じ
(2)セルの期待値<5があるとき
Fisherの正確確率検定
(3)2群の比較(2×k表)で,順位のみを利用し
Mann-WhitneyのU検定
53
2.量としてのxとYの関係を追及
(1)相関係数と無相関の検定
(2)x,yが1つずつなら,(単)回帰分析
(3)説明変数(x)が複数なら,重回帰分析
54
y =β0 + β1x1 + β2x2 + … + βpxp
体重 y = 定数+身長 x1 の何倍 +腹囲 x2 の何倍+年齢 x3の何倍+…
2’.xやyが質の場合
(1)説明変数(x)が質なら
ダミー変数を用いた重回帰分析
(2)従属変数(y)が0-1(2値)ならば
logistic回帰
55
3.群の平均値等の比較
(1)平均値の比較
(1-1)2群の場合⇒t 検定(対応有無)
(1-2)3群以上の場合⇒分散分析,多重比較
(2)中央値等の比較
⇒ノンパラメトリック法
(Mann-Whitney,Wilcoxon,etc)
56
フローチャートは役に立つか? 1)基本概念を知らないと選択できません
2)統計の知識でデータの種類や構造を変更してフローの選択を変えることも可
(例:何も知らなければ自然に右のコースだが難解,しかし,ちょっと知識を使うと簡明な左のコースに行けるなど)
• これでは何のためのフローチャートか?
• フローチャートは全体を知らないと役に立たないが,全体を学習してしまえば,フローチャートは不要?
• 分野を限定すれば役に立つかもしれません 57
Petrie & Sabin著,吉田監訳「一目でわかる医科統計学」(メディカル・サイエンス・インターナショナル)2006年 による広範囲のフローチャート
58 58
【部分的なフローの例】あるブログよりhttp://ken7821.exblog.jp/m2011-09-01/
• 「3標本以上の差の検定方法について表をのせています」とあるが,読みこなすのはなかなか難しそうです
59
バラツキを評価して真理へ ~推定や検定の考え方の基本~
61
問1. 2つの観測値の差
1)条件Aで1つの観測値3.6を得た
2)条件Bで1つの観測値3.5を得た
2つの観測値の差を表現するにはどうしたらよいか?
A B 62
差を論文に記すには?
A B
(1)3.6-3.5と引き算の結果を記す
(2)0.1とわずかなので「差なし」とする
(3)統計学的に「差の推定」を行う
63
統計学の基礎は誤差の評価 • 反復測定でないと偶然誤差の大きさが評価
できず,信頼性が不明
• 反復数(n)が多いとより有利!
1回の測定では誤差の評価不可
64
次の測定値は?
次の測定値も同じ様
問2. 今度はnが多い!
1)群Aで標本平均値3.6を得た(n=50)
2)群Bで標本平均値3.5を得た(n=52)
これら2つの標本平均値の差を表現するにはどうしたらよいか?
A B 65
論文に記すのは?
A B
(1)3.6-3.5と引き算の結果を記す
(2)0.1とわずかなので「差なし」とする
(3)統計学的に「差の推定」を行う
66
標本の特性を表現するのは記述
手元のデータは?
母集団では?
2)推し量る:標本データから母集団を(推測)
1)まとめる: 手元のデータを(記述)
67
問3. 似て非なる問題!
1)群Aで標本平均値3.6を得た(n=50)
2)群Bで標本平均値3.5を得た(n=53)
これら2群の母集団での平均値の差を表現するにはどうしたらよいか?
A B 68
研究では母集団について知りたい
手元のデータは?
母集団では?
2)推し量る:標本データから母集団を(推測)
1)まとめる: 手元のデータを(記述)
69
3つの問の違い!
問1. 2つの観測値の差を表現するには どうしたらよいか?
問2. 2つの標本平均値の差を表現するにはどうしたらよいか?
問3. 2つの母平均値の差を表現するには どうしたらよいか?
70
71
幹葉図で中央値等を例示
3 . 9
4 . 02234
4 . 55566777899
5 . 00000111222223444
5 . 5556667789
6 . 001122334
6 . 5679
7 . 001
8 . 3
61人のデータ 中央値は53
第1四分位点48.5 第3四分位点60.5
四分位範囲12
25%ずつ色分けしてみた
72
歪んだ分布でも中央値は万能でない
• 中央値は変化せず効果が分からない!
• 平均値は小さくなるがt検定不可
73
• 高値の重症者に奏功して正常化した場合
▲ ▲ ▲ ▲
処置A
アメリカの 高校の問題
74
問.1から5までの15個の整数値の分布がヒストグラムで示されている.SDが最も小さいのはどれか?
答.a:中央に集中した(平均値に近い)値が多い. 逆にSD最大はc
これは1が最少で 5が最多
n
xi 2
箱ひげ図の描き方 far out =極外値(extreme value): Cよりも外れの値
outside=外れ値(outlier): BC間の値
*
○
○
John W. Tukey “Exploratory Data Analysis” Addison-Wesley 1977年,p.44
中央値:この上下に50%ずつ ヒンジ巾≒四分位範囲
ヒンジ巾 ×1.5
ヒンジ巾 ×1.5
A
B
C
ひげ端: AB間で最外の実値
(全体の最大値,最小値を用いることもある)
Tukey先生
75
【蛇足】正確に説明するのは難しい…
「うまくいおうとして,ちょっとウソをついてしまうってことがある」
「あのときの王子くん」(「星の王子さま」の大久保ゆう訳)より
統計学の全体
統計学の仕事
記述:description… 〔簡約表現〕1変数,2変数
推測:inference…〔標本を基に母集団の特性は〕
推定:estimation
点推定 …〔母数はいくつ〕
区間推定…〔いくつからい
検定:test
母集団である仮説が成り立つ〔Yes/No〕