データをうまくまとめるにはngtskk.xii.jp/a02_data.pdf本日のテーマ...

2.データをうまくまとめるには

講師：赤城病院副院長

群馬大学医学部医学統計学講師（非常勤）

藤田晴康

平成25年度新潟精神看護研究会秋季研修会

1

本日のテーマ

１．データの分類

２．データを簡単にまとめる

（1変数の場合）

特に，代表値と散布度

３．2変数を合わせてまとめる

～ここまでのクイズ～

４．推定と検定【略】

５．まとめたデータから解析手法へ

2

１．データの分類を知ろう

3

尺度による分類

分類（水準）例別分類

名義尺度職業・性別・背番号・診断名質的データ

（カテゴリカル・データ）

順序尺度服のサイズ（L・M・S）

薬効（悪化・無効・有効・著効）

間隔尺度摂氏～華氏の温度・暦年

量的データ

比尺度長さ・重さ・濃度・人数・

絶対温度 4

どの教科書にも登場する

この分類の特徴

分類（水準）例別分類

名義尺度職業・性別・背番号・診断名質的データ

（カテゴリカル・データ）

順序尺度服のサイズ（L・M・S）

薬効（悪化・無効・有効・著効）

間隔尺度摂氏～華氏の温度・暦年

量的データ

比尺度長さ・重さ・濃度・人数・

絶対温度

(1)下に行くほど情報量が多い (2)下から上への変換可だが，逆は不可「155,167,184」→「低,中,高」

解析実務上まとめてよいことが多い「間隔尺度以上」とよぶ

5

「質的データ」とは数え上げて解析するデータ「質的研究」とは別

問．順序尺度の差や比は？

質問票の回答データで

1. 少ない 2. 中程度 3. 多い

この1，2，3は「量」ではない 1と2，2と3の間が等しいとは限らない解析に工夫が必要

量データを順位に変換して解析することあり（2.4，3.6，1.7，3.8）⇒（2，3，1，4）

小さい方から2位，3位，1位，… 6

別の分類

連続量（実数で）／離散量（整数で）

二値データ（0-1データ）：男女，生死等

循環するデータ：じゃんけん（グー・チョキ・パー）や12～24時間制の時刻

7

２．データを簡単にまとめる（1変数のまとめ）

8

健診結果の例

どのようなデータか？簡約表現できるか？

9

１）カテゴリカルデータ（分類）の場合

まず数え上げる：集計

割合を求める

２）量的データ（連続量）の場合

グラフ化

指標計算

（中心とばらつき）

データをまとめる基本

AB

O

B

A

10

図はこんなふうに見て下さい

正規分布の場合

分布

実データ

表示

11

問．棒グラフとヒストグラムの違い

棒グラフヒストグラム

棒の間が空いている? 棒が接している？

12

２つのグラフが異なるとき

階級の幅が等しい場合同じに見えるが…

階級の幅が等しくない場合は，下記のように異なる

13

40 50 60 70才代 40 50 60 70才

＋80才代

横軸が問題！

棒グラフヒストグラム

分類・離散量連続量

14

【注意】ばらつき・歪み・偏り

ばらつきが大きい

歪みが大きい

偏りがある

15

アメリカの高校の問題

問．次の分布の形を言葉で表してください

a) b)

答．a)Approximately normal with an outlier ほぼ正規分布しているが，はずれ値あり b)Bi-modal, somewhat skewed to the left 二峰性で，やや左に歪んでいる

16

２-１．分布の中心（代表値）

17

中心の位置とばらつきの程度

がわかればよい

量的データを２つの指標でまとめる！

▲ 値

頻度

18

問．平均値の欠点は？

分布が左右対称でないときは平均値は代表値らしくない

■３

■３

２ ■３ ■７ 100

■ ■３ ■７ ■

▲(平均値=16)

多くの値が代表値より小さくなってしまう

算術平均は物理学で「重心」

19

平均値以外に中央値を知ろう

上下に50％ずつのデータがある分布が歪んでいるときの代表値としてよい

中央値△ 平均値△⇒⇒ 年収・生存時間など

20

中央値を求めるには

１）データが奇数個の場合

1, 1, 1, 2, 3, 3, 99

の中央値は 2（平均値は55）

２）データが偶数個の場合〔中央2個の平均〕

1, 1, 1, 2, 3, 3, 3, 99

の中央値は 2.5（平均値は56.5）

21

２-２．バラツキの指標（散布度）

22

数理的に扱いやすい指標分散(V,σ2)

分散＝

▲

23

n

xi 2

中心からのずれ : (xi –平均値)の2乗を使う

（総合して1つの値 ⇒平均をとる）

実務でよく使われる指標標準偏差（SD,σ）

標準偏差＝

▲

24

分散これだけ！

標準偏差は正規分布と相性が良い

中心から2σ 離れると約95％が入る

中心から３σ 離れると99.7％ (ほぼ全部)入る

μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ

正規分布は平均値と標準偏差(σ)で決まる

25

標準偏差の1.96倍（切りのよい数値）

－1.96σ 0 ＋1.96σ

↑

1.96 は統計学でよく登場

±2σよりやや内側

26

問:クラスの身長の標準偏差は？

平均値155cm，最大値170cmとする

身長データは正規分布に従うとする

正規分布の性質を利用して

中心から最大まで3σ

155cm 170cm 15

標準偏差(SD) ＝15÷3 ＝5

27

中心の位置とばらつきの程度

がわかればよい

ここに戻ります

▲ 値

頻度

平均値と標準偏差中央値と○○○？

28

中央値は二分割した～今度は四分割して考える～

25％の人 25％の人

第1四分位点中央値第3四分位点

四分位範囲

(四分位偏差)

これをばらつきの指標に

中央50%が入る 29

歪んだ分布で便利な箱ひげ図

体重のヒストグラム箱ひげ図

（回転して表示）

ヒゲはばらつきの目安

30

箱の上下間で全体の50%

箱の縦幅が四分位範囲

箱中の線は中央値

表・グラフ表現のまとめ

A1）平均値と標準偏差を±でつないで記す

… 37.2 ± 5.8（mean ± SD）

A2）中央値と四分位範囲の表記は定型なし

B1）棒グラフ＋エラーバー

B2）箱ひげ図

5.8

37.2

31

中央値を示すことが多い

バーの端は最大値ではない

これは「ひげ」

四分位範囲

３．2つの変数を合わせて簡約記述

32

2変数の簡約記述

ここでは2つの変数（項目）をまとめて簡約記述する場合を説明する

１つずつの変数（項目）について記述する場合と異なり，2者の関係性が問題となる

33

疾患B

ありなし

性別男５０８０

女６０９０

疾患A

ありなし

性別男１００２０

女１０１５０

(1)2つの質的変数の関係の強さとは?

34

下の2つのクロス集計からみて，

「病気になりやすさ」と「性別」の間の関連

が強そうなのはA,Bのいずれであろうか？

直観的に左の疾患Aの方であるとわかる

(2)2つの量的変数の関係の強さ

35

「相関係数」という指標に注目

直線的な関係の強さを表す

点の並びがどの程度直線に近いか

単位は無い

正・負がある

－１≦ 相関係数 ≦１

記号はρ（ロー），r

身長

180170160150140

体重

70

60

50

40

30

性別

女性

男性

散布図

相関係数の例（1）：身長と体重

• 20歳～62歳の男性1936名 r=0.454

身長

200190180170160150140

体重

140

120

100

80

60

40

36

相関係数の例（2）：腹囲と体重

• 20歳～62歳の男性561名 r=0.858

腹囲

12011010090807060

体重

140

120

100

80

60

40

体重との相関は身長より腹囲の方が大きい！

37

相関の大小の基準

相関係数がどの程度あれば相関が大と

いえるか？明確な基準はない

人間の感覚と相関係数の2乗が合致するといわれる

38

【注意】相関係数解釈

40

１）曲線的な関係性がある場合（U字型ではr =0）

２）はずれ値に影響される場合

３）2つ以上の集団が混在している場合

４）本来の集団の一部のみを見ている場合

１）２）３）４）

散布図で検討するとよい

質的変数×量的変数のまとめ

平均値を棒グラフなどで表すことが多い．

エラーバー（標準偏差など）を付ける

41

A B C A B C

ストリップチャート or ドットチャート

２変数でまとめるとよい

★3つに分けると見通しが良くなる

変数質的×質的量的×量的質的×量的

図表クロス集計表散布図棒グラフ・箱ひげ図

指標関連係数相関係数（相関比）

解析 χ2検定相関・回帰 t 検定・分散分析

42

記述統計ができれば… 全くの初心者から大きな一歩前進

？？？

えーとあれがこうで，これはああで

正規分布していて平均値57.3

標準偏差11.8 ね！ 2変数の相関係数は0.87と大きい！

43

確認クイズ（記述統計）

Q1．棒グラフとヒストグラムの使い分けは？ Q2．平均値と中央値の使い分けは？ Q3．分散と標準偏差の違いは？ Q4．標準偏差はなぜよく使われる？ Q5．平均値と標準偏差を組み合わせる… では中央値と組み合わせるのは？ Q6．相関係数が0ならば，2変数の間に関係性はない？［正・誤］

44

４．推定と検定

46

５．まとめたデータから解析へ

47

解析手法は沢山あって覚えられない!?

解析目的とデータ構造を基に

【再】２変数でまとめるとよい

★3つに分けると見通しが良くなる

変数質的×質的量的×量的質的×量的

図表クロス集計表散布図棒グラフ・箱ひげ図

指標関連係数相関係数（相関比）

解析 χ2検定相関・回帰 t 検定・分散分析

49

【復習】対応のある/ないの別に注意

１）対応のない(non-paired)場合

２）対応のある(paired)場合（同じ人を2回測定）

この差（▲）の 1群を問題にする ▲ ▲ ▲ … ▲

バイアスの入る余地あり：性別，年齢などいずれかが多いなど

疾患群 ● ● ● … ●

健常群 ● ● ● … ● ●

処置前 ● ● ● … ●

処置後 ● ● ● … ●

50

解析手法選択の視点

51

視点選択肢注釈

Ａ何を行うか

比較検定手法で多い差の有無，大小を知る

予測や判別回帰分析

内部構造を知る因子分析など

Ｂ変数の種類

量的変数手法が多い質的変数に変換可能

質的変数数え上げたデータ(何人，何個)を用いる

解析手法選択：もう少し細かく

52

視点例注釈

１データの種類

名義/順序/量

２解析対象(群の特性)

平均値/中央値/… １の制約を受ける

３群の数 1群/2群/多群=3群以上

４データの構造

2群では，対応あり/なし多群では一元配置/二元配置/…

１．クロス集計表のデータから

(1)一般に，χ2検定

2×2表では比率の差の検定と同じ

(2)セルの期待値<5があるとき

Fisherの正確確率検定

(3)2群の比較(2×k表)で，順位のみを利用し

Mann-WhitneyのU検定

53

２．量としてのxとYの関係を追及

(1)相関係数と無相関の検定

(2)x，yが1つずつなら，(単)回帰分析

(3)説明変数(x)が複数なら，重回帰分析

54

y =β0 + β1x1 + β2x2 + … + βpxp

体重 y = 定数＋身長 x1 の何倍＋腹囲 x2 の何倍＋年齢 x3の何倍＋…

2’．xやyが質の場合

(1)説明変数(x)が質なら

ダミー変数を用いた重回帰分析

(2)従属変数(y)が0-1(2値)ならば

logistic回帰

55

3．群の平均値等の比較

(1)平均値の比較

(1-1)2群の場合⇒t 検定(対応有無)

(1-2)3群以上の場合⇒分散分析，多重比較

(2)中央値等の比較

⇒ノンパラメトリック法

（Mann-Whitney，Wilcoxon，etc）

56

フローチャートは役に立つか？１）基本概念を知らないと選択できません

２）統計の知識でデータの種類や構造を変更してフローの選択を変えることも可

（例：何も知らなければ自然に右のコースだが難解，しかし，ちょっと知識を使うと簡明な左のコースに行けるなど）

• これでは何のためのフローチャートか？

• フローチャートは全体を知らないと役に立たないが，全体を学習してしまえば，フローチャートは不要？

• 分野を限定すれば役に立つかもしれません 57

Petrie & Sabin著，吉田監訳「一目でわかる医科統計学」(ﾒﾃﾞｨｶﾙ･ｻｲｴﾝｽ･ｲﾝﾀｰﾅｼｮﾅﾙ)2006年による広範囲のフローチャート

58 58

【部分的なフローの例】あるブログよりhttp://ken7821.exblog.jp/m2011-09-01/

• 「3標本以上の差の検定方法について表をのせています」とあるが，読みこなすのはなかなか難しそうです

59

バラツキを評価して真理へ～推定や検定の考え方の基本～

61

問1. 2つの観測値の差

１）条件Aで1つの観測値3.6を得た

２）条件Bで1つの観測値3.5を得た

2つの観測値の差を表現するにはどうしたらよいか？

A B 62

差を論文に記すには？

A B

(1)3.6－3.5と引き算の結果を記す

(2)0.1とわずかなので「差なし」とする

(3)統計学的に「差の推定」を行う

63

統計学の基礎は誤差の評価 • 反復測定でないと偶然誤差の大きさが評価

できず，信頼性が不明

• 反復数(n)が多いとより有利！

1回の測定では誤差の評価不可

64

次の測定値は？

次の測定値も同じ様

問2. 今度はnが多い！

１）群Aで標本平均値3.6を得た(n=50)

２）群Bで標本平均値3.5を得た(n=52)

これら2つの標本平均値の差を表現するにはどうしたらよいか？

A B 65

論文に記すのは？

A B

(1)3.6－3.5と引き算の結果を記す

(2)0.1とわずかなので「差なし」とする

(3)統計学的に「差の推定」を行う

66

標本の特性を表現するのは記述

手元のデータは？

母集団では？

２）推し量る:標本データから母集団を（推測）

１）まとめる: 手元のデータを（記述）

67

問3. 似て非なる問題！

１）群Aで標本平均値3.6を得た(n=50)

２）群Bで標本平均値3.5を得た(n=53)

これら2群の母集団での平均値の差を表現するにはどうしたらよいか？

A B 68

研究では母集団について知りたい

手元のデータは？

母集団では？

２）推し量る:標本データから母集団を（推測）

１）まとめる: 手元のデータを（記述）

69

3つの問の違い！

問1. 2つの観測値の差を表現するにはどうしたらよいか？

問2. 2つの標本平均値の差を表現するにはどうしたらよいか？

問3. 2つの母平均値の差を表現するにはどうしたらよいか？

70

幹葉図で中央値等を例示

3 . 9

4 . 02234

4 . 55566777899

5 . 00000111222223444

5 . 5556667789

6 . 001122334

6 . 5679

7 . 001

8 . 3

61人のデータ中央値は53

第1四分位点48.5 第3四分位点60.5

四分位範囲12

25％ずつ色分けしてみた

72

歪んだ分布でも中央値は万能でない

• 中央値は変化せず効果が分からない！

• 平均値は小さくなるがt検定不可

73

• 高値の重症者に奏功して正常化した場合

▲ ▲ ▲ ▲

処置A

アメリカの高校の問題

74

問．1から5までの15個の整数値の分布がヒストグラムで示されている．SDが最も小さいのはどれか？

答．a：中央に集中した(平均値に近い)値が多い. 逆にSD最大はc

これは1が最少で 5が最多

n

xi 2

箱ひげ図の描き方 far out =極外値（extreme value）: Cよりも外れの値

outside＝外れ値（outlier）: BC間の値

＊

○

○

John W. Tukey “Exploratory Data Analysis” Addison-Wesley 1977年，p.44

中央値:この上下に50%ずつヒンジ巾≒四分位範囲

ヒンジ巾 ×1.5

ヒンジ巾 ×1.5

A

B

C

ひげ端: AB間で最外の実値

（全体の最大値，最小値を用いることもある）

Tukey先生

75

【蛇足】正確に説明するのは難しい…

「うまくいおうとして，ちょっとウソをついてしまうってことがある」

「あのときの王子くん」(「星の王子さま」の大久保ゆう訳)より

統計学の全体

統計学の仕事

記述：description… 〔簡約表現〕1変数，2変数

推測：inference…〔標本を基に母集団の特性は〕

推定：estimation

点推定 …〔母数はいくつ〕

区間推定…〔いくつからい

検定：test

母集団である仮説が成り立つ〔Yes/No〕

データをうまくまとめるにはngtskk.xii.jp/a02_data.pdf本日のテーマ...

Documents