データをうまくまとめるにはngtskk.xii.jp/a02_data.pdf本日のテーマ...

77
2.データをうまくまとめるには 講師:赤城病院 副院長 群馬大学医学部 医学統計学講師(非常勤) 藤田 晴康 平成25年度 新潟精神看護研究会 秋季研修会 1

Upload: others

Post on 26-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2.データをうまくまとめるには

講師:赤城病院 副院長

群馬大学医学部 医学統計学講師(非常勤)

藤田 晴康

平成25年度 新潟精神看護研究会 秋季研修会

1

Page 2: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

本日のテーマ

1.データの分類

2.データを簡単にまとめる

(1変数の場合)

特に,代表値と散布度

3.2変数を合わせてまとめる

~ここまでのクイズ~

4.推定と検定【略】

5.まとめたデータから解析手法へ

2

Page 3: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

1.データの分類を知ろう

3

Page 4: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

尺度による分類

分類(水準) 例 別分類

名義尺度 職業・性別・背番号・診断名 質的データ

(カテゴリカル・データ)

順序尺度 服のサイズ(L・M・S)

薬効(悪化・無効・有効・著効)

間隔尺度 摂氏~華氏の温度・暦年

量的データ

比尺度 長さ・重さ・濃度・人数・

絶対温度 4

どの教科書にも登場する

Page 5: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

この分類の特徴

分類(水準) 例 別分類

名義尺度 職業・性別・背番号・診断名 質的データ

(カテゴリカル・データ)

順序尺度 服のサイズ(L・M・S)

薬効(悪化・無効・有効・著効)

間隔尺度 摂氏~華氏の温度・暦年

量的データ

比尺度 長さ・重さ・濃度・人数・

絶対温度

(1)下に行くほど情報量が多い (2)下から上への変換可だが, 逆は不可 「155,167,184」→「低,中,高」

解析実務上まとめてよいことが多い 「間隔尺度以上」と よぶ

5

「質的データ」とは数え上げて解析するデータ 「質的研究」とは別

Page 6: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

問.順序尺度の差や比は?

質問票の回答データで

1. 少ない 2. 中程度 3. 多い

この1,2,3は「量」ではない 1と2,2と3の間が等しいとは限らない 解析に工夫が必要

量データを順位に変換して解析することあり (2.4,3.6,1.7,3.8)⇒(2,3,1,4)

小さい方から2位,3位,1位,… 6

Page 7: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

別の分類

連続量(実数で)/離散量(整数で)

二値データ(0-1データ):男女,生死等

循環するデータ:じゃんけん(グー・チョキ・パー)や12~24時間制の時刻

7

Page 8: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2.データを簡単にまとめる (1変数のまとめ)

8

Page 9: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

健診結果の例

どのようなデータか? 簡約表現できるか?

9

Page 10: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

1)カテゴリカルデータ(分類)の場合

まず数え上げる:集計

割合を求める

2)量的データ(連続量)の場合

グラフ化

指標計算

(中心とばらつき )

データをまとめる基本

AB

O

B

A

10

Page 11: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

図はこんなふうに見て下さい

正規分布の場合

分布

実データ

表示

11

Page 12: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

問.棒グラフとヒストグラムの違い

棒グラフ ヒストグラム

棒の間が空いている? 棒が接している?

12

Page 13: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2つのグラフが異なるとき

階級の幅が等しい場合同じに見えるが…

階級の幅が等しくない場合は,下記のように異なる

13

40 50 60 70才代 40 50 60 70才

+80才代

Page 14: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

横軸が問題!

棒グラフ ヒストグラム

分類・離散量 連続量

14

Page 15: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

【注意】ばらつき・歪み・偏り

ばらつきが大きい

歪みが大きい

偏りがある

15

Page 16: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

アメリカの高校の問題

問.次の分布の形を言葉で表してください

a) b)

答.a)Approximately normal with an outlier ほぼ正規分布しているが,はずれ値あり b)Bi-modal, somewhat skewed to the left 二峰性で,やや左に歪んでいる

16

Page 17: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2-1.分布の中心(代表値)

17

Page 18: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

中心の位置とばらつきの程度

がわかればよい

量的データを 2つの指標でまとめる!

▲ 値

頻度

18

Page 19: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

問.平均値の欠点は?

分布が左右対称でないときは平均値は代表値らしくない

■3

■3

2 ■3 ■7 100

■ ■3 ■7 ■

▲(平均値=16)

多くの値が代表値より小さくなってしまう

算術平均は物理学で「重心」

19

Page 20: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

平均値以外に中央値を知ろう

上下に50%ずつのデータがある 分布が歪んでいるときの代表値としてよい

中央値△ 平均値△⇒⇒ 年収・生存時間など

20

Page 21: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

中央値を求めるには

1)データが奇数個の場合

1, 1, 1, 2, 3, 3, 99

の中央値は 2(平均値は55)

2)データが偶数個の場合〔中央2個の平均〕

1, 1, 1, 2, 3, 3, 3, 99

の中央値は 2.5(平均値は56.5)

21

Page 22: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2-2.バラツキの指標(散布度)

22

Page 23: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

数理的に扱いやすい指標 分散(V,σ2)

分散=

23

n

xi 2

中心からのずれ : (xi –平均値)の2乗を使う

(総合して1つの値 ⇒平均をとる)

Page 24: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

実務でよく使われる指標 標準偏差(SD,σ)

標準偏差=

24

分散これだけ!

Page 25: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

標準偏差は 正規分布と相性が良い

中心から2σ 離れると約95%が入る

中心から3σ 離れると99.7% (ほぼ全部)入る

μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ

正規分布は平均値と標準偏差(σ)で決まる

25

Page 26: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

標準偏差の1.96倍 (切りのよい数値)

-1.96σ 0 +1.96σ

1.96 は統計学でよく登場

±2σよりやや内側

26

Page 27: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

問:クラスの身長の標準偏差は?

平均値155cm,最大値170cmとする

身長データは正規分布に従うとする

正規分布の性質を利用して

中心から最大まで3σ

155cm 170cm 15

標準偏差(SD) =15÷3 =5

27

Page 28: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

中心の位置とばらつきの程度

がわかればよい

ここに戻ります

▲ 値

頻度

平均値と標準偏差 中央値と○○○?

28

Page 29: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

中央値は二分割した ~今度は四分割して考える~

25%の人 25%の人

第1四分位点 中央値 第3四分位点

四分位範囲

(四分位偏差)

これをばらつきの指標に

中央50%が入る 29

Page 30: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

歪んだ分布で便利な箱ひげ図

体重のヒストグラム 箱ひげ図

(回転して表示)

ヒゲはばらつきの目安

30

箱の上下間で全体の50%

箱の縦幅が四分位範囲

箱中の線は中央値

Page 31: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

表・グラフ表現のまとめ

A1)平均値と標準偏差を±でつないで記す

… 37.2 ± 5.8(mean ± SD)

A2)中央値と四分位範囲の表記は定型なし

B1)棒グラフ+エラーバー

B2)箱ひげ図

5.8

37.2

31

中央値を示すことが多い

バーの端は最大値ではない

これは「ひげ」

四分位範囲

Page 32: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

3.2つの変数を合わせて簡約記述

32

Page 33: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2変数の簡約記述

ここでは2つの変数(項目)をまとめて簡約記述する場合を説明する

1つずつの変数(項目)について記述する場合と異なり,2者の関係性が問題となる

33

Page 34: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

疾患B

あり なし

性別 男 50 80

女 60 90

疾患A

あり なし

性別 男 100 20

女 10 150

(1)2つの質的変数の関係の強さとは?

34

下の2つのクロス集計からみて,

「病気になりやすさ」と「性別」の間の関連

が強そうなのはA,Bのいずれであろうか?

直観的に左の疾患Aの方であるとわかる

Page 35: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

(2)2つの量的変数の関係の強さ

35

「相関係数」という指標に注目

直線的な関係の強さを表す

点の並びがどの程度直線に近いか

単位は無い

正・負がある

-1≦ 相関係数 ≦1

記号はρ(ロー),r

身長

180170160150140

体重

70

60

50

40

30

性別

女性

男性

散布図

Page 36: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

相関係数の例(1):身長と体重

• 20歳~62歳の男性1936名 r=0.454

身長

200190180170160150140

体重

140

120

100

80

60

40

36

Page 37: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

相関係数の例(2):腹囲と体重

• 20歳~62歳の男性561名 r=0.858

腹囲

12011010090807060

体重

140

120

100

80

60

40

体重との相関は身長より腹囲の方が大きい!

37

Page 38: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

相関の大小の基準

相関係数がどの程度あれば相関が大と

いえるか? 明確な基準はない

人間の感覚と相関係数の2乗が合致するといわれる

38

Page 39: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

39

Page 40: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

【注意】相関係数解釈

40

1)曲線的な関係性がある場合(U字型ではr =0)

2)はずれ値に影響される場合

3)2つ以上の集団が混在している場合

4)本来の集団の一部のみを見ている場合

1) 2) 3) 4)

散布図で検討するとよい

Page 41: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

質的変数×量的変数のまとめ

平均値を棒グラフなどで表すことが多い.

エラーバー(標準偏差など)を付ける

41

A B C A B C

ストリップチャート or ドットチャート

Page 42: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2変数でまとめるとよい

★3つに分けると見通しが良くなる

変数 質的×質的 量的×量的 質的×量的

図表 クロス集計表 散布図 棒グラフ・箱ひげ図

指標 関連係数 相関係数 (相関比)

解析 χ2検定 相関・回帰 t 検定・分散分析

42

Page 43: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

記述統計ができれば… 全くの初心者から大きな一歩前進

???

えーと あれがこうで,これはああで

正規分布していて 平均値57.3

標準偏差11.8 ね! 2変数の相関係数は0.87と大きい!

43

Page 44: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

確認クイズ(記述統計)

Q1.棒グラフとヒストグラムの使い分けは? Q2.平均値と中央値の使い分けは? Q3.分散と標準偏差の違いは? Q4.標準偏差はなぜよく使われる? Q5.平均値と標準偏差を組み合わせる… では中央値と組み合わせるのは? Q6.相関係数が0ならば,2変数の間に関係 性はない?[正・誤]

44

Page 45: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度
Page 46: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

4.推定と検定

46

Page 47: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

5.まとめたデータから解析へ

47

Page 48: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

解析手法は沢山あって覚えられない!?

解析目的とデータ構造を基に

Page 49: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

【再】2変数でまとめるとよい

★3つに分けると見通しが良くなる

変数 質的×質的 量的×量的 質的×量的

図表 クロス集計表 散布図 棒グラフ・箱ひげ図

指標 関連係数 相関係数 (相関比)

解析 χ2検定 相関・回帰 t 検定・分散分析

49

Page 50: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

【復習】対応のある/ないの別に注意

1)対応のない(non-paired)場合

2)対応のある(paired)場合(同じ人を2回測定)

この差(▲)の 1群を問題にする ▲ ▲ ▲ … ▲

バイアスの入る余地あり:性別,年齢などいずれかが多いなど

疾患群 ● ● ● … ●

健常群 ● ● ● … ● ●

処置前 ● ● ● … ●

処置後 ● ● ● … ●

50

Page 51: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

解析手法選択の視点

51

視点 選択肢 注釈

A 何を行うか

比較 検定手法で多い 差の有無,大小を知る

予測や判別 回帰分析

内部構造を知る 因子分析など

B 変数の種類

量的変数 手法が多い 質的変数に変換可能

質的変数 数え上げたデータ(何人,何個)を用いる

Page 52: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

解析手法選択:もう少し細かく

52

視点 例 注釈

1 データの種類

名義/順序/量

2 解析対象(群の特性)

平均値/中央値/… 1の制約を受ける

3 群の数 1群/2群/多群=3群以上

4 データの構造

2群では,対応あり/なし 多群では一元配置/二元配置/…

Page 53: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

1.クロス集計表のデータから

(1)一般に,χ2検定

2×2表では比率の差の検定と同じ

(2)セルの期待値<5があるとき

Fisherの正確確率検定

(3)2群の比較(2×k表)で,順位のみを利用し

Mann-WhitneyのU検定

53

Page 54: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2.量としてのxとYの関係を追及

(1)相関係数と無相関の検定

(2)x,yが1つずつなら,(単)回帰分析

(3)説明変数(x)が複数なら,重回帰分析

54

y =β0 + β1x1 + β2x2 + … + βpxp

体重 y = 定数+身長 x1 の何倍 +腹囲 x2 の何倍+年齢 x3の何倍+…

Page 55: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

2’.xやyが質の場合

(1)説明変数(x)が質なら

ダミー変数を用いた重回帰分析

(2)従属変数(y)が0-1(2値)ならば

logistic回帰

55

Page 56: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

3.群の平均値等の比較

(1)平均値の比較

(1-1)2群の場合⇒t 検定(対応有無)

(1-2)3群以上の場合⇒分散分析,多重比較

(2)中央値等の比較

⇒ノンパラメトリック法

(Mann-Whitney,Wilcoxon,etc)

56

Page 57: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

フローチャートは役に立つか? 1)基本概念を知らないと選択できません

2)統計の知識でデータの種類や構造を変更してフローの選択を変えることも可

(例:何も知らなければ自然に右のコースだが難解,しかし,ちょっと知識を使うと簡明な左のコースに行けるなど)

• これでは何のためのフローチャートか?

• フローチャートは全体を知らないと役に立たないが,全体を学習してしまえば,フローチャートは不要?

• 分野を限定すれば役に立つかもしれません 57

Page 58: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

Petrie & Sabin著,吉田監訳「一目でわかる医科統計学」(メディカル・サイエンス・インターナショナル)2006年 による広範囲のフローチャート

58 58

Page 59: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

【部分的なフローの例】あるブログよりhttp://ken7821.exblog.jp/m2011-09-01/

• 「3標本以上の差の検定方法について表をのせています」とあるが,読みこなすのはなかなか難しそうです

59

Page 60: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度
Page 61: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

バラツキを評価して真理へ ~推定や検定の考え方の基本~

61

Page 62: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

問1. 2つの観測値の差

1)条件Aで1つの観測値3.6を得た

2)条件Bで1つの観測値3.5を得た

2つの観測値の差を表現するにはどうしたらよいか?

A B 62

Page 63: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

差を論文に記すには?

A B

(1)3.6-3.5と引き算の結果を記す

(2)0.1とわずかなので「差なし」とする

(3)統計学的に「差の推定」を行う

63

Page 64: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

統計学の基礎は誤差の評価 • 反復測定でないと偶然誤差の大きさが評価

できず,信頼性が不明

• 反復数(n)が多いとより有利!

1回の測定では誤差の評価不可

64

次の測定値は?

次の測定値も同じ様

Page 65: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

問2. 今度はnが多い!

1)群Aで標本平均値3.6を得た(n=50)

2)群Bで標本平均値3.5を得た(n=52)

これら2つの標本平均値の差を表現するにはどうしたらよいか?

A B 65

Page 66: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

論文に記すのは?

A B

(1)3.6-3.5と引き算の結果を記す

(2)0.1とわずかなので「差なし」とする

(3)統計学的に「差の推定」を行う

66

Page 67: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

標本の特性を表現するのは記述

手元のデータは?

母集団では?

2)推し量る:標本データから母集団を(推測)

1)まとめる: 手元のデータを(記述)

67

Page 68: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

問3. 似て非なる問題!

1)群Aで標本平均値3.6を得た(n=50)

2)群Bで標本平均値3.5を得た(n=53)

これら2群の母集団での平均値の差を表現するにはどうしたらよいか?

A B 68

Page 69: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

研究では母集団について知りたい

手元のデータは?

母集団では?

2)推し量る:標本データから母集団を(推測)

1)まとめる: 手元のデータを(記述)

69

Page 70: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

3つの問の違い!

問1. 2つの観測値の差を表現するには どうしたらよいか?

問2. 2つの標本平均値の差を表現するにはどうしたらよいか?

問3. 2つの母平均値の差を表現するには どうしたらよいか?

70

Page 71: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

71

Page 72: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

幹葉図で中央値等を例示

3 . 9

4 . 02234

4 . 55566777899

5 . 00000111222223444

5 . 5556667789

6 . 001122334

6 . 5679

7 . 001

8 . 3

61人のデータ 中央値は53

第1四分位点48.5 第3四分位点60.5

四分位範囲12

25%ずつ色分けしてみた

72

Page 73: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

歪んだ分布でも中央値は万能でない

• 中央値は変化せず効果が分からない!

• 平均値は小さくなるがt検定不可

73

• 高値の重症者に奏功して正常化した場合

▲ ▲ ▲ ▲

処置A

Page 74: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

アメリカの 高校の問題

74

問.1から5までの15個の整数値の分布がヒストグラムで示されている.SDが最も小さいのはどれか?

答.a:中央に集中した(平均値に近い)値が多い. 逆にSD最大はc

これは1が最少で 5が最多

n

xi 2

Page 75: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

箱ひげ図の描き方 far out =極外値(extreme value): Cよりも外れの値

outside=外れ値(outlier): BC間の値

John W. Tukey “Exploratory Data Analysis” Addison-Wesley 1977年,p.44

中央値:この上下に50%ずつ ヒンジ巾≒四分位範囲

ヒンジ巾 ×1.5

ヒンジ巾 ×1.5

A

B

C

ひげ端: AB間で最外の実値

(全体の最大値,最小値を用いることもある)

Tukey先生

75

Page 76: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

【蛇足】正確に説明するのは難しい…

「うまくいおうとして,ちょっとウソをついてしまうってことがある」

「あのときの王子くん」(「星の王子さま」の大久保ゆう訳)より

Page 77: データをうまくまとめるにはngtskk.xii.jp/A02_data.pdf本日のテーマ 1.データの分類 2.データを簡単にまとめる (1変数の場合) 特に,代表値と散布度

統計学の全体

統計学の仕事

記述:description… 〔簡約表現〕1変数,2変数

推測:inference…〔標本を基に母集団の特性は〕

推定:estimation

点推定 …〔母数はいくつ〕

区間推定…〔いくつからい

検定:test

母集団である仮説が成り立つ〔Yes/No〕