データの可視化 配布 (2) · 2017-07-20 · データの可視化...

27
データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第 10 回 ⽇本ウーマンズヘルス学会 学術集会 オープンスクール統計講座 講師 後藤恭⼀(⼀般財団法⼈空港環境整備協会 航空環境研究センター 調査研究部) 第1稿 20110709 本資料の公開・掲載・複製を禁ず

Upload: others

Post on 23-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

データの可視化

-統計量だけではデータ特性を正しく把握することは出来ない-

2011.07.09

第 10 回 ⽇本ウーマンズヘルス学会 学術集会

オープンスクール統計講座

講師 後藤恭⼀(⼀般財団法⼈空港環境整備協会 航空環境研究センター 調査研究部)

第 1 稿 20110709

本資料の公開・掲載・複製を禁ず

Page 2: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

1

⽬的

統計⼿法のひとつである記述統計の⽬的は、収集したデータの要約統計量(平均、分散など)を計算して

分布を明らかにする事により、データの⽰す傾向や特性を知ることにある。こうした特性を捉える⽅法のひ

とつとしてグラフ化がある。「グラフ化」することにより、⼈が得意とするパターン認識の能⼒を活かして”

データの特性を直感的につかむ”ことが出来る。特に、昨今の PC(およびソフトウエア)の発展によって⼤

量のデータを様々な形にしかも瞬時にグラフ化することが可能となった。その点において記述統計とは、デ

ータの『⾒える化』とも⾔えよう。しかし、数値やグラフは直感的に捉えやすいために、解釈の際には、デ

ータの背後にある特性にも考慮を要することも忘れてはならない。他⽅、測定(質問)⽅法によって得られ

るデータは異なる。また、回答拒否や記⼊漏れ等のような「得られなかったデータ(⽋損値)」についても考

察する必要もある。そこで、本講座では、統計の視覚化とその解釈に関するリテラシ(識字)を踏まえて、

実践的に使える統計⼿法について広く・深く(?)話を進めていきたい。

本講義のテーマは以下の⾔葉に集約される。

Ø 「よい看護というものは、あらゆる病気に共通したこまごましたこと、および⼀⼈⼀⼈の病気に固有の

こまごましたことを観察すること。この⼆つだけで成り⽴っているのである。」 (ナイチンゲール 看

護覚え書きより)

Ø 「⼤切なことは⽬には⾒えないんだ」(サン=テグジュペリ『星の王⼦さま』より)

本講座で取り扱う統計⼿法

【独⽴したサンプルの T 検定】

【ヒストグラム】 【箱ひげ図】

【クロス集計(カイ⼆乗検定)】

【⼆項ロジスティック回帰分析(多重ロジスティック回帰分析)】

【相関】 【散布図(回帰直線)】 【複合した散布図】 【⾮線形回帰】

【重回帰分析】 【偏相関】

【共分散構造分析(AMOS)】

※ AMOS の操作も紹介する予定でおりましたが、平成 23 年 3 ⽉ 11 ⽇に発⽣した「東北地⽅太平洋沖地

震」により、参加者の安全を第⼀優先と考えて学術集会と同時開催の 1 回に変更になりました。従いま

して、時間的配分の関係から、今回は研究⼿法の「⾒える化」という視点から取り上げるに留まり、具

体的操作および留意点等につきましては紹介できないこととなりました。今後、機会があれば紹介した

いと存じます。ふるってご参加ください。

※ このたびの東北地⽅太平洋沖地震により被害を受けられた皆さまに、⼼よりお⾒舞い申し上げるととも

に犠牲者の⽅々に深甚なる哀悼の意を表します。本学会といたしましても被災地の⼥性・妊産婦の⽀援

に最⼤限に取り組んでまいりたいと存じます。

Page 3: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

2

操作例: 偏相関係数を算出する を下記の様に記す

SPSS による分析

【偏相関】:「分析(A)」→「相関(C)」→【偏相関(R)】

処理する変数の情報の例:

変数:児の出⽣体重(g)・地域(AreaA:0・Area B:1)・性(男:1・⼥:0)

これは、児の体重は(g)で測定し、地域は、Area A は 0、Area B は 1 と符号化(コーディング)しているこ

とを意味する。

Page 4: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

3

データの分布と統計量 【独⽴したサンプルの T 検定】

研究例 1 )

ある 2 地域における出⽣体重を⽐較した。 以下の結果をどのように判断するか?

変数:児の出⽣体重(g)・地域(AreaA:0・Area B:1)・性(男:1・⼥:0)

【独⽴したサンプルの T 検定】:「分析(A)」→「平均の⽐較(M)」→【独⽴したサンプルの T 検定(T)】

さらにダイアログボックス内で、①⽐較したい変数(検定変数(T))と ②グループ化変数 を指定する。

①地域別の出⽣体重の平均値⽐較を⾏うので、「検定変数」に体重(下図の例では“weight”)を指定する。

②地域変数(下図の例では“Area”.なお、Area A は 0 、B は 1 と符号化してある)は グループ化変数とし

て指定する。

Page 5: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

4

出⼒結果

結果出⼒の⾒⽅

① 当分散性のための Leven の検定における有意確率

② ①の確率が P>=.05 の場合には 「等分散を仮定した 2 つの⺟平均の差の検定」の有意確率を参照.

〃 が p< .05 〃 「等分散を仮定した 2 つの⺟平均の差の検定」の有意確率を参照.

上記の結果では、Leven の検定における有意確率は p=.000 であり(等分散性は棄却されるので)、等分

差を仮定しない有意確率(両側)を参照することとなる。結果、p=.000 と有意差が⽰された。従って、2

地区の体重(A 地区:2997.5±407.4g、B 地区:3248.8±587.6g)には差があると解釈できる。

両地区の体重を⽐較すると B 地区の⽅が 251.3g 重く,統計学的有意差は得られた. 果たして、それで良

いのであろうか?

Page 6: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

5

【ヒストグラム】と【箱ひげ図】による分布状況の確認

研究例 1 の⽬的は「2 地域における」体重の検討である。そこで、「変数名:Area」の情報を加味して分

布状況を確認してみる。分布状況を確認する⽅法は、①ヒストグラムと ②箱ひげ図 の 2 つの⽅法がある。

①【ヒストグラム】: 「グラフ(G)」→「レガシーダイアログ(L)」→ 【ヒストグラム(I)】

指定画⾯

出⼒例

Area A は 0 、B は 1 と符号化してある

Page 7: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

6

②【箱ヒゲ図】 :「グラフ(G)」→「レガシーダイアログ(L)」→ 【箱ヒゲ図(X)】

指定画⾯

出⼒例

箱ひげ図における箱は 25%点と 75%点の位置を⽰し、箱の中央の線は 50%点(中央値)の位置を⽰している。また、

箱の端から出る“ひげ”は箱の⻑さの 1.5 倍(設定可能)を⽰しており、図中の○(数値はケース番号を表している)は“外

れ値”を、☆は極地を意味している。

これら図を⾒ると、Area B(1)は Area A(0)に⽐べて分布状況は⾼体重側にシフトしているが、ちら

ばき具合も多いことがわかる。特に、箱ひげ図では、A,B 地区の分布の差異をより鮮明に描いている。B 地

Page 8: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

7

区は A 地区に⽐べて全体的に⾼体重側に分布し、中央値も⾼(重)いが、下⽅(低体重)の外れ値も多い。

低体重の基準を 2500gとすると、B 地区は⾼体重も多いが、低体重も多いことがわかる。単に平均値のみ

で議論すると、こうした助産学において重要な情報を(気付かないまま)捨ててしまうことになる。

また、A と B の地区の分布状況について、それぞれヒストグラムや箱ひげ図を作成した場合、両地区の分

布の違いには気付かないことも多い。この検討における⽬的(仮説)は何かを踏まえた上で、作図する必要

があると⾔えよう。

「同⼀条件下で繰り返し測定(観察)」したデータと異なり、多くの調査、研究で得られるデータは外れ値

などが混在することが多い。前者がクリーンデータと、後者をダーティデータと呼ぶこともある。こうした

ダーティデータを扱う上において先ず⾏うことは、外れ値を検討するクリーニングと呼ばれる作業であり、

探索的データ解析を適⽤することである。

探索的データ解析(exploratory data analysis c)とは、J.W.Tukey によって提唱されたもので、デ

ータの解釈にあたっては「まずモデルありき」ではなく、モデルを仮定する前に現実的な⽴場で、データの

⽰唆する情報を多⾯的に捉えるという、解析初期のフェーズを重視したアプローチである。また、この⽅法

は、観察値の持つ情報を客観的に拾い出す(データに真実を語らせる)ことになるため、仮説の検討がぼん

やりとしか分からないときにも有効な⼿法と⾔える。始めに研究仮説(Research Hypothesis)があり, そ

れをデータ分析を通して確認するアプローチである、「仮説に基づく確証的データ分析(confirmatory data

analysis CDA)」とはアプローチが逆と⾔える。

データに真実を語らせるのに有効な⼿法が統計の可視化である。すなわちデータがどのように分布してい

るか,他のデータ集合や分布と⽐べてどうか等を理解するものである。分布の形状を⾒る⽅法として代表的

なヒストグラムが、2 変数の関係の分布形状を⾒る⽅法として散布図がある(後述する)。分布を⽐較するの

に適した⽅法として箱ひげ図がある。

→ポイント:仮説を踏まえた上で、共通したこまごま(全体特性)、固有のこまごま(地域特性と個々⼈の特

異性)の両⽅に着⽬する必要がある。

Page 9: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

8

【クロス集計(カイ⼆乗検定)】

研究例 2 )

ある処置の有無と⽣死の関係を検討した。

変数:処理(有:1・無:0)・性(男:1・⼥:0)・結果(⽣:1・死:0)

研究例 3)

キャンデーの嗜好と婚姻関係の関連を検討した。

変数:キャンデーの嗜好(よく⾷べる:1・あまり⾷べない:0)・婚姻状況(婚姻:1・未婚:0)

・年齢(25 歳以上:1・25 歳未満:0)

【クロス集計表】:「分析(A)」→「記述統計(E)」→【クロス集計表(C)】

下表左は、Simpson(1951)が、要因として“処置の有無”、結果として“⽣死”が観測された医学データの

集計である。⼀⽅、下表右は、ザイゼルによる“配偶関係とキャンデーの嗜好”の集計である。さて、これら

から、どんな結論が導き出されるであろうか?

研究例 2)の集計結果 研究例 3)の集計結果

Yule と Simpson のパラドックス ザイゼルのキャンデー

(出典元)統計的因果推定 宮川雅⼰著 朝倉書店 社会調査ハンドブック 安⽥三郎・原 純輔著 有斐閣双書

左の集計からは、処置の有効性は否定との結果が導き出される。⼀⽅、右の主計からは、婚姻と嗜好の関

連性が推測されるであろう。

しかし、それぞれの研究者が導き出した結論は異なる。最終的な集計結果は以下の通りである。

左表の Yule と Simpson のパラドックスは、Simpson(1951)が、要因として“処置の有無”、結果として

“⽣死”が観測された医学データをもとに、第 3 の変数としての固体属性である性別の関与を指摘して、処置

の有効性はないと指摘したものである。⼀⽅、ザイゼルの例は、配偶関係とキャンデーの嗜好では、年齢と

いう第三次元を導⼊することによって、キャンデーの嗜好と相関するのは年齢であって、配偶関係はほとん

ど関係がなく、疑似相関であることがわかることが⽰されている。

Page 10: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

9

Simpson は第 3 の変数である“性”を導⼊す

ることによって処理の有効性を導き出し、ザ

イゼルは“年齢”を導⼊することによって婚姻

と嗜好の関係の否定している。こうした、異

質な属性を併合することの弊害については

Yule(1903)の指摘がある。層別して解析する

ことが重要であるとの先⾒的⾒解といえる。

SPSS において、層を考慮したクロス集計(カ

イ⼆乗)、上に⽰すダイアログボックス内にお

ける“層”に変数を指定することによって解析

を⾏うことが出来る。

→ポイント:Yule と Simpson のパラドックスおよびザイゼルの例はともに「異質な属性を併合することに

よって⽣じる弊害」と「層別化して解析することの重要性」を意味するものである。例えば、Simpson の例

では「処理に性差は関与するのであろうか?」との問いかけが、ザイゼルの例では「婚姻の有無に関与する

(であろう)何か他の要素はないか?」の問いかけが重要である。⽐較しようとしている現象の背後にある

属性に配慮することによって、層別化すべき属性が⾒えてくる。但し、解析において考慮するためには、予

めデータを⼊⼿する必要がある。研究において解析よりも、研究デザイン(何を、どのようにデータ収集す

べきか)が重要であることと⽰す⼀例である。

Page 11: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

10

【ロジスティック回帰分析】

研究例 3)再掲

キャンデーの嗜好と婚姻関係の関連を検討した。

変数:キャンデーの嗜好(よく⾷べる 1・あまり⾷べない 0)・婚姻状況(婚姻 1・未婚 0)

・年齢(25 歳以上 1・25 歳未満 0)

【ロジスティック回帰分析】:「分析(A)」→「回帰(R)」→【⼆項ロジスティック分析(G)】

結果

Page 12: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

11

結果の解釈

回帰式 □

求められた回帰式は、つぎの通りである。

ln𝑝

1 − 𝑝= 1.359 − 1.050×年齢 + 0.26×婚姻状態

ある事象が確率pで発⽣とすると、この事象が発⽣しない確率は1­pである。オッズとは p /(1-p) であ

らわされるものである。

変数の有意性 □

キャンデーの嗜好への年齢および婚姻状態の統計学的有意性は、各変数の有意確率で判断できる。⼀般的

に、有意確率が 0.05 以下(5%)のときに統計学的に有意(意味がある)と判断されることが多い。そこで、

年齢と婚姻状態の有意確率をみると、年齢は.000 と統計学的に有意と⾔えるが、⼀⽅、婚姻状態は有意とは

⾔えない値が⽰されている。なお、重回帰分析やロジスティック回帰分析では 0.2 前後で判断することもあ

る。

オッズ⽐ □

ロジスティック回帰分析における回帰係数は、オッズ⽐と密接な関係にある。オッズ⽐(odds)とは、説

明変数が 1 単位増加した場合のオッズの増加度合いを表す。オッズ⽐は 1 を中⼼に考える。オッズ⽐が1で

あるということは 2 つの群における発⽣のリスクが同⼀(例えば、婚姻状態においては、婚姻群、未婚群で

キャンデーの嗜好は同⼀)であることを意味しており、有意差なしと解釈することができる。また、オッズ

⽐が1ではない場合も、95%信頼区間が 1.0 を含んでいれば有意差なし、1を含まない場合は有意差ありと

判断することができる。これが有意確率として表されたものであるが、p値は有意か否かの情報しか与えて

くれないが、信頼区間は真の結果にどれくらい近いのかという情報まで提供してくれる。そのため、臨床研

究においてはp値より 95%信頼区間が好んで⽤いられる。なお、⼆項ロジスティック分析の場合は、重回帰

分析と同様に他の説明変数を⼀定の値に固定した場合(後述する)の(他の説明変数で調整した、と表記す

る)オッズ⽐が算出される。 上記結果の場合、婚姻状態は 95%信頼区間に 1.0 が含まれているので、有

意確率は⾼い結果が⽰されている。⼀⽅、年齢のオッズ⽐は.350 であり、95%信頼区間に 1.0 が含まれて

いない。「25 歳以上の者は 25 歳未満に⽐べてキャンデーの嗜好は 0.35 倍である(半分以下である)」と結

論できる。あるいは、「(バイアス、交絡因⼦が存在しないと仮定して)25 歳以上の者は 95%の確率でキャ

ンデーの嗜好は 0.288 倍から 0.425 倍になる」とも表現できる。

Page 13: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

12

【相関と回帰】

研究例 4 )

ある薬剤の曝露(投与)と反応の関係について検討した。

変数:曝露・反応・属性(A・B・C)

【相関】:「分析(A)」→「相関(C)」→ 【2 変量(B)】

曝露と反応はともに量的(スケール)で測定された変数としよう、こうした 2 つの量的(スケール)変数

の関連性の統計量として、相関がある。そこで、先ず、曝露と反応の関連性について相関係数を算出して検

討してみる。

結果

上表は、曝露と反応の相関の結果を⽰したものである。

相関係数は

1. 符号(正)は⽐例関係、負は反⽐例関係

2. 相関係数(絶対値)は 1 に近いほど両者の関係は強い

3. 0 に近いほど両者の関係は弱い ことを⽰す。

なお、相関係数が 0 と⾒なされるか否かが相関性の有意差検定となる。

曝露と反応には正の有意な相関性が認められた。(r=.574,p=.000 と通常記される。なお、整数 1 の位

の 0 は省略される)従って、この結果は「曝露量を多くすることによって反応の増加が⾒込まれる」ことを

意味している。

ポイント→こうした、“曝露(投与)→反応”という(因果)関係を導く場合には「回帰」係数を⽤いて検討す

ることが多い。相関係数は、2 つの変数の関係について⽅向性(→)を考慮せずに相互の関連性を検討する

指標として⼀般的に知られている。しかし、回帰分析は変数間の「相関関係」(正確には分散と共分散)によ

Page 14: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

13

って回帰係数が決定され、単回帰分析では、独⽴変数(x軸)と従属変数(y軸)の回帰係数を標準化係数

(標準回帰係数は)は相関係数と⼀致する。後述するが、重回帰における(標準)偏回帰係数も,独⽴変数

と従属変数、あるいは独⽴変数間の関連性は、相関係数をいわば縮約した値と考えることができる。従って、

2 変数の関連性を検討する上において相関係数の算出は、関連性を検討する第⼀歩となる。

なお、2変数の相関(絶対値)は測定誤差が関与するため、真値の相関(絶対値)に⽐べて⼩さい。これを相

関の希薄化という。2つの測定値間の相関の絶対値はそれぞれの測定値間の信頼性係数の幾何平均を上回る

ことはないという性質を持つ。スピアマンの希薄化の修正公式を⽤いれば、各変数が測定誤差をもたないと

いう条件化のもとで得られる相関の推定値(修正された相関係数)を求めることができる。

スピアマンの希薄化の修正公式

𝜌’(修正された相関係数)=𝜌!"(観測値の相関係数)

𝜌!(変数x!の信頼係数) ∗ 𝜌!(変数x

!の信頼係数)

相関とは 2 変数の関係が直線であることを前提にして、2 変数の関連性の強さを推定するものである。従

って、2 変数の関係を検討するためには、この(分布の形に関する)前提が成り⽴つか?を検討する必要が

ある。分布の形を把握するための⽅法として散布図がある。

果たして、両者の関係は?

Page 15: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

14

【散布図】

直線的な関係の『⾒える化』

【散布図】:「グラフ(G)」→「散布図/ドット(s)」→【単純な散布図】

2 つの変数間の(相関)関係を把握『⾒える化』する⽅法として散布図がある。相関係数において重要な

ポイントは以下の通りである。

1. 外れ値の影響を受けやすい

2. 直線的な関係しか⾒ることができない(⾮線形回帰という⼿法もある)

3. グループ(併合・分割)によって結果が変わる可能性がある

4. 希薄化の問題などがある。

5. 他の変数の影響も含めて 2 次元投影したもの(第 3 の変数を考慮すべき)

研究例 4 の 曝露と反応の関係の散布図を下に⽰す。相関係数というものは⾮常に外れ値の影響を受けや

すい値であるが、図を⾒る限り多重外れ値もないようである。(→もし合った場合には、外れ値を除去するこ

ととなるが、なぜ外れ値があるのか(単なる⼊⼒ミスとか)を考える必要がある。⼀⽅,除去するのではな

く、順位相関係数を算出する⽅法もある。) 図を⾒ると、両者の関係はほぼ直線傾向を⽰している。さらに、

直線性を検討するために、図中に線(この線が回帰線となる)を描いてみる。SPSS の出⼒画⾯で図をダブ

ルクリックすると、次⾴に⽰す“図表エディタ”が開くので、ここで各設定を⾏う。設定終了後、図表エディ

タを閉じると、図表が確定される。

左の図は(⼀次)回帰線を描いた散布図である。

分布の中⼼付近を貫いている様⼦が⽰される。線

の当てはまりの指標である「R2 乗値」も 0.33 の値

が得られ、まずまずの値

を⽰している。

ところで、散布図のダ

イアログボックスにお

いて、マーカーの設定

(S)に『属性』を指定し

て描いた図が下図である。点線は全体における回帰線、実線は各属性における

回帰線を⽰している。

緑、⻘、⾚で⽰された各属性の分布を⾒ると、それぞれ別の位置に分布していることがわかる。上の図で

はそれぞれ異質な集団を単⼀のものとして描いていたことになる。こうした複数の⺟集団を併合して分析す

ることは、解析において様々な弊害を⽣じる(男⼥、複数の学年等の併合し解析している例も多い)。

Page 16: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

15

次に、点線と各属性の関係に着⽬すると、点線は緑や⾚の属性の分布とは乖離したところに位置している。

つまり、点線の回帰式を⽤いた場合には、⾚や緑の

属性を持つ集団では、過⼤あるいは過⼩反応が⽣じ

ることを意味する。 3 種類の属性ごとに回帰線を

描くと、分布の中央付近を貫いていることがわかる。

また、それぞれの R2乗値も単⼀で算出したときよ

りも、数値が向上している(回帰線がよりフィット

していることを意味する)。

→相関性の検討に際し、標本が単⼀の⺟集団と⾒な

しうることが出来るかを検討する必要がある。

補⾜)回帰線は分布した範囲内を表したものであり

(これを内挿という)、それ以外における回帰線の精度は低い(これを外挿という)。しかし、散布図を⽰し

た場合、こうした特徴を知らない者には、(あたかも)外挿部分も回帰線が適⽤出来ると印象づけてしまう。

外挿範囲の回帰線を点線で⽰すことや、場合によっては表⽰しないなどの⼯夫も必要となる。

散布図に回帰線を描く操作

※ SPSS の出⼒画⾯で図をダブルクリックすると、下記の様に“図表エディタ”が現れる。

【(回帰)線の当てはめ】:要素(M)→全体での線の当てはめ(F)

その他、この図表エディタで出来ることは、線の指定(線種、⾊など)、軸の指定、などがある。この図表エ

ディタで処理した後、他の画像ソフトで処理することも必要となることも多い。

例えば、先のグラフの回帰直線は、図表エディタにて点線で描いた後、パワーポイントに取り込んで、実

線を重ね合わせて作成したものである。実線は回帰線の内挿範囲を、点線は外挿範囲を表している。

Page 17: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

16

【複合した散布図】と【⾮線形回帰】

⾮線形関係の『⾒える化』

【散布図】:「グラフ(G)」→「散布図/ドット(s)」→【オーバーレイ散布図】

研究例 5 )

看護経験年数と看護能⼒の関係について検討した。(看護経験年数による看護⾃律性能⼒獲得の関係の検討)

変数:看護経験年数(年)・看護⾃律性(5 種類能⼒)

※ 研究例 4)と同様に、種類毎に【単純な散布図】を描く⽅

法もあるが、ここでは、5 種類を同じ座標軸上に描く散布

図【オーバーレイ散布図】を紹介する。指定⽅法は下のダ

イアログボックスの“X-Y のペア”内に、経験年数をx、5

種類の看護能⼒をyとした組み合わせで指定する。

結果

経験年数と 5 種類の⾃律性能⼒を同じ座標軸上に表し、さらに回帰線を表記した散布図を下に⽰す。なお、

回帰線は左が単(⼀次)回帰、右が三次回帰である。分布状況を⾒ると、いずれも右上がりの分布形状が読

み取れる。しかし、右上がりの形状は 10 年付近までで顕著である様⼦が⽰されている(つまり分布形状は

直線的とは⾔えない)。そこで、⾮線形の関係を検討したものが右の図である。

線の当てはまりの指標である「R2 乗値」を⾒ると、三次回帰の⽅がいずれも値が⾼いことがわかった(回

帰線は⼀次回帰よりも三次回帰の⽅がフィットしていることを意味する)。

Page 18: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

17

結論

看護職の⾃律性と経験年数について検討した.対象者は 416 名.経年年数と⾃律性の関係を多項モデルで検

討した結果,経験年数と⾃律性の関係は3次回帰の関係にあることがわかった.実践・認知能⼒は 3 年⽬,具体

的判断能⼒,抽象的判断能⼒は5年⽬までに⼤きく獲得していた.⾃律性を獲得するために経験年数に応じた

プログラムやサポート体制を構築するとともに,短期・中期・⻑期的な視点の教育が必要であろう. 引⽤⽂

献)後藤恭⼀, 久⽶美代⼦.看護職の看護経験年数と専⾨的⾃律性獲得の実態に関する研究⽇本ウーマンズヘ

ルス学会誌 7,131-137,2008

同様の⼿法を⽤いた研究例として、湯⾈邦⼦, 後藤恭⼀, 久⽶美代⼦. ストレスプロセスの評価とその構

造把握-妊娠期における特徴について-⽇本ウーマンズヘルス学会誌.7,31-42,2008 もある。

Page 19: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

18

他の変数の影響を取り除いた影響⼒【重回帰分析】

研究例 6)

LDL-コレステロールに及ぼす、⾝⻑、体重、年齢の関係(影響度)を検討した。

変数:LDL コレステロール・⾝⻑(cm)・体重(kg)・年齢(歳)

【(重)回帰】:「分析(A)」→「回帰(R)」→ 【線形(L)】

研究例 4)で取り上げた曝露と反応の検討は、両者の関係を 「反応=b0+b×曝露」という⼀次(回帰)

式に当てはめたものである。この式は、曝露から反応を予測する式を表すものである。なお、予測したい変

数を“従属変数”(“⽬的変数”という⾔い⽅もある)、予測に使う変数を“独⽴”変数(他に“説明”変数という⾔い

⽅もある)と⾔う。重回帰分析は、2 つ以上の独⽴変数を⽤いて従属変数を予測するものである。つまり、

独⽴変数が 1 つなら回帰分析、2つ以上は重回帰分析となる。式は下記の⼀次式で表される。

y=b0+b1x1+b2x2+b3x3+・・・+bpxp

b0 を定数項(切⽚)、b1、b2、b3、・・・、bp を偏回帰係数と呼ぶ。

Page 20: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

19

重回帰式は以下の 2 つの場⾯で利⽤されることが多い。

⽬的①: 従属変数を独⽴変数で予測する(式をつくる)ための分析(本来の⽬的)

⽬的②: 従属変数への独⽴変数の影響⼒を検討するための(要因)分析

結果

SPSS による重回帰分析では、以下の結果が⽰される。

回帰式の当てはまり(寄与率・説明率)

これは回帰式の当てはまり具合から回帰式の有効性を評価するための指標である。重相関係数(R)、それ

を 2 乗した R2乗値、さらに調整済み R2 乗値があるが、調整済み R2 乗値が良い指標となる。これは式が

分布にどれくらい当てはまっているかを(従属変数の分散のうち何%を独⽴変数で説明しているか)、寄与率

を⽰したものである。寄与率は 0〜1 の間を取り、1 に近いほど、回帰式の当てはめが上⼿くいっているこ

とを意味する。この結果では、0.122(12.2%)であることがわかる。

回帰式の有意性(分散分析)

回帰式の有意性(回帰式が統計学的に意味を持つか、有効性を意味する)の検討が、分散分析である。有

意確率がある⽔準よりも下回っていた場合(通常 5%)、回帰式は有効であると判断される。

偏回帰係数の⼤⼩と有意性

重回帰式の回帰係数は偏回帰係数と呼ばれる。偏回帰係数とは、「他の独⽴変数の効果を統制(パーシャル

アウト)したときの独⽴変数の効果」を⽰す。

重回帰分析の⽬的は、⽬的①:従属変数を独⽴変数で予測する(式をつくる)ための分析(本来の⽬的)

と、⽬的②:従属変数への独⽴変数の影響⼒を検討するための(要因)分析 の 2 つある。通常、①の⽬的

の様に予測式を⽴てるには B(偏回帰係数)をもとにする。

Page 21: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

20

予測式:LDL コレステロール = 192.975 -.803×⾝⻑ + .589×体重 + .561×年齢

ところで、B(偏回帰係数)は値の⼤⼩で各独⽴変数の従属変数に対する影響⼒を判断することは出来な

い。今回、⾝⻑は cm 単位で計測しているが、もしm(メートル)単位で計測した場合、偏回帰係数の値は

(170cm→1.7mの関係と同様に)100 分の 1 である -.00803 となり、偏回帰係数は単位の影響を受け

る(これを単位に依存するという)。⼀⽅、単位の影響を受けると⾔うことは、⾝⻑と体重といったように単

位が異なる場合には⽐較できないことを意味する。そこで、独⽴変数の従属変数に対する影響⼒を判断する

場合には、t値に着⽬する。なお、偏相関係数の統計学的有意性を表したものがp値である。しかし、p値

の解釈は、従属変数を予測するのに意味があるか否かを⽰したものであり、従属変数と独⽴変数が無関係で

あることを⽰したものではない。

標準化(偏回帰)係数

t値の絶対値が⼤きい変数ほど影響⼒が⼤きいことを⽰していることは先に記した。この影響⼒に着⽬し

て、従属変数への独⽴変数の影響⼒を検討することが⽬的②の要因分析と⾔える。t値に着⽬すれば、従属

変数への独⽴変数の影響⼒を検討することができる。こうした従属変数の影響度の評価に標準化(偏回帰)

係数が⽤いることが出来る。標準化係数は、すべてのデータを標準化(平均値 0、標準偏差 1)してから重

回帰分析を⾏った時の偏回帰係数である。データを標準化することは、データの単位依存を消すことになる。

従って、標準化係数を⽤いれば、単位も異なる独⽴変数の影響度を評価することが可能となる。

多重共線性の問題

統計量(S) →【共線性の診断(L)】

独⽴変数間の関連性(相関)が⾮常に強い場合には、重回帰分析の推定が低くなる。これを多重共線性が

あると⾔う。

独⽴変数の相互の影響を取り除いて、単独の独⽴変数による従属変数の影響度を検討するところに、この

重回帰分析の魅⼒を感じるところも多い。しかし、独⽴変数の相互の影響が強い場合には、重回帰分析その

ものが成り⽴たないこととなる。そこで、重回帰分析に多重共線性が起きているかを評価するための指標と

して、許容度と VIF(Variance Inflation Factor;分散拡⼤要因)がある。

許容度は、説明変数のうち 1 つを従属変数とい、その他を独⽴変数とした重回帰分析を⾏ったときの寄与

率である。もし、寄与率が 1 に近ければ、説明変数間が線形回帰(C1x1+C2x2+C3x3+・・・+Cpxp=定数(⼀

定の値))であることを意味する。そこで、許容度が 0 であるかどうかで共線性を診断することができる。

許容度の逆数が VIF である。多重共線性が⽣じている場合に値が⼤きくなる。VIF の⽬安として、5 や 10

が知られている。これよりも値が⼤きければ多重共線性が⽣じている可能性がある。

さて、先ほどの結果を解釈してみる。式の当てはまりは値が低い(12%)が、分散分析において有意性が

⽰されている。そこで、t値と標準化係数をもとに解釈してみる。⾝⻑のt値および標準化係数には負の符

号が付いている。⾝⻑は LDL コレステロールに負の影響⼒があると解釈してはいけない。ここで注意しなけ

ればならないのは、偏回帰係数が「他の独⽴変数の値を統制した値」であるということである。これは,「独

⽴変数 1 が動くことで,それにともなって他の独⽴変数も動くのだけれども,それがまったくないと仮定し

Page 22: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

21

たものと考えることが出来る。つまり、この結果は、同じ年齢で同じ体重ならば、背が低いほど(太ってい

るので)LDL コレステロールは⾼いと解釈すべきである。

回帰分析における留意点

先に記したとおり、回帰分析は相関係数に基づくものである。従って、重回帰分析における注意点も相関

係数同様であり、直線的な関係しか⾒ることができない。グループ(併合・分割)によって結果が変わる可

能性がある。その他、多重共線性の問題の他に加えて、回帰分析は決して因果関係を表しているわけではな

い、という点は留意すべきである。 なお、従属変数と独⽴変数について、相関係数および偏回帰係数を算

出して、それぞれを⽐較することによって⾒えざる関係が⾒えてくる。下表に関係をまとめる。

単相関=真の相関(直接効果+間接効果)+疑似相関

他の変数の影響を取り除いた影響⼒【偏相関】

【偏相関】:「分析(A)」→「相関(R)」→ 【偏相関(R)】

研究例 6“)

LDL-コレステロールに及ぼす、⾝⻑の影響を取り除いた体重の

関係(影響度)を検討した。

変数:LDL コレステロール・⾝⻑(cm)・体重(kg)

⾝⻑の影響を取り除いた(パーシャルアウト)した時の、LDL-コレステロール値と体重の相関係数(偏相

関)を算出する場合には、右のように指定する。

結果は以下の通りである。

Page 23: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

22

解析⼿法の『⾒える化』

変数同⼠の結びつき

Page 24: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

23

AMOS

AMOS とは、Analysis of Moment Structures(積率構造分析)の頭⽂字を取ったものであり、構造⽅程式

モデル(structural equation model[ing] ;SEM)を⾏うための解析ソフトである。なお、SEMは、共分散

構造分析 (covariance structure analysis)、潜在変数を伴った構造⽅程式モデル (structural equation

model with latent variables)、潜在変数モデル (latent variables model)とも呼ばれる。

変数間の因果関係や相互関連は、図形や⽮印を⽤いたパス図(パス・ダイアグラム)で表現する。共分散

構造分析では、ある変数が別の変数に影響を与えることや、ある観測変数がある潜在変数から影響を受けて

いるといった、「因果モデル」を扱う。

SEM の特徴的

1. 研究上の興味の対象の多くは潜在的因⼦である

l 例えば、ストレスの場合、直接ストレスを測定することは出来ないため、質問項⽬を組み合わせ

た尺度や、⽣化学指標、⽣理学的指標をその(代⽤)値とする。つまり、質問項⽬は、潜在的概

念(因⼦)であるストレスが顕在化したものと⾒なして検討していることとなる。メタボリック

における BMI やウエストも同様である。その他、意識、意⾒、⾏動なども直接観測できないため、

それに代わる何らかの観測値を測定して検討することが多い。

2. 予測変数の多重共線性を扱うのに強い⽅法である

l 多重共線性とは2つ以上の変数が独⽴していないことを意味する。多重共線性を扱うには、次の

3つのアプローチがある。

1. 多重共線性を無視する。

2. 主成分分析のようにデータを減らす⽅法を⽤いることで、多重共線性をなくす。

3. 多重共線性モデルをたてる。特に構造⽅程式

SEM で⽤いる変数と図形

回帰分析では独⽴変数(原因系変数)と従属変数(結果系変数)の区別は明確だが、共分散構造分析において

は異なる。

■ 潜在変数と観測変数

Ø 観測変数

実際に測定されている変数(データ)。SEM の観測変数は、通常、

連続的変数である。AMOS では⻑⽅形で表す。

Ø 潜在変数

観測できない変数。概念や因⼦。AMOS では円や楕円で表す。

観測変数

潜在変数

Page 25: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

24

■ 独⽴変数と従属変数

Ø 独⽴(外⽣)変数

パスモデルの中で他の変数の結果とならない変数。外から導⼊される変数なので外⽣変数と呼ば

れる。単⽅向の⽮印(→)を 1 つも受けていない変数

Ø 従属(内⽣)変数

パスモデルの中で少なくとも⼀度は他の変数の結果となる変数。単⽅向⽮印を受け取っている

n 誤差変数

パス図に描かれていない変数以外の要因。レポートに表記する際は、○で囲まない

ことが多いが、分析においては潜在変数同様に○で囲む。単⽅向の⽮印を受けてい

る変数には誤差変数を設定する。

n ⽮印と数値

Ø 単⽅向⽮印

変数間に因果関係を設定する⽮印。数値は(重)回帰分析や共分散構造分析などで算出される、標

準偏回帰係数を⽤いる。

Ø 双⽅向⽮印

変数間に共変動を設定する⽮印。数値は相関係数や偏相関係数を⽤いる。

Ø ⽮印なし

変数間の関係を 0 と(固定)する

パス図で使⽤する記号

構造変数 誤差変数

内⽣変数 外⽣変数

e,ζ[ゼータ] 観測変数 x (x)

潜在変数 η[イータ] ξ[グザイ]

記号 図形 変数 意味

□ ⻑⽅形 観測変数 観測した変数(データ)

○ 楕円 潜在変数 観測していない変数(概念)

→ 単⽅向の⽮印 単⽅向の因果関係 変数の関係が因果関係である

単⽅向の⽮印 双⽅向の因果関係 変数が相互に影響しあっている

双⽅向の⽮印 共変関係(相関関係) 因果関係を仮定していないが、共に変動する関

係である。

Page 26: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

25

各統計⼿法におけるパス図

相関

⼦と両親の⾝⻑の相関関係を表現したの

が下図である。それぞれの相関係数が⽮印

の下に表⽰されている。

相関関係(共変関係)は相互の⽮印(<->)

で表現する。

偏相関

第3の変数(⺟親の⾝⻑)を取り除いた(「統

制した」という)⽗⾝⻑と⼦⾝⻑の相関を「偏

相関係数」という。偏相関係数(ry1.2)は,

誤差(e1,e2)間の相関に相当する。

重回帰分析

重回帰分析は,複数の独⽴変数(説明変数)が

1つの従属変数(基準変数)に影響を及ぼすモデ

ル(いずれも量的変数)である。

⼦の⾝⻑=定数項+b1*⽗⾝⻑+b2*⺟⾝⻑+誤差(e)

子の身長父身長 母身長

.29 .42

.02

子の身長

父身長

母身長

.02

.42

e1

e2

.31

子の身長

父身長

母身長

.41

.28

.02 e1

Page 27: データの可視化 配布 (2) · 2017-07-20 · データの可視化 -統計量だけではデータ特性を正しく把握することは出来ない- 2011.07.09 第10回

26

その他のパス図の例(引⽤元 Amos のサンプルから)

Amos 16 –Example 4 - Amos 16 –Example 8 -

Amos 16 Example5 Model A

Amos 16 –Example 9 -

��

���

���

���

���

���

�����

����

���

��� �!#'�������("%&$#����

�������.53

1知識

.38

2知識

.56

1価値

.40

2価値

.80

1満足度

.56

2満足度

.73

1成果

.67

2成果

知識

価値

満足度

.66

成果

誤差1

誤差2

誤差8

誤差7

誤差6

誤差5

誤差4

誤差3

.75

.90

.63

.75

.62

.73

.52

.13

.40

.54-.0

8

.86

.82

誤差9

SPSS16 - Example 5: Model A -

標準化推定値

.06

言語能力(事前)

.78

同意語(事前)

eps1

.88

.79

反意語(事前)

eps2

.89 .97

言語能力(事後)

.79

同意語(事後)

eps3

.76

反意語(事後)

eps4

.89 .87

訓練

.91

.28

zeta

SPSS16 - Example 9: Model A -標準化推定値

.13

視覚能力

視覚的認知力

空間視覚化力

方向認識力

語彙力

文書理解力

文理解力

err_v

err_c

err_l

err_p

err_s

err_w

言語能力

1

1

1

1

1

1

1

1

SPSS16 - Example 8 -