120517 サブゼミ 統計(2)

Post on 21-Dec-2014

379 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

  共分散と相関係数

村上 始林 香澄住山 舞依

共分散とは!?

◎分散の復習◎

分散とは(前回の授業より)→偏差を2乗してそれらの平均を散布度の指標としたもの

 一変数のものをとりあげていた

◎共分散◎

これを例題を使って説明すると・・・

「恋愛感情」「孤独感」の2種類の変数を測定してみるiというのは何番目の被験者かをあらわす添え字

まず、それぞれの平均値を出すと・・・

恋愛感情→(10+20+30+40+50) /5=30孤独感→(20 +10 +40 +30 +50) /5=30

次にこれらを使って平均からの偏差を求めてみよう!

そして共分散は偏差の積の平均なので

(200+200+0+0+400) /5=160

となります!!

共分散は散布図で表す場合も便利です!

偏差の積を求めるので積がプラスが多いとプラスの勢力が打ち勝って共分散もプラスになる→散布図は右上がり

反対に偏差の積がマイナスが多いとマイナスの勢力が打ち勝って共分散もマイナスになる→散布図は右下がり

つまり・・・!! 共分散の値の符号によって、散布図が右上がりか右下がりか分かる!

また、 偏差の絶対値が大きいほど(平均から離れた値であるほど)偏差の積の絶対値は大きくなるので共分散の絶対値は大きくなる

これは言い換えると、

共分散の絶対値が大きいほど右上がり・右下がりの傾向が強い!!

なぜ共分散が必要なのか?

たとえば、「子供の年齢と体重との関係を表したい」と思ったときにその二つの変数の関係を表す指標として共分散をつかうと便利!!

相関係数

2班 はやし

1.相関係数とは?

共分散を測定単位に依存しない形に表したもの!

2.相関係数の式

yx

xyxy SS

Sr

もっと簡単に相関を説明すると、

• データを標準化して(データを測定単位に依存しない形に変換して)から、標準化した変数の偏差同士で共分散式を作っても測定単位に依存しない形にできる!!

Sxy=160 ÷(14.14 ×14.14)=0.80

3.相関係数と散布図

r=0.0 r=0.2 r=0.4

r=0.6 r=0.8 r=1.0

3.相関係数の値と強さ

相関係数の性質

相関係数の性質

• 1, 外れ値の影響• 2, 擬似相関• 3, データの層別化• 4, 選抜効果• 5, 相関関係と因果関係

相関係数の性質

外れ値の影響

外れ値の影響• 外れ値 (右上の点 )を含めた相関係数:

• r = 0.59• 外れ値を含めない相関係数:

• r = 0.07• →散布図を描こう!

外れ値外れ値

相関係数の性質

擬似相関

擬似相関• 2つの変数 Xと Yの間に本当は相関がないにもかかわらず、第3の変数 Zの存在によりあらわれる、見かけ上の相関のこと。

• たとえば、アイスの売り上げ (x)とサンダルの売り上げ (y)の間に相関があったからといってその2つの間には本当に相関関係があるとみなすのではなく、気温の上昇 (z)によってあらわれた相関と考えられる。

相関係数の性質

データの層別化

データの層別化• 全体の相関係数: 0.48• ○の相関係数: -0.77• ■の相関係数: -0.63

• →相関係数を解釈するときにはどのような集団に基づいて計算されたものなのかを考慮する必要がある

• 「層別相関」:○や■のように集団ごとに計算した相関係数のこと

相関係数の性質

選抜効果

選抜効果 / 切断効果• 集団の一部だけで相関係数を計算すると、相関係数が小さくなる傾向にあること。

• たとえば、大学試験の成績と入学後の成績の相関を計算した場合。

• 合格者(成績の良かった人)だけで相関係数を計算すると相関は低くなってしまう。

• 不合格者(成績の悪かった人)も含めて相関係数を計算しなくてはいけない。

相関係数の性質

相関関係と因果関係

相関関係と因果関係の違い

• 相関関係:変数 Aと Bが関係がある。共変関係。• 因果関係:原因と結果の関係。 A(原因)が起こったから B(結果)

• →相関関係が強いということは因果関係をしめすということではない。つまり、変数 Aと変数 Bの相関係数が 0.7であったとしても、「変数 Aの値が上がるから変数 Bの値も上がる」という解釈をしてはいけない。

• 正しくは「変数 Aの値が低いとき変数 Bの値も低く、変数 Aの値が高いとき変数 Bの値も高い」

top related