korelasyon ve regresyon · regresyon doğrusu 15 20 25 30 35 40 4, 5 4, 0 3, 5 3, 0 2, 5 2, 0 1, 5...
TRANSCRIPT
1
Korelasyon ve Regresyon
2
İki değişken arasında ilişki olup
olmadığını belirlemek için
yapılan analize korelasyon
analizi denir. Korelasyon;
doğrusal yada doğrusal olmayan
diye ikiye ayrılır.
Korelasyon Analizi
3
İki değişken arasında
bir ilişki var mıdır?
ilişki doğrusal mıdır, değil midir?
(varsa) ilişkinin yönü nedir?
ilişkinin gücü nedir?
ilişkinin büyüklüğü nedir?
Korelasyon
4
Varsayımlar
1. (X, Y) sürekli tesadüfi
değişkenlerdir.
2. X ve Y’lerin dağılımı normal
olmalıdır.
5
Serpilme Diyagramı
İki değişken arasındaki ilişkinin;
olup olmadığını, biçimin
(doğrusal mı değil mi), yönünü
ve gücünü belirlemenin en kolay
yolu serpilme diyagramını
çizektir.
6
Örnek Bir firma bünyesindeki satış personeli
sayısı ile satış gelirleri arasındaki ilişkiyi
bilmek istemektedir.
Yıllar Satış Personeli Sayısı
(Xi)
Satış Gelirleri (yüz
bin $) (Yi)
1999 15 1,35
2000 18 1,63
2001 24 2,33
2002 22 2,41
2003 25 2,63
2004 29 2,93
2005 30 3,41
2006 32 3,26
2007 35 3,63
2008 38 4,15
7
Serpilme Diyagramı
403530252015
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
personel sayısı
sa
tış g
elir
iScatterplot of satış geliri vs personel sayısı
8
Pozitif Korelasyon
x x
y y y
x (a) Pozitif (b) Güçlü
pozitif (c) Tam
pozitif (a) Pozitif (b) Güçlü
pozitif
9
Negatif Korelasyon
x x
y y y
x (d) Negatif (e) Güçlü
negatif (f) Tam
negatif
10
x x
y y
(g) Korelasyon yok (h) Doğrusal olmayan güçlü ilişki
11
Doğrusal Korelasyon Katsayısı r
Bir örnekteki Xi ve Yi gibi iki değişken
arasındaki doğrusal ilişkinin büyüklüğünü
ölçmektedir.
12
Doğrusal Korelasyon Katsayısı r’nin
Özellikleri
-1 r 1
• r = 1 Tam pozitif doğrusal ilişki
• r = -1 Tam negatif doğrusal ilişki
• r = 0 Doğrusal
• 1,00-0,90 Çok kuvvetli
• 0,70-0,89 Kuvvetli
• 0,50-0,69 Orta
• 0,30-0,49 Düşük
• 0,00-0,29 Zayıf
13
Korelasyon ile ilgili hatalar
1. Nedensellik: Korelasyon değişkenler
arasındaki sebep sonuç ilişkilerini açıklamaz.
2. Doğrusallık: X ile Y değişkenleri arasında
anlamlı bir doğrusal korelasyon olmadığı halde,
aralarında doğrusal olmayan ya da farklı bir
ilişki olabilir.
14
Örnek Veriler İçin Korelasyon
Hesaplamaları
Yıllar Satış Personeli
Sayısı (Xi)
Satış Gelirleri
(yüz bin $)
(Yi)
1999 15 1,35
2000 18 1,63
2001 24 2,33
2002 22 2,41
2003 25 2,63
2004 29 2,93
2005 30 3,41
2006 32 3,26
2007 35 3,63
2008 38 4,15
Toplamlar 268 27,73
15
Örnek Veriler İçin Korelasyon
Hesaplamaları
Yıllar Satış Personeli
Sayısı (Xi)
Satış Gelirleri (yüz bin $)
(Xi)
1999 15 1,35 -11,8 -1,42 16,76 139,24 2,02
2000 18 1,63 -8,8 -1,14 10,03 77,44 1,3
2001 24 2,33 -2,8 -0,44 1,23 7,84 0,19
2002 22 2,41 -4,8 -0,36 1,73 23,04 0,13
2003 25 2,63 -1,8 -0,14 0,25 3,24 0,02
2004 29 2,93 2,2 0,16 0,35 4,84 0,03
2005 30 3,41 3,2 0,64 2,05 10,24 0,41
2006 32 3,26 5,2 0,49 2,55 27,04 0,24
2007 35 3,63 8,2 0,86 7,05 67,24 0,74
2008 38 4,15 11,2 1,38 15,46 125,44 1,9
Toplamlar 268 27,73 57,46 485,6 6,98
)( YYi )( XX i ))(( YYXX ii 2)( XX i 2)( YYi
16
Örnek Verileri İçin Korelasyon
Hesaplamaları
r = 0,98 Personel sayısı ile satış gelirleri arasında pozitif yönlü 0,98 büyüklüğün güçlü korelasyon vardır.
2222 )()(
))((
ii
ii
ii
ii
yx
yx
YYXX
YYXXr
17
Regresyon
bağımsız değişken (açıklayıcı
değişken, etkileyen)
bağımlı değişken (cevap, yanıt
değişkeni, etkilenen)
Basit doğrusal
regresyon modeli
= sabit (kesen) katsayı
= eğim katsayısı
ii10i e X Y
1
0
iX
iY
18
Regresyon Modeli Tahmini
Basit doğrusal regresyon denklemi,
Bağımsız değişkenin bağımlı değişken üzerindeki etkisini gösterir.
b = eğim a = sabit
ii X Y ba
19
Regresyon Doğrusu
403530252015
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
personel sayısı
sa
tış g
elir
iScatterplot of satış geliri vs personel sayısı
20
Notasyon
Regresyon denkleminde sabit 0 a
Regresyon denkleminde eğim 1 b
Regresyon modeli ve eşitliği Yi = 0 + 1 Xi + ei Yi = a + b
Anakütle Parametresi
Örnek istatistiği
Xi ^
ii ebXaY i
21
Hata terimleri (Artıklar)
En Küçük Kareler Yöntemi
‘yi minimum yapan a ve b değerlerinin
bulunmasıdır.
Hata terimleri (Artıklar) ve En
Küçük Kareler Yöntemi
)ˆ(ˆiii YYe
2
ie
22
0 ve 1 için En Küçük Kareler
Tahminleyicileri
22)(
))((
i
ii
i
ii
x
yx
XX
YYXXb
XbYa
23
Örnek Veriler İçin Regreyon
Katsayılarının Hesaplanması
Yıllar Satış Personeli
Sayısı (Xi)
Satış Gelirleri
(yüz bin $)
(Yi)
1999 15 1,35
2000 18 1,63
2001 24 2,33
2002 22 2,41
2003 25 2,63
2004 29 2,93
2005 30 3,41
2006 32 3,26
2007 35 3,63
2008 38 4,15
Toplamlar 268 27,73
24
Regreyon Katsayılarının
Hesaplanması
Yıllar Satış Personeli
Sayısı (Xi) Satış Gelirleri (yüz bin $) (Xi)
1999 15 1,35 -11,8 -1,42 16,76 139,24
2000 18 1,63 -8,8 -1,14 10,03 77,44
2001 24 2,33 -2,8 -0,44 1,23 7,84
2002 22 2,41 -4,8 -0,36 1,73 23,04
2003 25 2,63 -1,8 -0,14 0,25 3,24
2004 29 2,93 2,2 0,16 0,35 4,84
2005 30 3,41 3,2 0,64 2,05 10,24
2006 32 3,26 5,2 0,49 2,55 27,04
2007 35 3,63 8,2 0,86 7,05 67,24
2008 38 4,15 11,2 1,38 15,46 125,44
Toplamlar 268 27,73 57,46 485,6
)( YYi )( XX i ))(( YYXX ii 2)( XX i
25
Satış gelirinin personel sayısı ile
açıklandığı regresyon denklemi
katsayılarının (a, b) tahmin edilmesi
b = 0,11 Personel sayısında bir birimlik bir artış
olduğunda satış gelilerinde 0,11 (xYüzbin Dolar) birimlik
artış olur.
a = - 0,17 Personel sayısı sıfır
olduğunda satış gelirleri -0,17 (xYüzbin
Dolar) olur. Yani 17000 Dolarlık bir zarar
olur.
Yi = - 0,17 + 0,11 Xi
26
Verilen bir Xi değeri için denklemden
tahmin edilen nin (teorik, tahmin
edilen) değeri ne olur?..
Eğer anlamlı bir korelasyon varsa, en iyi
tahmin edilen değeri, Xi değerinin
regresyon denkleminde yerine konulmasıyla
bulunur.
Tahmin
iY
27
Denklemden satış gelirinin tahmin edilmesi
Yi = - 0,17 + 0,11 Xi
Yi = ?
^
^
Denklemden Hata terimlerin (Artıklar) tahmin edilmesi
?)ˆ(ˆ iii YYe
28
Toplam
değişkenlik
0
1
2
3
4
5
6
7 8
9
10
11
12
13
14 15
16
17
18
19
20
•
•
•
Açıklanamayan
değişkenlik
Açıklanan
değişkenlik
(5, 19)
(5, 13)
(5, 9)
Yi = 3 + 2Xi ^
Y = 9
Yi
Xi 0 1 2 3 4 5 6 7 8 9
Toplam Değişkenlik, Açıklanan Değişkenlik ve
Açıklanamayan Değişkenlik
ii Y-Y
YiYYiY
(Toplam değişkenlik) = (Açıklanan değişkenlik) + (Açıklanamayan değişkenlik)
)ˆ()ˆ(Yi iii YYYYY
(Genel kareler toplamı) = (Regresyon kareler toplamı) + (Artık kareler toplamı)
222i )ˆ()ˆ()(Y iii YYYYY
29
Tahmin Edilen Teorik
ve değerleri
iY
ie
1,48 -0,13 0,0169
1,81 -0,18 0,0324
2,47 -0,14 0,0196
2,25 0,16 0,0256
2,58 0,05 0,0025
3,02 -0,09 0,0081
3,13 0,28 0,0784
3,35 -0,09 0,0081
3,68 -0,05 0,0025
4,01 0,14 0,0196
Toplam 0,2137
ieiY
2ie
30
Belirlilik Katsayısı Yi’deki (bağımlı değişkendeki) değişkenliğin ne
kadarının bağımsız değişkenlerdeki (regresyon
doğrusu) değişim tarafından açıklanabildiğini gösterir.
Basit doğrusal regresyon modellerinde belirlilik
katsayısı, doğrusal korelasyon katsayısının r’nin
karesine eşittir. r2=Belirlilik katsayısı.
Çoklu regresyon modellerinde belirlilik katsayısı
aşağıdaki formülle hesaplanır.
GKT
RKT
Y
e
Y
YYr ii
2
i
2
2i
22
)(Y1
)(Y
)ˆ(
31
Örnek Veriler İçin Belirlilik Katsayısı
r2 = %96,04
Satıs gelirlerindeki (Yi’deki) değişimin %97,4’ü,
personel sayısındaki (Xi’deki) değişim
tarafından açıklanabilmektedir.
GKT
RKT
Y
e
Y
YYr ii
2
i
2
2i
22
)(Y1
)(Y
)ˆ(
32
Korelasyon Katsayısının
Anlamlılığının Testi
=Anakütle korelasyon katsayısı
H0: = (anlamlı bir korelasyon yoktur)
H1: (anlamlı bir korelasyon vardır)
33
Test İstatistiği t
Test istatistiği:
1 - r 2
n - 2
r-
thesap =
Kritik değerler
serbestlik derecesi = n - 2 olan tablo değerleri dikkate alınarak karar verilir.
34
Ret Bölgeleri
35
Örnek Verileri İçin Anakütle Korelasyon
Katsayısının Testi (t Testi) =Anakütle korelasyon katsayısı
H0: = (satış personeli sayısı ile satış gelirleri arasında anlamlı bir
korelasyon yoktur)
H1: (satış personeli sayısı ile satış gelirleri arasında anlamlı bir
korelasyon vardır)
Test istatistiği:
1 - r 2
n - 2
r-
thesap= 1 – 0,987 2
10 - 2
0,987-0
= = 17,39
Kritik değer serbestlik derecesi = n - 2 = 10 – 2 = 8, a = 0,05 için t0,025, 8= 2,31 < 17,39 Karar: H0 red. Korelasyon anlamlıdır.
36
Regreyon Katsayılarının ve Regreyon
Modelinin Anlamlılığının Testi
• Regreyon katsayılarının (t testi) ve regreyon
modelinin anlamlılığının testi (F testi) ni
yapabilmek için öncelikle standart hataların
hesaplanması gerekmektedir.
37
Tahminin Standart Hatası
)k-(
)ˆ( 2
ˆ n
eS i
ie
Sabit Katsayının (a) Standart Hatası
2i
2
ˆ)X-(
1
X
X
nSS
iea
Eğim Katsayının (b) Standart Hatası
2i
2ˆ
)X-(X
SS ie
b
Standart Hataların Hesaplanması
38
Regresyon Katsayısılarının Testi (t Testi)
1ve Anakütle regresyon katsayıları
1için için
H0: 1= H0: = (1 anlamsızdır) ( anlamsızdır)
H1: 1 H1:
(1 anlamlıdır) ( anlamlıdır)
Kritik değerler serbestlik derecesi = n - k olan tablo değerleri dikkate alınarak karar verilir. (modelde hesaplanacak katsayı adedi)
|thesap | > t a /2, n – k ise H0 Red.
b-1 thes =
Sb
a-0
Sa
thes =
39
Standart Hatalar
Sb = b1’in standart hatasıdır.
2i
2ˆ
)X-(X
SS ie
b
Sa = a’nın standart hatasıdır.
2i
2
ˆ)X-(
1
X
X
nSS
iea
= Tahminin Standart Hatası 10685,0
)k-(
)ˆ( 2
ˆ
n
eS i
ieieS
ˆ
40
Örnek Veriler ile Regresyon
Katsayısılarının Testi (t Testi)
1=Anakütle regresyon
katsayısı (X1 için)
H0: 1= (1 anlamsızdır)
H1: 1 (1 anlamlıdır)
41
Test İstatistiği t
Test istatistiği:
b-1
t = Sb
0,11
0,006804 =
=0,006804
= 16,16
2i
2ˆ
)X-(X
SS ie
b
Kritik değerler serbestlik derecesi = n - k olan tablo değerleri dikkate alınarak karar verilir. a = 0,05 olsun. |16,16 | > t a/2, n – 2 = t 0,025, 8 = 2,306 H0 Red. 1 anlamlıdır.
42
B0 İçin
0=Anakütle regresyon
modelinde sabit terim
H0: 0= (0 anlamsızdır)
H1: 0 (0 anlamlıdır)
43
Test İstatistiği t
Test istatistiği:
a-
t = Sa
0,1884 =
=0,1884
= - 0,902 - 0,17
2i
2
ˆ)X-(
1
X
X
nSS
iea
0
Kritik değerler serbestlik derecesi = n - 2 olan tablo değerleri dikkate alınarak karar verilir. a = 0,05 olsun. |- 0,902 | < t a/2, n – 2 = t 0,025, 8 = 2,306 H0 REDDEDİLEMEZ. 0 anlamsızdır.
44
F - Testi
H0: 12...k (Model anlamsızdır)
H1: en az bir i için i
(Model anlamlıdır)
Test İstatistiği = F – oranı (Fhesap) =
Basit doğrusal regresyonda t2 = F olmaktadır.
Ret Bölgesi = Fhesap > Fa , k-1, (n – k) ise H0 RET. (k
modelde hesaplanacak katsayı adedi)
AKO
RKO
YY
YY
ii
i
)ˆ(
)ˆ(
45
F – Testi (Satış Gelirleri Örneği İçin)
H0: 1 (Model anlamsızdır)
H1: En az birisi sıfırdan farklı (Model anlamlıdır)
Test İstatistiği
Karar = Fhes = 302,41 > F0,05, 1, 8 = 5,32 H0 RET.
41,3020225,0
7982,6hesF