wykład 9 magdalena alama-bucko´ 24 kwietnia...

34
Statystyka Wyklad 9 Magdalena Alama-Bu´ cko 24 kwietnia 2017 Magdalena Alama-Bu´ cko Statystyka 24 kwietnia 2017 1 / 34

Upload: lammien

Post on 27-Feb-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

StatystykaWykład 9

Magdalena Alama-Bucko

24 kwietnia 2017

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 1 / 34

Tematyka zajec:

Wprowadzenie do statystyki.Analiza struktury zbiorowosci

miary połozeniamiary zmiennoscimiary asymetriimiary koncentracji.

Analiza współzaleznosci zjawisk.Analiza dynamiki zjawisk.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 2 / 34

X ,Y - dwie cechy, do których chcemy dopasowac pewna funkcjeopisujaca zaleznosc miedzy nimi

Zaleznosc korelacyjna miedzy cechami oznaczała, ze zmianawartosci zmiennej niezaleznej powoduje scisle okreslona zmianewartosci sredniej zmiennej zaleznej (objasnianej).

Funkcja regresji jest pewna matematyczna funkcja, która stanowiprzyblizenie faktycznej zaleznosci.

Jesli X - zmienna niezalezna, a Y - zmienna zalezna (opisywana),to

yi = f (xi),

gdzie yi - oczekiwana wartosc zmiennej Y dla X = xi .

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 3 / 34

X - zmienna niezalezna, Y - zmienna zalezna (opisywana), to

yi = f (xi),

gdzie yi - oczekiwana wartosc zmiennej Y dla X = xi .

zaobserwowane wartosci yi odchylaja sie od funkcji regresji yi opewna wartosc ei , czyli

yi = yi + ei .

Wyrazenia ei nazywamy resztami, a pojawiaja sie one:

na skutek czynników losowychpod wpływem cech nie uwzglednionych w badaniu.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 4 / 34

dane: (xi , yi), i = 1,2, ...,nszukana funkcja y = f (x) jest "najlepiej" dopasowana do danych

Metoda najmniejszych kwadratów

suma kwadratów odchylen odległosci zaobserowanych wartosci yiod wartosci teoretycznych yi ma byc najmniejsza, tzn.∑

i

(yi − yi)2 → min

linowa postac funkcji regresji

y = bx + a

zmieniajac wartosc x o jedna jednostke, zmiana wartosci ynastepuje zawsze o tyle samo (o b jednostek).

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 5 / 34

Obliczanie parametrów regresji liniowej

postac prostej regresji (tzn. współczynniki) zaleza od konkretnychdanych ( dla innego zestawu danych postac moze byc inna !!!)

y = a + b x

b jest współczynnikiem regresji

wartosci a i b obliczane na podstawie obserwacji: (xi , yi), i = 1,2,...,n

b =

1n

n∑i=1

xiyi − x · y

1n·

n∑i=1

x2i − (x)2

=

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

, a = y − b · x .

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 6 / 34

wyrazenie okreslajace b mozna zapisac nieco inaczej

b =

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

=

1n

n∑i=1

(xi − x)(yi − y)

1n

n∑i=1

(xi − x)2

=cov(x , y)

s2x

Wyrazenie w liczniku współczynnika b to kowariancja cech X i Y

cov(x , y) =1n

n∑i=1

(xi − x)(yi − y).

cov(x , y) jest pewna miara zaleznosci miedzy cechami

cov(x , x) = s2x , cov(y , y) = s2

y

rxy =cov(x , y)

sx · sy

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 7 / 34

Uwaga

jezeli znamy współczynnik korelacji liniowej Pearsona orazsrednie i odchylenia stadardowe, to współczynniki regresji prostej

y = b · x + a

mozna obliczyc ze wzorów:

b = rxy ·sy

sx

a = y − b · x .

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 8 / 34

Zadania z Wykładu 6

Zadanie 1 Zaobserwowano nastepujace wartosci wieku mezczyzn (X)i kobiet (Y) zawierajacych zwiazek małzenski (w latach).

X 22 21 30 18 28Y 26 22 29 22 25

rxy = 0.8239

r = r2xy = 0.82392 = 0.6788 =

68%

y = 0,48x + 13,28

x- wiek mezczyzny,y - sredni wiek kobiety

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 9 / 34

Zadania z Wykładu 6

Zadanie 2 Zbadano zaleznosc miedzy stazem pracy (X), awydajnoscia pracownika (Y) w duzym przedsiebiorstwie. Wylosowanow sposób niezalezny stu pracowników.

Liczba sztuk na godzine10− 20 20− 30 30− 40 40− 50

Staz0− 2 15 5 − −2− 4 10 10 5 −4− 6 − 10 10 56− 8 − − 10 5

8− 10 − − 5 10

rxy = 0.802.x− staz pracy, y - wydajnosc

y = 3,24 · x + 14,6

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 10 / 34

Jakosc dopasowywania krzywej regresji do danych rzeczywistychokreslamy za pomoca:

odchylenie standardowe składnika resztowego:

S2e =

∑ni=1(yi − yi)

2

n − 2, Se =

√S2

e =

√∑ni=1(yi − yi)2

n − 2

informuje o srednim odchyleniu wartosci empirycznych odteoretycznych.współczynnik determinacji:

R2 = 1− ϕ2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

jaka czesc cechy zaleznej jest wyjasniona kształtowaniem siecechy niezaleznej.współczynnik zbieznosci (indeterminacji):

ϕ2 =

∑ni=1(yi − yi)

2∑ni=1(yi − y)2

jaka czesc cechy zaleznej jest wywołana działaniem czynnikówlosowych.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 11 / 34

WłasnoscPoniewaz dla korelacji liniowej zachodzi

R2 = r2xy ,

to odchylenie standardowe składnika resztkowego w przypadkuregresji liniowej moze byc liczona równiez ze wzoru

Se = sy ·√

1− r2xy .

Szczególne przypadki

gdy rxy = 0, to Se = sy

gdy rxy = 1, to Se = 0

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 12 / 34

Przykład Do danych za pomoca programu Excel zostały dopasowanerózne typy funkcji :

"edytor" wykresulinia trenduwybór funkcji (mozliowosc podania równania i wyliczenia R2 )

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 13 / 34

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 14 / 34

Uzyskalismy zatem nastepujace wyniki:

regresja wykładnicza R2 = 0.9877regresja wielomianowa st.2: R2 = 0.9824regresja wielomianowa st.3: R2 = 0.998 -najlepsze dopasowanieregresja liniowa: R2 = 0.8238 - najgorsze dopasowanieregresja logarytmiczna: R2 = 0.9768regresja potegowa: R2 = 0.9152

UwagiExcel potrafi wyznaczyc wzory funkcji róznych typów najlepiejdopasowanych do obserwacjinie znamy ogólnych jawnych postaci tych wzorów !!!podałam jawne (ogólne) wzory jedynie na współczynniki regresjiliniowej.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 15 / 34

Dotychczas rozwazalismy przypadek, gdy x- zmienna niezalezna a y -zmienna zalezna. Równanie regresji w tym przypadku: y = bx + a.

Wprowadzmy indeksy y we współczynnikach a i b tak, by było dla nasjasne, ze sa to współczynniki prostej okreslajacej y , czyli:

y = byx + ay ,

gdzie (przypominamy):

by = rxy ·sy

sx, ay = y − b · x .

Czesto mozna spotkac sie z zapisem ( moze byc równiez bez e):

y = by · x + ay + e(jakas liczba) (jakas liczba) (jakas liczba)

Czym sa liczby zapisane pod spodem w nawiasach?

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 16 / 34

y = by · x + ay + e(S(by )) (S(ay )) (Se)

S(by ) i S(ay ) to błedy srednie szacowania odpowiednichparametrów funkcji regresji

liczymy je ze wzorów:

S(by ) =Se

sx√

n, S(ay ) = S(by ) ·

√√√√1n

n∑i=1

x2i

Se oznacza poznane wczesniej odchylenie resztkowe, które jestokreslone wzorem:

Se =

√S2

e =

√∑ni=1(yi − yi)2

n − 2.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 17 / 34

S(by ) =Se

sx√

n, S(ay ) = S(by ) ·

√√√√1n

n∑i=1

x2i .

Oznacza to, ze przy szacowaniu parametrów regresji liniowej napodstawie wylosowanej próby mylimy sie srednio o

±S(by ) przy twierdzeniu, ze parametr by przyjmuje taka samawartosc w całej populacji.

±S(ay ) przy twierdzeniu, ze parametr ay przyjmuje taka samawartosc w całej populacji.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 18 / 34

Przykład

Szacujac parametry regresji liniowej otrzymalismy

a = 0,88, b = 0,105

oraz srednie błedy tych przyblizen:

S(by ) = 0,008, S(ay ) = 5,28

Mamy zatem zapis:

y = 0,105 · x + 0,88(0,008) (5,28)

wyraz wolny nie jest oszacowany precyzyjnie (bardzo duzy bład!!!)precyzja szacowania współczynnika regresji jest wystarczajaca

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 19 / 34

Y - zmienna niezalezna, X - zmienna objasniana

Rozwazmy terazx = bx · y + ax

gdzie

bx =

1n

n∑i=1

xiyi − x · y

1n·

n∑i=1

y2i − (y)2

=

n∑i=1

(xi − x)(yi − y)

n∑i=1

(yi − y)2

, ax = x − bx · y .

Uwaga

jezeli znamy współczynnik korelacji liniowej Pearsona orazsrednie i odchylenia stadardowe, to współczynnik b moznaobliczyc ze wzoru:

bx = rxy ·sx

sy.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 20 / 34

Jezeli znamy wzór prostej regresji

y = by · x + ay ,

to w celu znalezienia wzoru

x = bx · y + ax ,

wszystkie współczynniki bx i ax nalezy wyliczyc od nowa.

Jezeli z równania prostej y = by · x + ay , wyznaczymy x , tootrzymujemy inny wzór, niz

x = bx · y + ax .

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 21 / 34

Zadania z Wykładu 6

Zadanie 1 Zaobserwowano nastepujace wartosci wieku mezczyzn (X)i kobiet (Y) zawierajacych zwiazek małzenski (w latach).

X 22 21 30 18 28Y 26 22 29 22 25

rxy = 0.8239

x- wiek mezczyzny (meza)y - wiek kobiety (zony)

prosta regresji y wyznaczona na podstawie naszych danych:

y = 0,48x + 13,28

prosta regresji x wyznaczona na podstawie naszych danych:

x = 1,4y − 11

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 22 / 34

x = 23,8, y = 24,8

wraz ze wzrostem wieku meza a 1 rok nastepuje wzrost(sredniego) wieku zony o 0,48 roku.wraz ze wzrostem wieku zony a 1 rok nastepuje wzrost(sredniego) wieku meza o 1,4 roku.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 23 / 34

Zadania z Wykładu 6

Zadanie 2 Zbadano zaleznosc miedzy stazem pracy (X), awydajnoscia pracownika (Y) w duzym przedsiebiorstwie. Wylosowanow sposób niezalezny stu pracowników.

Liczba sztuk na godzine10− 20 20− 30 30− 40 40− 50

Staz0− 2 15 5 − −2− 4 10 10 5 −4− 6 − 10 10 56− 8 − − 10 5

8− 10 − − 5 10rxy = 0.802.wzór: x− staz pracy, y - wydajnosc

y = 3,24 · x + 14,6x = 0,199 · y − 1,26

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 24 / 34

wzór: x− staz pracy, y - wydajnosc

x = 4,6, y = 29,5

y = 3,24 · x + 14,6x = 0,199 · y − 1,26⇒ y = 5,03x + 6,35

wzrost stazu pracy o 1 rok powoduje wzrost wydajnosci o 3,24sztuki.wzrost wydajnosci o 1 sztuke powoduje wzrost stazu o 0,2 roku(około 2,5 miesiaca).

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 25 / 34

Własnosci Mamy zatem dwie funkcje regresji liniowej

y = ay + byx , x = ax + bxy .

obie proste regresji przecinaja sie w punkcie (x , y)

by = rxy ·sy

sx, bx = rxy ·

sx

sy

Zauwazmy, ze znaki bx i by zawsze sa takie same i pokrywaja sieze znakiem rxy , zatem:

obie proste regresji sa równoczesnie rosnace (gdy rxy > 0)

albo

obie proste regresji sa równoczesnie malejace (gdy rxy < 0).

gdy rxy = 0 (tzn. brak korelacji liniowej) to proste przyjmuja postac:

y = y , x = x ,

zatem sa do siebie prostopadłe.Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 26 / 34

Poniewaz by = rxy ·sy

sx, bx = rxy ·

sx

sy, to:

|rxy | =√

bx · by ,

przy czym znak rxy pokrywa sie ze znakiem bx .

Przykład 1 Jezeli bx = 2,by = 13 , to

|rxy | =√

2 · 13=

√0,677 = 0,817 ⇒ rxy = 0.817.

Przykład 2 Jezeli bx = −2,by = −13 , to

|rxy | =√(−2) · (−1

3) =

√0,677 = 0,817 ⇒ rxy = −0.817.

Przykład 3 Jezeli bx = −2, rxy = 12 , to ze wzoru r2

xy = bx · by mamy:

by =r2xy

bx=

14 · (−2)

= −18= −0,125.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 27 / 34

Jaki jest kat nachylenia do osi OX prostej x = ax + bxy ?

bx jest współczynnikiem kierunkowym tej prostej, ale jest równytangensowi kata nachylenia tej prostej do osi OY !!!

Jesli z równosci x = ax + bxy , gdzie bx = rxy ·sx

sywyznaczymy y ,

czyliy =

1bx

x − ax

bx,

to współczynnik kierunkowy bedacy tangensem nachylenia prostejx = ax + bxy do osi OX wynosi

1bx

=1

rxy

sy

sx.

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 28 / 34

Jesli |rxy | = 1, to zaleznosc miedzy cechami jest liniowa i obieproste regresji sie pokrywaja. Zatem kat miedzy prostymi regresjiwynosi 0◦ stopni.

Jesli 0 < |rxy | < 1, to proste regresji tworza z soba pewien kat α (ostry, tzn. α ∈ (0◦,90◦)), który mozna obliczyc ze wzoru:

tgα =|1− rxy | · sx · sy

|rxy | · (s2x + s2

y ).

Jesli rxy = 0, to proste regresji przyjmuja postac x = x i y = y ,zatem sa do siebie prostopadłe. Stad kat miedzy takimi prostymiregresji wynosi 90◦.

prosta x = ay + by · y przyjmuje postac x = x , bo:

by = rxy ·sx

sy= 0, ay = x − by · y = x .

prosta y = ay + by · x przyjmuje postac y = y , bo:

by = rxy ·sy

sx= 0, ay = y − by · x = y .

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 29 / 34

α− kat miedzy prostymi regresji

wraz ze wzrostem zaleznosci kat pomiedzy prostymi regresjimaleje

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 30 / 34

Zadanie z trescia

Na podstawie nastepujacych danych ustal siłe i kierunek zaleznoscipomiedzy stazem pracy robotników bezposrednio produkcyjnych a ichwydajnoscia pracy oraz wyznacz równania liniowych funkcji regresji.

sredni staz wynosi 8 lat

przyrostowi stazu pracy o 1 rok towarzyszy wzrost wydajnoscipracy o 2 jednostki produktu na godzine

wydajnosc pracy robotników rózni sie od wydajnosci sredniejprzecietnie o ±5 jednostek produktu na godzine

współczynnik zmiennosci stazu pracy wynosi 25%

srednia wydajnosc pracy wynosi 25 jednostej produktu na godzine

niech x - staz pracy , y - wydajnosc pracyszukamy

rxy , x = bx · y + ax , y = by · x + ay

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 31 / 34

niech x - staz pracy , y - wydajnosc pracyszukamy

rxy , x = bx · y + ax , y = by · x + ay

sredni staz wynosi 8 latx = 8

przyrostowi stazu pracy o 1 rok towarzyszy wzrost wydajnoscipracy o 2 jednostki produktu na godzine

by = 2

wydajnosc pracy robotników rózni sie od wydajnosci sredniejprzecietnie o ±5 jednostek produktu na godzine

sy = 5

współczynnik zmiennosci stazu pracy wynosi 25%

Vs =sx

x· 100% = 25%

srednia wydajnosc pracy wynosi 25 jednostej produktu na godzine

y = 25Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 32 / 34

x = 8, y = 25

V =sx

x· 100% = 25% ⇒ sx = x · 0,25 = 2

sy = 5by = 2, zatem mozemy wyliczyc wartosc ay :

ay = y − by · x = 25− 2 · 8 = 9.

Zatem mamyy = 2x + 9.

by = rxy ·sy

sx⇒ rxy =

by · sx

sy=

2 · 25

= 0,8.

rxy =√

bx · by ⇒ bx =r2xy

by=

0,642

= 0,32

ax = x − bx · y = 8− 0,32 · 25 = 0.Zatem druga prosta regresji

x = 0,32y .

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 33 / 34

Dziekuje za uwage !

Magdalena Alama-Bucko Statystyka 24 kwietnia 2017 34 / 34