wykład 14 diagnostyka

Post on 06-Jan-2016

47 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Wykład 14 Diagnostyka. Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy. Ocena danych. Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych - PowerPoint PPT Presentation

TRANSCRIPT

Wykład 14 Diagnostyka

• Diagnostyka – ocena prawidłowości założeń

• Środki zaradcze – odpowiednie dostosowanie metod analizy

Ocena danych

• Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych

• Zawsze powinniśmy ocenić rozrzut X• Jeżeli Y zależy od X to rozkład brzegowy

Y nie dostarcza nam dużo informacji

Diagnostyka dla zmiennej X

• Przyglądamy się rozkładowi X– Czy jest skośny ?– Czy są obserwacje odstające ?

• Czy wartości X zależą od czasu (kolejności w jakiej dane były zbierane)?

data a1;infile ‘h:/STAT512/ch01ta01.txt'; input lotsize workhrs; seq=_n_;proc print data=a1; run;

Obs lotsize workhrs seq

1 80 399 1 2 30 121 2 3 50 221 3 4 90 376 4 5 70 361 5

proc univariate data=a1 plot; var lotsize workhours; run;

Variable: lotsize N 25Mean 70Std Deviation 28.7228132Skewness -0.1032081Uncorrected SS 142300Coeff Variation 41.0325903

Variable: lotsize

Sum Weights 25Sum Observations 1750Variance 825Kurtosis -1.0794107Corrected SS 19800Std Error Mean 5.74456265

Basic Statistical Measures

LocationMean 70.00000Median 70.00000Mode 90.00000

Basic Statistical Measures

VariabilityStd Deviation 28.72281Variance 825.00000Range 100.00000Interquartile Range 40.00000

Extreme Observations

----Lowest---- ----Highest---Value Obs Value Obs

20 14 100 9 30 21 100 16 30 17 110 15 30 2 110 20 40 23 120 7

Stem Leaf # Boxplot 12 0 1 | 11 00 2 | 10 00 2 | 9 0000 4 +-----+ 8 000 3 | | 7 000 3 *--+--* 6 0 1 | | 5 000 3 +-----+ 4 00 2 | 3 000 3 | 2 0 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

symbol1 v=circle i=sm70;proc gplot data=a1; plot lotsize*seq; run;

Rozkład normalny

• Nasz model nie zakłada, że X lub Y pochodzą z jednorodnych populacji o rozkładach normalnych (zakładamy jedynie normalność zakłóceń losowych).

• Czasem jednak X lub Y mają w przybliżeniu rozkłady normalne i warto to wiedzieć

Wykres kwantylowy (q-q plot)

• Znormi = -1((i-.375)/(n+.25)), i=1 to n• Przybliżenie wartości oczekiwanej i-tej

statystyki porządkowej w próbie pochodzącej ze standardowego rozkładu normalnego

• Rysujemy wykres X(i) vs Znormi

Wykres kwantylowy (2)

• Zmienną X standaryzujemy zgodnie ze wzorem z = (X - μ)/σ

• Więc, X = μ + σ z

• Jeżeli dane mają w przybliżeniu rozkład normalny to punkty na wykresie kwantylowym układają się wokół prostej, o nachyleniu bliskim σ i punkcie przecięcia z osią Y bliskim μ.

proc univariate data=a1 plot; var lotsize workhrs;qqplot lotsize workhrs ; run;

Diagnostyka dla reszt

• Model: Yi = β0 + β1Xi + ξi

• Wartości przewidywane: Ŷi = b0 + b1Xi

• Reszty: ei = Yi – Ŷi

• ei powinno być bliskie ξi

• Model zakłada, że ξi są iid N(0, σ2)

WYKRES

Wykres

Wykres

Wykres

Wykres

Pytania na które szukamy odpowiedzi

• Czy zależność jest liniowa ?• Czy wariancja Y zależy od X?• Czy są obserwacje odstające ?• Czy reszty zależą od kolejności w zbiorze

danych (_n_)• Czy zakłócenia mają rozkład normalny ?• Czy zakłócenia są niezależne ?

Czy zależność jest liniowa ?

• Rysujemy Y vs X

• Rysujemy e vs X

• Wykres e vs X podkreśla odstępstwa od liniowości

Data a100; do x=1 to 30; y=x*x-10*x+30+25*normal(0); output; end;run;

proc reg data=a100; model y=x; output out=a2 r=resid;run;

Sum of MeanSource DF Squares Square

Model 1 1032098 1032098Error 28 169048 6037C Tot 29 1201145

F Value Pr > F170.95 <.0001

symbol1 v=circle i=rl;proc gplot data=a2; plot y*x; run;

symbol1 v=circle i=sm60;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/vref=0;run;

Czy wariancja zależy od X?

• Rysujemy Y vs X

• Rysujemy e vs X

• Wykres e vs X podkreśla odstępstwa od założenia o równej wariancji

Data a100a; do x=1 to 100; y=100*x+30+10*x*normal(0); output; end;run;

proc reg data=a100a; model y=x; output out=a2 r=resid;run;

symbol1 v=circle i=sm60;proc gplot data=a2; plot y*x;

proc gplot data=a2; plot resid*x vref=0;run;

Czy zakłócenia pochodzą z rozkładu normalnego ?

• Naprawdę chodzi nam o to aby sprawdzić czy rozkład reszt na tyle różni się od normalnego, że przedziały ufności i testy istotności tracą swoje własności.

• Oceniamy rozkład reszt za pomocą wykresu kwantylowego

data a1; infile ‘../data/ch01ta01.dat'; input lotsize workhrs;proc reg data=a1; model workhrs=lotsize; output out=a2 r=resid; proc univariate data=a2 plot normal; var resid; histogram resid/ normal kernel (color=green); qqplot resid; run;

-180 -140 -100 -60 -20 20 60 100 140 180

0

5

10

15

20

25

30

35

Percent

Residual

Zależność błędów

• Zwykle odstępstwa od tego założenia można zaobserwować rysując reszty w funkcji czasu

• Mogą pojawić się trendy lub zakłócenia okresowe

Czy są obserwacje odstające ?

• Wykres Y vs X

• Wykres e vs X

• Wykres e vs X powinien ułatwić identyfikację obserwacji odstającej

Data a100b1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=50; y=30+50*50 +10000; d='out'; output;run;

proc reg data=a100b1; model y=x; where d ne 'out';run;proc reg data=a100b1; model y=x; output out=a2 r=resid;run;

Par StVar Est Error t Pr>|t|

Int -2.54 95.29x 50.51 1.68 29.91 <.0001

Int 432.20 979.57 x 51.37 17.45 2.94 .0083

Root MSE 217.77514Root MSE 2250.22683

symbol1 v=circle i=rl;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/ vref=0;run;

Różne rodzaje obserwacji odstających

• Obserwacja odstająca w poprzednim przykładzie wpłynęła na estymator punktu przecięcia z osią Y

• Ale nie na estymator nachylenia• Zwiększyła estymator odchylenia

standardowego• W kolejnym przykładzie zademonstrujemy

jak obserwacja odstająca może wpływać na estymator nachylenia

Data a100c1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=100; y=30+50*100 -10000; d='out'; output;run;

proc reg data=a100c1; model y=x; where d ne 'out';run;proc reg data=a100c1; model y=x; output out=a2 r=resid;run;

Par StVar Est Err t Pr>|t|Int 73.2 93.6 x 49.8 1.6 30.02 <.0001

Int 903.9 899.3x 24.1 15.1 1.59 0.1285

symbol1 v=circle i=rl;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/ vref=0;run;

top related