wykład 14 diagnostyka
DESCRIPTION
Wykład 14 Diagnostyka. Diagnostyka – ocena prawidłowości założeń Środki zaradcze – odpowiednie dostosowanie metod analizy. Ocena danych. Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych - PowerPoint PPT PresentationTRANSCRIPT
Wykład 14 Diagnostyka
• Diagnostyka – ocena prawidłowości założeń
• Środki zaradcze – odpowiednie dostosowanie metod analizy
Ocena danych
• Zanim opiszemy związek między zmienną odpowiedzi (Y) a zmienną wyjaśniającą (X) powinniśmy przyjrzeć się rozkładowi tych zmiennych
• Zawsze powinniśmy ocenić rozrzut X• Jeżeli Y zależy od X to rozkład brzegowy
Y nie dostarcza nam dużo informacji
Diagnostyka dla zmiennej X
• Przyglądamy się rozkładowi X– Czy jest skośny ?– Czy są obserwacje odstające ?
• Czy wartości X zależą od czasu (kolejności w jakiej dane były zbierane)?
data a1;infile ‘h:/STAT512/ch01ta01.txt'; input lotsize workhrs; seq=_n_;proc print data=a1; run;
Obs lotsize workhrs seq
1 80 399 1 2 30 121 2 3 50 221 3 4 90 376 4 5 70 361 5
proc univariate data=a1 plot; var lotsize workhours; run;
Variable: lotsize N 25Mean 70Std Deviation 28.7228132Skewness -0.1032081Uncorrected SS 142300Coeff Variation 41.0325903
Variable: lotsize
Sum Weights 25Sum Observations 1750Variance 825Kurtosis -1.0794107Corrected SS 19800Std Error Mean 5.74456265
Basic Statistical Measures
LocationMean 70.00000Median 70.00000Mode 90.00000
Basic Statistical Measures
VariabilityStd Deviation 28.72281Variance 825.00000Range 100.00000Interquartile Range 40.00000
Extreme Observations
----Lowest---- ----Highest---Value Obs Value Obs
20 14 100 9 30 21 100 16 30 17 110 15 30 2 110 20 40 23 120 7
Stem Leaf # Boxplot 12 0 1 | 11 00 2 | 10 00 2 | 9 0000 4 +-----+ 8 000 3 | | 7 000 3 *--+--* 6 0 1 | | 5 000 3 +-----+ 4 00 2 | 3 000 3 | 2 0 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1
symbol1 v=circle i=sm70;proc gplot data=a1; plot lotsize*seq; run;
Rozkład normalny
• Nasz model nie zakłada, że X lub Y pochodzą z jednorodnych populacji o rozkładach normalnych (zakładamy jedynie normalność zakłóceń losowych).
• Czasem jednak X lub Y mają w przybliżeniu rozkłady normalne i warto to wiedzieć
Wykres kwantylowy (q-q plot)
• Znormi = -1((i-.375)/(n+.25)), i=1 to n• Przybliżenie wartości oczekiwanej i-tej
statystyki porządkowej w próbie pochodzącej ze standardowego rozkładu normalnego
• Rysujemy wykres X(i) vs Znormi
Wykres kwantylowy (2)
• Zmienną X standaryzujemy zgodnie ze wzorem z = (X - μ)/σ
• Więc, X = μ + σ z
• Jeżeli dane mają w przybliżeniu rozkład normalny to punkty na wykresie kwantylowym układają się wokół prostej, o nachyleniu bliskim σ i punkcie przecięcia z osią Y bliskim μ.
proc univariate data=a1 plot; var lotsize workhrs;qqplot lotsize workhrs ; run;
Diagnostyka dla reszt
• Model: Yi = β0 + β1Xi + ξi
• Wartości przewidywane: Ŷi = b0 + b1Xi
• Reszty: ei = Yi – Ŷi
• ei powinno być bliskie ξi
• Model zakłada, że ξi są iid N(0, σ2)
WYKRES
Wykres
Wykres
Wykres
Wykres
Pytania na które szukamy odpowiedzi
• Czy zależność jest liniowa ?• Czy wariancja Y zależy od X?• Czy są obserwacje odstające ?• Czy reszty zależą od kolejności w zbiorze
danych (_n_)• Czy zakłócenia mają rozkład normalny ?• Czy zakłócenia są niezależne ?
Czy zależność jest liniowa ?
• Rysujemy Y vs X
• Rysujemy e vs X
• Wykres e vs X podkreśla odstępstwa od liniowości
Data a100; do x=1 to 30; y=x*x-10*x+30+25*normal(0); output; end;run;
proc reg data=a100; model y=x; output out=a2 r=resid;run;
Sum of MeanSource DF Squares Square
Model 1 1032098 1032098Error 28 169048 6037C Tot 29 1201145
F Value Pr > F170.95 <.0001
symbol1 v=circle i=rl;proc gplot data=a2; plot y*x; run;
symbol1 v=circle i=sm60;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/vref=0;run;
Czy wariancja zależy od X?
• Rysujemy Y vs X
• Rysujemy e vs X
• Wykres e vs X podkreśla odstępstwa od założenia o równej wariancji
Data a100a; do x=1 to 100; y=100*x+30+10*x*normal(0); output; end;run;
proc reg data=a100a; model y=x; output out=a2 r=resid;run;
symbol1 v=circle i=sm60;proc gplot data=a2; plot y*x;
proc gplot data=a2; plot resid*x vref=0;run;
Czy zakłócenia pochodzą z rozkładu normalnego ?
• Naprawdę chodzi nam o to aby sprawdzić czy rozkład reszt na tyle różni się od normalnego, że przedziały ufności i testy istotności tracą swoje własności.
• Oceniamy rozkład reszt za pomocą wykresu kwantylowego
data a1; infile ‘../data/ch01ta01.dat'; input lotsize workhrs;proc reg data=a1; model workhrs=lotsize; output out=a2 r=resid; proc univariate data=a2 plot normal; var resid; histogram resid/ normal kernel (color=green); qqplot resid; run;
-180 -140 -100 -60 -20 20 60 100 140 180
0
5
10
15
20
25
30
35
Percent
Residual
Zależność błędów
• Zwykle odstępstwa od tego założenia można zaobserwować rysując reszty w funkcji czasu
• Mogą pojawić się trendy lub zakłócenia okresowe
Czy są obserwacje odstające ?
• Wykres Y vs X
• Wykres e vs X
• Wykres e vs X powinien ułatwić identyfikację obserwacji odstającej
Data a100b1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=50; y=30+50*50 +10000; d='out'; output;run;
proc reg data=a100b1; model y=x; where d ne 'out';run;proc reg data=a100b1; model y=x; output out=a2 r=resid;run;
Par StVar Est Error t Pr>|t|
Int -2.54 95.29x 50.51 1.68 29.91 <.0001
Int 432.20 979.57 x 51.37 17.45 2.94 .0083
Root MSE 217.77514Root MSE 2250.22683
symbol1 v=circle i=rl;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/ vref=0;run;
Różne rodzaje obserwacji odstających
• Obserwacja odstająca w poprzednim przykładzie wpłynęła na estymator punktu przecięcia z osią Y
• Ale nie na estymator nachylenia• Zwiększyła estymator odchylenia
standardowego• W kolejnym przykładzie zademonstrujemy
jak obserwacja odstająca może wpływać na estymator nachylenia
Data a100c1; do x=1 to 100 by 5; y=30+50*x+200*normal(0); output; end; x=100; y=30+50*100 -10000; d='out'; output;run;
proc reg data=a100c1; model y=x; where d ne 'out';run;proc reg data=a100c1; model y=x; output out=a2 r=resid;run;
Par StVar Est Err t Pr>|t|Int 73.2 93.6 x 49.8 1.6 30.02 <.0001
Int 903.9 899.3x 24.1 15.1 1.59 0.1285
symbol1 v=circle i=rl;proc gplot data=a2; plot y*x;proc gplot data=a2; plot resid*x/ vref=0;run;