nierówność informacyjna
DESCRIPTION
Nierówność informacyjna. Informacja zawarta w próbie. Zależność między wariancją estymatora S parametru l a informacją. Jeżeli obciążenie estymatora (B) jest równe zeru. Weryfikacja hipotez statystycznych. Hipoteza statystyczna – założenie co do rozkładu cech w populacji . - PowerPoint PPT PresentationTRANSCRIPT
Nierówność informacyjna
IS
I
BS
xf
EExf
xfNEEI
N
i
1
1
;ln
''';
;''
2
22
1
2
2
2
Informacja zawarta w próbie
Zależność między wariancją estymatora S parametru a informacją
Jeżeli obciążenie estymatora (B) jest równe zeru
Weryfikacja hipotez statystycznych
Hipoteza statystyczna – założenie co do rozkładu cech w populacji.
Test statystyczny – narzędzie weryfikacji tej hipotezy.
Testy parametryczne: weryfikacja hipotez parametrycznych, które dotyczą parametrów rozkładu danej cechy w populacji generalnej.
Testy nieparametryczne: weryfikacja hipotez nieparametrycznych dotyczących, np. zgodności rozkładu cech w populacji z rozkładem teoretycznym, zgodności rozkładów cech w dwóch różnych populacjach, losowości próby.
Hipotezy i testy parametryczne
Hipoteza prosta – zakłada wartości wszystkich parametrów rozkładu.
Hipoteza złożona – wartość co najmniej jednego parametru jest nieznana (np. zakładamy tylko postać funkcyjną rozkładu).
Hipoteza zerowa (Ho) – hipoteza, którą weryfikujemy.
Hipoteza alternatywna (H1) – co najmniej jeden z parametrów rozkłady jest różny od tego z hipotezy zerowej.
Błąd pierwszego rodzaju (false negative) – odrzucenie prawdziwej hipotezy Ho.
Błąd drugiego rodzaju (false positive) –przyjęcie fałszywej hipotezy Ho.
Błędy popełniane podczas weryfikacji hipotez statystycznych
Poziom istotności ()
P(|x|xo)= (test dwustronny)
P(xxo)= (test jednostronny)
Obszar krytyczny (Sc):
P(xSc|Ho)=
Poziom istotności definiuje prawdopodobieństwo popełnienia błędu pierwszwego rodzaju (odrzucenia prawdziwej hipotezy zerowej).
Moc testu: prawdopodobieństwo odrzucenia hipotezy zerowej w zależności od hipotezy alternatywnej.
M(Sc,)=P(XSc|H)=P(XSc|)
Test najmocniejszy hipotezy prostej Ho względem hipotezy alternatywnej H1:
P(Sc,1)=1-=max
Test jednostajnie najmocniejszy: test najmocniejszy względem jakiejkolwiek hipotezy alternatywnej.
Test F Fishera równości wariancjiMamy dwie populacje o rozkładzie normalnym (np. przypadek pomiaru tej samej wielkości różnymi przyrządami). Pytanie: czy te populacje mają tą samą wariancję. W tym celu rozważamy iloraz F=s1
2/s22
22
21
1
2
2)2(2
12
2
12
22
22
22
2222
221
21
21
2112
1
2
1exp
22
1
)1()1(
X
X
f
fF
ff
fssNX
fssNX
f
f
1
1
22
2
)(
122
21
0
2
2
11
2
21
212
2
1
22
21
22
21
21
1
1
Fs
sP
dFFf
fF
ff
ff
f
f
Fs
sPF
X
XPFW
Fff
ff
Porównywanie wartości średnich (test Studenta)
tNfx
PtPtF
Nfx
s
Nx
s
xt
xxNN
s
xx
N
jjx
)()(
)1(
1
1
22
)1(2
1d)(f
df
1ff
21
)1f(21
)t(F
't
0
t )1f(2
12
Weryfikacja hipotezy, że x=0
2
11
x
0 ts
N|x||t|
Weryfikacja hipotezy o równości wartości średnich z dwóch serii pomiarów
)1()1(
)1()1(
||||||
21
22
212
2
21
21222
NN
sNsNs
sNN
NNsss
s
yx
st
yx
yx
221
2
11
'
NNf
tts
yx
st
Przykład: porównywanie średnich z dwóch serii oznaczeń azotu w cynchoninie
Grupa 1 Grupa 1
9,29 9,53
9,38 9,48
9,35 9,61
9,43 9,68
średnia 9,363 9,575
odch.stand. 0,058 0,088
71,3)6,01,0(;61414;02,40527.0
575,9363,9
0527,00745,044
44;0745,0
6
088,03058,03 22
tft
ss
Test Studenta dla par wiązanychOznaczanie zawartości NaOH w dwóch seriach roztworu
po elektrolizie NaCl (mg/dm3) przed (x) i za filtrem (y)
x y d=y-x
100,1 96,6 -3,5
115,1 115,6 +0,5
130,0 125,5 -4,5
93,6 94,0 +0,4
108,3 103,3 -5,0
137,2 134,4 -2,8
104,4 100,2 -4,2
97,3 97,3 0
36,27,95,0
93,2832,2
40,2
718
32,2
40,2
P
t
f
s
d
d
Wykrywanie błędów grubych: test Dixona (nieparametryczny)
minmax
21
xx
xxQ
x1 – wynik podejrzany o błąd gruby
x2 – wynik mu najbliższy
Wynik x1 możemy odrzucić na poziomie istotności jeżeli Q > Q(, n) (n jest liczbą pomiarów).
Wartości krytyczne testu Dixona
n1-
0.90 0.95 0.99
3 0.89 0.94 0.99
4 0.68 0.77 0.89
5 0.56 0.64 0.76
6 0.48 0.56 0.70
7 0.43 0.51 0.64
8 0.40 0.48 0.58
Przykład: pomiar zawartości grafitu w żeliwie
1 2,86
2 2,89
3 2,90
4 2,91
5 2,99
5,95,0
62.086.299.2
91.299.2
Q
Testy nieparametryczne
• Testy losowości: badamy, czy próba jest losowa – test mediany (Stevensa).
• Testy zgodności: badamy, czy rozkład z próby jest zgodny z założonym– Test 2, test W Shapiro-Wilka, test Kołmogorowa test
Lillieforsa (badanie normalności rozkładu).
• Testy jednorodności: badamy, czy dwie próby pochodzą z tej samej populacji– test serii Walda-Wolfowitza, test U Manna-Whitneya, test
Kołmogorowa-Smirnowa (dla prób niezależnych),– test znaków, test kolejnosci par Wilcoxona (dla prób
zależnych).
Test 2 dobroci dopasowania
N
i i
iiN
ii
i
iii
fguT
fgu
1
2
1
2
gi: wynik i-tego pomiaru
fi: wartość teoretyczna wyniku i-tego pomiaru
i: odchylenie standardowe i-tego pomiaru.
Wielkości ui mają rozkład normalny o zerowej średniej i jednostkowej wariancji a zatem wielkość T ma rozkład 2 o N-p stopniach swobody, gdzie p jest liczbą estymowanych parametrów funkcji f.
Dopasowanie uznajemy za złe na poziomie istotności jeżeli T
Zastosowanie testu 2 do weryfikacji hipotezy o rozkładzie częstości obserwacji
i
dxxfxPp ii
)()(
} } } }x
f(x)
… k … r
r
ii
r
i i
iir
i i
ii
nn
np
npnnpn
1
1
2
12
22 )()(
Hipotezę o zgodności rozkładu obserwowanego z rozkładem założonym odrzucamy na poziomie istotności a jeżeli dla f stopni swobody.
f=liczba stopni swobody=r-p-1 gdzie p jest liczbą parametrów rozkładu (najwyżej r-1 stopni swobody).
ni: liczba obserwacji wielkości w i-tym przedziale; n: całkowita liczba obserwacji.
npi: wartość oczekiwana liczby obserwacji w i-tym przedziale
Wartość oczekiwana wariancji liczby obserwacji.
Przykład: porównanie liczby zliczeń par elektron-pozyton w komorze pęcherzykowej naświetlonej promieniowaniem z rozkładem Poissona.
2=10.44
20.99=16.81
Nie ma zatem podstaw do odrzucenia rozkładu Poissona.
k k
k
kn
ek
kp
!/~
!)(
Zastosowanie testu 2 do analizy tabeli wkładów
y1 y2 … yl
x1 n11 n12 … n1l
x2 n21 n22 … n2l
… … … … …
xk nk1 nk2 … nkl
k
i
l
jij
k
iijj
l
jiji
k
i
l
j ji
jiij
nn
nn
qnn
p
qpn
qpnn
1 1
11
1 1
22
1~1~
~~)~~(
x, y: zmienne losowe mogące przyjmować wartości odpowiednio x1, x2,…, xk oraz y1, y2,…, yl.
Każdej kombinacji zmiennych (xi,yj) przyporządkowana jest liczba obserwacji nij.
Jeżeli zmienne są współzależne na poziomie istotności to dla f=kl-1-(k+l-2)=(k-1)(l-1) stopni swobody.
y1 y2
x1 n11=a n12=b
x2 n21=c n22=d
))()()((
)( 22
dbcadcba
bcadn
Przykład z medycyny: ocena skuteczności dwóch metod leczenia danej choroby.
x1: pierwsza metoda leczenia
x2: druga metoda leczenia
y1: przypadki wyleczone
y2: przypadki niewyleczone
f=liczba stopni swobody=(2-1)(2-1)=1
Jeżeli metody leczenia mają różną skuteczność to
Test mediany (badanie losowości próby)1.1. Wyznaczamy medianę (m).Wyznaczamy medianę (m).2.2. Danym nieuporządkowanym przyporządkowujemy Danym nieuporządkowanym przyporządkowujemy
następujące oznaczenia:następujące oznaczenia:• A gdy x<mA gdy x<m• B gdy x>mB gdy x>m• 0 gdy x=m0 gdy x=m
3.3. Obliczamy liczbę następujących po sobie serii AAA…A i Obliczamy liczbę następujących po sobie serii AAA…A i BBB…B.BBB…B.
Liczby serii spełniają rozkład normalny z następującą Liczby serii spełniają rozkład normalny z następującą wartością średnią i wariancjąwartością średnią i wariancją
1
1221
22
2
nn
nnnnKs
n
nnKE bababa
na – liczba pomiarów A; nb – liczba pomiarów B; n – liczba pomiarów
74,5 191,0 55,5 5,15 36,4 35,0 46,0 10,9 7,35 6,65
B B B A B A B A A A
173,5 26,0
B A
Mediana m=35,7
n=12, na=6, nb=6
Liczba serii k=8
Przykład (seria 12 pomiarów)
E(k)=2*6*6/12+1=7, s2(k)=2*6*6*(2*6*6-1)/[12*12*(12-1)]=3.23
Dla a=5% (ok. 3s odchylenia) przedział ufności rozciąga się od k=3 do k=10. Próba jest zatem losowa.
Test Wilcoxona (par wiązanych)
• W tabeli ustawiamy w pary odpowiadające wielkości i obliczamy różnice.
• Sortujemy pary według różnic.• Każdej parze przyporządkowujemy rangę, która
jest równa numerowi porządkowemu pary (po sortowaniu), przy czym uśredniamy rangi, którym odpowiadają te same różnice.
• Osobno sumujemy rangi dodatnie i ujemne. • Mniejsza z tych sum stanowi statystykę W
Wilcoxona.• Porównujemy W z wartością krytyczną i
odrzucamy hipotezę o identyczności wyników w parach jeżeli W>Wtab.
W J d ranga znak
3,2 3,5 0,3 5 +
2,7 3,0 0,3 5 +
3,1 3,8 0,7 10 +
2,9 3,2 0,3 5 +
3,4 3,8 0,4 8,5 +
2,8 3,2 0,4 8,5 +
3,4 3,7 0,3 5 +
3,4 3,6 0,2 1,5 +
3,2 3,4 0,2 1,5 +
3,3 3,6 0,3 6 +
suma 31,4 34,8 3,4 55
Przykład: ocena różnic wysokości drzew wiosną i jesienią
Dla dużych prób liczba znaków „+” spełnia rozkład normalny z wartością średnią E(W+) i wariancją s2(W+):
24
121
4
1 2
nnn
Wsnn
WE