10. neparametarski testovi (si) - milan merkle

46
10. NEPARAMETARSKI TESTOVI (SI) Profesor Milan Merkle [email protected] milanmerkle.etf.rs Verovatno´ ca i Statistika-prole´ ce 2019 Milan Merkle Neparametarski testovi ETF Beograd 1 / 22

Upload: others

Post on 16-May-2022

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

10. NEPARAMETARSKI TESTOVI (SI)

Profesor Milan [email protected] milanmerkle.etf.rs

Verovatnoca i Statistika-prolece 2019

Milan Merkle Neparametarski testovi ETF Beograd 1 / 22

Page 2: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Empirijske funkcije raspodele

(Odeljak 6.4. iz udzbenika, str. 148-151)

Kako se moze oceniti funkcija raspodele iz uzorka X1,X2, . . . ,Xn?Funkcija

Fn(x) =Broj elemenata uzorka koji su ≤ x

n

zove se empirijska funkcija raspodele.Preko varijacionog niza:

Fn(x) =

0, ako je x < X(1) ,

k/n, ako je X(k) ≤ x < X(k+1), 1 ≤ k ≤ n − 1

1, ako je x ≥ X(n).

Ovo je slucajna funkcija jer zavisi od slucajnog uzorka.√

Milan Merkle Neparametarski testovi ETF Beograd 2 / 22

Page 3: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Primer 131Uzorak obima 10:

9, 15, 7, 11, 17, 9, 7, 12, 7, 15

Varijacioni niz je:7, 7, 7, 9, 9, 11, 12, 15, 15, 17

Empirijska funkcija raspodele:

Milan Merkle Neparametarski testovi ETF Beograd 3 / 22

Page 4: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Konvergencija empirijskih funkcija

Za fiksirano x , Fn(x) = kn - relativna frekvencija dogadaja X ≤ x .

Prema ZVB, limFn(x) = F (x) za svako x ∈ R.

Teorema 6.13 limn→+∞

supx∈R|Fn(x)− F (x)| = 0 sa verovatnocom 1.

Uniformna konvergencija - znaci da za svako ε > 0 postoji n0 tako da zasvako n ≥ n0 vazi da je |Fn(x)− F (x)| < ε za svako x ∈ R.

Milan Merkle Neparametarski testovi ETF Beograd 4 / 22

Page 5: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Konvergencija empirijskih funkcija

Za fiksirano x , Fn(x) = kn - relativna frekvencija dogadaja X ≤ x .

Prema ZVB, limFn(x) = F (x) za svako x ∈ R.

Teorema 6.13 limn→+∞

supx∈R|Fn(x)− F (x)| = 0 sa verovatnocom 1.

Uniformna konvergencija - znaci da za svako ε > 0 postoji n0 tako da zasvako n ≥ n0 vazi da je |Fn(x)− F (x)| < ε za svako x ∈ R.

Milan Merkle Neparametarski testovi ETF Beograd 4 / 22

Page 6: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Konvergencija empirijskih funkcija

Za fiksirano x , Fn(x) = kn - relativna frekvencija dogadaja X ≤ x .

Prema ZVB, limFn(x) = F (x) za svako x ∈ R.

Teorema 6.13 limn→+∞

supx∈R|Fn(x)− F (x)| = 0 sa verovatnocom 1.

Uniformna konvergencija - znaci da za svako ε > 0 postoji n0 tako da zasvako n ≥ n0 vazi da je |Fn(x)− F (x)| < ε za svako x ∈ R.

Milan Merkle Neparametarski testovi ETF Beograd 4 / 22

Page 7: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Konvergencija empirijskih funkcija

Za fiksirano x , Fn(x) = kn - relativna frekvencija dogadaja X ≤ x .

Prema ZVB, limFn(x) = F (x) za svako x ∈ R.

Teorema 6.13 limn→+∞

supx∈R|Fn(x)− F (x)| = 0 sa verovatnocom 1.

Uniformna konvergencija - znaci da za svako ε > 0 postoji n0 tako da zasvako n ≥ n0 vazi da je |Fn(x)− F (x)| < ε za svako x ∈ R.

Milan Merkle Neparametarski testovi ETF Beograd 4 / 22

Page 8: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Primer 133

-3 -2 -I o 2 3 x

Slika 32. Empirijske funkcije raspodele Fn za standardnu normalnuraspodelu iz uzoraka obima n, za n = 10 i n = 1000 (racunarskasimulacija) i funkcija raspodele Φ standardne normalne raspodele

(isprekidana kriva).

Milan Merkle Neparametarski testovi ETF Beograd 5 / 22

Page 9: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

K-raspodela (Kolmogorov) X ∼ KFunkcija raspodele Kolmogorova:

K (t) = 1− 2+∞∑k=1

(−1)k−1e−2k2t2 , t > 0

Vrednosti se racunaju numerickim metodima.

Milan Merkle Neparametarski testovi ETF Beograd 6 / 22

Page 10: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Statistika Kolmogorova i njena raspodela

Teorema 6.14 Sa uzorkom obima n iz neprekidne raspodele sa funkcijomraspodele F , vazi

limn→+∞

P(√n supx∈R|Fn(x)− F (x)| ≤ t) = K (t)

Statistika√n supx∈R |Fn(x)− F (x)| zove se statistika Kolmogorova.

Aproksimacija za n ≥ 30:

√n supx∈R|Fn(x)− F (x)| ∼ K

Primer 134 Naci najmanji obim uzorka n tako da je |Fn(t)− F (t)| < 0.01sa verovatnocom 0.99.

Iz tablice: K (1.63) = 0.99, n ≥ 3969.

Milan Merkle Neparametarski testovi ETF Beograd 7 / 22

Page 11: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Statistika Kolmogorova i njena raspodela

Teorema 6.14 Sa uzorkom obima n iz neprekidne raspodele sa funkcijomraspodele F , vazi

limn→+∞

P(√n supx∈R|Fn(x)− F (x)| ≤ t) = K (t)

Statistika√n supx∈R |Fn(x)− F (x)| zove se statistika Kolmogorova.

Aproksimacija za n ≥ 30:

√n supx∈R|Fn(x)− F (x)| ∼ K

Primer 134 Naci najmanji obim uzorka n tako da je |Fn(t)− F (t)| < 0.01sa verovatnocom 0.99.

Iz tablice: K (1.63) = 0.99, n ≥ 3969.

Milan Merkle Neparametarski testovi ETF Beograd 7 / 22

Page 12: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Statistika Kolmogorova i njena raspodela

Teorema 6.14 Sa uzorkom obima n iz neprekidne raspodele sa funkcijomraspodele F , vazi

limn→+∞

P(√n supx∈R|Fn(x)− F (x)| ≤ t) = K (t)

Statistika√n supx∈R |Fn(x)− F (x)| zove se statistika Kolmogorova.

Aproksimacija za n ≥ 30:

√n supx∈R|Fn(x)− F (x)| ∼ K

Primer 134 Naci najmanji obim uzorka n tako da je |Fn(t)− F (t)| < 0.01sa verovatnocom 0.99.

Iz tablice: K (1.63) = 0.99, n ≥ 3969.

Milan Merkle Neparametarski testovi ETF Beograd 7 / 22

Page 13: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Test Kolmogorova i Smirnova

F0 - funkcija raspodele neprekidne slucajne promenljive.

Test hipoteze H0 : F = F0 protiv komplementarne hipoteze H1 : F 6= F0sa sa nivoom znacajnosti α (veliki uzorak):

Ako jeλ =√n supx∈R|Fn(x)− F0(x)| > ε1−α ,

hipotezu H0 odbacujemo.

Na isti nacin se testira pripadnost familiji neprekidnih raspodela (normalna,eksponencijalna...)- parametri se najpre ocene.

Pri testiranju neparametarskih hipoteza obicno zelimo da dokazemo H0 !

Milan Merkle Neparametarski testovi ETF Beograd 8 / 22

Page 14: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Test Kolmogorova i Smirnova

F0 - funkcija raspodele neprekidne slucajne promenljive.

Test hipoteze H0 : F = F0 protiv komplementarne hipoteze H1 : F 6= F0sa sa nivoom znacajnosti α (veliki uzorak):

Ako jeλ =√n supx∈R|Fn(x)− F0(x)| > ε1−α ,

hipotezu H0 odbacujemo.

Na isti nacin se testira pripadnost familiji neprekidnih raspodela (normalna,eksponencijalna...)- parametri se najpre ocene.

Pri testiranju neparametarskih hipoteza obicno zelimo da dokazemo H0 !

Milan Merkle Neparametarski testovi ETF Beograd 8 / 22

Page 15: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Primer 174

Vek trajanja jedne komponente na uzorku od n = 60:

Vek trajanja (god.) 0.5 1 1.5 2 2.5 3

Broj komponenti 11 24 13 2 6 4

Testira se hipoteza da vreme trajanja ima eksponencijalnu raspodelu.Ocena parametra: λ = 1/1.33 = 0.75.H0 : F ∼ Exp (0.75), H1 : F 6∼ Exp (0.75).Trazimo maksimalno odstupanje:

x 0.5 1 1.5 2 2.5 3

Fn(x) 0.183 0.583 0.800 0.833 0.889 1.000

F (x) 0.313 0.528 0.675 0.777 0.847 0.895

|Fn(x)− F (x)| 0.130 0.055 0.125 0.056 0.042 0.105

K =√

60 · 0.130 ≈ 1. p-vrednost: P(K > 1) = 1− K (1) = 0.27. Neodbacujemo H0.

Milan Merkle Neparametarski testovi ETF Beograd 9 / 22

Page 16: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Poredenje histograma

Primer 170 Uzorak obima 50 - da li podaci dolaze iz N (0, 1) raspodele?

Interval Frekvencija Relativna frekvencija Verovatnoca za N (0, 1)(−∞,−1) 6 0.12 0.1587

(−1, 0) 17 0.34 0.3413(0, 1) 16 0.32 0.3413

(1,+∞) 11 0.22 0.1587

Milan Merkle Neparametarski testovi ETF Beograd 10 / 22

Page 17: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Poredenje histograma

..../ ,

/ ,I 1- - -..- -~

I

I I

I I

I I

_L /

I I

I

I

, ,, ,,,,,,

,1 ,_

, , ....

I

-3 -2 -1 o 2 3

Slika 36. Histogram na bazi podataka (puna linija) u poredenju sahistogramom standardne normalne raspodele i gustinom raspodele N (0, 1)

Milan Merkle Neparametarski testovi ETF Beograd 11 / 22

Page 18: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test(X1, . . . ,Xn) nezavisan uzorak iz nepoznate raspodele sa funkcijomraspodele F . Da li je F = F0? (hipoteza H0).

1 Podelimo uzorak na r intervala:

(−∞, a1], (a1, a2], . . . , (ar−2, ar−1], (ar−1, ar ]

2 Ocekivani broj podataka u i-tom intervalu pri hipotezi H0 je npi0, gdeje pi0 = F (ai )− F (ai−1).

3 Stvarni broj podataka u i-tom intervalu: Ni .

4 Statistika testa-Pearsonova Hi kvadrat statistika:

χ2 =r∑

i=1

(Ni − npi0)2

npi0=

r∑i=1

(stvarno− ocekivano)2

ocekivano

ima χ2(r − 1) raspodelu kad n→ +∞ (pod hipotezom).

5 Oblast odbacivanja: χ2 > c , c se bira prema nivou znacajnosti.

Milan Merkle Neparametarski testovi ETF Beograd 12 / 22

Page 19: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test(X1, . . . ,Xn) nezavisan uzorak iz nepoznate raspodele sa funkcijomraspodele F . Da li je F = F0? (hipoteza H0).

1 Podelimo uzorak na r intervala:

(−∞, a1], (a1, a2], . . . , (ar−2, ar−1], (ar−1, ar ]

2 Ocekivani broj podataka u i-tom intervalu pri hipotezi H0 je npi0, gdeje pi0 = F (ai )− F (ai−1).

3 Stvarni broj podataka u i-tom intervalu: Ni .

4 Statistika testa-Pearsonova Hi kvadrat statistika:

χ2 =r∑

i=1

(Ni − npi0)2

npi0=

r∑i=1

(stvarno− ocekivano)2

ocekivano

ima χ2(r − 1) raspodelu kad n→ +∞ (pod hipotezom).

5 Oblast odbacivanja: χ2 > c , c se bira prema nivou znacajnosti.

Milan Merkle Neparametarski testovi ETF Beograd 12 / 22

Page 20: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test(X1, . . . ,Xn) nezavisan uzorak iz nepoznate raspodele sa funkcijomraspodele F . Da li je F = F0? (hipoteza H0).

1 Podelimo uzorak na r intervala:

(−∞, a1], (a1, a2], . . . , (ar−2, ar−1], (ar−1, ar ]

2 Ocekivani broj podataka u i-tom intervalu pri hipotezi H0 je npi0, gdeje pi0 = F (ai )− F (ai−1).

3 Stvarni broj podataka u i-tom intervalu: Ni .

4 Statistika testa-Pearsonova Hi kvadrat statistika:

χ2 =r∑

i=1

(Ni − npi0)2

npi0=

r∑i=1

(stvarno− ocekivano)2

ocekivano

ima χ2(r − 1) raspodelu kad n→ +∞ (pod hipotezom).

5 Oblast odbacivanja: χ2 > c , c se bira prema nivou znacajnosti.

Milan Merkle Neparametarski testovi ETF Beograd 12 / 22

Page 21: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test(X1, . . . ,Xn) nezavisan uzorak iz nepoznate raspodele sa funkcijomraspodele F . Da li je F = F0? (hipoteza H0).

1 Podelimo uzorak na r intervala:

(−∞, a1], (a1, a2], . . . , (ar−2, ar−1], (ar−1, ar ]

2 Ocekivani broj podataka u i-tom intervalu pri hipotezi H0 je npi0, gdeje pi0 = F (ai )− F (ai−1).

3 Stvarni broj podataka u i-tom intervalu: Ni .

4 Statistika testa-Pearsonova Hi kvadrat statistika:

χ2 =r∑

i=1

(Ni − npi0)2

npi0=

r∑i=1

(stvarno− ocekivano)2

ocekivano

ima χ2(r − 1) raspodelu kad n→ +∞ (pod hipotezom).

5 Oblast odbacivanja: χ2 > c , c se bira prema nivou znacajnosti.

Milan Merkle Neparametarski testovi ETF Beograd 12 / 22

Page 22: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test(X1, . . . ,Xn) nezavisan uzorak iz nepoznate raspodele sa funkcijomraspodele F . Da li je F = F0? (hipoteza H0).

1 Podelimo uzorak na r intervala:

(−∞, a1], (a1, a2], . . . , (ar−2, ar−1], (ar−1, ar ]

2 Ocekivani broj podataka u i-tom intervalu pri hipotezi H0 je npi0, gdeje pi0 = F (ai )− F (ai−1).

3 Stvarni broj podataka u i-tom intervalu: Ni .

4 Statistika testa-Pearsonova Hi kvadrat statistika:

χ2 =r∑

i=1

(Ni − npi0)2

npi0=

r∑i=1

(stvarno− ocekivano)2

ocekivano

ima χ2(r − 1) raspodelu kad n→ +∞ (pod hipotezom).

5 Oblast odbacivanja: χ2 > c , c se bira prema nivou znacajnosti.

Milan Merkle Neparametarski testovi ETF Beograd 12 / 22

Page 23: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test(X1, . . . ,Xn) nezavisan uzorak iz nepoznate raspodele sa funkcijomraspodele F . Da li je F = F0? (hipoteza H0).

1 Podelimo uzorak na r intervala:

(−∞, a1], (a1, a2], . . . , (ar−2, ar−1], (ar−1, ar ]

2 Ocekivani broj podataka u i-tom intervalu pri hipotezi H0 je npi0, gdeje pi0 = F (ai )− F (ai−1).

3 Stvarni broj podataka u i-tom intervalu: Ni .

4 Statistika testa-Pearsonova Hi kvadrat statistika:

χ2 =r∑

i=1

(Ni − npi0)2

npi0=

r∑i=1

(stvarno− ocekivano)2

ocekivano

ima χ2(r − 1) raspodelu kad n→ +∞ (pod hipotezom).

5 Oblast odbacivanja: χ2 > c , c se bira prema nivou znacajnosti.

Milan Merkle Neparametarski testovi ETF Beograd 12 / 22

Page 24: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Kvantili εu hi kvadrat raspodele χ2(n)

un 0.005 0.01 0.025 0.05 0.95 0.975 0.99 0.9951 0.00004 0.00016 0.00098 0.00393 3.841 5.024 6.635 7.8792 0.010 0.0201 0.0506 0.103 5.991 7.378 9.210 10.5973 0.072 0.115 0.216 0.352 7.815 9.348 11.345 12.8384 0.207 0.297 0.484 0.711 9.488 11.143 13.277 14.8605 0.412 0.554 0.831 1.145 11.070 12.832 13.086 16.750

6 0.676 0.872 1.237 1.635 12.592 14.449 16.812 18.5487 0.989 1.239 1.690 2.167 14.067 16.013 18.475 20.2788 1.344 1.646 2.180 2.733 15.507 17.535 20.090 21.9559 1.735 2.088 2.700 3.325 16.919 19.023 21.666 23.589

10 2.156 2.558 3.247 3.940 18.307 20.483 23.209 25.188

11 2.603 3.053 3.816 4.575 19.675 21.920 24.725 26.75712 3.074 3.571 4.404 5.226 21.026 23.337 26.217 28.30013 3.565 4.107 5.009 5.892 22.362 24.736 27.688 29.81914 4.075 4.660 5.629 6.571 23.685 26.119 29.141 31.31915 4.601 5.229 6.262 7.261 24.996 27.488 30.578 32.801

16 5.142 5.812 6.908 7.962 26.296 28.845 32.000 24.26717 5.697 6.408 7.564 8.672 27.587 30.191 33.409 35.71818 6.265 7.015 8.231 9.390 28.869 31.526 34.805 37.15619 6.844 7.633 8.907 10.117 30.144 32.852 36.191 38.58220 7.434 8.260 9.591 10.851 31.410 34.170 37.566 39.997

21 8.034 8.897 10.283 11.591 32.671 35.479 38.932 41.40122 8.643 9.542 10.982 12.338 33.924 36.781 40.289 42.79623 9.260 10.196 11.689 13.091 35.172 38.076 41.638 44.18124 9.886 10.856 12.401 13.484 36.415 39.364 42.980 45.55825 10.520 11.524 13.120 14.611 37.652 40.646 44.314 46.928

26 11.160 12.198 13.844 15.379 38.885 41.923 45.642 48.29027 11.808 12.879 14.573 16.151 40.113 43.194 46.963 49.64528 12.461 13.565 15.308 16.928 41.337 44.461 48.278 50.99329 13.121 14.256 16.047 17.708 42.557 45.772 49.588 52.33630 13.787 14.953 16.791 18.493 43.773 46.979 50.892 53.672

Milan Merkle Neparametarski testovi ETF Beograd 13 / 22

Page 25: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Primer 170-nastavak

Imamo 4 klase =⇒ χ2(3). Sa nivoom znacajnosti α = 0.05, nalazimo ciz P(χ2 > c) = 0.05, tj c = ε0.95 = 7.815 (iz tablice χ2 kvantila na strani326, sa n = 3).Iz tablice u primeru 170 nalazimo:

N1 = 6,N2 = 17,N3 = 16,N4 = 11, p10 = p40 = 0.1587, p20 = p30 = 0.3413

χ2 =(6− 50 · 0.1587)2

50 · 0.1587+ · · · = 1.723

Dobijena vrednost je manja od kriticne, tako da hipotezu H0 neodbacujemo. (to ne znaci da smo je dokazali

√)

Znacajnost (izracunata pomocu softvera) je 0.631, sto znaci da sa datimuzorkom ne bismo odbacili nultu hipotezu ni na jednom od razumnih nivoaznacajnosti!

Milan Merkle Neparametarski testovi ETF Beograd 14 / 22

Page 26: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Formulacija Hi kvadrat testa u parametarskom obliku

Test hipoteze F = F0 svodi se na testiranja hipoteze

H0 : p1 = p10, . . . , pr = pr0 ,

protiv komplementarne alternativne hipoteze

H1 : (p1, . . . , pr ) 6= (p10, . . . , pr0)

Broj stepeni slobode je r − 1 jer je∑

pi =∑

pi0 = 1

Milan Merkle Neparametarski testovi ETF Beograd 15 / 22

Page 27: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Tri pitanja

Koliki broj klasa treba uzeti?

r = 1 + log2 n = 1 + 3.3 log10 n

(Sturges 1926, za normalnu raspodelu, neobavezno pravilo)

Koliko velike klase treba da budu ?

Klasa mora biti takva da je ocekivani broj podataka u klasi ≥ 5 .Klase sa npj0 < 5 se spajaju sa susednom klasom ili vise njih.

Da li je oblast odbacivanja uvek oblika χ2 > c ?

Ako su podaci dobijeni iz generatora slucajnih brojeva, za oblastodbacivanja uzima se χ2 < c1 ∨ χ2 > c2. Zasto?

Milan Merkle Neparametarski testovi ETF Beograd 16 / 22

Page 28: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Tri pitanja

Koliki broj klasa treba uzeti?

r = 1 + log2 n = 1 + 3.3 log10 n

(Sturges 1926, za normalnu raspodelu, neobavezno pravilo)

Koliko velike klase treba da budu ?

Klasa mora biti takva da je ocekivani broj podataka u klasi ≥ 5 .Klase sa npj0 < 5 se spajaju sa susednom klasom ili vise njih.

Da li je oblast odbacivanja uvek oblika χ2 > c ?

Ako su podaci dobijeni iz generatora slucajnih brojeva, za oblastodbacivanja uzima se χ2 < c1 ∨ χ2 > c2. Zasto?

Milan Merkle Neparametarski testovi ETF Beograd 16 / 22

Page 29: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Tri pitanja

Koliki broj klasa treba uzeti?

r = 1 + log2 n = 1 + 3.3 log10 n

(Sturges 1926, za normalnu raspodelu, neobavezno pravilo)

Koliko velike klase treba da budu ?

Klasa mora biti takva da je ocekivani broj podataka u klasi ≥ 5 .Klase sa npj0 < 5 se spajaju sa susednom klasom ili vise njih.

Da li je oblast odbacivanja uvek oblika χ2 > c ?

Ako su podaci dobijeni iz generatora slucajnih brojeva, za oblastodbacivanja uzima se χ2 < c1 ∨ χ2 > c2. Zasto?

Milan Merkle Neparametarski testovi ETF Beograd 16 / 22

Page 30: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat sa neodredenim parametrima

H0: podaci se mogu modelovati normalnom raspodelom (bez specifikacijeµ i σ2).

Ako je nepoznat parametar θ dimenzije k , statistika testa je

χ2 = χ2 =r∑

i=1

(Ni − npi (θ))2

npi (θ),

Pod hipotezom H0, statistika χ2 ima χ2(r − 1− k) raspodelu zaveliko n.

Teoretski vazi samo ako se parametri ocene metodom maksimalneverodostojnosti na osnovu grupisanih podataka, θ = θ za koje je

p1(θ)p2(θ) . . . pr−1(θ)→ max,

Tezak problem! - obicno radimo sa ocenama iz originalnih podataka,razlike nisu velike. Videti primere 173 i 218 za poredenje.

Milan Merkle Neparametarski testovi ETF Beograd 17 / 22

Page 31: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat sa neodredenim parametrima

H0: podaci se mogu modelovati normalnom raspodelom (bez specifikacijeµ i σ2).

Ako je nepoznat parametar θ dimenzije k , statistika testa je

χ2 = χ2 =r∑

i=1

(Ni − npi (θ))2

npi (θ),

Pod hipotezom H0, statistika χ2 ima χ2(r − 1− k) raspodelu zaveliko n.

Teoretski vazi samo ako se parametri ocene metodom maksimalneverodostojnosti na osnovu grupisanih podataka, θ = θ za koje je

p1(θ)p2(θ) . . . pr−1(θ)→ max,

Tezak problem! - obicno radimo sa ocenama iz originalnih podataka,razlike nisu velike. Videti primere 173 i 218 za poredenje.

Milan Merkle Neparametarski testovi ETF Beograd 17 / 22

Page 32: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat sa neodredenim parametrima

H0: podaci se mogu modelovati normalnom raspodelom (bez specifikacijeµ i σ2).

Ako je nepoznat parametar θ dimenzije k , statistika testa je

χ2 = χ2 =r∑

i=1

(Ni − npi (θ))2

npi (θ),

Pod hipotezom H0, statistika χ2 ima χ2(r − 1− k) raspodelu zaveliko n.

Teoretski vazi samo ako se parametri ocene metodom maksimalneverodostojnosti na osnovu grupisanih podataka, θ = θ za koje je

p1(θ)p2(θ) . . . pr−1(θ)→ max,

Tezak problem! - obicno radimo sa ocenama iz originalnih podataka,razlike nisu velike. Videti primere 173 i 218 za poredenje.

Milan Merkle Neparametarski testovi ETF Beograd 17 / 22

Page 33: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat - univerzalni test saglasnosti

χ2 =r∑

i=1

(stvarno− ocekivano)2

ocekivano

Testovi saglasnosti (goodness of fit).

Imamo rezultate n nezavisnih eksperimenata koji su izvedeni podistim uslovima

Neparametarski testovi u kojima se ne testira raspodela, vec nekeosobine dogadaja.

Primer 175 (Dr.Arbuthnot)

A B

Nj 82 0

npj0 41 41

p-vrednost 1.36 · 10−19Milan Merkle Neparametarski testovi ETF Beograd 18 / 22

Page 34: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat - univerzalni test saglasnosti

χ2 =r∑

i=1

(stvarno− ocekivano)2

ocekivano

Testovi saglasnosti (goodness of fit).

Imamo rezultate n nezavisnih eksperimenata koji su izvedeni podistim uslovima

Neparametarski testovi u kojima se ne testira raspodela, vec nekeosobine dogadaja.

Primer 175 (Dr.Arbuthnot)

A B

Nj 82 0

npj0 41 41

p-vrednost 1.36 · 10−19Milan Merkle Neparametarski testovi ETF Beograd 18 / 22

Page 35: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat - univerzalni test saglasnosti

χ2 =r∑

i=1

(stvarno− ocekivano)2

ocekivano

Testovi saglasnosti (goodness of fit).

Imamo rezultate n nezavisnih eksperimenata koji su izvedeni podistim uslovima

Neparametarski testovi u kojima se ne testira raspodela, vec nekeosobine dogadaja.

Primer 175 (Dr.Arbuthnot)

A B

Nj 82 0

npj0 41 41

p-vrednost 1.36 · 10−19Milan Merkle Neparametarski testovi ETF Beograd 18 / 22

Page 36: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat - univerzalni test saglasnosti

χ2 =r∑

i=1

(stvarno− ocekivano)2

ocekivano

Testovi saglasnosti (goodness of fit).

Imamo rezultate n nezavisnih eksperimenata koji su izvedeni podistim uslovima

Neparametarski testovi u kojima se ne testira raspodela, vec nekeosobine dogadaja.

Primer 175 (Dr.Arbuthnot)

A B

Nj 82 0

npj0 41 41

p-vrednost 1.36 · 10−19Milan Merkle Neparametarski testovi ETF Beograd 18 / 22

Page 37: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat - univerzalni test saglasnosti

χ2 =r∑

i=1

(stvarno− ocekivano)2

ocekivano

Testovi saglasnosti (goodness of fit).

Imamo rezultate n nezavisnih eksperimenata koji su izvedeni podistim uslovima

Neparametarski testovi u kojima se ne testira raspodela, vec nekeosobine dogadaja.

Primer 175 (Dr.Arbuthnot)

A B

Nj 82 0

npj0 41 41

p-vrednost 1.36 · 10−19Milan Merkle Neparametarski testovi ETF Beograd 18 / 22

Page 38: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Testiranje nezavisnosti

Postavka: n eksperimenata, u svakom se dogodi po jedan i samo jedan oddogadaja Ai i isto za Bj . Tablica kontingencije:

B1 B2 · · · Bk Ukupno

A1 f11 f12 · · · f1k a1...

......

......

Av fv1 fv2 · · · fvk avUkupno b1 b2 · · · bk n

Milan Merkle Neparametarski testovi ETF Beograd 19 / 22

Page 39: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test nezavisnosti

Oznake: pij = P(AiBj), αi = P(Ai ), βj = P(Bj).

H0 : pij = αi · βj , i = 1, . . . v ; j = 1 . . . k .

Nepoznati parametri koje treba oceniti: αi , βj(ukupno (v − 1) + (k − 1)).

αi = ain , βj =

bjn

Ocekivan broj u klasi (i , j): n · αi · βj =aibjn .

Stvarni broj u klasi (i , j): fij .

Broj klasa: r = vk .

Stepeni slobode = vk − 1− (v − 1)− (k − 1) = (v − 1)(k − 1).

Milan Merkle Neparametarski testovi ETF Beograd 20 / 22

Page 40: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test nezavisnosti

Oznake: pij = P(AiBj), αi = P(Ai ), βj = P(Bj).

H0 : pij = αi · βj , i = 1, . . . v ; j = 1 . . . k .

Nepoznati parametri koje treba oceniti: αi , βj(ukupno (v − 1) + (k − 1)).

αi = ain , βj =

bjn

Ocekivan broj u klasi (i , j): n · αi · βj =aibjn .

Stvarni broj u klasi (i , j): fij .

Broj klasa: r = vk .

Stepeni slobode = vk − 1− (v − 1)− (k − 1) = (v − 1)(k − 1).

Milan Merkle Neparametarski testovi ETF Beograd 20 / 22

Page 41: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test nezavisnosti

Oznake: pij = P(AiBj), αi = P(Ai ), βj = P(Bj).

H0 : pij = αi · βj , i = 1, . . . v ; j = 1 . . . k .

Nepoznati parametri koje treba oceniti: αi , βj(ukupno (v − 1) + (k − 1)).

αi = ain , βj =

bjn

Ocekivan broj u klasi (i , j): n · αi · βj =aibjn .

Stvarni broj u klasi (i , j): fij .

Broj klasa: r = vk .

Stepeni slobode = vk − 1− (v − 1)− (k − 1) = (v − 1)(k − 1).

Milan Merkle Neparametarski testovi ETF Beograd 20 / 22

Page 42: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test nezavisnosti

Oznake: pij = P(AiBj), αi = P(Ai ), βj = P(Bj).

H0 : pij = αi · βj , i = 1, . . . v ; j = 1 . . . k .

Nepoznati parametri koje treba oceniti: αi , βj(ukupno (v − 1) + (k − 1)).

αi = ain , βj =

bjn

Ocekivan broj u klasi (i , j): n · αi · βj =aibjn .

Stvarni broj u klasi (i , j): fij .

Broj klasa: r = vk .

Stepeni slobode = vk − 1− (v − 1)− (k − 1) = (v − 1)(k − 1).

Milan Merkle Neparametarski testovi ETF Beograd 20 / 22

Page 43: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test nezavisnosti

Oznake: pij = P(AiBj), αi = P(Ai ), βj = P(Bj).

H0 : pij = αi · βj , i = 1, . . . v ; j = 1 . . . k .

Nepoznati parametri koje treba oceniti: αi , βj(ukupno (v − 1) + (k − 1)).

αi = ain , βj =

bjn

Ocekivan broj u klasi (i , j): n · αi · βj =aibjn .

Stvarni broj u klasi (i , j): fij .

Broj klasa: r = vk .

Stepeni slobode = vk − 1− (v − 1)− (k − 1) = (v − 1)(k − 1).

Milan Merkle Neparametarski testovi ETF Beograd 20 / 22

Page 44: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test nezavisnosti

Oznake: pij = P(AiBj), αi = P(Ai ), βj = P(Bj).

H0 : pij = αi · βj , i = 1, . . . v ; j = 1 . . . k .

Nepoznati parametri koje treba oceniti: αi , βj(ukupno (v − 1) + (k − 1)).

αi = ain , βj =

bjn

Ocekivan broj u klasi (i , j): n · αi · βj =aibjn .

Stvarni broj u klasi (i , j): fij .

Broj klasa: r = vk .

Stepeni slobode = vk − 1− (v − 1)− (k − 1) = (v − 1)(k − 1).

Milan Merkle Neparametarski testovi ETF Beograd 20 / 22

Page 45: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Hi kvadrat test nezavisnosti - nastavak

Test sa nivoom znacajnosti α hipoteze H0 o nezavisnosti dogadaja Ai i Bj

(i = 1, . . . , v ; j = 1, . . . , k):Ako je vrednost statistike

χ2 =v∑

i=1

k∑j=1

(fij −

aibjn

)2aibjn

=v∑

i=1

k∑j=1

(nfij − aibj)2

naibj

veca od kvantila reda 1− α raspodele χ2((v − 1)(k − 1)), hipoteza H0 seodbacuje.

Milan Merkle Neparametarski testovi ETF Beograd 21 / 22

Page 46: 10. NEPARAMETARSKI TESTOVI (SI) - Milan Merkle

Za vezbu: Primeri: 171, 176 Zadaci: 181,

Milan Merkle Neparametarski testovi ETF Beograd 22 / 22