hi kvadrat test

9
HI KVADRAT ( 2 ) TEST 2 test zasnovan je na 2 distribuciji i koristi se tipski za rješavanje nekoliko problema. Prvi se odnosi na testiranje značajnosti razlike između opaženih i teorijskih frekvencija različitih rasporeda vjerovatnoće – označimo ga kao test prilagođenosti. Drugi domen primjene 2 testa je kod takozvanih tabela kontingencije i odnosi se na testiranje međusobne povezanosti različitih obilježja posmatrane pojave. Kao poseban slučaj izdvaja se i testiranje jednakosti (ili razlike) proporcija tri i više skupova, što se označava i kao testiranje homogenosti posmatrane pojave. U sva tri navedena slučaja, 2 test ima odlike neparametarskog testa. Osnovni koraci prilikom testiranja 2 testom mogu se svesti na sljedeće: 1. Ustanovljava se nulta i alternativna hipoteza. 2. Izračunavaju se teorijske frekvencije pojavljivanja neke osobine kod posmatrane populacije u skladu sa postavljenom nultom hipotezom. 3. Kod tabela kontingencije, različite opservacije – frekvencije razmještaju se u različite ćelije. 4. Određuje se razlika između opaženog i očekivanog, tako da se izračunava vrijednost 2 statistike testa, date izrazom: U prethodnom izrazu sa f i su označene opažene – empirijske frekvencije, a sa očekivane ili teorijske frekevencije. r predstavlja broj grupa frekvencija. 5. Ustanovljava se odgovarajuća p-vrijednost, odnosno poredi se izračunata vrijednost statistike testa sa kritičnim (tabličnim) vrijednostima iz 2 distribucije, uz odgovarajući broj stepeni slobode, i izvodi zaključak. Broj stepeni slobode 2 distribucije određuje se posebno za svaki slučaj primjene.

Upload: sead-becirovic

Post on 03-Jan-2016

443 views

Category:

Documents


0 download

DESCRIPTION

Predavanja

TRANSCRIPT

Page 1: Hi Kvadrat Test

HI KVADRAT ( 2 ) TEST

2 test zasnovan je na 2 distribuciji i koristi se tipski za rješavanje nekoliko problema.

Prvi se odnosi na testiranje značajnosti razlike između opaženih i teorijskih frekvencija različitih rasporeda vjerovatnoće – označimo ga kao test prilagođenosti.

Drugi domen primjene 2 testa je kod takozvanih tabela kontingencije i odnosi se na testiranje međusobne povezanosti različitih obilježja posmatrane pojave.

Kao poseban slučaj izdvaja se i testiranje jednakosti (ili razlike) proporcija tri i više skupova, što se označava i kao testiranje homogenosti posmatrane pojave.

U sva tri navedena slučaja, 2 test ima odlike neparametarskog testa.

Osnovni koraci prilikom testiranja 2 testom mogu se svesti na sljedeće:

1. Ustanovljava se nulta i alternativna hipoteza.2. Izračunavaju se teorijske frekvencije pojavljivanja neke osobine kod posmatrane

populacije u skladu sa postavljenom nultom hipotezom.3. Kod tabela kontingencije, različite opservacije – frekvencije razmještaju se u različite

ćelije.4. Određuje se razlika između opaženog i očekivanog, tako da se izračunava vrijednost 2

statistike testa, date izrazom:

U prethodnom izrazu sa fi su označene opažene – empirijske frekvencije, a sa očekivane ili teorijske frekevencije. r predstavlja broj grupa frekvencija.

5. Ustanovljava se odgovarajuća p-vrijednost, odnosno poredi se izračunata vrijednost statistike testa sa kritičnim (tabličnim) vrijednostima iz 2 distribucije, uz odgovarajući broj stepeni slobode, i izvodi zaključak.

Broj stepeni slobode 2 distribucije određuje se posebno za svaki slučaj primjene.

2 distribuci j a

Hi-kvadrat test zasnovan je na 2 distribuciji. Slučajna promjenljiva definisana funkcijom gustine:

, za .

ima - raspored sa n stepeni slobode i označava se sa .

Broj n može biti proizvoljan pozitivan broj, ali je u primjeni važan salučaj kada je n pozitivan cio broj.

Osnovne karakteristike hi- kvadrat distribucije su::

1. Izračunata vrijednost 2 testa uvijek je pozitivna, zbog kvadratnog izraza .

Page 2: Hi Kvadrat Test

2. Postoji familija 2 distribucija u zavisnosti od broja stepeni slobode. Broj stepeni slobode u većini slučajeva zavisi od broja grupa frekvencija ili od broja ćelija u tabeli kontingencije, a ne od broja elemenata u uzorku. Zbog toga i oblik 2 distribucija ne zavisi od broja elemenata u uzorku.

3. 2 distribucija je pozitivno asimetrična. Povećavanjem broja stepeni slobode ova distribucija se približava normalnoj, tako da već za 10 stepeni slobode uzima oblik približno normalne distribucije.

TESTIRANJE PRILAGOĐENOSTI

Test prilagođenosti je statistički test koji treba da odgovori na pitanje, u kojoj mjeri su empirijski podaci, odnosno opservacije o broju pojavljivanja određenih vrijednosti ili modaliteta neke pojave, prilagođeni ili odgovaraju, ili prate, ili se ponašaju prema nekom teorijskom modelu rasporeda vjerovatnoće. Pri tome se polazi od pretpostavke da se posmatrana populacija prilagođava nekom teorijskom rasporedu vjerovatnoće.

2 test, prilikom testiranja prilagođenosti, može da se primijeni za bilo koju distribuciju populacije ili slučajne promjenljive, ali je to od posebne važnosti i najčešće primjenjivano u slučajevima uniformnog i normalnog rasporeda.

Testiranje se svodi na provjeravanje značajnosti razlike između opservisanih i očekivanih frekvencija.

(I) Prilikom testiranja prilagođenosti nekog empirijskog uniformnom rasporedu, nulta i alternativna hipoteza glase:

H0 : Populacija (ili slučajna promjenljiva)

uniformno je raspoređenaH1 : Populacija (ili slučajna promjenljiva)

nije uniformno raspoređena

2

2

Page 3: Hi Kvadrat Test

Hi kvadrat (2) test

U sljedećem koraku potrebno je izračunati vrijednost izraza

.

U daljem postupku određuje se p ili tablična vrijednost iz Tablica 2 distribucije, uz odgovarajući broj stepeni slobode i rizik greške.

Statistički računarski programi daju sve moguće vrijednosti ove distribucije, pa je moguće preciznije izvoditi zaključke.

Prilikom testiranja prilagođenosti nekog empirijskog rasporeda uniformnom rasporedu, broj stepeni slobode određuje se kao df = k – 1, gdje je k broj grupa frekvencija.

(II) Prilikom testiranja prilagođenosti nekog empirijskog normalnom rasporedu, nulta i alternativna hipoteza glase:

H0 : Populacija (ili slučajna promjenljiva)

normalno je raspoređena.H1 : Populacija (ili slučajna promjenljiva)

nije normalno raspoređena.

Izračunavanje teorijskih frekvencija normalnog rasporeda za dati empirijski raspored izvodi se uz pomoć Tablice standardizovanog normalnog rasporeda, u kojoj se nalaze vjerovatnoće da standardizovana normalna slučajna promjenljiva uzme vrijednost iz intervala između bilo koje dvije vrijednosti.

Ako se uvede transformacija X = + Z, tada se mogu izračunati granice u smislu originalne promjenljive X za bilo koje date vjerovatnoće pojavljivanja.

Treba zapaziti da je u ovom slučaju pretpostavka da su poznate vrijednosti parametara populacije - aritmetičke sredine i standardne devijacije .

U praksi najčešće i nisu poznate veličine, pa ih je potrebno ocijeniti iz podataka koji su prikupljeni. U ovakvim slučajevima gubi se po jedan stepen slobode za svaki parametar koji se ocjenjuje (osim kada se koristi drugi skup podataka za ocjenu). Kao i obično, aritmetička sredina se ocjenjuje pomoću , a standardna devijacija na osnovu S.

Na taj način broj stepeni slobode prilikom testiranja prilagođenosti normalnom rasporedu je df = k – 2 – 1 = k – 3.

Ukoliko su očekivane frekvencije manje od 5, preporuka je da se pripoje susjednim frekvencijama, čime se onemogućuje da 2 dobije neopravdano visoke vrijednosti.

ANALIZA TABELA KONTINGENCIJE

Vrlo često nalazimo se u prilici da ispitujemo da li između dva obilježja elemenata jednog skupa postoji veza i da li je ta veza statistički značajna. Kada su posmatrana obilježja mjerena na nominalnoj mjernoj skali i u slučajevima kada je moguće formirati tabelu sa dva ulaza (za jedno i za drugo obilježje), koja se naziva tabela kontingencije, uz pomoć 2 testa može se dobiti odgovor na postavljeno pitanje.

Tabele koje imaju dva ulaza i predstavljaju podatke jednog uzorka razvrstane prema dvije osobine – obilježja elemenata uzorka nazivaju se tabele kontingencije.

3

3

Page 4: Hi Kvadrat Test

Tabele kontingencije u ćelijama sadrže podatke (frekvencije ili broj pojavljivanja) koji se odnose (ili koji odgovaraju) različitim unakrsnim klasifikacijama posmatranih skupova (odnosno uzoraka uzetih iz tih skupova).

Tabela 1. Tabela kontingencije u opštem slučaju

Kategorije druge klasifikacije

Kategorije prve klasifikacijeUkupno

1 2 ... j ... c1 f11 f12 f1j f1c R1

2 f21 f22 f2j f2c R2

... ... ...i fi1 fi2 ... fij ... fic Ri

... ... ...r fr1 fr2 frj frc Rr

Ukupno C1 C2 ... Cj ... Cc n

Kolone tabele odgovaraju kategorijama (nivoima) jedne klasifikacije, a redovi odgovaraju kategorijama druge klasifikacije elemenata.

Označimo broj redova sa r, a broj kolona sa c. Tada je frekvencija bilo koje ćelije fij , pri čemu je i = 1,2, ..., r , a j = 1,2, ..., c. Sa Ri označen je total i-tog reda, sa Cj total j-te kolone, a n je broj elemenata uzorka.

Nulta i alternativna hipoteza prilikom analize tabela kontingencije odnose se na testiranje nezavisnosti dviju klasifikacija elemenata jedne populacije i glase:

H0 : dva obilježja (dvije varijable) međusobno su nezavisne.

H1 : dva obilježja (dvije varijable) međusobno su zavisne.

Dalji postupak u provođenju 2 testa kod analize tabela kontingencije u osnovi je isti kao i u prethodnom domenu njegove primjene. Koristi se ista statistika, s tom razlikom što se sumiranje u ovom slučaju vrši za sve redove i kolone tabele.

Za c kolona i r redova, statistika testa je:

U prethodnom izrazu sa Eij označene su očekivane frekvencije, a sa Oij opservisane (opažene, stvarne) frekvencije koje su se desile u stvarnosti, a dobili smo ih posmatranjem neke pojave.

Broj stepeni slobode dobija se prema izrazu:

df = (r – 1)(c – 1)

Uz pretpostavku o nezavisnosti, kako je uvedena nultom hipotezom, određivanje očekivanih frekvencija u pojedinim ćelijama izvodi se vrlo jednostavno (uz uvažavanje postulata vjerovatnoće kod nezavisnih događaja, što se upravo i pretpostavlja za svaku pojedinu ćeliju).

Za ćeliju (i, j) očekivana frekvencija dobije se na osnovu izraza:

4

4

Page 5: Hi Kvadrat Test

Hi kvadrat (2) test

U daljem, postupak je u osnovi isti kao i kod testiranja prilagođenosti.

Određivanje stepena međusobne zavisnosti dva obilježja jednog skupa, mjerena na nominalnoj mjernoj skali, kada su njihove vrijednosti samo riječima klasifikovane u različite grupe, kao u prethodnom primjeru, može da se ustanovi na osnovu Pearson-ovog koeficijenta kontingencije, koji se izračunava prema sljedećem izrazu:

Uočljivo je da se izračunavanje ovog koeficijenta zasniva na dobijenoj vrijednosti statistike 2 testa. Koeficijent kontingencije pokazuje stepen veze modaliteta posmatranih obilježja i uzima vrijednosti od 0 do 1.

Ukoliko su te vrijednosti bliže jedinici, to je veza modaliteta posmatranih obilježja više izražena.

Nedostatak ovog koeficijenta je u tome da njegova maksimalna vrijednost nikada ne može dostići vrijednost 1, osim u slučaju da tabela ima beskonačno mnogo redova i kolona. Prilikom interpretacije koeficijenta kontingencije potrebna je dopunska informacija u vezi sa njegovom maksimalnom vrijednošću, koja zavisi od broja posmatranih modaliteta.

U slučajevima kada je r = c, može se izračunati maksimalna vrijednost koeficijenta kontingencije prema izrazu:

.

Koeficijent kontingencije nema smisla izračunavati u slučajevima kada se ustanovi da su varijable međusobno nezavisne.

TEST JEDNAKOSTI (RAZLIKE) PROPORCIJA VIŠE SKUPOVA

Proporcije posmatranih populacija mogu biti međusobno jednake, a najčešće se razlikuju, u manjoj ili većoj mjeri. Zbog toga ima smisla govoriti o testiranju i razlike i jednakosti proporcija, tako da nije greška ako se koristi jedan ili drugi termin.

Primjenom 2 testa mogu se dobiti odgovori na prethodno postavljena pitanja. Test jednakosti (razlike) proporcija za više populacija naziva se i test homogenosti.

Postupak testiranja u osnovi je potpuno isti kao u prethodnim slučajevima. Za svaku pojedinu populaciju uzima se u obzir opažena (empirijska) frekvencija kao broj (pojavljivanja) elemenata sa određenom osobinom u toj populaciji.

Zatim se izračunavaju očekivane (teorijske) frekvencije, pod pretpostavkom da nema značajne razlike (da postoji jednakost) između posmatranih populacija prema učešću elemenata sa određenom osobinom. U daljem toku analize primjena 2 testa je potpuno ista kao u prethodno izloženim postupcima.

Prilikom poređenja c populacija (ili r populacija, ako su uređene kao redovi tabele) nulta i alternativna hipoteza glase:

5

5

Page 6: Hi Kvadrat Test

H0 : 1 = 2 = . . . = c

H1 : sve proporcije i , i = 1, 2, ..., c nisu međusobno jednake

Testiranje ovako postavljenih hipoteza predstavlja generalizaciju testiranja jednakosti proporcija dva skupa u slučaju kada je broj populacija veći od 2.

Ovdje se testira nulta hipoteza da su proporcije u svim populacijama (u svim gradovima) jednake:

H0 : 1 = 2 = . . .

H1 : sve proporcije i , i = 1, 2, ..., nisu međusobno jednake.

U opštem slučaju, teorijske frekvencije dobiju se tako da se ustanovi opšta (generalna proporcija) kao odnos zbira broja elemenata iz svih uzoraka koji imaju određenu osobinu ili su na neki način kategorizovani i zbira broja elementa svih uzoraka.

Zatim se tako dobijena proporcija primjenjuje (jednostavno se pomnoži) na svaki pojedini uzorak i tako se izračunavaju teorijske frekvencije, čiji zbir je jednak zbiru originalnih (opaženih) frekvencija.

U ovom domenu primjene tablična vrijednost određuje se iz tablice 2 rasporeda uz df = (r – 1) stepeni slobode i odgovarajući nivo rizika.

USLOVI ZA PRIMJENU 2 TESTA

Da bi se primjenom 2 testa dobili validni rezultati, potrebno je uvažiti osnovne pretpostavke u vezi sa primjenom ovog testa, od kojih su najvažnije:

1.2 test se primjenjuje samo prilikom testiranja apsolutnih frekvencija.

2. zbir empirijskih (opaženih) i teorijskih frekvencija mora biti jednak.

3. treba uzeti u obzir svako pojavljivanje i nepojavljivanje određene osobine, da se ne bi narušio uslov pod 2. Tako, na primjer, ako se testiranjem neke pojave javljaju odgovori "da" i "ne", to znači da se uz frekvenciju za "da" mora pridružiti i frekvencija za "ne".

4. frekvencije u pojedinim ćelijama moraju biti nezavisne, tako da svaka frekvencija u pojedinoj ćeliji mora pripadati drugom individuumu ili objektu.

5. očekivane (teorijske) frekvencije ne smiju biti suviše male. U statističkoj literaturi nema jedinstvenog stava o tome šta se to podrazumijeva pod suviše malim frekvencijama. Mi ćemo se rukovoditi principom da su suviše male očekivane frekvencije one koje su manje od 5. Dakle, ako se u tabeli pojave male očekivane frekvencije, tada je potrebno da se redovi (kolone) kojima one pripadaju spoje (pridruže) prethodnom redu (koloni), kako bi ovaj uslov za primjenu 2 testa bio ispunjen.

6

6