teorija uzoraka - ucg.ac.me · uzmemo uzorak od n ljudi, odredimo srednju vrijednost, te nam je ona...
TRANSCRIPT
Teorija uzoraka
Metoda uzorka
• Statističko zaključivanje – na osnovu uzorka donosi zaključke o cijelojpopulaciji.
• Takvi zaključci se temelje na podacima samo dijela jedinica, te stoga u sebisadrže grešku nastalu zbog primjene uzorka (sampling error).
• Poželjno je stoga istraživanjem obuhvatiti sve jedinice statističkog skupa.• Nedostaci takvog pristupa:
• osnovni skup može biti beskonačan (nemoguće je prikupiti sve podatke) • cijena• dugo vremensko trajanje
• Dva osnovna zadatka metode uzoraka: • procjena nepoznatih parametara• ispitivanje pretpostavki o osobinama populacije. Pretpostavke se zovu hipoteze.
Procjena parametara
• Na primjer, zanima nas prosječna visina stanovnika Crne Gore. Uzmemo uzorak od n ljudi, odredimo srednju vrijednost, te nam je ona procjena za nepoznati parametar – srednju vrijednost svihstanovnika. • Koliko je ta procjena vjerodostojna?
• Koliko dobijena srednja vrijednost odstupa od traženog parametra?
• Oznake za srednju vrijednost i varijansu uzorka, odnosno populacije
Odabir uzorka
• Teorija koja daje odgovor na prethodna pitanja zasniva se napretpostavci slučajnog biranja uzorka. Matematičkim jezikom to znači: – odabir pojedinih elemenata u uzorak mora biti međusobnonezavisan.
• Postoji više modela izbora slučajnog uzorka: jednostavni slučajniuzorak, stratifikovani uzorak ...
• Kod jednostavnog slučajnog uzorka njegov izbor se sprovodi na način da svaki član ima jednaku vjerojatnoću izbora. Pri tom se koristimonekom objektivnom metodom odabiranja elemenata u uzorak (tablicaslučajnih brojeva). Ovaj model primjenjuje se kada osnovni skupsadrži malu promjenljivost svojstva koje se ispituje – homogen skup.
Odabir uzorka 2
• Stratifikovani uzorak se koristi kad imamo veći stepen varijabilnostipodataka, odnosno kad želimo osigurati da su nam obuhvaćeni podaciiz raznih kategorija.
• U prethodnom primjeru sa visinama želimo da osiguramo da su u uzorku zastupljene sve regije Crne Gore.
• To možemo postići tako da osnovni skup podijelimo na nekolikodisjunktnih dijelova, te u svakom izaberemo odgovarajući brojpodataka. • Pri tome je važno da podskupovi nastali gornjom podjelom imaju manji
stepen varijabilnosti od same populacije
Uzorci iz normalne raspodjele
• Neka je na osnovnom skupu definisana varijabla X normalne raspodjele N(µ,σ2). Uzmemo uzorak veličine n, te mu odredimo aritmetičku sredinu
xavg = (x1 + x2 + ... + xn) / n.
• Prvom sabirku možemo pridružiti slučajnu varijablu X1 – ona predstavljavrijednost prvog elementa uzorka, odnosno x1. Analogno definišemo varijable X2,X3, ..., Xn. Prema pretpostavci slučajnosti uzorka, ove varijable su nezavisne, isvaka od njih ima normalnu raspodjelu jednaku polaznoj. Stoga je varijabla
X avg = (X1 + X2 + ... + Xn) / n
linearna kombinacija normalnih varijabli, te je stoga i sama takva. Zanima nas kojisu parametri raspodjele X avg.
Uzorci iz normalne raspodjele 2
• Kako matematičko očekivanje ima svojstvo linearnosti, to je
odnosno aritmetičke sredine uzorka se rasipavaju oko očekivanjaosnovnog skupa.
• Primijetimo da ovdje nijesmo koristili zakon raspodjele varijable X, pa tvrđenje vrijedi i za uzorke iz ostalih distribucija.
• Izračunajmo i varijansu varijable Xavg.
Uzorci iz normalne raspodjele 3
• Za nezavisne varijable X i Y važi
• Za Xavg imamo
Uzorci iz normalne raspodjele 4
• Zaključimo: ako je X normalno distribuirana varijabla, tada aritmetička sredinauzorka ima raspodjelu
• Iz slike vidimo da je normalna raspodjela za Xavg uža od raspodjele za X. Aritmetičke sredine uzoraka
rasipavaju se oko očekivanja µ u
užem području negoli same
vrijednosti varijable X. To područje
će biti uže što je uzorak veći, jer je
u tom slučaju standardna devijacija
manja.
Primjer 1
• Zadata je normalna varijabla X ∼ N(50,4). U kojim granicama će se kretati aritmetičke sredine slučajnih uzoraka veličine n = 16 elemenata?
Rješenje: Standardna devijacija aritmetičkih sredina je
Budući da su aritmetičke sredine normalno raspoređene oko očekivanjaµ = 50, to će njih oko 95% ležati u intervalu
odnosno
Primjer 2
• Visina čovjeka ima približno normalnu raspodjelu N(167.5, 82cm). • Ako je slučajno odabran jedan čovjek, koja je vjerovatnoća da je njegova visina
izmedu 152.5 i 185cm?
• Ako je slučajno izabran uzorak od 64-ro ljudi, koja je vjerovatnoća da je njihova prosječna visina izmedu 165 i 170cm?
Primjer 2
Centralna granična teorema
• Šta ako polazna varijabla nema normalnu raspodjelu? Tada ni aritmetičke sredinene moraju biti normalno raspoređene. Međutim, za njih i dalje vrijede izvedeneformule za očekivanje i varijansu, jer su te formule izvedene bez pretpostavke oraspodjeli polazne varijable X.
• Centralna granična teorema: Raspodjela aritmetičkih sredina uzoraka teži kanormalnoj raspodjeli kad veličina uzorka n teži u beskonačnost.
• Običnim riječima (i matematički manje precizno) možemo reći da se aritmetičkesredine približno pokoravaju zakonu raspodjele, bez obzira na zakon raspodjeleosnovnog skupa.
Centralna granična teorema 2
• Vidimo da za dovoljno veliko n imamo sličan rezultat kao i za varijableiz normalne raspodjele. Pri tome će u praksi dovoljno veliko značiti
n > 30, te ćemo u tom slučaju smatrati da je aproksimacijanormalnom raspodjelom dovoljno tačna za praktična izračunavanja.
Primjer 3
• Fabrika cigareta tvrdi da raspodjela katrana u njenim cigaretama imaaritmetičku sredinu µ = 3.9 mg po cigareti, te standradnu devijaciju σ = 1 mg. Pretpostavimo da je inspekcija uzela uzorak od 80 cigareta, temjerila vrijednost katrana u njima. Uz pretpostavku da su tvrdnjeproizvođača istinite, nađite vjerovatnoću da je srednja vrijednostkatrana u uzorku veća od 4.15 mg.
Procjena srednje vrijednosti
• Vidjeli smo da za dovoljno veliko n aritmetička sredina ima približno normalnuraspodjelu
• Na osnovu toga možemo izračunati vjerovatnoću
odnosno vjerovatnoću da je
za neko k > 0. Međutim, najčešće ne znamo µ, (a ni σ), nego ih želimo odrediti naosnovu uzorka.
Drugim riječima, uzmemo uzorak, nađemo njegovu aritmetičku sredinu, te nam on predstavlja procjenu za nepoznati parametar µ.
Koliko je ta procjena dobra?
• Odgovor nam omogućuje centralna granična teorema
Intervali povjerenja
• Poznata nam je vjerovatnoća
• Za k = 2, vjerovatnoća da važi posljednja formula je ~95%, odnosno sa tom vjerovatnoćom možemo da tvrdimo da se µ nalazi u intervalu
• Interval ovakvog oblika naziva se interval povjerenja
• Kako postići veću pouzdanost, na primjer 99%?
Intervali povjerenja 2
• U opštem slučaju želimo da odredimo (1-α)% interval povjerenja za µ
• Tada je α obično mali broj 1%-5%
• Interval koji tražimo je oblika
• Širina intervala zavisi od α
Intervali povjerenja 2
• Kako je za velike uzorke
• Prethodna vjerovatnoća jednaka je označenoj površini na slici
Intervali povjerenja 3
• Tražena širina intervala d računa se
• Što je uzorak veći, to je procjena bolja (manja širina intervala)
• Zamjenom standardne devijacije σ s procjenom s dobijenom iz velikoguzorka, pravi se neznatna greška, koja se u praksi može tolerisati. Zamjenu je bilo nužno sprovesti, budući da u praksi obično ne znamoσ (kao ni µ)
Primjer 4
• Procijeniti prosječnu zaradu na uzorku od 100 ljudi, pri čemu je xavg = 4200, s = 1300. Nađite 95%-tni interval pouzdanosti za µ.
Primjer 5
• Nađite 99%-tni interval povjerenja za µ, ako su parametri uzorka n = 50, xavg = 1.315, s = 0.366