zaključivanje o jednoj slučajnoj varijabli · 2010. 10. 10. · jabla) t čija vrijednost...

22
Statistika, Prehrambeno-tehnološki fakultet 1 Zaključivanje o jednoj slučajnoj varijabli Numeričke karakteristike distribucije populacije nazivamo parametrima. Statističko zaključivanje odnosi se na donošenje zaključaka o parametrima promatrane populacije na temelju analiziranja odabranog uzorka. Prije samog odabira uzorka iz čijih će karakteristika slijediti zaključci treba voditi računa o sljedećem: dimenziji uzorka i načinu odabira elemenata populacije u uzorak, prirodi zaključka kojeg želimo donijeti, vjerodostojnosti konačnog zaključka. Dva najvažnija postupka statističkog zaključivanja su: procjena parametara, testiranje hipoteza vezanih uz parametre. Kod procjene parametara razlikujemo: procjenu vrijednosti nepoznatog parametra (procjena konkret- nom vrijednošću), određivanje intervala kojem vrijednost nepoznatog parametra pri- pada s nekom unaprijed zadanom vjerojatnosti (procjena param- etara intervalima zadane pouzdanosti). Procjena vrijednosti parametara slučajne varijable Jednostavno rečeno, procijeniti vrijednost parametra znači na temelju in- formacija dostupnih iz uzorka odrediti jednu vrijednost blisku vrijed- nosti nepoznatog parametra. Primjer 1: auti1.sta Raspolažemo podacima iz test mjerenja potrošnje goriva novog modela automo- bila pri brzini od 110 km/h na autocesti za 100 pokusa. Podaci se nalaze u bazi podataka auti1.sta. 1. Kolika je vjerojatnost da je potrošnja goriva tog modela u navedenim uvje- tima manja od 4 l? (Rješenje: 0, 08)

Upload: others

Post on 31-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • Statistika, Prehrambeno-tehnološki fakultet 1

    Zaključivanje o jednoj slučajnoj varijabli

    • Numeričke karakteristike distribucije populacije nazivamo parametrima.

    • Statističko zaključivanje odnosi se na donošenje zaključaka o parametrimapromatrane populacije na temelju analiziranja odabranog uzorka.

    • Prije samog odabira uzorka iz čijih će karakteristika slijediti zaključci trebavoditi računa o sljedećem:

    – dimenziji uzorka i načinu odabira elemenata populacije u uzorak,

    – prirodi zaključka kojeg želimo donijeti,

    – vjerodostojnosti konačnog zaključka.

    • Dva najvažnija postupka statističkog zaključivanja su:

    – procjena parametara,

    – testiranje hipoteza vezanih uz parametre.

    • Kod procjene parametara razlikujemo:

    – procjenu vrijednosti nepoznatog parametra (procjena konkret-nom vrijednošću),

    – određivanje intervala kojem vrijednost nepoznatog parametra pri-pada s nekom unaprijed zadanom vjerojatnosti (procjena param-etara intervalima zadane pouzdanosti).

    Procjena vrijednosti parametara slučajne varijable

    • Jednostavno rečeno, procijeniti vrijednost parametra znači na temelju in-formacija dostupnih iz uzorka odrediti jednu vrijednost blisku vrijed-nosti nepoznatog parametra.

    Primjer 1: auti1.staRaspolažemo podacima iz test mjerenja potrošnje goriva novog modela automo-bila pri brzini od 110 km/h na autocesti za 100 pokusa. Podaci se nalaze u bazipodataka auti1.sta.

    1. Kolika je vjerojatnost da je potrošnja goriva tog modela u navedenim uvje-tima manja od 4 l?(Rješenje: 0, 08)

  • Statistika, Prehrambeno-tehnološki fakultet 2

    2. Kolika je očekivana potrošnja goriva u navedenim uvjetima?(Rješenje: 4.43928)

    3. Kolika je standardna devijacija slučajne varijable koja opisuje potrošnjugoriva u navedenim uvjetima?(Rješenje: 0.290148)

    • Ovaj primjer ilustrira problem procjene vjerojatnosti događaja, očekivanjai standardne devijacije slučajne varijable koja opisuje potrošnju goriva togmodela automobila iz prikupljenih podataka.

    • Da bismo točno odgovorili na ovakva i slična pitanja potrebno je pozna-vati točnu distribuciju slučajne varijable koja opisuje potrošnju goriva togmodela automobila.

    • U našem slučaju dostupni su samo izmjereni podaci iz kojih lako saz-najemo empirijsku distribuciju te odgovore na ova pitanja moramopotražiti na osnovu njih - moramo procijeniti tražene numeričke karak-teristike.

    • Koje matematičke funkcije ćemo iskoristiti za izračune traženih vrijed-nosti?

    • Koristimo funkcije koje nazivamo procjeniteljima - kad su nam dos-tupni samo izmjereni podaci pomoću procjenitelja donosimo zaključke otraženim numeričkim karakteristikama i tako dobivene vrijednosti nazi-vamo procjenama.

    • Kako znati koju funkciju (procjenitelja) koristiti za procjenu tražene nu-meričke karakteristike?

    Primjer 2:

    1. Kako biste izvršili procjenu vjerojatnosti iz prvog dijela prethodnog prim-jera?

    2. Smatrate li da empirijska distribucija mjerenih podataka o potrošnji gorivaovog tipa automobila ima veze sa stvarnom distribucijom potrošnje? Kadai zašto?

    3. Ako bismo ponovili istraživanje i ponovno napravili izračun empirijske dis-tribucije na osnovu novih podataka, očekujete li promijenu vrijednosti?Kako to objašnjavate?

    • Procjena distribucije slučajne varijable

    Za procjenu distribucije slučajne varijable koristimo empirijsku distribu-ciju podataka dobivenih mjerenjem realizacija navedene slučajne varijableu međusobno nezavisnim ponavljanjima pokusa.

  • Statistika, Prehrambeno-tehnološki fakultet 3

    • Procjena očekivanja slučajne varijable

    Za procjenu očekivanja slučajne varijable koristimo aritmetičku sredinupodataka dobivenih mjerenjem realizacija navedene slučajne varijable umeđusobno nezavisnim ponavljanjima pokusa, tj.

    x̄ =1n

    n∑i=1

    xi.

    • Procjena varijance slučajne varijable

    Za procjenu varijance slučajne varijable koristimo korigiranu varijancupodataka dobivenih mjerenjem realizacija navedene slučajne varijable umeđusobno nezavisnim ponavljanjima pokusa, tj.

    s̄2 =1

    n− 1

    n∑i=1

    (xi − x̄)2.

    Napomena:

    • Budući se odabrani procjenitelj primjenjuje na uzorak, koji je slučajnogkaraktera, pri ponavljanju postupka procjene na drugim realizacijama is-tog uzorka prirodno je da se mogu pojaviti različite vrijednosti procjenaiste numeričke karakteristike.

    • Iako želimo izvršiti procjenu neke numeričke vrijednosti jednim brojemvalja priznati realnost, tj. slučajan karakter procjenitelja, i pokušati do-biti što kvalitetniju informaciju iz postupka procjene. U tu svrhu vršimoprocjenu numeričke vrijednosti intervalom unaprijed izabrane pouz-danosti. Tako, npr. ako smo izabrali pouzdanost 95% kažemo da smoprocijenili danu numeričku karakteristiku intervalom s pouzdanošću 95%,odnosno da je vjerojatnost pripadnosti numeričke karakteristike koju proc-jenjujemo dobivenom intervalu jednaka 0.95.

  • Statistika, Prehrambeno-tehnološki fakultet 4

    Procjena očekivanja intervalom zadane pouzdanosti za ve-like uzorke

    • Pod pojmom veliki uzorak podrazumjevamo uzorak dimenzije barem30 (n ≥ 30).

    • Nivo pouzdanosti je broj γ ∈ 〈0, 1〉, npr. γ = 0.95 ili γ = 0.90.

    • Interval nivoa pouzdanosti γ za očekivanje slučajne varijable je intervalza koji tvrdimo da se očekivanje (µ) te slučajne varijable nalazi u njemus vjerojatnošću približno γ.

    • Računamo ga na sljedeći način:

    Iγ =[x̄− zγ

    σ√n, x̄+ zγ

    σ√n

    ],

    gdje je: x̄ - aritmetička sredina uzorka;σ - standardna devijacija uzorka;n - dimenzija uzorka;zγ - broj za koji vrijedi: P{|Z| ≤ zγ} = γ;Z - standardna normalna slučajna varijabla.

    • U svrhu određivanja intervala nivoa pouzdanosti γ za očekivanje slučajnevarijable potrebno je odrediti zγ takav da je

    P{|Z| ≤ zγ} = γ,

    gdje je Z ∼ N (0, 1).

    • Primijetimo da je

    γ = P{|Z| ≤ zγ} = P (−zγ ≤ Z ≤ zγ) =1√2π

    ∫ zγ−zγ

    e−x2/2dx.

    Primjer 3: auti1.staZa podatke iz baze auti1.sta napravite procjenu očekivane potrošnje goriva 95%intervalom pouzdanosti.(Rješenje: [4.381708, 4.496852])

  • Statistika, Prehrambeno-tehnološki fakultet 5

    Primjer 4: tajnice.staPretpostavimo da imate vlastito poduzeće i da želite zaposliti tajnicu. Poznatovam je da je u vašem okruženju plaća tajnica normalno distribuirana. Trenutnoimate na raspolaganju podatke o 8 plaća i želite vašoj budućoj tajnici dati plaćukoja će biti u intervalu oko očekivanja pouzdanosti 90%. Kolika je najmanja,a kolika najveća plaća koju možete ponuditi ako se oslonite na podatke kojimaraspolažete?(Rješenje: [1688.180, 2115.570])

    Primjer 5: dob-poduzetnika.staPodaci o dobi 200 poduzetnika u Hrvatskoj dani su u bazi podataka dob poduzetnika.sta.Procijenite očekivanu dob poduzetnika u Hrvatskoj intervalom pouzdanosti 95%.(Rješenje: [41.35088, 43.85912])

    Primjer 6: iq25.sta; iq60.staZakon o diskriminaciji prema dobi iz 1967. godine označava ilegalnim postupakdiskriminacije pri zapošljavanju djelatnika starih 40 godina i više. Oni koji se neslažu sa zakonom argumentiraju ga postojanjem ekonomskih razloga zbog kojihposlodavci nerado zapošljavaju osobe koje su blizu mirovine. Također govore daje sposobnost ljudi te dobi upitna. U bazi podataka iq25.sta nalaze se rezultatitesta inteligencije za 25-godišnjake, a u bazi podataka iq60.sta rezultati testainteligencije za 60-godišnjake. Odredite intervale pouzdanosti 95% za očekivanjeza obje dobi. Dajte objašnjenje tih intervala i komentar u kontekstu problemakoji je opisan.(Rješenje: iq25.sta: [61.97539, 71.69127];

    iq60.sta: [41.00907, 49.60204])

  • Statistika, Prehrambeno-tehnološki fakultet 6

    Procjena proporcije intervalom zadane pouzdanosti za ve-like uzorke

    • Procjena proporcije koristi se kada želimo procijeniti vjerojatnost nekogunaprijed izabranog događaja na osnovu nezavisnih ponavljanja istog pokusa.

    • Primjeri:

    – odrediti vjerojatnost pobjede izabrane stranke na izborima na osnovuanketiranja adekvatno izabranog uzorka prije izbora,

    – odrediti vjerojatnost prodaje nekog proizvoda na osnovu istraživanjatržišta anketiranjem adekvatno izabranog uzorka potencijalnih ku-paca.

    • Ovo su primjeri slučajnih pokusa koje možemo modelirati Bernoullijevomslučajnom varijablom, tj. slučajnom varijablom X zadanom sljedećomtablicom distribucije:

    X =

    (0 1q p

    ), p ∈ [0, 1], q = 1− p.

    • Nezavisnim ponavljanjem našeg pokusa n puta prikupljamo uzorak i takodobivamo niz jedinica i nula (sve skupa n njih).

    • Cilj je na osnovu zabilježenih realizacija procijeniti vjerojatnost uspjehap.

    • Dobar procjenitelj za p je relativna frekvencija uspjeha (tj. jedinica)u uzorku. Realizacija tog procjenitelja je konkretan realan broj.

    • Procjena proporcije intervalom dane pouzdanosti γ za velikeuzorke:

    – Nivo pouzdanosti je broj γ ∈ 〈0, 1〉, npr. γ = 0.95 ili γ = 0.90.

    – Interval za koji možemo tvrditi da se p nalazi u njemu s vjerojatnošćupribližno γ zovemo interval za p pouzdanosti γ.

    – Računamo ga na sljedeći način:

  • Statistika, Prehrambeno-tehnološki fakultet 7

    Iγ =

    [p̂− zγ

    √p̂ · q̂n, p̂+ zγ

    √p̂ · q̂n

    ],

    gdje je: p̂ - relativna frekvencija jedinica (uspjeha) u uzorku;q̂ - relativna frekvencija nula (neuspjeha) u uzorku;n - dimenzija uzorka;zγ - broj za koji vrijedi: P{|Z| ≤ zγ} = γ;Z - standardna normalna sluč.

    – Kažemo da je dimenzija uzorka dovoljno velika ako interval[p̂− 3

    √p̂(1− p̂)

    n, p̂+ 3

    √p̂(1− p̂)

    n

    ]

    ne sadrži ni 0 ni 1 (očito je tada zγ = 3).

    Primjer 7:Jedna tvornica hrane želi provesti istraživanje tržišta intervjuirajući 1000 potrošačakako bi odredili koju marku pahuljica za doručak oni preferiraju. Prikupljeni po-daci su pokazali da 313 ispitanika odabire pahuljice koje proizvodi tvornica kojaje provela istraživanje. Na osnovu dobivenih rezultata odredite interval za kojise može tvrditi da sadrži proporciju konzumenata pahuljica navedene tvrtke uodnosu na sve potrošače pahuljica istraživanog tržišta s pouzdanošću γ = 0.95.(Rješenje: [0.284, 0.342])

    Primjer 8: vrtic.staU nekom poduzeću zaposleno je više od 3000 ljudi. Vlasnik želi ponuditi pomoćsvojim zaposlenima oko organizacije čuvanja djece. Razmišljao je o dvije op-cije: otvoriti službu čuvanja djece unutar poduzeća ili ponuditi novčanu pomoćroditeljima kako bi sami organizirali čuvanje. Odabrao je uzorak od 60 roditelja,pitao ih za mišljenje i njihove odgovore kodirao na sljedeći način:

    0 - radije bih novčanu pomoć za samostalnu organizaciju čuvanja djece;1 - radije bih organizaciju prepustio poduzeću.

    Procijenite s pouzdanošću γ = 0.95 proporciju roditelja koji žele organiziranočuvanje djece. Podaci se nalaze u bazi podataka vrtic.sta.(Rješenje: [0.5115, 0.75535])

  • Statistika, Prehrambeno-tehnološki fakultet 8

    Primjer 9:Neka banka je provela istraživanje koje je obuhvatilo 1252 osobe koje posjedujukreditnu karticu. Pronašli su da je njih 180 koristilo karticu za kupovinu putemInterneta.

    1. Je li uzorak dovoljno velik za konstruiranje valjanog intervala povjerenjaza proporciju onih koji su koristili kartice za kupovinu putem Interneta uodnosu na sve osobe koje posjeduju kreditnu karticu? Obrazložite odgovor.(Rješenje: uzorak je dovoljno velik.)

    2. Sastavite pouzdani interval za navedenu proporciju ako je γ = 0.98. In-terpretirajte rezultat u kontekstu problema koji proučavate.(Rješenje: [0.1209, 0.1671])

    3. Da ste konstruirali interval za γ = 0.90, bi li on bio uži ili širi?(Rješenje: bio bi uži jer je z0.90 < z0.98)

    Primjer 10: grickalice.staTvrtka "Gric" proizvela je grickalice sa novim okusom pa je prije lansiranjanovog proizvoda na tržiste odabrala slučajan uzorak od 50 ljudi koje je zamolilada probaju nove grickalice. Njihovi odgovori su kodirani na sljedeći način:

    0 − ne sviđa mi se;1 − sviđa mi se;2 − niti mi se sviđa niti mi se ne sviđa.

    Pomoću intervala pouzdanosti 80% procijenite proporciju potrošača kojima će sesvidjeti ove nove grickalice.(Rješenje: [0.2355, 0.4045])

  • Statistika, Prehrambeno-tehnološki fakultet 9

    Testiranje statističkih hipoteza

    • Statistička hipoteza je tvrdnja o veličini parametra θ ili o obliku dis-tribucije populacije čija se vjerodostojnost ispituje pomoću podataka dos-tupnih iz slučajno odabranog uzorka.

    • Postupak kojim se donosi odluka o prihvaćanju ili neprihvaćanju tvrdnjena temelju podataka iz slučajnog uzorka naziva se testiranje statis-tičkih hipoteza.

    Primjer 11:Pretpostavimo da želimo provjeriti je li očekivano vrijeme čekanja u redu stu-dentske menze u vrijeme ručka veće od pet minuta i na osnovu toga odlučititrebamo li pokrenuti još jednu traku ili ne. U ovom slučaju valja provesti statis-tički test o vrijednosti očekivanja slučajne varijable.

    • U postupku provođenja statističkog testa potrebno je praktičnuhipotezu (tvrdnju koju želimo testirati) formulirati kao statističkuhipotezu i na osnovu toga izabrati prikladan statistički test iz niza dos-tupnih testova.

    • Osnovni koraci u testiranju statističkih hipoteza

    1. Postaviti nultu i alternativnu hipotezu temeljenu na parametrima.Kako znati koju tvrdnju postaviti za nultu, a koju za alternativnuhipotezu?

    – negaciju pretpostavke, koja se temelji na podacima dobivenimiz uzorka, koju želimo testirati i na osnovu koje želimo donijetineku odluku postavljamo kao nultu hipotezu i označavamo jusa H0.

    – samu pretpostavku koju želimo testirati postavljamo kao alter-nativnu hipotezu i označavamo ju sa HA.

    Nulta i alternativna hipoteza koje postavljamo na osnovu pretpostavkenavedene u primjeru 1 su:

    – H0 : Vrijeme čekanja u redu studentske menze u vrijeme ručkaje manje ili jednako 5 minuta.

    – HA : Vrijeme čekanja u redu studentske menze u vrijeme ručkaje veće od 5 minuta.

    Alternativnu hipotezu trebamo smatrati netočnom sve dok namneki prikladan statistički test ne da dovoljno uvjerljive rezultate naosnovu kojih ju možemo prihvatiti, tj. na osnovu kojih možemoodbaciti nultu hipotezu (koju a priori smatramo točnom).

  • Statistika, Prehrambeno-tehnološki fakultet 10

    2. Odabrati test statistiku (koja je u svojoj osnovi slučajna vari-jabla) T čija vrijednost najbolje odražava vjerodostojnost hipotezekoju želimo testirati, odrediti skup mogućih vrijednosti koje teststatistika može poprimiti, te konkretnu vrijednost test statistike zakoje nultu hipotezu H0 ne prihvaćamo u korist alternativne hipotezeHA. Područje vrijednosti test statistike T za koje ne prihvaćamonultu hipotezuH0 nazivamo kritično područje ili područje odbaci-vanja testa. Test statistike koje koristimo pri testiranju hipotezao vrijednosti različitih parametara bit će navedene kasnije.

    3. Budući su statistički testovi kreirani na bazi slučajnih varijabli, potrebnoje priznati mogućnost pogreške prilikom zaključivanja. Razlikujemodvije vrste takvih pogrešaka:

    – Pogreška prvog reda: neprihvaćanje nulte hipoteze H0 uslučaju kad je ona zapravo istinita. Vjerojatnost pojave pogreškeprvog reda nazivamo p-vrijednost.

    – Pogreška drugog reda: prihvaćanje nulte hipoteze u slučajukad je istinita alternativna hipoteza.

    Ako je u postupku odlučivanja definiran najveći iznos vjerojatnostipogreške prvog reda koji smo spremni prihvatiti, taj broj nazivamonivo značajnosti ili nivo signifikantnosti i označavamo ga saα.

    U tom slučaju nultu hipotezu odbacujemo ako je izračunata p-vrijednostmanja od nivoa značajnosti α.

    4. Nakon određivanja test statistike treba izračunati njezinu vrijednostiz eksperimentalno određenih podataka i odrediti pripada li ta vri-jednost u kritično područje:

    – ako pripada, zaključujemo da je alternativna hipotezaHA potvrđenana danom nivou značajnosti α. Istovremeno ne možemo tvrditida smo dokazali apsolutnu netočnost nulte hipoteze H0.

    – ako ne pripada, zaključujemo da nema dovoljno objektivnih ra-zloga za neprihvaćanje nulte hipoteza H0, tj. kažemo da alterna-tivna hipoteza HA nije potvrđena na danom nivou značajnostiα.

  • Statistika, Prehrambeno-tehnološki fakultet 11

    Testiranje hipoteze o tome je li očekivanje jednako unapri-jed određenoj vrijednosti za velike uzorke

    • U ovom postupku koristimo aritmetičku sredinu uzorka kao procjenu zaočekivanje.

    • U slučajnom uzorku uzetom iz proizvoljne populacije, karakterizirane očeki-vanjem µ i standardnom devijacijom σ, distribucija aritmetičke sredineuzorka kao procjenitelja za očekivanje (u oznaci X) je približno normalnas očekivanjem µ i standardnom devijacijom σ/

    √n. Štoviše:

    Z =X − µσ/√n

    je približno standardna normalna slučajna varijabla.

    • Naša situacija bit će obilježena nepoznatom standardnom devijacijomσ. Stoga ćemo koristiti standardnu devijaciju slučajnog uzorka koju oz-načavamo sa s.

    • Neka je α nivo značajnosti testa (npr. α = 0.05 ili α = 0.01).

    • Test koji koristimo za testiranje hipoteze o jednakosti očekivanja (µ) nekojunaprijed zadanoj vrijednosti (µ0) naziva se z-test. Ovisno o prirodinulte i alternativne hipoteze, razlikujemo:

    – dvostrani test - karakteriziraju ga znak jednakosti u nultoj i znakrazličitosti u alternativnoj hipotezi.

    – jednostrani test - karakteriziraju ga znak jednakosti u nultoj istroga nejednakost u alternativnoj hipotezi.

  • Statistika, Prehrambeno-tehnološki fakultet 12

    Dvostrani test:H0 : µ = µ0,

    H1 : µ 6= µ0.

    Test statistika:z =

    µ̂− µ0s/√n.

    • nultu hipotezu H0 odbacujemo ako je: |z| > zα/2.

    • s - standardna devijacija slučajnog uzorka.

    • µ̂ - aritmetička sredina uzorka.

    • n - dimenzija uzorka.

    • zα/2 - broj za koji vrijedi da je P{|Z| ≥ zα/2} = α.

    • Z - standardna normalna slučajna varijabla.

    • Kod dvostranog testa nivoa značajnosti α potrebno je odrediti zα/2 takavda je

    P{|Z| ≥ zα/2} = α,

    gdje je Z ∼ N (0, 1).

    • Primijetimo da je

    α = P{|Z| ≥ zα/2} = 1− P (|Z| ≤ zα/2) = 1−1√2π

    ∫ zα/2−zα/2

    e−x2/2dx.

  • Statistika, Prehrambeno-tehnološki fakultet 13

    Jednostrani test:H0 : µ = µ0,

    H1 : µ < µ0 ili H1 : µ > µ0.

    Test statistika:z =

    µ̂− µ0s/√n.

    • nultu hipotezu H0 odbacujemo ako je: z < −zα, odnosno akoje z > zα.

    • s - standardna devijacija slučajnog uzorka.

    • µ̂ - aritmetička sredina uzorka.

    • n - dimenzija uzorka.

    • zα - broj za koji vrijedi da je P{Z ≥ zα} = α.

    • Z - standardna normalna slučajna varijabla.

    • Kod jednostranog testa nivoa značajnosti α potrebno je odrediti zα takavda je

    P{Z ≥ zα} = α,

    gdje je Z ∼ N (0, 1).

    • Ukoliko zasigurno znamo da naš uzorak potječe iz normalne distribucije,analogne testove možemo provesti i na malom uzorku (n < 30).

    • Tada je distribucija aritmetičke sredine uzorka kao procjenitelja za očeki-vanje Studentova s (n − 1) stupnjeva slobode i pripadni test naziva set-test.

    • Neka je α nivo značajnosti testa (npr. α = 0.05 ili α = 0.01)

  • Statistika, Prehrambeno-tehnološki fakultet 14

    Dvostrani test:H0 : µ = µ0,

    H1 : µ 6= µ0.

    Test statistika:t =

    µ̂− µ0s/√n.

    • nultu hipotezu H0 odbacujemo ako je: |t| > tα/2.

    • s - standardna devijacija slučajnog uzorka.

    • µ̂ - aritmetička sredina uzorka.

    • n - dimenzija uzorka.

    • tα/2 - broj za koji vrijedi da je P{|T | ≥ tα/2} = α.

    • T - Studentova s (n− 1) stupnjeva slobode.

    Jednostrani test:H0 : µ = µ0,

    H1 : µ < µ0 ili H1 : µ > µ0.

    Test statistika:t =

    µ̂− µ0s/√n.

    • nultu hipotezu H0 odbacujemo ako je: t < −tα, odnosno akoje t > tα.

    • s - standardna devijacija slučajnog uzorka.

    • µ̂ - aritmetička sredina uzorka.

    • n - dimenzija uzorka.

    • tα - broj za koji vrijedi da je P{T ≥ tα} = α.

    • T - Studentova s (n− 1) stupnjeva slobode.

    • U uvjetima istinitosti nulte hipoteze očekujemo da je realizacija z (analognot) slučajne varijable Z (analogno T ) blizu 0.

    • Može se pokazati da slučajna varijabla Z (analogno T ) za koju je gornjavrijednost z (analogno t) jedna realizacija ima jediničnu normalnu dis-tribuciju.

  • Statistika, Prehrambeno-tehnološki fakultet 15

    • Na osnovu realizacije z (analogno t) na našem uzorku možemo odreditip-vrijednost na sljedeći način:

    p = P{Z ≥ z} (odnosno, p = P{Z ≤ z})

    ovisno o tome suprotstavljamo li nultoj hipotezi alternativu da je stvarnoočekivanje veće ili manje od hipotetske vrijednosti.

    Primjer 12: tv.staGodine 1979. osnovna kablovska televizija je, u prosjeku, koštala 7.37 dolaramjesečno. Godine 1983. "Federalno udruženje kablovskih televizija" (broji višeod 4000 kablovskih sustava) zaključilo je da je kablovska televizija poskupjelaza samo 8% u odnosu na 1979., te da ne stoji statistički značajno više od 8dolara mjesečno. No "Udruženje potrošača" sumnja u te izjave pa su ih od-lučili provjeriti. Koristeći podatke prikupljene u bazi tv.sta provjerite govorili "Federalno udruženje kablovskih televizija" istinu.

    (Rješenje: H0 : µ = 8; HA : µ > 8; na nivou značajnosti 0.05prihvaćamo nultu hipotezu.)

    Primjer 13: lopta.staJedan se poduzetnik bavi proizvodnjom loptica za golf. U suradnji s projektan-tima u poduzeću napravio je preinake na jednom dijelu stroja (ubrizgavalici).Cijeli je proces dizajniran tako da proizvodi loptice prosječne mase 0.25 unci.Kako bi istražio da li nova ubrizgavalica radi zadovoljavajuće, odabire 40 lopticai bilježi njihove mase (podaci su dostupni u bazi lopta.sta). Provjerite moželi poduzetnik prihvatiti hipotezu da prosječna masa loptice nije 0.25 unci.

    (Rješenje: H0 : µ = 0.25; HA : µ 6= 0.25; na nivou značajnosti 0.05 neprihvaćamo nultu hipotezu.)

    Primjer 14:Kako bi odgovorili na pitanje koji faktori sprečavaju proces učenja u razredu,istraživači na Murray State University ispitali su 40 učenika koji su trebali oc-jenama od 1 (uopće ne) do 7 (u velikoj mjeri) ocijeniti razinu do koje određenifaktori ometaju proces učenja. Faktor koji je dobio najveću ocjenu je: "Pro-fesori koji inzistiraju na jednom točnom odgovoru radije nego da evaluirajucjelokupno razmišljanje i kreativnost". Deskriptivna statistika za ocjenu razineutjecaja ovog faktora je: µ̂ = 4.70, s = 1.62. Premašuje li očekivanje ocjene zanavedeni faktor značajno ocjenu 4? Interpretirajte rezultat.

    (Rješenje: H0 : µ = 4; HA : µ > 4; na nivou značajnosti 0.05 neprihvaćamo nultu hipotezu.)

  • Statistika, Prehrambeno-tehnološki fakultet 16

    Testiranje hipoteze o tome je li vjerojatnost događaja jed-naka unaprijed određenoj vrijednosti za velike uzorke

    • U sklopu modela Bernoullijevog pokusa modeliranog slučajnom varijablomzadanom sljedećom tablicom distribucije:

    X =

    (0 1q p

    ),

    testiramo hipoteze o vrijednosti parametra p (vjerojatnost relizacije usp-jeha u jednoj izvedbi Bernoullijevog pokusa).

    • U ovom postupku relativnu frekvenciju uspjeha (p̂) koristimo kao procjenuza vjerojatnost (proporciju) p:

    p̂ =X

    n,

    gdje je X slučajna varijabla čija je realizacija broj uspjeha u n ponavljanjaBernoullijevog pokusa.

    • Ovaj test baziran je na normalnoj aproksimaciji binomne distribucije, tj.p̂ ima približno normalnu distribuciju s očekivanjem µ i standardnom de-vijacijom

    √p(1− p)/n.

    • Uz pretpostavku da vjerojatnost p ima unaprijed zadanu vrijednost p0,distribucija procjenitelja p̂ je N (p0, p0(1− p0)/n). Prema tome, standard-izirana test statistika

    Z =p̂− p0√

    p0(1− p0)/nima standardnu normalnu distribuciju.

    • Neka je α nivo značajnosti testa (npr. α = 0.05 ili α = 0.01).

  • Statistika, Prehrambeno-tehnološki fakultet 17

    Dvostrani test:H0 : p = p0

    H1 : p 6= p0

    Test statistika:z =

    p̂− p0√p0(1−p0)

    n

    .

    • nultu hipotezu H0 odbacujemo ako je: |z| > zα/2.

    • p̂ - relativna frekvencija uspjeha.

    • n - dimenzija uzorka.

    • zα/2 - broj za koji vrijedi da je P{|Z| ≥ zα/2} = α.

    • Z standardna normalna slučajna varijabla.

    Jednostrani test:H0 : p = p0

    H1 : p < p0 (odnosno H1 : p > p0)

    Test statistika:z =

    p̂− p0√p0(1−p0)

    n

    • nultu hipotezu H0 odbacujemo ako je z < −zα (odnosno z >zα).

    • p̂ - relativna frekvencija uspjeha.

    • n - dimenzija uzorka.

    • zα - broj za koji vrijedi da je P{Z ≥ zα} = α.

    • Z - standardna normalna slučajna varijabla.

    Primjer 15: perec.staOdlučili ste prodavati nove perece u svojoj pekari. Niste sigurni sviđaju li se iline vašim kupcima. O tome ovisi hoćete li nastaviti prodavati te perece ili ne. Ubazi podataka perec.sta nalaze se podaci dobiveni iz uzorka od 50 potrošača:

  • Statistika, Prehrambeno-tehnološki fakultet 18

    0 - ne sviđa mi se1 - sviđa mi se2 - indiferentan sam

    1. Sastavite interval za proporciju kupaca kojima se sviđaju novi pereci,pouzdanosti γ = 0.95.(Rješenje: [0.173, 0.427])

    2. Što ćete učiniti s dimenzijom uzorka ako želite povećati preciznost proc-jene?(Rješenje: treba povećati dimenziju uzorka)

    3. Testirajte hipotezu da je proporcija kupaca kojima se ne sviđaju novipereci jednaka 0.5.(Rješenje: H0 : p = 0.5; HA : p 6= 0.5; na nivou značajnosti 0.05prihvaćamo nultu hipotezu.)

    Primjer 16:Reputacija mnogih poslova može biti snažno narušena pošiljkom proizvedenerobe koja sadrži veliki postotak oštećenih proizvoda. Na primjer, proizvođačalkalnih baterija želi biti siguran da je manje od 5% baterija u pošiljci oštećeno.Pretpostavimo da je slučajnim izborom iz vrlo velike pošiljke odabrano 300 ba-terija od kojih je 10 oštećenih. Je li to dovoljan dokaz proizvođaču da zaključikako je proporcija defektnih proizvoda u cijeloj pošiljci manja od 0.05 na nivouznačajnosti α = 0.01?

    (Rješenje: H0 : p = 0.05; HA : p < 0.05; na nivou značajnosti 0.01prihvaćamo nultu hipotezu.)

  • Statistika, Prehrambeno-tehnološki fakultet 19

    Testiranje hipoteze o jednakosti distribucije pretpostavl-jenoj teorijskoj distribuciji

    • Kao procjenu za stvarnu distribuciju slučajne varijable koristimo empir-ijsku distribuciju podataka koje smo prikupili nezavisnim ponavljanjempokusa.

    • Želimo testirati ima li slučajna varijabla iz koje sakupljamo podatke nekupretpostavljenu distribuciju - zovemo ju teorijska distribucija.

    • χ2 test

    – Neka je teorijska distribucija dana tablicom:(x1 x2 . . . xr

    p1 p2 . . . pr

    )

    Ovdje je xi 6= xj za i 6= j, pi ≥ 0 za svaki i ∈ {1, . . . , r} ir∑i=1

    pi = 1.

    – Pretpostavimo da promatramo slučajan pokus koji ima konačan skupishoda A = {x1, x2, . . . , xr}, r ≥ 2 i da smo ga nezavisno ponovilin puta. Cilj nam je bio zabilježiti frekvencije f̂j , odnosno relativnefrekvencije p̂j = f̂j/n, za svaki ishod aj . Time smo dobili empirijskudistribuciju promatrane slučajne varijable.

    – Želimo testirati jednakost empirijske distribucije(x1 x2 . . . xr

    p̂1 p̂2 . . . p̂r

    )

    i teorijske distribucije navedene na početku poglavlja. Da bi koristiliovaj test mora biti svaki pi veći od 5, gdje je n dimenzija uzorka.

    – Nultu i alternativnu hipotezu postavljamo na sljedeći način:

    H0 : procijenjena distribucija jednaka je teorijskoj distribuciji,HA : procijenjena distribucija se razlikuje od teorijske distribucije.

    – U uvjetima istinitosti hipoteze H0, za velik broj nezavisnih ponavl-janja slučajnog pokusa, test statistika približno ima hikvadrat dis-tribuciju s (r − 1) stupnjeva slobode.

    – Iskoristimo programski paket Statistica: formirajmo bazu podatakakoja sadrži eksperimentalno dobivene frekvencije i teorijske frekven-cije izračunate na bazi teorijske distribucije i broja podataka u uzorku.Provedemo χ2 test i odbacimo H0 ako je dobivena p-vrijednost manjaod α, gdje je α odabrani nivo značajnosti testa.

  • Statistika, Prehrambeno-tehnološki fakultet 20

    – Ovaj test možemo koristiti i kod neprekidnih slučajnih varijablitako da R(X) podijelimo na disjunktne intervale i suprotstavimoteorijske frekvencije tih intervala njihovim uzoračkim frekvencijama.Treba voditi računa o tome da je test jako osjetljiv na izbor intervala.

    Primjer 17:Savjetnik ekološkog kluba na jednom sveučilištu želi poštovati zahtjev da klubsačinjava 10% brucoša, 20% studenata druge godine, 40% studenata treće go-dine, te 30% apsolvenata. Članstvo ekološkog kluba za ovu godinu brojilo je14 brucoša, 19 studenata druge godine, 51 studenta treće godine, te 16 apslove-nata. Provjerite postoji li statistički značajna razlika trenutnog sastava klubaod traženih standarda na nivou značajnosti α = 0.1.(Rješenje: na nivou značajnosti 0.1 ne prihvaćamo nultu hipotezu.)

    Primjer 18:Tržišni analitičar želi istražiti imaju li potrošači neke posebne sklonosti premajednom od okusa sokova koji su se pojavili na tržištu. Na uzorku od 100ljudi prikupio je preferencije prema ponuđenim okusima. Frekvencije su dane usljedećoj tablici:

    višnja jagoda naranča limun grejp32 28 16 14 10

    Ispitajte postoji li na nivou značajnosti α = 0.05 statistički značajna preferen-cija potrošača prema nekom od okusa ili je sklonost potrošača jednaka premasvim ponuđenim okusima.(Rješenje: na nivou značajnosti 0.05 ne prihvaćamo nultu hipotezu.)

    Primjer 19:Jedna je studija na osnovu istraživanja o razlozima povratka na posao ljudi kojisu umirovljeni postavila sljedeću distribuciju:

    38% se ponovo zaposli u drugom poduzeću;32% osnuje obrt;23% rade kao konzultanti;7% osnuje vlastito poduzeće.

    Poklapaju li se sljedeći rezultati, dobiveni ponovnim istraživanjem, s prethodnopostavljenom tezom ili možemo utvrditi postojanje statistički značajne razlike?

    122 se ponovo zaposlilo u drugom poduzeću;85 je osnovalo obrt;76 su radili kao konzultanti;17 je osnovalo vlastito poduzeće.

  • Statistika, Prehrambeno-tehnološki fakultet 21

    (Rješenje: na nivou značajnosti 0.05 prihvaćamo nultu hipotezu.)

    Testiranje normalne distribuiranosti obilježja

    • Odgovor na ovo pitanje od izuzetne je važnosti za točnost statističkihanaliza obzirom da su mnogi statistički testovi kreirani uz pretpostavkunormalnosti obilježja.

    • Potrebno je nezavisnim ponavljanjem pokusa prikupiti podatke iz real-izacija promatrane slučajne varijable.

    • Za prvi uvid u moguća odstupanja od normalne distribucije možemo ko-ristiti razne mjere deskriptivne statistike i grafičke prikaze.

    • Nultu i alternativnu hipotezu postavljamo na sljedeći način:

    H0: obilježje je normalno distribuirano.HA: obilježje nije normalno distribuirano.

    • Za testiranje hipoteze o normalnosti obilježja možemo koristiti razne testove,npr:

    – Lillieforsova inačica Kolmogorov-Smirnovljevog testa;

    – Shapiro-Wilksov W test.

    Primjer 20: auti1.staRaspolažemo mjerenjima potrošnje novog modela automobila za 100 takvih au-tomobila. Provjerite je li potrošnja normalna slučajna vrijabla. Podaci su dos-tupni u bazi auti1.sta.(Rješenje: na nivou značajnosti 0.05 prihvaćamo nultu hipotezu da obilježjepotječe iz normalne distribucije.)

    Primjer 21: dob-poduz.staRaspolažemo podacima o dobi 200 poduzetnika u nekoj zemlji. Zanima nasje li dob poduzetnika u bazi podataka dob-poduz.sta normalno distribuiranaslučajna varijabla. Napravite testiranje i donesite zaključak. Prokomentirajtedobiveni rezultat s obzirom na kontekst pojave koju proučavate.(Rješenje: na nivou značajnosti 0.05 prihvaćamo nultu hipotezu da obilježjepotječe iz normalne distribucije.)

  • Statistika, Prehrambeno-tehnološki fakultet 22

    Primjer 22: mba.staU bazi podataka mba.sta nalaze se podaci o rezultatima GMAT testa (Grad-uate Management Admission Test) za 100 studenata koji su prijavili na studij.Provjerite potječu li podaci iz normalne distribucije.(Rješenje: na nivou značajnosti 0.05 prihvaćamo nultu hipotezu da obilježjepotječe iz normalne distribucije.)