pravdepodobnost a statistika, biostatistika pro kombinovanéˇ...

Výberová rozdeleníTeorie odhadu

Pravdepodobnost a statistika, Biostatistika pro kombinovanéstudium

Letní semestr 2015/2016

Tutoriál c. 5: Bodové a intervalové odhady, testování hypotéz

Jan Krací[email protected]


Obsah:Výberová rozdeleníBodové a intervalové odhadyTestování hypotéz


Výberová rozdelení


Výberové charakteristiky (opakování):

císlné charakteristiky výberového souboruvýberový prumer, výberový rozptyl, relativní cetnost, . . .náhodné veliciny (funkce pozorování)

E [X ] = E [ 1n∑n

i=1 Xi ] = 1n · n · E [X ] = µX

D[X ] = D[ 1n∑n

i=1 Xi ] = 1n2 · n · D[X ] = 1

n · σ2X

centrální limitní veta: X ∼N(µx ,

σ2x

n

)další aplikace CLV: rozdelení souctu náhodných velicin,rozdílu prumeru, rozdílu relativních cetností, . . .


Výberové charakteristiky (opakování):

císlné charakteristiky výberového souboruvýberový prumer, výberový rozptyl, relativní cetnost, . . .náhodné veliciny (funkce pozorování)E [X ] = E [ 1

n∑n

i=1 Xi ] = 1n · n · E [X ] = µX

D[X ] = D[ 1n∑n

i=1 Xi ] = 1n2 · n · D[X ] = 1

n · σ2X

centrální limitní veta: X ∼N(µx ,

σ2x

n

)další aplikace CLV: rozdelení souctu náhodných velicin,rozdílu prumeru, rozdílu relativních cetností, . . .


Výberová rozdelení:rozdelení pravdepodobnosti duležitých výberovýchcharakteristikvyžití pro odhady parametru, testování hypotéz, . . .3 duležitá rozdelení:

χ2-rozdeleníStudentovo rozdeleníFisher-Snedecorovo rozdelení


χ2-rozdelení (“chí kvadrát”)

Mejme Z1,Z2, . . . ,Zn nezávislé náhodné veliciny srozdelením N(0,1).Oznacme X =

∑ni=1 Z 2

i .

Potom X má rozdelení χ2 s n stupni volnosti.Zapisujeme X ∼ χ2

n.Duležitá vlastnost: Pro nezávislé X1,X2, . . . ,Xn ∼ N(µ, σ2) platí

(n − 1)S2

σ2 ∼ χ2n−1,

kde S2 je výberový rozptyl,

S2 =1

n − 1

n∑i=1

(Xi − X )2.


Studentovo (t) rozdelení

Necht’ Z a X jsou nezávislé náhodné veliciny.Z ∼ N(0,1)

X ∼ χ2n

Oznacme T = Z√Xn

.

Potom T má Studentovo t rozdelení s n stupni volnosti.Zapisujeme T ∼ tn. Duležitá vlastnost: Pro nezávisléX1,X2, . . . ,Xn ∼ N(µ, σ2) platí

X − µS√

n ∼ tn−1.


Fisher-Snedecorovo (F) rozdelení

Necht’ V a W jsou nezávislé náhodné veliciny.V ∼ χ2

m

W ∼ χ2n

Oznacme F =VmWn

.

Potom F má Fisher-Snedecorovo rozdelení o m a n stupníchvolnosti.Zapisujeme F ∼ Fm,n.Duležtá vlastnost: Pro nezávislé X1,X2, . . . ,Xm ∼ N(µX , σ

2X ) a

Y1,Y2, . . . ,Yn ∼ N(µY , σ2Y ) platí

S2X

mS2

Yn

∼ Fm−1,n−1.


Teorie odhadu


Cílem odhadu je urcení neznámého parametru rozdelenípopulace (náhodné veliciny X ) na základe informace obsaženéve výberovém souboru (realizacích náhodné veliciny, datech).

Príklad: Hod nesymetrickou mincí lze modelovat jakoBernoulliovský pokus s alternativním (Bernoulliho) rozdelením.Parametrem rozdelení muže být pravdepodobnost padnutí orla.Co mužeme ríci o neznámém parametru, pokud

pri 10 hodech padne 3 krát orel?

pri 2 hodech orel nepadne ani jednou?pri 100 hodech padne 30 krát orel?pri 10000000 hodech padne 3000000 orel?pri 2 hodech nepadne ani jednou orel, pritom mince jebežná 1 Kc, jen lehce poškrábaná




pri 10 hodech padne 3 krát orel?pri 2 hodech orel nepadne ani jednou?

pri 100 hodech padne 30 krát orel?pri 10000000 hodech padne 3000000 orel?pri 2 hodech nepadne ani jednou orel, pritom mince jebežná 1 Kc, jen lehce poškrábaná




pri 10 hodech padne 3 krát orel?pri 2 hodech orel nepadne ani jednou?pri 100 hodech padne 30 krát orel?pri 10000000 hodech padne 3000000 orel?pri 2 hodech nepadne ani jednou orel, pritom mince jebežná 1 Kc, jen lehce poškrábaná


Pri odhadování se zajímáme ohodnotu odhadu (približnou hodnotu neznáméhoparametru),presnost odhadu - odhad na základe konecného poctu datbude vždy pouze približný.

Rozlišujeme dva základní typy odhadu:Bodový odhad - neznámý parametr charakterizujemejedinou hodnotou, pokud možno blízko skutecné hodnote.Hodnota bodového odhadu nevypovídá nic o presnostiodhadu.Intervalový odhad - neznámý parametr charakterizujemeintervalem, který s velkou pravdepodobností obsahujeskutecnou hodnotu.Délka intervalu vypovídá o presnosti odhadu.


Bodový odhad


Bodový odhadMejme X1,X2, . . . ,Xn náhodný výber z neznámého rozdelenízávislého na parametru Θ. Bodovým odhadem parametru Θ jeobecne libovolná výberová charakteristika (funkce náhodnéhovýberu) T (X1,X1, . . . ,Xn).

PríkladyT (X1,X2, . . . ,Xn) = 1

n∑n

i=1 Xi

(bodový odhad strední hodnoty)T (X1,X2, . . . ,Xn) = 1

n−1∑n

i=1(Xi − X )2

(bodový odhad rozptylu)T (X1,X2, . . . ,Xn) = arctg(X1 · X2 · . . . · Xn)(podle definice rovnež bodový odhad - mimo jiné cehokoliv)




n∑n

i=1 Xi(bodový odhad strední hodnoty)T (X1,X2, . . . ,Xn) = 1

n−1∑n

i=1(Xi − X )2





n∑n


n−1∑n

i=1(Xi − X )2

(bodový odhad rozptylu)T (X1,X2, . . . ,Xn) = arctg(X1 · X2 · . . . · Xn)

(podle definice rovnež bodový odhad - mimo jiné cehokoliv)




n∑n


n−1∑n

i=1(Xi − X )2



Vlastnosti, které zarucují, že danný bodový odhad je v jistémsmyslu dobrý:

nestrannost (nevychýlenost) - odhad T (·) parametru Θ jenestranný, jestliže E [T ] = Θ pro každé Θ

vydatnost, eficience - nejlepší nestranný (vydatný,eficientní)konzistence - odhad Tn(X1, . . . ,Xn) je konzistentní, pokudE [Tn]→ Θ a D[Tn]→ 0, tj.odhad se s rostoucím poctemdat zpresnuje




vydatnost, eficience - nejlepší nestranný (vydatný,eficientní)

konzistence - odhad Tn(X1, . . . ,Xn) je konzistentní, pokudE [Tn]→ Θ a D[Tn]→ 0, tj.odhad se s rostoucím poctemdat zpresnuje




vydatnost, eficience - nejlepší nestranný (vydatný,eficientní)konzistence - odhad Tn(X1, . . . ,Xn) je konzistentní, pokudE [Tn]→ Θ a D[Tn]→ 0, tj.odhad se s rostoucím poctemdat zpresnuje


Príklad:X1,X2, . . . ,Xn nezávislý náhodný výber z rozdelení se str.hodnotou µ a rozptylem σ2. Snadno lze ukázat, že

E [ 1n∑n

i=1 Xi ] = µ,

E [ 1n−1

∑ni=1(Xi − X )2] = σ2.

Odtud plyne, že výberový prumer je nestranným odhademstrední hodnoty a výberový rozptyl je nestranným odhademrozptylu.


Intervalový odhad


Interval spolehlivosti (konfidencní interval)pro parametr θ se spolehlivostí 1− α, kde α ∈ 〈0,1〉, je dvojicestatistik (TD(·),TH(·)) taková, že

P(TD ≤ θ ≤ TH) = 1− α.

Poznámka: Meze intervalu spolehlivosti TD(·),TH(·) jsounáhodné veliciny

Intervalový odhad 〈tD, tH〉 je konkrétní realizace intervaluspolehlivosti.

Koeficient α nazýváme hladina významnosti.


Délka intervalového odhaducharakterizuje presnost, kratší interval (pri stejném α)predstavuje presnejší lokalizaci skutecné hodnotyparametruklesá s rostoucím poctem dat (odhad se zpresnuje)roste s (1− α), vyšší spolehlivost vyžaduje širší interval

V praxi volíme α = 0.05 nebo α = 0.01 (pri požadavku na vyššíspolehlivost).


Typy intervalových odhaduoboustranný

P(θ < TD) = P(θ ≥ TH) =α

2

jednostranný - je-li pro nás duležitá pouze jedna mezlevostranný

P(T ∗D ≤ θ) = 1− α

pravostrannýP(θ ≤ T ∗

H) = 1− α


Postup pri tvorbe intervalového odhadu

1 Zvolíme vhodnou výberovou charakteristiku T (X ), jejížrozdelení (závislé na θ) známe.

2 Urcíme α2 a (1− α

2 )-kvantily xα2

a x1−α2

veliciny T .3 Z podmínky xα

2≤ T (X ) ≤ x1−α

2stanovíme meze pro θ.

4 Obdobne pro jednostranné odhady.


Príklad: Intervalový odhad strední hodnoty normálníhorozdelení s neznámým rozptylem se spolehlivostí 0.95. Mámevzorek velikosti n s výberovým prumerem X a výberovýmrozptylem S2.

Statistika T (X ) = X−µS√

n.Z vlastností Studentova rozdelení: T (X ) ∼ tn−1.

P(

tα2≤ X − µ

S√

n ≤ t1−α2

)= 0.95

Úpravou nerovností dostaneme (využijeme tα2

= −t1−α2)

P(

X − S√n

t1−α2≤ µ ≤ X +

S√n

t1−α2

)= 0.95.


Výpocet intervalového odhaduPro výpocet lze využít tabulky se vzorci (u zk. legální tahák),nejlépe však vhodný software (Statgraphics, R commander,applety ML, ...). Nutný predpoklad pro získání smysluplnéhovýsledku je správná volba typu odhadu a overení predpokladu.

Další odhady viz skripta a tabulky.


Testování hypotéz


Cílem testování hypotéz je overit, zda data nepopírajípredpoklad (hypotézu), který jsme ucinili o rozdelení populacepred provedením testu.

Terminologie:Statistická hypotéza - tvrzení o rozdelení náhodné velicinyNulová hypotéza H0 - výchozí (defaultní) stanovisko, kteréjsme ochotni akceptovat, pokud data nebudou mluvitvýrazne proti; napr: neexistuje závislost, systematickávýchylka je 0, . . .Alternativní hypotéza H1 (HA) - popírá nulovou hypotézu

Na základe výsledku testu pak bud’ zamítáme H0, nebonezamítáme H0. H0 nelze na základe testu potvrdit. Lze pouzeríci, že data nesvedcí proti ní.


Typy testuParametrické - tvrzení o parametru (parametrech) jedné,dvou, nebo více populacíNeparametrické - tvrzení o jiné vlastnosti rozdelenípopulace - typ rozdelení, závislost mezi sledovanýmiznaky, . . .


Postup pri testování hypotéz (klasický prístup)1 Formulujeme nulovou H0 a alternativní hypotézu H1.2 Zvolíme testovou statistiku. Rozdelení testové statistiky za

predpokladu platnosti nulové hypotézy nazýváme nulovérozdelení.

3 Overíme predpoklady testu!4 Urcíme kritický obor W ∗, tj. množinu v níž se za

predpokladu platnosti H0 hodnoty testové statistikyvyskytují s velmi malou pravdepodobností. Doplnkem W ∗

je tzv. obor prijetí V ∗. Hranici mezi W ∗ a V ∗ oznacujemejako kritickou hodnotu tkrit .

5 Na základe realizace výberu urcíme pozorovanou hodnotutestové statistiky xOBS.

6 Na základe vztahu xOBS a tkrit (tj. podle toho zdaxOBS ∈W ∗ nebo xOBS ∈ V ∗) rozhodujeme o výsledku testu(zamítnutí nebo nezamítnutí H0).


V závislosti na platnosti H0 a výsledku testu mohou nastat 4situace:

Nezamítáme H0 Zamítáme H0Platí H0 Správné rozhodnutí Chyba I. druhu:

Pravdepodobnost: 1− α Pravdepodobnost: αPlatí H1 Chyba II. druhu Správné rozhodnutí

Pravdepodobnost: β Pravdepodobnost: 1− β

Chybám I. a II. druhu se z podstaty problému nelze vyhnout,protože rozhodujeme na základe náhodného výberu.

α: hladina významnosti testu, v praxi volíme 0.05 nebo0.011− β: síla testu; nevolíme je urcena hladinou významnostia konstrukcí testu


Ideálne bychom chteli testy s nízkou hladinou významnosti avysokou sílou - protichudné požadavky. Snížit α i β lze pouzezvýšením poctu dat.


Cistý test významnosti (pomocí p-hodnoty)

1 Formulace nulové a alternativní hypotézy.2 Volba testové statistiky T (X ).3 Overení predpokladu testu.4 Výpocet pozorované hodnoty testové statistiky xOBS.5 Výpocet p-hodnoty, tj. pravdepodobnosti alespon tak

extrémního výsledku jako xOBS za predpokladu nulovéhypotézy.


tvar H1 p-hodnotaθ ≤ θ0 p-hodnota = F0(xOBS)

θ ≥ θ0 p-hodnota = 1− F0(xOBS)

θ 6= θ0 p-hodnota = 2min(F (xOBS),1− F0(xOBS))

Rozhodnutí o výsledku testu:p-hodnota Rozhodnutí

p-hodnota < α Zamítáme H0 ve prospech H1p-hodnota > α Nezamítáme H0

Výhodou cistého testu významnosti je, že rovnou vidíme, najaké hladine významnosti lze ješte rozhodnout o zamítnutí H0.Tento typ testu se v praxi používá casteji. Bývá výstupemstatistického software.


Príklad: Spotreba automobilu byla testována 11 ridici svýsledky: 8,8; 8,9; 9,0; 8,7; 9,3; 9,0; 8,7; 8,8; 9,4; 8,6; 8,9 (l/100km). Lze výrobcem udávanou spotrebu 8,8 l/100 km považovatza pravdivou?

Náhodná velicina X . . . spotreba l/100 kmPredpokládáme: X ∼ N (µ, σ2)Z dat vypocteme: X = 8.92,S2 = 0.06.

H0 : µ = 8.8H1 : µ > 8.8T (X ) = X−µ

S√

n,T ∼ t10TOBS = 1.62p-value: 2(1− F (TOBS)) = 0.068p-value > 0.05⇒ na hladine významnosti 0.05 nezamítámeH0. Nelze tvrdit, že spotreba není rovna 8.8l .

pravdepodobnost a statistika, biostatistika pro kombinovanéˇ...

Documents