pravdepodobnost a statistika, biostatistika pro kombinovanéˇ...
TRANSCRIPT
Výberová rozdeleníTeorie odhadu
Pravdepodobnost a statistika, Biostatistika pro kombinovanéstudium
Letní semestr 2015/2016
Tutoriál c. 5: Bodové a intervalové odhady, testování hypotéz
Jan Krací[email protected]
Výberová rozdeleníTeorie odhadu
Obsah:Výberová rozdeleníBodové a intervalové odhadyTestování hypotéz
Výberová rozdeleníTeorie odhadu
Výberová rozdelení
Výberová rozdeleníTeorie odhadu
Výberové charakteristiky (opakování):
císlné charakteristiky výberového souboruvýberový prumer, výberový rozptyl, relativní cetnost, . . .náhodné veliciny (funkce pozorování)
E [X ] = E [ 1n∑n
i=1 Xi ] = 1n · n · E [X ] = µX
D[X ] = D[ 1n∑n
i=1 Xi ] = 1n2 · n · D[X ] = 1
n · σ2X
centrální limitní veta: X ∼N(µx ,
σ2x
n
)další aplikace CLV: rozdelení souctu náhodných velicin,rozdílu prumeru, rozdílu relativních cetností, . . .
Výberová rozdeleníTeorie odhadu
Výberové charakteristiky (opakování):
císlné charakteristiky výberového souboruvýberový prumer, výberový rozptyl, relativní cetnost, . . .náhodné veliciny (funkce pozorování)E [X ] = E [ 1
n∑n
i=1 Xi ] = 1n · n · E [X ] = µX
D[X ] = D[ 1n∑n
i=1 Xi ] = 1n2 · n · D[X ] = 1
n · σ2X
centrální limitní veta: X ∼N(µx ,
σ2x
n
)další aplikace CLV: rozdelení souctu náhodných velicin,rozdílu prumeru, rozdílu relativních cetností, . . .
Výberová rozdeleníTeorie odhadu
Výberová rozdelení:rozdelení pravdepodobnosti duležitých výberovýchcharakteristikvyžití pro odhady parametru, testování hypotéz, . . .3 duležitá rozdelení:
χ2-rozdeleníStudentovo rozdeleníFisher-Snedecorovo rozdelení
Výberová rozdeleníTeorie odhadu
χ2-rozdelení (“chí kvadrát”)
Mejme Z1,Z2, . . . ,Zn nezávislé náhodné veliciny srozdelením N(0,1).Oznacme X =
∑ni=1 Z 2
i .
Potom X má rozdelení χ2 s n stupni volnosti.Zapisujeme X ∼ χ2
n.Duležitá vlastnost: Pro nezávislé X1,X2, . . . ,Xn ∼ N(µ, σ2) platí
(n − 1)S2
σ2 ∼ χ2n−1,
kde S2 je výberový rozptyl,
S2 =1
n − 1
n∑i=1
(Xi − X )2.
Výberová rozdeleníTeorie odhadu
Studentovo (t) rozdelení
Necht’ Z a X jsou nezávislé náhodné veliciny.Z ∼ N(0,1)
X ∼ χ2n
Oznacme T = Z√Xn
.
Potom T má Studentovo t rozdelení s n stupni volnosti.Zapisujeme T ∼ tn. Duležitá vlastnost: Pro nezávisléX1,X2, . . . ,Xn ∼ N(µ, σ2) platí
X − µS√
n ∼ tn−1.
Výberová rozdeleníTeorie odhadu
Fisher-Snedecorovo (F) rozdelení
Necht’ V a W jsou nezávislé náhodné veliciny.V ∼ χ2
m
W ∼ χ2n
Oznacme F =VmWn
.
Potom F má Fisher-Snedecorovo rozdelení o m a n stupníchvolnosti.Zapisujeme F ∼ Fm,n.Duležtá vlastnost: Pro nezávislé X1,X2, . . . ,Xm ∼ N(µX , σ
2X ) a
Y1,Y2, . . . ,Yn ∼ N(µY , σ2Y ) platí
S2X
mS2
Yn
∼ Fm−1,n−1.
Výberová rozdeleníTeorie odhadu
Teorie odhadu
Výberová rozdeleníTeorie odhadu
Cílem odhadu je urcení neznámého parametru rozdelenípopulace (náhodné veliciny X ) na základe informace obsaženéve výberovém souboru (realizacích náhodné veliciny, datech).
Príklad: Hod nesymetrickou mincí lze modelovat jakoBernoulliovský pokus s alternativním (Bernoulliho) rozdelením.Parametrem rozdelení muže být pravdepodobnost padnutí orla.Co mužeme ríci o neznámém parametru, pokud
pri 10 hodech padne 3 krát orel?
pri 2 hodech orel nepadne ani jednou?pri 100 hodech padne 30 krát orel?pri 10000000 hodech padne 3000000 orel?pri 2 hodech nepadne ani jednou orel, pritom mince jebežná 1 Kc, jen lehce poškrábaná
Výberová rozdeleníTeorie odhadu
Cílem odhadu je urcení neznámého parametru rozdelenípopulace (náhodné veliciny X ) na základe informace obsaženéve výberovém souboru (realizacích náhodné veliciny, datech).
Príklad: Hod nesymetrickou mincí lze modelovat jakoBernoulliovský pokus s alternativním (Bernoulliho) rozdelením.Parametrem rozdelení muže být pravdepodobnost padnutí orla.Co mužeme ríci o neznámém parametru, pokud
pri 10 hodech padne 3 krát orel?pri 2 hodech orel nepadne ani jednou?
pri 100 hodech padne 30 krát orel?pri 10000000 hodech padne 3000000 orel?pri 2 hodech nepadne ani jednou orel, pritom mince jebežná 1 Kc, jen lehce poškrábaná
Výberová rozdeleníTeorie odhadu
Cílem odhadu je urcení neznámého parametru rozdelenípopulace (náhodné veliciny X ) na základe informace obsaženéve výberovém souboru (realizacích náhodné veliciny, datech).
Príklad: Hod nesymetrickou mincí lze modelovat jakoBernoulliovský pokus s alternativním (Bernoulliho) rozdelením.Parametrem rozdelení muže být pravdepodobnost padnutí orla.Co mužeme ríci o neznámém parametru, pokud
pri 10 hodech padne 3 krát orel?pri 2 hodech orel nepadne ani jednou?pri 100 hodech padne 30 krát orel?pri 10000000 hodech padne 3000000 orel?pri 2 hodech nepadne ani jednou orel, pritom mince jebežná 1 Kc, jen lehce poškrábaná
Výberová rozdeleníTeorie odhadu
Pri odhadování se zajímáme ohodnotu odhadu (približnou hodnotu neznáméhoparametru),presnost odhadu - odhad na základe konecného poctu datbude vždy pouze približný.
Rozlišujeme dva základní typy odhadu:Bodový odhad - neznámý parametr charakterizujemejedinou hodnotou, pokud možno blízko skutecné hodnote.Hodnota bodového odhadu nevypovídá nic o presnostiodhadu.Intervalový odhad - neznámý parametr charakterizujemeintervalem, který s velkou pravdepodobností obsahujeskutecnou hodnotu.Délka intervalu vypovídá o presnosti odhadu.
Výberová rozdeleníTeorie odhadu
Pri odhadování se zajímáme ohodnotu odhadu (približnou hodnotu neznáméhoparametru),presnost odhadu - odhad na základe konecného poctu datbude vždy pouze približný.
Rozlišujeme dva základní typy odhadu:Bodový odhad - neznámý parametr charakterizujemejedinou hodnotou, pokud možno blízko skutecné hodnote.Hodnota bodového odhadu nevypovídá nic o presnostiodhadu.Intervalový odhad - neznámý parametr charakterizujemeintervalem, který s velkou pravdepodobností obsahujeskutecnou hodnotu.Délka intervalu vypovídá o presnosti odhadu.
Výberová rozdeleníTeorie odhadu
Bodový odhad
Výberová rozdeleníTeorie odhadu
Bodový odhadMejme X1,X2, . . . ,Xn náhodný výber z neznámého rozdelenízávislého na parametru Θ. Bodovým odhadem parametru Θ jeobecne libovolná výberová charakteristika (funkce náhodnéhovýberu) T (X1,X1, . . . ,Xn).
PríkladyT (X1,X2, . . . ,Xn) = 1
n∑n
i=1 Xi
(bodový odhad strední hodnoty)T (X1,X2, . . . ,Xn) = 1
n−1∑n
i=1(Xi − X )2
(bodový odhad rozptylu)T (X1,X2, . . . ,Xn) = arctg(X1 · X2 · . . . · Xn)(podle definice rovnež bodový odhad - mimo jiné cehokoliv)
Výberová rozdeleníTeorie odhadu
Bodový odhadMejme X1,X2, . . . ,Xn náhodný výber z neznámého rozdelenízávislého na parametru Θ. Bodovým odhadem parametru Θ jeobecne libovolná výberová charakteristika (funkce náhodnéhovýberu) T (X1,X1, . . . ,Xn).
PríkladyT (X1,X2, . . . ,Xn) = 1
n∑n
i=1 Xi(bodový odhad strední hodnoty)T (X1,X2, . . . ,Xn) = 1
n−1∑n
i=1(Xi − X )2
(bodový odhad rozptylu)T (X1,X2, . . . ,Xn) = arctg(X1 · X2 · . . . · Xn)(podle definice rovnež bodový odhad - mimo jiné cehokoliv)
Výberová rozdeleníTeorie odhadu
Bodový odhadMejme X1,X2, . . . ,Xn náhodný výber z neznámého rozdelenízávislého na parametru Θ. Bodovým odhadem parametru Θ jeobecne libovolná výberová charakteristika (funkce náhodnéhovýberu) T (X1,X1, . . . ,Xn).
PríkladyT (X1,X2, . . . ,Xn) = 1
n∑n
i=1 Xi(bodový odhad strední hodnoty)T (X1,X2, . . . ,Xn) = 1
n−1∑n
i=1(Xi − X )2
(bodový odhad rozptylu)T (X1,X2, . . . ,Xn) = arctg(X1 · X2 · . . . · Xn)
(podle definice rovnež bodový odhad - mimo jiné cehokoliv)
Výberová rozdeleníTeorie odhadu
Bodový odhadMejme X1,X2, . . . ,Xn náhodný výber z neznámého rozdelenízávislého na parametru Θ. Bodovým odhadem parametru Θ jeobecne libovolná výberová charakteristika (funkce náhodnéhovýberu) T (X1,X1, . . . ,Xn).
PríkladyT (X1,X2, . . . ,Xn) = 1
n∑n
i=1 Xi(bodový odhad strední hodnoty)T (X1,X2, . . . ,Xn) = 1
n−1∑n
i=1(Xi − X )2
(bodový odhad rozptylu)T (X1,X2, . . . ,Xn) = arctg(X1 · X2 · . . . · Xn)(podle definice rovnež bodový odhad - mimo jiné cehokoliv)
Výberová rozdeleníTeorie odhadu
Vlastnosti, které zarucují, že danný bodový odhad je v jistémsmyslu dobrý:
nestrannost (nevychýlenost) - odhad T (·) parametru Θ jenestranný, jestliže E [T ] = Θ pro každé Θ
vydatnost, eficience - nejlepší nestranný (vydatný,eficientní)konzistence - odhad Tn(X1, . . . ,Xn) je konzistentní, pokudE [Tn]→ Θ a D[Tn]→ 0, tj.odhad se s rostoucím poctemdat zpresnuje
Výberová rozdeleníTeorie odhadu
Vlastnosti, které zarucují, že danný bodový odhad je v jistémsmyslu dobrý:
nestrannost (nevychýlenost) - odhad T (·) parametru Θ jenestranný, jestliže E [T ] = Θ pro každé Θ
vydatnost, eficience - nejlepší nestranný (vydatný,eficientní)
konzistence - odhad Tn(X1, . . . ,Xn) je konzistentní, pokudE [Tn]→ Θ a D[Tn]→ 0, tj.odhad se s rostoucím poctemdat zpresnuje
Výberová rozdeleníTeorie odhadu
Vlastnosti, které zarucují, že danný bodový odhad je v jistémsmyslu dobrý:
nestrannost (nevychýlenost) - odhad T (·) parametru Θ jenestranný, jestliže E [T ] = Θ pro každé Θ
vydatnost, eficience - nejlepší nestranný (vydatný,eficientní)konzistence - odhad Tn(X1, . . . ,Xn) je konzistentní, pokudE [Tn]→ Θ a D[Tn]→ 0, tj.odhad se s rostoucím poctemdat zpresnuje
Výberová rozdeleníTeorie odhadu
Príklad:X1,X2, . . . ,Xn nezávislý náhodný výber z rozdelení se str.hodnotou µ a rozptylem σ2. Snadno lze ukázat, že
E [ 1n∑n
i=1 Xi ] = µ,
E [ 1n−1
∑ni=1(Xi − X )2] = σ2.
Odtud plyne, že výberový prumer je nestranným odhademstrední hodnoty a výberový rozptyl je nestranným odhademrozptylu.
Výberová rozdeleníTeorie odhadu
Intervalový odhad
Výberová rozdeleníTeorie odhadu
Interval spolehlivosti (konfidencní interval)pro parametr θ se spolehlivostí 1− α, kde α ∈ 〈0,1〉, je dvojicestatistik (TD(·),TH(·)) taková, že
P(TD ≤ θ ≤ TH) = 1− α.
Poznámka: Meze intervalu spolehlivosti TD(·),TH(·) jsounáhodné veliciny
Intervalový odhad 〈tD, tH〉 je konkrétní realizace intervaluspolehlivosti.
Koeficient α nazýváme hladina významnosti.
Výberová rozdeleníTeorie odhadu
Interval spolehlivosti (konfidencní interval)pro parametr θ se spolehlivostí 1− α, kde α ∈ 〈0,1〉, je dvojicestatistik (TD(·),TH(·)) taková, že
P(TD ≤ θ ≤ TH) = 1− α.
Poznámka: Meze intervalu spolehlivosti TD(·),TH(·) jsounáhodné veliciny
Intervalový odhad 〈tD, tH〉 je konkrétní realizace intervaluspolehlivosti.
Koeficient α nazýváme hladina významnosti.
Výberová rozdeleníTeorie odhadu
Interval spolehlivosti (konfidencní interval)pro parametr θ se spolehlivostí 1− α, kde α ∈ 〈0,1〉, je dvojicestatistik (TD(·),TH(·)) taková, že
P(TD ≤ θ ≤ TH) = 1− α.
Poznámka: Meze intervalu spolehlivosti TD(·),TH(·) jsounáhodné veliciny
Intervalový odhad 〈tD, tH〉 je konkrétní realizace intervaluspolehlivosti.
Koeficient α nazýváme hladina významnosti.
Výberová rozdeleníTeorie odhadu
Délka intervalového odhaducharakterizuje presnost, kratší interval (pri stejném α)predstavuje presnejší lokalizaci skutecné hodnotyparametruklesá s rostoucím poctem dat (odhad se zpresnuje)roste s (1− α), vyšší spolehlivost vyžaduje širší interval
V praxi volíme α = 0.05 nebo α = 0.01 (pri požadavku na vyššíspolehlivost).
Výberová rozdeleníTeorie odhadu
Délka intervalového odhaducharakterizuje presnost, kratší interval (pri stejném α)predstavuje presnejší lokalizaci skutecné hodnotyparametruklesá s rostoucím poctem dat (odhad se zpresnuje)roste s (1− α), vyšší spolehlivost vyžaduje širší interval
V praxi volíme α = 0.05 nebo α = 0.01 (pri požadavku na vyššíspolehlivost).
Výberová rozdeleníTeorie odhadu
Typy intervalových odhaduoboustranný
P(θ < TD) = P(θ ≥ TH) =α
2
jednostranný - je-li pro nás duležitá pouze jedna mezlevostranný
P(T ∗D ≤ θ) = 1− α
pravostrannýP(θ ≤ T ∗
H) = 1− α
Výberová rozdeleníTeorie odhadu
Postup pri tvorbe intervalového odhadu
1 Zvolíme vhodnou výberovou charakteristiku T (X ), jejížrozdelení (závislé na θ) známe.
2 Urcíme α2 a (1− α
2 )-kvantily xα2
a x1−α2
veliciny T .3 Z podmínky xα
2≤ T (X ) ≤ x1−α
2stanovíme meze pro θ.
4 Obdobne pro jednostranné odhady.
Výberová rozdeleníTeorie odhadu
Príklad: Intervalový odhad strední hodnoty normálníhorozdelení s neznámým rozptylem se spolehlivostí 0.95. Mámevzorek velikosti n s výberovým prumerem X a výberovýmrozptylem S2.
Statistika T (X ) = X−µS√
n.Z vlastností Studentova rozdelení: T (X ) ∼ tn−1.
P(
tα2≤ X − µ
S√
n ≤ t1−α2
)= 0.95
Úpravou nerovností dostaneme (využijeme tα2
= −t1−α2)
P(
X − S√n
t1−α2≤ µ ≤ X +
S√n
t1−α2
)= 0.95.
Výberová rozdeleníTeorie odhadu
Výpocet intervalového odhaduPro výpocet lze využít tabulky se vzorci (u zk. legální tahák),nejlépe však vhodný software (Statgraphics, R commander,applety ML, ...). Nutný predpoklad pro získání smysluplnéhovýsledku je správná volba typu odhadu a overení predpokladu.
Další odhady viz skripta a tabulky.
Výberová rozdeleníTeorie odhadu
Testování hypotéz
Výberová rozdeleníTeorie odhadu
Cílem testování hypotéz je overit, zda data nepopírajípredpoklad (hypotézu), který jsme ucinili o rozdelení populacepred provedením testu.
Terminologie:Statistická hypotéza - tvrzení o rozdelení náhodné velicinyNulová hypotéza H0 - výchozí (defaultní) stanovisko, kteréjsme ochotni akceptovat, pokud data nebudou mluvitvýrazne proti; napr: neexistuje závislost, systematickávýchylka je 0, . . .Alternativní hypotéza H1 (HA) - popírá nulovou hypotézu
Na základe výsledku testu pak bud’ zamítáme H0, nebonezamítáme H0. H0 nelze na základe testu potvrdit. Lze pouzeríci, že data nesvedcí proti ní.
Výberová rozdeleníTeorie odhadu
Typy testuParametrické - tvrzení o parametru (parametrech) jedné,dvou, nebo více populacíNeparametrické - tvrzení o jiné vlastnosti rozdelenípopulace - typ rozdelení, závislost mezi sledovanýmiznaky, . . .
Výberová rozdeleníTeorie odhadu
Postup pri testování hypotéz (klasický prístup)1 Formulujeme nulovou H0 a alternativní hypotézu H1.2 Zvolíme testovou statistiku. Rozdelení testové statistiky za
predpokladu platnosti nulové hypotézy nazýváme nulovérozdelení.
3 Overíme predpoklady testu!4 Urcíme kritický obor W ∗, tj. množinu v níž se za
predpokladu platnosti H0 hodnoty testové statistikyvyskytují s velmi malou pravdepodobností. Doplnkem W ∗
je tzv. obor prijetí V ∗. Hranici mezi W ∗ a V ∗ oznacujemejako kritickou hodnotu tkrit .
5 Na základe realizace výberu urcíme pozorovanou hodnotutestové statistiky xOBS.
6 Na základe vztahu xOBS a tkrit (tj. podle toho zdaxOBS ∈W ∗ nebo xOBS ∈ V ∗) rozhodujeme o výsledku testu(zamítnutí nebo nezamítnutí H0).
Výberová rozdeleníTeorie odhadu
V závislosti na platnosti H0 a výsledku testu mohou nastat 4situace:
Nezamítáme H0 Zamítáme H0Platí H0 Správné rozhodnutí Chyba I. druhu:
Pravdepodobnost: 1− α Pravdepodobnost: αPlatí H1 Chyba II. druhu Správné rozhodnutí
Pravdepodobnost: β Pravdepodobnost: 1− β
Chybám I. a II. druhu se z podstaty problému nelze vyhnout,protože rozhodujeme na základe náhodného výberu.
α: hladina významnosti testu, v praxi volíme 0.05 nebo0.011− β: síla testu; nevolíme je urcena hladinou významnostia konstrukcí testu
Výberová rozdeleníTeorie odhadu
Ideálne bychom chteli testy s nízkou hladinou významnosti avysokou sílou - protichudné požadavky. Snížit α i β lze pouzezvýšením poctu dat.
Výberová rozdeleníTeorie odhadu
Cistý test významnosti (pomocí p-hodnoty)
1 Formulace nulové a alternativní hypotézy.2 Volba testové statistiky T (X ).3 Overení predpokladu testu.4 Výpocet pozorované hodnoty testové statistiky xOBS.5 Výpocet p-hodnoty, tj. pravdepodobnosti alespon tak
extrémního výsledku jako xOBS za predpokladu nulovéhypotézy.
Výberová rozdeleníTeorie odhadu
tvar H1 p-hodnotaθ ≤ θ0 p-hodnota = F0(xOBS)
θ ≥ θ0 p-hodnota = 1− F0(xOBS)
θ 6= θ0 p-hodnota = 2min(F (xOBS),1− F0(xOBS))
Rozhodnutí o výsledku testu:p-hodnota Rozhodnutí
p-hodnota < α Zamítáme H0 ve prospech H1p-hodnota > α Nezamítáme H0
Výhodou cistého testu významnosti je, že rovnou vidíme, najaké hladine významnosti lze ješte rozhodnout o zamítnutí H0.Tento typ testu se v praxi používá casteji. Bývá výstupemstatistického software.
Výberová rozdeleníTeorie odhadu
Príklad: Spotreba automobilu byla testována 11 ridici svýsledky: 8,8; 8,9; 9,0; 8,7; 9,3; 9,0; 8,7; 8,8; 9,4; 8,6; 8,9 (l/100km). Lze výrobcem udávanou spotrebu 8,8 l/100 km považovatza pravdivou?
Náhodná velicina X . . . spotreba l/100 kmPredpokládáme: X ∼ N (µ, σ2)Z dat vypocteme: X = 8.92,S2 = 0.06.
H0 : µ = 8.8H1 : µ > 8.8T (X ) = X−µ
S√
n,T ∼ t10TOBS = 1.62p-value: 2(1− F (TOBS)) = 0.068p-value > 0.05⇒ na hladine významnosti 0.05 nezamítámeH0. Nelze tvrdit, že spotreba není rovna 8.8l .