dr. balogh albertlkq.hu/szigma/files/balogh.pdf · 2009. 5. 19. · a statisztikai adatfeldolgozás...
TRANSCRIPT
1
A statisztikai adatfeldolgozás néhány érdekessége
Dr. Balogh Albert:
2009/05/19
2
Kérdések: 1.Hogyan becsüljük a tapasztalati eloszlásfüggvényt?
2.Mi az a rendezett minta?
3.Mi az a medián rang és milyen becslések vannak?
4.Hogyan becsüljük a hibaarány 50%-os felsőkonfidencia határát?
5.Miért tér el az Excel és Minitab kvartilis-számítása?
3
1.A tapasztalati eloszlásfüggvényt rendszerint a Weibull és a normális eloszlás esetében grafikus módszerrel becsülik.
Ekkor a becsléseket például Gauss(Weibull)papíron ábrázolva normális eloszlás esetében egy egyenest kapunk.
2.A tapasztalati eloszlásfüggvényt a rendezett mintaelemek eloszlásának jellemzőiből határozzuk meg.
Legyenek a rendezett mintaelemek nagyság szerint növekvők:
Ekkor az ezekhez tartozó yi=F(xi) értékek is rendezett növekvő mintát adnak. y1<y2<…<yi<…<yn..
ni xxxx <<<<< ......21
4
Normális eloszlásfüggvény
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 2 4 6 8 10 12 14 16 18
Megfigyelt x értékek
Öaa
zegz
ett e
losz
lás
függ
vény
10=μ 11=∗ix
),( ii yx7,0=∗
iy
1. ábra A normális eloszlásfüggvény
Egyenes Gauss-papíron ábrázolva
⊗ Kérdés: mivel becsüljük az 1. 2…i-edik mintaelemhez tartozótyyy i −,...,, 21
⎟⎠⎞
⎜⎝⎛ −
Φ=Φ=σμxuy )(
x)( ii xMedx =
)( ii yMedy =
μ
=0,5
σμ−
=xu
⊗
⊗
⊗
⊗ ),( ii yx
)0(Φ
6
3. Mi az a medián rang?
Az x1,<x2<,…<xi,…<xn rendezett mintaelemek sorszáma a rang. Az ezekhez tartozó yi eloszlásfüggvény-értékek is rendezett mintát alkotnak, azaz y1<y2<…<yi <…<yn is rendezett minta, ezek sorszáma is rang.
Az yi rendezett mintaelem (rangja i) a [0,1] intervallumban egyenletes eloszlásúvalószínűségi változó, amelynek sűrűségfüggvénye:
).10(;)1.(1.)!()!1(
!)( 1 ≤≤−−−
= −− yyyini
nyg inii
sorrendek száma
(i-1)db elem kisebb vszge
i-edikelem sfv-e
(n-i) dbelem nagyobbvszge
Ennek az eloszlásnak az eloszlásfüggvénye az ymediánhelyen veszi fel a 0,5 értéket.
Angol: median rank. Magyar: a rang mediánja.
7
3.A tapasztalati eloszlásfüggvény szokásos becsléseit részben yi eloszlásából származtatják. A szokásos becslések egy része gyakorlati meggondolások alapján a következők:
nii =)(1ϕ .1)(2 n
ii −=ϕ .2
1
)(3 n
ii
−=ϕ
,1
)(4 +=
niiϕ
,11)(5 −
−=
niiϕ
.4,03,0)(6 +
−≈
niiϕ
,11
4,03,0
1 −−
<+−
<+ n
ini
ni in
<+2
1
).10(;)1()!()!1(
!)( 1 ≤≤−−−
= −− yyyini
nyg inii
( ) ( ) ( )∑ ∑ −−=−−=−−=−∑=−
= +−=−+
−−−
=
1
0 11 )1(1)1(1)1(1)1()(
i
k
n
inkin
knknk
knknk
knkn
ik
nki yGyyyyyyyG
Ez yi eloszlásának várható értéke.
Ez yi eloszlásának módusa.
Ez yi eloszlásának közelítő mediánja, vagyis a medián rang.
ha
Ez yi sűrűségfüggvénye,ebből Gi(y):
(Montgomery)
8
A medián rang közelítő képletének származtatása:
( ) ( ) ( )∑ ∑ −−=−−=−−=−∑=−
= +−=−+
−−−
=
1
0 11 1(1)1(1)1(1)1()(
i
k
n
inkin
knknk
knknk
knkn
ik
nki yGyyyyyyyG
Gi(y)=Gn+1-i(1-y).
).(1)1( iin ϕϕ −=+−
5,0)1(1 1 =−− ∗+− iin yG
.11bn
ainbnai
++−+
=+−
− b=1-2a
( ) 5,021
121
1
0=⎟
⎠⎞
⎜⎝⎛
−+−
−∑ ⎟⎠⎞
⎜⎝⎛
−+− −−
=
knki
k
nk an
aian
ai
Ha ∞→n , akkor a fenti képlet az (i-a) paraméterű Poisson eloszlással közelíthető, és kapjuk, hogy a jó közelítéssel 0,3.
Keressük a becslést alakban. bnaii
+−
=)(ϕ
4,03,0
21)(
+−
≈−+−
=ni
anaiiϕ
9
Adatsor2
y=F(x)
y=0,5
14 +=
niϕ
4,03,0
6 +−
== ∗niyiϕ
11
5 −−
=niϕ
)4,03,0(1
+−
= −∗niFxi
• •ixx
y
A három becslési módszer ábrázolása
10
A becslések tulajdonságai és összehasonlításuk:
1.Az i/(n+1) becslés az eseteknek több, mint felében az egyenes alatt van. 2.Az (i-1)/(n-1) becslés az eseteknek több, mint felében az egyenes felett van.
3. Mivel ,erre is teljesül a fenti megállapítás.
4. Az (i-0,3)/(n+0,4) becslés közel azonos számú esetben van az egyenes alatt és felett. 5. A 2. és 3. esetben alábecsülik a normális eloszlás szórását, az 1. esetben pedig túl nagy szórást becsülnek. Ez azért van, mert az egyenes meredeksége fordítottan arányos a szórással. Az egyenes 0,5 ordinátájú pontjához tartozó x érték becsüli a várható értéket, az egyenes meredeksége pedig a szórás reciprok értéke.
21,
4,03,05,0 +
>+−
>− ni
ni
ni
11
12
N(35;15)
(i-0,5)/n
13
N(35;15)
14
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
5 6 7 8 9 10 11 12 13 14
Eloszlásfv.
Mintaelemek megfigyelt értékei
Sorozatok1
Sorozatok2
Sorozatok3
Sorozatok4
Sorozatok5
N(10,5;2)
i/(n+1)
(i-1)/(n -1)
(i-0,5)/n
(i-0,3)/(n+0,4)
Lineáris (Sorozatok1)
Lineáris (Sorozatok2)
Lineáris (Sorozatok3)
Lineáris (Sorozatok4)
Lineáris (Sorozatok5)
(i-1)/(n-1)
(i-0,3/(n+0,4)
N(10,5;2)
(i-0,5)/n
15
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
5 6 7 8 9 10 11 12 13 14
Eloszlásfv.
Mintaelemek megfigyelt értékei
Sorozatok1
Sorozatok2
Sorozatok3
Sorozatok4
Sorozatok5
N(10,5;2)
i/ (n+1)
(i-1)/ (n-1)
(i-0,5)/n
(i-0,3)/ (n+0,4)
Lineáris (Sorozatok1)
Lineáris (Sorozatok2)
Lineáris (Sorozatok3)
Lineáris (Sorozatok4)
Lineáris (Sorozatok5)
(i-0,1)/(n-1)
N(10,5;2)
(i-0,3)/(n+0,4)
(i-0,5)/n
4.A hibaarány 50%-os felső konfidencia határa:
,4,07,0
4,03,0)1(ˆ
++
=+−+
≈ni
nip
( ),
22,221
1
1ˆ50,0 +−×⎟
⎠⎞
⎜⎝⎛
+−+
=iinF
iin
p
( ) %.100)1(10
×⎥⎦
⎤⎢⎣
⎡∑ −×−==
−i
k
knknkU ppC Binomiális eloszlásból kiszámítva.
A fenti képletből adódik a pontos képlet.
Ez a közelítő képlet a medián rangból.
Értékelési mód
Minta
Gyakorlati megfontolás
Excel (i-1)/(n-1) Minitabprogram(i/(n+1)
25%
50%
75%
25%
50%
75%
25%
50%
75%
1,4,5,6,9,10,12 4 6 10 4,5 6,0 9,5 4 6 10
1,4,6,9,12,15 4 7,5 12 4,5 7,5 11,25 3,25 7,5 12,75
5. Kvartilisek és a medián százalékos értékeinek összehasonlító táblázata
Montgomery (i -0,5)/n
25%
50%
75%
4,5 6 9.75
4 7,5 12
17
Kvartilisek számítási képletei:
Az Excel a 11ˆ−−
=nip képletből indul ki és így p=1/4 esetén
;1)1(41
+−= ni Ennek a számnak egész részét kell venni, ezt a sorszámútagot kell kiinduló értéknek tekinteni és ehhez hozzá kell adni ennek a számnak a törtrészének és következő mintaelemtől való távolságának szorzatát. p=3/4 esetén hasonló az eljárás.
A Minitab a 1
ˆ+
=n
ip képletből indul ki és így p=1/4-re i=1/4(n+1); eztkövetően az eljárás azonos.
Ennek megfelelően az Excel képletei a 25 és 75%-os kvartilisekre, ahol [x] x egész része,{x} x törtrésze:
{ } [ ] [ ] { } [ ]3']13'[33'75,01']11'[1]1'[25,0 (');(' wwwwww XXwXXXXwXX −+=−+= ++
A Minitab képletei:{ } [ ] [ ] { } [ ]3]13[3375,01]11[1]1[25,0 ();( wwwwww XXwXXXXwXX −+=−+= ++
nip 5,0ˆ −
= esetén. ha p=1/4, akkor i=(1/4).n +0,5, ezután az eljárás azonos.
18
{ }{ }{ }{ }{ }{ }{ }{ }{ } { } excelitabww
itabknhawitabknhaw
itabknhawitabknhaw
excelknhaw
excelknhaw
excelknhawexcelknhaw
;min;5,0
;min;34,,0min;24,,75,0
;min;14,,5,0;min;4,,25,0
;;14,,0
;;4,,75,0
;;34,;5,0';;24,;25,0'
'
'
'
=−
+==+==+==
==+==
==
+==+==
19
p becslése w értéke p-kvantilisp=i/(n+1) w=(n+1)p xp=x[w]+{w}(x[w]+1-x[w])
p=(i-1)/(n-1) w=(n-1)p+1 xp=x[w]+{w}(x[w]+1-x[w])
p=(i-0,5)/n w=np+0,5 xp=x[w]+{w}(x[w]+1-x[w])
p=(i-0,3)/(n+0,4) w=(n+0,4)p+0,3
xp=x[w]+{w}(x[w]+1-x[w])
Jelölések: [w] w egész része; {w} w tört része; F(xp)=p.
p- kvantilis mintabeli becslése