mogens oddershede larsen - larsen-net.dk · pdf filegrammer) og ved beregning af...

149
Histogram for pH pH 6,9 7,1 7,3 7,5 7,7 7,9 0 3 6 9 12 15 18 MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER med anvendelse af TI 89 og Excel 12. udgave 2012

Upload: vumien

Post on 30-Jan-2018

244 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Histogram for pH

pH

6,9 7,1 7,3 7,5 7,7 7,9

0

3

6

9

12

15

18

MOGENS ODDERSHEDE LARSEN

STATISTISKE GRUNDBEGREBER

med anvendelse af TI 89 og Excel

12. udgave 2012

Page 2: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”
Page 3: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

FORORD

Der er i denne bog søgt at give letlæst og anskuelig fremstilling af de statistiske grundbegreber tilbrug ved en indledende undervisning i statistik. De væsentligste definitioner og sætninger forklaresderfor fortrinsvist ved hjælp af figurer og gennemregnede praktiske eksempler. Ønskes en merematematisk uddybende forklaring, bevis for sætninger osv. kan dette ofte findes i et særskilt tillægtil bogen, som findes på nettet under titlen “Supplement til statistiske grundbegreber”.

Læsning: Bogen er bygget således op, at der hurtigt nås frem til normalfordelingen og de vigtigenormalfordelingstest. Disse vigtige begreber kan derfor blive grundigt indarbejdet, selv om der kuner kort tid til rådighed. Er det af tidsmæssige grunde svært at nå hele notatet kan man uden skade forhelheden overspringe kapitlerne 10 og 11, ligesom man eventuelt kan tage kapitlerne 1 og 9 mereoversigtsagtigt.Sidst i hver kapitel findes en række opgaver, der yderligere kan fremme forståelsen. Bagerst i bogen findes en facitliste til alle opgaverne. I et længere kursusforløb er denne bog tænkt at skulle efterfølges af M. Oddershede Larsen:Videregående Statistik”, som kan hentes gratis på e-mailadressen www.larsen-net.dk

Regnemidler. Det er hensigtsmæssigt, at man har adgang til en lommeregner eller en PC med desædvanlige fordelinger indbygget.I eksemplerne angives således, hvorledes beregningerne kan foretages med den i øjeblikket mestpopulære lommeregner TI-89, det tilsvarende PC-program TI-Nspire samt med det meget udbredteregneark Excel.Endvidere er der i et afsnit sidst i bogen også kort angivet hvorledes beregningerne kan udføres med matematikprogrammerne Maple og Mathcad.

I 8- udgave findes tabeller over de sædvanlige statistiske funktioner, samt forklaret hvordantabellerne anvendes

Denne udgave, samt 8 udgave kan sammen med en række andre noter findes på adressen: www.larsen-net.dk

Jeg vil gerne takke ingeniørdocent L. Brøndum og J. D. Monrad for de mange gode råd gennemårene.En særlig tak til lektor Bjarne Hellesen, som dels har skrevet afsnit 11 , dels er kommet med mangeværdifulde kommentarer og bidrag til forbedringer.

januar 2013 Mogens Oddershede Larsen

i

Page 4: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

INDHOLD

1 INTRODUKTION TIL STATISTIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 DESKRIPTIV STATISTIK2.1 Kvalitative data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2 Kvantitative data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Karakteristiske tal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 STOKASTISK VARIABEL3.1 Sandsynlighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Stokastisk variabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.3 Tæthedsfunktion, middelværdi og spredning for kontinuert stokastisk variabel . . . . . . 17 3.4 Linearkombination af stokastiske variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 NORMALFORDELINGEN4.1 Indledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 Definition og sætninger om normalfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.3 Beregning af sandsynligheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5 KONFIDENSINTERVAL FOR NORMALFORDELT VARIABEL5.1 Udtagning af stikprøver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.2 Fordeling og spredning af gennemsnit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.3 Konfidensinterval for middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.3.1 Definition af konfidensinterval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.3.2 Populationens spredning kendt eksakt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.3.3 Populationens spredning ikke kendt eksakt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.4 Konfidensinterval for spredning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.5 Oversigt over centrale formler i kapitel 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6 HYPOTESETESTNING (1 NORMALFORDELT VARIABEL)6.1 Grundlæggende begreber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.2 Hypotesetest med ukendt middelværdi og spredning . . . . . . . . . . . . . . . . . . . . . . . . . . 526.3 Fejl af type I og typr II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546.4 Oversigt over centrale formler i kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

7 HYPOTESETESTNING (2 NORMALFORDELTE VARIABLE)7.1 Indledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657.2 Sammenligning af 2 normalfordelte variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 667.3 Oversigt over centrale formler i kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

ii

Page 5: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Indhold

8 REGNEREGLER FOR SANDSYNLIGHED, KOMBINATORIK8.1 Regneregler for sandsynlighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 758.2 Betinget sandsynlighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.3 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

8.3.1 Indledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 798.3.2 Multiplikationsprincippet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 798.3.3 Ordnet stikprøveudtagelse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 808.3.4 Uordnet stikprøveudtagelse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

9 VIGTIGE DISKRETE FORDELINGER9.1 Indledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 869.2 Hypergeometrisk fordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 869.3 Binomialfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.4 Poissonfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 959.5 Approksimationer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 989.6 Den generaliserede hypergeometriske fordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 989.7 Polynomialfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 999.8 Oversigt over centrale formler i kapitel 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

10 ANDRE KONTINUERTE FORDELINGER10.1 Indledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10810.2 Den rektangulære fordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10810.3 Eksponentialfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11010.4 Weibullfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11210.5 Den logaritmiske fordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11310.6 Den todimensionale normalfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

11 FLERDIMENSIONAL STATISTISK VARIABEL11.1 Essens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11511.2 Indledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11611.2 Kovarians og korrelationskoefficient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11811.3 Linearkombination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

STATISTISKE BEREGNINGER UDFØRT PÅ LOMMEREGNER OG PC

TI-89 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

TI-Nspire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

Maple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

Mathcad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

APPENDIX. OVERSIGT OVER APPROKSIMATIONER . . . . . . . . . . . . . . . . . . . . . . . 135

iii

Page 6: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

FACITLISTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

STIKORD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

iv

Page 7: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

1 Introduktion til statistik

1 INTRODUKTION TIL STATISTIK

Ved næsten alle ingeniørmæssige problemer vil de indsamlede data udvise variation. Måler man

således gentagne gange indholdet (i %) af et bestemt stof i et levnedsmiddel, vil det procentvise

indhold ikke blive præcis samme tal for hver gang man foretager en måling. Dette kunne naturlig-

vis være en usikkerhed ved målemetoden, men det vil sjældent være den væsentligste årsag.

Ved mange industrielle processer vil en række ukontrollable forhold indvirke på det endelige

resultat. Eksempelvis vil udbyttet af en kemisk proces variere fra dag til dag, fordi man ikke har

fuldstændig kontrol over forsøgsbetingelser som temperatur, omrøringstid, tidspunkt for

tilsætning af råmaterialer, fugtighed osv. Endvidere er forsøgsmaterialerne muligvis ikke

homogene nok. Råmaterialerne kan f.eks. være af varierende kvalitet, der må bruges forskelligt

apparatur under produktionsprocessen, forskelligt personale deltager i arbejdet osv.

Statistik drejer sig om at samle, præsentere og analysere data med henblik på at foretagebeslutninger og løse problemer.

I den deskriptive statistik beskrives data ved tabeller, grafisk (lagkagediagrammer, søjledia-

grammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning.

Man kan eksempelvis i “Danmarks Statistik” (findes på nettet under adressen www.statistikban-

ken.dk ) finde, hvor mange personbiler der er i Danmark i 2009 opdelt efter alder.

Man kender her populationen (biler i Danmark), kan grafisk vise deres fordeling i et søjledia-

gram og beregne deres gennemsnitlige alder.

I den mere analyserende statistik (kaldet inferentiel statistik) søger man ved mere avancerede

statistiske metoder ud fra en repræsentativ stikprøve at konkludere noget om hele populationen.

Eksempelvis udtages ved en meningsmåling en forhåbentlig repræsentativ stikprøve på 1000

vælgere, som man spørger om hvilket politisk parti de ville stemme på, hvis der var valg i

morgen.

Man vil så ud fra stikprøven konkludere, at hvis man spurgte hele populationen (alle vælgere i

Danmark) , så ville man med en vis usikkerhed få samme resultat.

Viser stikprøven, at partiet “Venstre” vil gå 2.5% tilbage, så vil det samme ske, hvis der var valg

i morgen.

Et sådant tal er naturligvis usikkert. Man må derfor anvende passende statistiske metoder til

eksempelvis at beregne, at usikkerheden er på 2%.

1

Page 8: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2 Deskriptiv statistik

Udgifter

udlig

ning

Øvrige

social-

området-

øvrige

Ældre

Børne-

pasning

kultur

Fritid

Skoler

Adm

inistr.

Te

knik

Æ

2. DESKRIPTIV STATISTIKI den deskriptive statistik (eller beskrivende statistik) beskrives de indsamlede data i form af

tabeller, søjlediagrammer, lagkagediagrammer, kurver samt ved udregning af centrale tal som

gennemsnit, typetal, spredning osv.

Kurver og diagrammer forstås lettere og mere umiddelbart end kolonner af tal i en tabel. Øjet er

uovertruffet til mønstergenkendelse (“en tegning siger mere end 1000 ord”).

2.1 KVALITATIVE DATAHvis der er en naturlig opdeling af talmaterialet i klasser eller kategorier siges, at man har

kategorisk eller kvalitative data .

Alle spørgeskemaundersøgelser, hvor man eksempelvis bliver bedt om at sætte kryds i nogle

rubrikker “meget god” , god, acceptabel osv. er af denne type.

De følgende 2 eksempler viser anvendelse af henholdsvis lagkagediagram og søjlediagram

Eksempel 2.1 LagkagediagramNedenfor er angivet hvordan en kommunes udgifter fordeler sig på de forskellige områder.

Udligning 23,1

øvrige 8,4

Socialområdet,øvrige 9,4

Ældre 18,6

Børnepasning 10,4

Bibliotek 1,9

fritid 3,8

Skoler 10,5

Administration 7,3

Teknik,anlæg 6,6

Dan et lagkagediagram til anskueliggørelse heraf.

Løsning:Data opskrives i Excel og der gives følgende “ordrer” 2003: Marker udskriftsområde Vælg på værktøjslinien “Guiden diagram” Cirkel Marker ønsket figur Næste -

Navn på kategori Udfør2007: Marker udskriftsområde Vælg på værktøjslinien “Indsæt” Cirkel Marker ønsket figurog Ønskes tekst placeret som på figur2010 Cursor på figur Formater dataetiketter Vælg “kategorinavn” og “udenfor”.TI-Nspire:Vælg “tilføj lister og regneark” skriv listens navn x i navnecalle og skriv data opret tilsvarende den anden liste Vælg “diagrammer og statistik” midt på den lodrette akse på figur vælg x diagramtyper cirkeldiagram

2

Page 9: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2.1 Kvalitative data

Eksempel 2.2 (kvalitative data) Følgende tabel angiver mandattallet ved to folketingsvalg.

Partier A B C F K O V Ø

Mandater 2001 52 9 16 12 4 22 56 4

2005 47 17 18 11 0 24 52 6

A = Socialdemokraterne, B =Radikale venstre, C = Konservative folkeparti , F =Socialistisk

folkeparti, K = Kristendemokraterne,

O = Dansk Folkeparti, V = Venstre, Ø = Enhedslisten

Anskueliggør disse mandattal ved i Excel at tegne et søjlediagram

Løsning:Et søjlediagram fås i Excel ved at opskrive

A B C F K O V Ø

52 9 16 12 4 22 56 4

47 17 18 11 0 24 52 6

2003: Vælg på værktøjslinien “Guiden diagram” Søjle Marker ønsket figur Næste marker udskrifts-område Næste Næste Udfør

2007+2010: Som i eksempel 2.1 blot vælges Søjle TI-Nspire: Som i eksempel 2.1 blot vælges Søjlediagram

Fordelen ved en grafisk fremstilling er, at de væsentligste egenskaber ved data opnås hurtigt og

sikkert. Men netop det, at figurer appellerer umiddelbart til os, gør at vi kan komme til at lægge

mere i dem, end det som tallene egentlig kan bære. Eksempelvis viser forsøg, at i lagkagediagram-

mer, hvor man skal sammenligne vinkler (eller arealer), da vil denne sammenligning afhænge

noget af i hvilken retning vinklens ben peger.

Nedenstående eksempel viser hvordan en figur kan være misvisende uden direkte at være forkert.

0

10

20

30

40

50

60

A B C F K O V Ø

Serie1

Serie2

3

Page 10: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2 Deskriptiv statistik

Eksempel 2.3. Misvisende figurTønderne i figuren nedenfor skal illustrere hvordan osteeksporten fordeler sig på de forskellige

verdensdele. Den giver imidlertid et helt forkert indtryk. Det er højderne på tønderne der angiver

de korrekte forhold, men af tegningen vil man tro, at det er rumfangene af tønderne. De 3 små

tønder kan umiddelbart være flere gange indeni den store tønde, men det svarer jo ikke til talfor-

holdene.

De mest almindelige figurer til at give et visuelt overblik over større talmaterialer er histogrammer

(søjlediagrammer) og kurver i et koordinatsystem.

2.2. KVANTITATIVE DATA (VARIABLE)Kvantitative data er data, hvor registreringen i sig selv er tal, der angiver en bestemt rækkefølge,

f. eks. som i eksempel 2.4 hvor data registreres efter det tidspunkt hvor registreringen foregår eller

som i eksempel 2.5, hvor det er størrelsen af registrerede værdi der er af interesse.

Eksempel 2.4. Kvantitativ variabel: tidFra “statistikbanken (adresse http://www.statistikbanken.dk/) er hentet følgende data ind i Excel,

der beskriver hvorledes indvandringer og udvandringer er sket gennem tiden.Excel: Vælg “Befolkning og valg” Ind- og udvandring Ind- og udvandring på måned under “bevægelse”vælges alle og under “måned” vælges år og derefter alle Tryk på tabel Drej tabel med uret Gem som Excelfil

Indvandringer og udvandringer efter tid og bevægelse

Indvandrede Udvandrede1983 27718 259991984 29035 250531985 36214 267151986 38932 279281987 36296 301231988 35051 345441989 38391 349491990 40715 323831991 43567 326291992 43377 319151993 43400 323441994 44961 347101995 63187 346301996 54445 373121997 50105 383931998 51372 403401999 50236 413402000 52915 434172001 55984 439802002 52778 434812003 49754 434662004 49860 450172005 52458 458692006 56750 467862007 64656 415662008 72749 434902009 67161 44874

4

Page 11: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2.2 Kvantitative data

Giv en grafisk beskrivelse af disse data.

Løsning:Da dataene er registreret efter tid (år) (den kvantitative variabel “tid”) tegnes to kurver i samme

koordinatsystem:2003: Marker udskriftsområde Vælg på værktøjslinien “Guiden diagram” Kurve Marker ønsket figur

Næste Næste Næste Udfør2007 + 2010: Marker udskriftsområde Vælg på værktøjslinien “ Indsæt” Streg Marker ønsket figurDer er foretaget enkelte andre justeringer inden følgende figur fremkom.

Eksempel 2.5. Kvantitativ variabel , størrelse af brintionkoncentrationen pHI menneskers led udskiller den inderste hinde en "ledvæske" som "smører" leddet. For visse

ledsygdomme kan brintionkoncentrationen (pH) i denne væske tænkes at have betydning. Som

led i en nordisk medicinsk undersøgelse af en bestemt ledsygdom udtog man blandt samtlige

patienter der led af denne sygdom en repræsentativ stikprøve ved simpel udvælgelse 75 patienter

og målte pH i ledvæsken i knæet.

Resultaterne (som kan findes som excel-fil på adressen www.larsen-net.dk ) var følgende:

7.02 7.26 7.31 7.16 7.45 7.32 7.21 7.35 7.25 7.24 7.20 7.21 7.27 7.28 7.19

7.39 7.40 7.33 7.32 7.35 7.34 7.41 7.28 7.27 7.28 7.33 7.20 7.15 7.42 7.35

7.38 7.32 7.71 7.34 7.10 7.35 7.15 7.19 7.44 7.12 7.22 7.12 7.37 7.51 7.19

7.30 7.24 7.36 7.09 7.32 6.95 7.35 7.36 7.52 7.29 7.31 7.35 7.40 7.23 7.16

7.26 7.47 7.61 7.23 7.26 7.37 7.16 7.43 7.08 7.56 7.07 7.08 7.17 7.29 7.20

Giv en grafisk beskrivelse af disse data.

Løsning:I dette tilfælde, hvor vi er interesseret i at få et overblik over tallenes indbyrdes størrelse er det

fordelagtigt at tegne et histogram.

Et histogram ligner et søjlediagram, men her gælder, at antallet af enheder i hver søjle repræsen-

teres ved søjlens areal (histo er græsk for areal). Man bør så vidt muligt sørge for at grupperne er

lige brede, da antallet af enheder så svarer til højden af søjlen.

Excel kan umiddelbart tegne er histogram, men af hensyn til det følgende forklares hvordan man

bestemmer intervalopdeling m.m.

Først findes det største tal xmax og det mindste tal xmin i materialet og derefter beregne variations-

bredden xmax - xmin. Vi ser, at største tal er 7.71 og mindste tal er 6.95 og variationsbredden derfor

7.71 - 6.95 = 0.76.

0

10000

20000

30000

40000

50000

60000

70000

80000

1983198519871989 1991199319951997199920012003200520072009

Indvandrede

Udvandrede

5

Page 12: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2 Deskriptiv statistik

Dernæst deles tallene op i et passende antal intervaller (klasser). Som det første bud vælges ofte

et antal nær . Da vælges ca. 9 klasser. Da deler vi op i de klasser, dern 75 9≈0 76

90 08. .≈

ses af tabellen. Dette giver 10 intervaller. Vi tæller op hvor mange tal der ligger i hvert interval

(gøres nemmest ved at starte forfra og sæt en streg i det interval som tallet tilhører).

Klasser Antal n

]6.94 - 7.02] // 2

]7.02 - 7.10] ///// 5

]7.10 - 7.18] //////// 8

]7.18 - 7.26] ///////////////// 17

]7.26 - 7.34] ////////////////// 18

]7.34 - 7.42] //////////////// 16

]7.42 - 7.50] //// 4

]7.50 - 7.58] /// 3

]7.58 - 7.66] / 1

]7.66 - 7.74] / 1

Allerede her kan man se, at antallet er størst omkring 7.30, og så falder hyppigheden nogenlunde

symmetrisk til begge sider.

I Excel sker det på følgende måde: Data indtastes i eksempelvis søjle A1 til A75 ( data findes på adressen www.larsen-net.dk )2003: Vælg “Funktioner” Dataanalyse Histogram

2007+2010: Vælg “Data” Dataanalyse HistogramI den fremkomne tabel udfyldes “inputområdet” med A1:A75 og man vælger “diagramoutput”..1) Trykkes på OK fås en tabel med hyppigheder, og en figur, hvor intervalgrænserne er fastlagt af Excel. 2) Ønsker man selv at bestemme grænserne, skal man også udfylde intervalområdet. Dette gøres ved at skrive de

øvre grænser i en søjle (f.eks. i B1 6.94, i B2 7.02 osv. til B10: 7.66) og så skrive B1:B10 i inputområdetDa et histogram har søjlerne samlet, foretages følgende:cursor på en søjle tryk højre musetast formater dataserie indstilling mellemrumsbredde = 0 okTI-Nspire:Man kan ikke lægge exceldata ind, så man må selv skrive data ind.Vælg “tilføj lister og regneark” skriv listens navn x i navnecelle og skriv data opret tilsvarende den anden liste med navn ypå den lodrette akse diagramtyper histogram I tilfælde 1 fremkommer så følgende udskrift og tegning (efter at have valgt udskrift med 2 decimaler):

Interval Hyppighed

6,95 1

7,05 1

7,14 7

7,24 17

7,33 22

7,43 18

7,52 6

7,62 2

Mere 1

Hyppighed

0

5

10

15

20

25

6,95 7,045 7,14 7,235 7,33 7,425 7,52 7,615 Mere

Hyppighed

6

Page 13: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2.3 Karakteristiske tal

I tilfælde 2 følgende

Interval Hyppighed

6,94 0

7,02 2

7,1 5

7,18 8

7,26 17

7,34 18

7,42 16

7,5 4

7,58 3

7,66 1

Mere 1

Histogrammet er et "klokkeformet histogram", hvor der er flest tal fra 7.19 til 7.42, og derefter

falder antallet til begge sider.

Man regner normalt med, at resultaterne af forsøg, hvor man har foretaget målinger (hvis man

lavede nok af dem) har et sådant klokkeformet histogram og siger, at resultaterne er normalfordelt

(beskrives nærmere i næste kapitel)

2.3 KARAKTERISTISKE TAL

Skal man sammenligne to talmaterialer, eksempelvis sammenligne de 75 pH-værdier i eksempel

1.4 med 200 dårlige knæ fra Tyskland, har det ingen mening at sammenligne hyppighederne

Man må i sådanne tilfælde angive nogle tal, som gør det muligt at foretage en sammenligning.

Dette kunne blandt andet ske ved at man udregnede de relative hyppigheder

2.3.1 Relativ hyppighedVed den relative hyppighed forstås hyppigheden divideret med det totale antal.

I eksempel 2.5 er den relative hyppighed for pH - værdier i intervallet ]7.18 - 7.26]:

17

750 2267 22 57%= =. .

Man kunne sige, at “sandsynligheden” er 22.57% for at pH ligger i dette interval.

Hyppighed

0

2

4

6

8

10

12

14

16

18

20

6,94 7,02 7,1 7,18 7,26 7,34 7,42 7,5 7,58 7,66 Mere

Hyppighed

7

Page 14: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2 Deskriptiv statistik

2.3.2 Middelværdi og spredning.

Middelværdi, gennemsnit.

Kendes hele “populationen” (målt højden på alle danske mænd) kan beregnes en “korrekt midter-

værdi” kaldet middelværdi (græsk my) µ

Ud fra stikprøven vil en tilnærmet værdi (kaldet et estimat) for være gennemsnittet (kaldtµ x

x streg).

Kaldes observationerne i en stikprøve erx x xn1 2, ,..., x

x x x

n

n=

+ + +1 2 ...

Eksempel 2.6: GennemsnitFind gennemsnittet af tallene 6, 17, 7, 13, 5, 3

Løsning: x =+ + + + +

=6 17 7 13 5 3

685.

TI 89: Catalog mean ({6, 17, 7, 13, 5, 3})

TI-Nspire: Skriv . mean ({6, 17, 7, 13, 5, 3})Excel: Tast tallene i en kolonne eksempelvis A1 til A6 Vælg på værktøjslinien fx Middel( A1..A6)

SpredningsmålEgentlige målefejl, såsom at nogle af observationerne ikke bliver korrekt registreret, uklarheder

i spørgeskemaet osv. skal naturligvis fjernes.

Derudover er der den “naturlige” variation som også kunne kaldes “ren støj” (pure error), som

skyldes, at man ikke kan forvente, at to personer der på alle områder er stillet fuldstændigt ens

også vil svare ens på et spørgsmål. Tilsvarende hvis man måler udbyttet ved en kemisk proces,

så vil udfaldet af to forsøg ikke være ens, da der altid er en række ukontrollable støjkilder (urenhe-

der i råmaterialer, lidt forskel på personer og apparatur osv.)

Denne naturlige variation skal naturligvis inddrages i den statistiske behandling af problemet, og

dertil spiller et mål for, hvor meget tallene spreder sig naturligvis en væsentlig rolle..

Spredning (engelsk: standard deviation)

Hvis spredningen baserer sig på hele populationen benævnes den (sigma) .σ

Baserer spredningen sig kun på en stikprøve benævnes den s.

Man siger, at s er et estimat (skøn) for . σ

s beregnes af formlen hvor observationerne i en stikprøve er s

x x

n

i

i

n

=

=

∑ ( )2

1

1x x x

n1 2, ,...,

Kvadratsummen benævnes kort SAK (Summen af Afvigelsernes Kvadrater) eller SS( )x xi

i

n

=

∑2

1

(Sum of Squares)

Ved variansen for en stikprøve forstås .s2

8

Page 15: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2.3 Karakteristiske tal

Eksempel 2.7: SpredningFind varians og spredning af tallene 6, 17, 7, 13, 5, 3

Løsning:

I eksempel 2.6 findes gennemsnittet x = 85.

Variansen s2

2 2 2 2 2 26 85 17 85 7 85 13 85 5 85 3 85

6 128 7=

− + − + − + − + − + −

−=

( . ) ( . ) ( . ) ( . ) ( . ) ( . ).

Spredningen s = =28 7 5 357. .

TI 89: Catalog Variance ({6, 17, 7, 13, 5, 3}),

Catalog stdDev ({6, 17, 7, 13, 5, 3})

TI-Nspire: Beregninger Statistik Listematematik Stikprøvevarians udfyld liste som TI89

Samme. nu blot vælge “Standardafvigelse for stikprøve

Excel: Tast tallene i en kolonne eksempelvis A1 til A6,

(alle) vælg fx Varians( A1..A6)

vælg fx STDDEV( A1..A6)

Anskuelig forklaring på formlen for s.

At formlen for s skulle være særlig velegnet til at angive, hvor meget resultaterne “spreder sig” (hvor megen støj der

er ) er ikke umiddelbart indlysende. I det følgende gives en anskuelig forklaring.

Lad os betragte 2 forsøgsvariable X og Y, hvorpå der for hver er udført en stikprøve på 4 forsøg.

Resultaterne var: X: 35.9, 33.3, 34.7, 34.1 med gennemsnittet = 34.5 , ogx

Y: 34.3, 34.6, 34.7, 34.4 med gennemsnittet = 34.5.y

De to forsøgsvariable har samme gennemsnit, men det er klart, at Y-resultaterne grupperer sig meget tættere om

gennemsnittet end X-resultaterne, dvs. Y-stikprøven har mindre spredning (der er mindre støj på Y - forsøget) end X-

stikprøven.

For at få et mål for stikprøvens spredning beregnes resultaternes afvigelser fra gennemsnittet.

x xi − y yi −

35.9 - 34.5 = 1.4 34.3 - 34.5 = - 0.2

33.3 -34.5 = - 1.2 34.6 - 34.5 = 0.1

34.7 - 34.5 = 0.2 34.7 - 34.5 = 0.2

34.1 - 34.5 = - 0.4 34.4 - 34.5 = -0.1

Summen af disse afvigelser er naturligvis altid 0 og kan derfor ikke bruges som et mål for stikprøvens spredning.

I stedet betragtes summen af kvadraterne på afvigelserne (forkortet SS: Sum of Squares eller SAK: Sum af afvigelser-

nes Kvadrat).

SAK x x

SAK y y

x i

i

n

y i

i

n

= − = + − + + − =

= − = − + + + − =

=

=

( ) . ( . ) . ( . ) .

( ) ( . ) . . ( . ) .

2 2 2 2 2

1

2 2 2 2 2

1

14 12 0 2 0 4 360

0 2 01 0 2 01 010

Da et mål for variansen ikke må være afhængig af antallet af forsøg, divideres med n - 1.

Umiddelbart ville det være mere rimeligt at dividere med n. Imidlertid kan det vises, at i middel bliver et skøn for

variansen for lille, hvis man dividerer med n, mens den “rammer” præcist, hvis man dividerer med n - 1. Det kan

forklares ved, at tallene xi har en tendens til at ligge tættere ved deres gennemsnit end ved middelværdien .x µ

9

Page 16: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2 Deskriptiv statistik

. og sx2 3 60

4 112=

−=

.. sy

2 01

4 10 0333=

−=

.. sx = =12 1095. . sy = =0 0333 0183. .

Som vi forudså, er stikprøvens spredning betydelig større for X-resultaterne end for Y-resultaterne.

Frihedsgrader. Man siger, at stikprøvens varians er baseret på f = n - 1 frihedsgrader. Navnet

skyldes, at kun n -1 af de n led kan vælges frit, idet summen af de n led er nul. Eksempel-x xi −

vis ser vi af ovenstående eksempel, at der er 3 frihedsgrader, da kendskab til de første 3 led på 1.4,

-1.2 og 0.2 er nok til at bestemme det fjerde led, da summen er nul.

Vurdering af størrelsen af stikprøvens spredning.

Man kan vise, at for tæthedsfunktioner med kun et maksimumspunkt gælder, at mellem x s− ⋅2

og ligger ca. 89% af resultaterne, og mellemx s+ ⋅2

og ligger ca. 95% af resultaterne.x s− ⋅3 x s+ ⋅3

For såkaldte normalfordelte resultater, er de tilsvarende tal ca. 95% og 99.7 %

2.3.3 Median og kvartilafstand.

Median.Medianen beregnes på følgende måde:

1) Observationerne ordnes i rækkefølge efter størrelse.

2a) Ved et ulige antal observationer er medianen det midterste tal

2b) Ved et lige antal er medianen gennemsnittet af de to midterste tal.

Eksempel 2.8: MedianFind medianen af tallene 6, 17, 7, 13, 5, 3.

Løsning: Ordnet i rækkefølge: 3, 5, 6, 7 13, 17. Median 6,5TI 89: Catalog median ({ 6, 17, 7, 13, 5, 2}) .

TI-Nspire: Beregninger skriv median ({ 6, 17, 7, 13, 5, 2})

Excel (alle): Tast tallene i en kolonne eksempelvis A1 til A6 Vælg fx Median( A1..A6)

Medianen kaldes også for 50% fraktilen, fordi den brøkdel (fraktil) der ligger under medianen

er ca. 50% .

Er median og gennemsnit nogenlunde lige store fordeler tallene sig nogenlunde symmetrisk

omkring middelværdien.

Er medianen mindre end gennemsnittet er der muligvis tale om en

“højreskæv” fordeling som har den “lange” hale til højre.(se

figuren)

Er medianen større end gennemsnittet, er der muligvis tale om en

venstreskæv fordeling

At man eksempelvis i lønstatistikker1 angives medianen og ikke

gennemsnittet fremgår af følgende lille eksempel.

Lad os antage at en virksomhed har 10 ansatte, med månedslønninger ordnet efter størrelse på

20000, 21000, 22000, 23000, 24000, 25000, 26000, 27000, 28000, 100000

Gennemsnittet er her 31600, mens medianen er 24500.

1jævnfør statistisk årbog 2005 tabel 144 eller se www.statistikbanken.dk Og vælg løn\lønstatistik for den statsli-

ge sektor\løn32\klik for at vælge\alle værdier\hovedgrupper\ledelse på højt niveau+kontorarbejde

10

Page 17: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2.3 Karakteristiske tal

Medianen ændrer sig ikke selv om den højeste løn vokser fra 100000 til 1 million, mens gennem-

snittet naturligvis vokser. Medianen giver derfor en mere rimelig beskrivelse af middellønnen i

firmaet.

Kvartilafstand.

Hvis fordelingen ikke er rimelig symmetrisk, er medianen det bedste skøn for en midterværdi, og

kvartilafstanden kan være et mål for spredningen.

I den tidligere omtalte lønstatistik2 findes bl.a. følgende tal, idet de to sidste kolonner er vor

bearbejdning af tallene.

Løn pr. præsteret time

nr gennemsnit x nedre kvartil

k1

median m øvre kvartil

k3

x

m

k k

m

3 1−

1 Ledelse på højt

niveau

353.41 231.63 313.38 433.78 1.13 0.64

2 Kontorarbejde 196.82 158.86 186.99 222.78 1.05 0.34

Af kolonnen ses, at for begge rækker er gennemsnittet større end medianen dvs. begge forde-x

m

linger er højreskæv, men det gælder mest for række nr. 1. Her gælder åbenbart, at nogle få

forholdsvis høje lønninger trækker gennemsnittet op.

Skal man sammenligne lønspredningen i de to tilfælde, må man tage hensyn til, at medianen er

meget forskellig. Man vil derfor som der er sket i sidste kolonne beregne den relative kvartil-

afstand.Den viser også, at lønspredningen er væsentlig mindre for række 2 end for række 1 .

Eksempel 2.9 KvartilFind kvartiler og median af de 12 tal 7 , 9 , 11, 3 , 16, 12, 15, 8, 2, 18, 22, 10

Løsning:TI89:APPS Stat/List Indtast tal i en liste F4 1-Var Stats Angiv listens navn Enter

Blandt mange tal fås 1 kvartil 7.5 og 3 kvartil 15.5TI-Nspire: Lister og regneark giv en liste et navn og indtal tal i listen vælg statistik statistiske beregninger statistik

med 1 variabel udfyld menuer Enter. Blandt mange tal findes kvartilerne

Excel (alle): Data indtastes i eksempelvis søjle A1 til A12 På værktøjslinien foroven:

Tryk på = På rullemenu vælges “Kvartil” (evt. først vælg kategorien “statistik”)f x

Der fremkommer en tabel med anvisning på, hvordan den skal udfyldes

Resultat : 1. kvartil 7.75 3 kvartil 15.25

Ligesom man på TI 89 /TI-Nspire kan få mange karakteristiske tal på en gang har Excel en tilsvarende menu.

Excel: 2003: Funktioner Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik

2007: Data Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik

2jævnfør statistisk årbog 2005 tabel 144 eller se www.statistikbanken.dk

under løn\lønstatistik for den offentlige sektor \løn 32

11

Page 18: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2 Deskriptiv statistik

OPGAVER

Opgave 2.1.I www.statistikbanken.dk/luft4 er følgende oplysninger for året 2003 hentet ind i Excel.

Udslip til luft af drivhusgasser efter enhed, type, kilde og tid

2003

Mia. C02-ækvivalenter I alt Energisektoren 32

Industri og produktion 8

Transport 13

Affaldsbehandling 2

Landbrug 10

Andet 9

a) Hent selv disse data ind i Excel, og opstil et lagkagediagram til belysning af tallene.

b) Find de tilsvarende tal for 1996, og vælg en passende grafisk fremstilling til sammenligning

af tallene fra 1996 og 2003.

c) Beregn i Excel for årene 1990 til 2003 energisektorens udslip i forhold til det samlede udslip

af drivhusgasser (i %), og tegn dette grafisk.

Opgave 2.2Følgende tabel angiver for et udvalgt antal lande oplysning om middellevetid for befolkningen og

indbyggerantal.

Land Middellevetid Indbyggertal i millioner

Australien 80.3 19.9

Canada 80.0 32.5

Danmark 77,5 5.5

Frankrig 79.4 60.4

Marokko 70.4 32.2

Polen 74.2 38.6

Sri Lanka 72.9 19.9

USA 77.4 293.0

1) Indskriv ovenstående tabel i Excel, hvor landene er opskrevet alfabetisk.

Benyt Excel til

1) at ordne landene efter middellevetid (længst levetid først), og afbild dem grafisk.

2) tegn i et koordinatsystem to kurver, som angiver såvel landenes størrelse som middellevetid

Opgave 2.3I http://www.statistikbanken.dk/statbank5a/default.asp?w=1600 findes nogle oplysninger om

Danmarks forbrug af energi efter type og mængde.

1) Hent produktion af naturgas og råolie ind målt i tons for de sidste 2 år (i måneder) ind i Excel

2) Tegn i Excel i samme koordinatsystem to kurver for henholdsvis produktionen af naturgas og

råolie.

12

Page 19: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 2

Opgave 2.4 Færdselspolitiet overvejede, om der burde indføres en fartgrænse på 70 km/h på en bestemt

landevejsstrækning, hvor der hidtil havde været en fartgrænse på 80 km/h.

Som et led i analysen af hensigtmæssigheden af den overvejede ændring observeredes inden for

et bestemt tidsrum ved hjælp af radarkontrol de forbipasserende bilers fart.

Resultatet af målingerne (som kan findes som excel-fil på adressen www.larsen-net.dk ) var:

50 observationer

64

50

59

75

98

72

63

49

74

55

82

35

55

64

85

52

60

99

74

80

60

77

65

62

78

95

41

76

70

53

86

47

76

85

96

70

88

68

73

71

63

62

51

93

84

48

66

80

65

103

1) Foretag en vurdering af, om fordelingen er nogenlunde symmetrisk (normalfordelt) ved

a) at tegne et histogram

b) at beregne karakteristiske værdier

2) Angiv hvor stor en procent af bilisterne, der “approksimativt” overstiger hastighedsgrænsen

på 80 km/h. (Vink: Vælg formler, statistisk, Tæl hvis).

Opgave 2.5

Til fabrikation af herreskjorter benyttes et råmateriale, som indeholder en vis procentdel uld. For

nærmere at undersøge uldprocenten, måles denne i 64 tilfældigt udvalgte batch.

Resultatet (som kan findes som excel-fil på adressen www.larsen-net.dk ) var (i %):

34.2 33.1 34.5 35.6 36.3 35.1 34.7 33.6 33.6 34.7 35.0 35.4 36.2 36.8 35.1 35.3

33.8 34.2 33.4 34.7 34.6 35.2 35.0 34.9 34.7 33.6 32.5 34.1 35.1 36.8 37.9 36.4

37.8 36.6 35.4 34.6 33.8 37.1 34.0 34.1 32.6 33.1 34.6 35.9 34.7 33.6 32.9 33.5

35.8 37.6 37.3 34.6 35.5 32.8 32.1 34.5 34.6 33.6 24.1 34.7 35.7 36.8 34.3 32.7

1) Foretag en vurdering af, om fordelingen er nogenlunde symmetrisk (normalfordelt) ved

a) at tegne et histogram

b) at beregne karakteristiske værdier

Der er i datamaterialet en såkaldte outliers (en mulig fejlmåling). En sådan kan ødelægge

enhver analyse. Det er i dette tilfælde tilladeligt at fjerne den, da vi går ud fra det er en fejlmåling.

2) Beregn stikprøvens relative kvartilafstand

13

Page 20: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

2 Deskriptiv statistik

Opgave 2.6Den følgende tabel (som kan findes som excel-fil på adressen www.larsen-net.dk ) viser vægtene

(i kg) af 80 kaniner.

2.90

2.60

2.45

2.75

2.60

2.55

2.45

2.70

2.75

2.80

2.95

2.65

2.65

2.85

2.45

2,70

3.15

2.95

2.70

2.95

3.20

3.40

2.80

2.95

2.65

2.75

2.90

2.85

2.75

2.90

3.20

3.00

2.70

2.70

2.95

2.85

2.50

2.95

2.65

2.90

2.60

2.95

3.05

3.05

2.95

2.90

3.00

2.65

2.90

2.75

2.85

3.25

2.70

3.00

2.75

2.70

2.80

2.70

2.75

2.80

2.80

2.70

3.00

2.60

3.00

2.55

2.60

2.80

3.00

2.50

3.10

2.80

2.70

3.15

3.00

2.90

2.70

3.00

2.60

3.15

1) Foretag en vurdering af, om fordelingen er nogenlunde symmetrisk (normalfordelt) ved

a) at tegne et histogram

b) at beregne karakteristiske værdier

2) Angiv hvor stor en procent af kaninerne, der “approksimativt” overstiger en vægt på 3 kg

(Vink: (Vink: Vælg formler, statistisk, Tæl, Hvis)

Opgave 2.7I “statistikbanken” finder man under punktet “Uddannelse og kultur”,”Fuldførte kompetancegi-

vende uddannelser ved bacheloruddannelserne” en statistik over antal elever i “Maskinteknik”

og “Design og Innovation” i 2008 fordelt efter alder fra 20 til 36 år for hele landet.

1) Indsæt data i Excel for de to uddannelser.

2) Lav et søjlediagram over aldersfordelingen for de to uddannelser

3) Beregn på basis af ovennævnte tal den gennemsnitlige alder af de studerende for de to uddan-

nelser i.

Opgave 2.8I “statistikbanken” find under Løn ,fortjeneste for privatansatte efteruddannelse osv., Højere

uddannelse, Teknisk, ledere i 2008

“Gennemsnit, median, øvre og nedre kvartil for såvel mænd som kvinder “

1) Overfør data til Excel på egen harddisk

2) Angiv om de to fordelinger er symmetrisk, højre eller venstreskæv

3) Er der forskel på lønspredningen for mænd og kvinder

(Vink: Beregn den relative kvartilafstand)

14

Page 21: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

3.1 Sandsynlighed

3 STOKASTISK VARIABEL

3.1 SANDSYNLIGHEDStatistik bygger på sandsynlighedsteorien, som giver metoder til at finde, hvor stor chancen (sand-

synligheden) er for at et bestemt resultat af et eksperiment forekommer.

Det er karakteristisk for tilfældige eksperimenter, at man kan afgrænse en mængde kaldet

eksperimentets udfaldsrum U, der indeholder de mulige udfald. Derimod kan man ikke forudsi-

ge, hvilket udfald der vil indtræffe ved udførelsen af eksperimentet.

Består eksperimentet eksempelvis i kast med en terning er udfaldsrummet U = {1, 2, 3, 4 ,5, 6},

men man kan ikke forudsige udfaldet af næste kast (eksperiment). Selv om man 4 gange i træk

har fået udfaldet “øjental 1", kan man ikke forudsige, hvilket udfald der indtræffer næste gang.

Resultatet af 5. kast afhænger ikke af resultaterne af de foregående 4 spil. Man siger, at eksperi-

menterne er "statistisk uafhængige" (en præcis definition ses i kapitel 9).

Som eksempler på tilfældige eksperimenter kan nævnes:

a) Ét kast med en mønt. Udfaldsrum U = .{ }Plat, Krone

b) Fremstilling af et parti levnedsmiddel og måling af det procentvise indhold af protein.

U = mængden af reelle tal fra 0 til 100.

c) Udtage en stikprøve på 400 elektroniske komponenter af en dagsproduktion og optælling af

antallet af defekte komponenter. U = { }0 1 2 3 4 5 400, , , , , , . . . ,

d) Udtagning af et tilfældigt TV-apparat fra en dagsproduktion af TV-apparater og optælling af

antallet af loddefejl. U = mængden af positive hele tal.

En hændelse er en delmængde af et eksperiments udfaldsrum. Eksempelvis er A: “At få et lige øjental” en hændelse ved kast med en terning.

Hændelsen A siges at indtræffe, hvis et udfald fra A forekommer.

Sandsynlighedsbegrebet tager udgangspunkt i det i kapitel 1 omtalte begreb “relativ hyppighed”.

DEFINITION af tilfældigt eksperiment. Et eksperiment som kan resultere i forskellige

udfald, selv om eksperimentet gentages på samme måde hver gang, kaldes et tilfældigt

eksperiment (engelsk : random experiment).

DEFINITION af relativ hyppighed for hændelse A. Gentages et eksperiment n gange,

og forekommer hændelsen A netop gange af de n gange, er A’s relativenA

hyppighed h An

n

A( ) =

15

Page 22: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

3. Kontinuert stokastisk variabel

Lad eksempelvis eksperimentet være kast med en terning og hændelsen A være at få et lige

øjental. Kastes terningen 100 gange og bliver resultatet et lige øjental 45 af de 100 gange er h(A)

= 0.45.

Det er en erfaring, at øges antallet af gentagelser af eksperimentet, vil den relative hyppighed af

hændelsen A stabilisere sig. Når n går mod ,vil den relative hyppighed erfaringsmæssigt∞

nærme sig til en grænseværdi ("de store tals lov").

Ved sandsynligheden for A som benævnes P(A) forstås denne grænseværdi. (P = probability)

Da definitionen af sandsynlighed bygger på relativ hyppighed, er det naturligt, at det for ethvert

par af hændelser A og B i udfaldsrummet U skal gælde :

, og 0 1≤ ≤P A( ) P U( ) = 1

P(enten A eller B) = P(A) + P(B) forudsat A og B ingen elementer har fælles (er disjunkte).Den sidste regel skrives kort P A B P A P B( ) ( ) ( )∪ = +

(en mere generel regel findes i kapitel 8)

Eksempel 3.1 Anvendelse af regel P A B P A P B( ) ( ) ( )∪ = +

Lad A = at få et ulige øjental ved et kast med en terning

B = at få en sekser ved et kast med en terning

Find sandsynligheden for enten at få et ulige øjental eller en sekser( evt. begge dele) ved kast

med en terning.

Løsning:

P(A) = . P(B) = 1

2

1

6

P A B P A P B( ) ( ) ( )∪ = + = + =1

2

1

6

2

3

De 3 regler kaldes sandsynlighedsregningens aksiomer.

I kapitel 8 udledes på dette grundlag en række regler for regning med sandsynligheder.

3.2 STOKASTISK VARIABEL

Ethvert statistisk problem må det på en eller anden måde være muligt at behandle talmæssigt.

Betragtes et eksempel med kast med en mønt, kunne man til udfaldet plat tilordne tallet 0 og til

udfaldet krone tilordne tallet 1 og på den måde få problemet overført til noget, hvor man kan

foretage beregninger. Man siger, man har indført en stokastisk (eller statistisk) variabel X, som

er 0, når udfaldet er plat, og 1 når udfaldet er krone.

Generelt gælder følgende definition:

En stokastisk variabel betegnes med et stort bogstav såsom X, mens det tilsvarende lille bogstav

x betegner en mulig værdi af X.

Er eksempelvis eksperimentet “udtagning af en kasse med 100 møtrikker, ud af en løbende

produktion af kasser”, kunne den stokastiske variabel X være defineret som “ antal defekte

møtrikker i kassen”.

DEFINITION af stokastisk variabel (engelsk: random variable). En stokastisk variabel

(også kaldet statistisk variabel) er en funktion, som tilordner et reelt tal til hvert udfald i

udfaldsrummet for et tilfældigt eksperiment.

16

Page 23: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

3.3 Tæthedsfunktion

Et andet eksempel kunne være eksperimentet “anvendelse af en ny metode til fremstilling af et

produkt”. Her kunne den stokastiske variabel Y være det målte procentvise udbytte ved forsøget.

Ved en diskret variabel (eller tællevariabel) forstås en variabel, hvis mulige værdier udgør en

endelig eller tællelig mængde.

I eksemplet hvor X er antal defekte møtrikker, er X en diskret variabel, da den kun kan antage

heltallige værdier fra 0 til 100.

Vi vil i senere afsnit behandle diskrete variable.

Ved en kontinuert stokastisk variabel forstås en stokastisk variabel, hvis mulige værdier er alle

reelle tal i et vist interval.

I eksemplet, hvor Y er det målte procentiske udbytte, er Y en kontinuert variabel, da den kan

antage alle værdier fra 0% til 100%.

3.3 TÆTHEDSFUNKTION FOR KONTINUERT STATISTISK VARIABEL

Vi vil benytte eksempel 1.5 til illustration.

Eksempel 3.2. Kontinuert stokastisk variabelI menneskers led udskiller den inderste hinde en "ledvæske" som "smører" leddet. For visse

ledsygdomme kan koncentrationen af brintioner (pH) i denne væske tænkes at have betydning.

Som led i en nordisk medicinsk undersøgelse af en bestemt ledsygdom udtog man blandt samtlige

patienter der led af denne sygdom tilfældigt 75 patienter og målte pH i ledvæsken i knæet.

Resultaterne findes i eksempel 1.5

Population og stikprøve. Samtlige indbyggere i Norden med denne sygdom udgør populatio-

nen. Da det er ganske uoverkommeligt at undersøge alle, udtages en stikprøve på 75 patienter.

Det er målet ved hjælp af statistiske metoder på basis af en stikprøve at sige noget generelt om

populationen.

Histogram. For at få et overblik over et større datamateriale, vil man sædvanligvis starte med at

tegne et histogram. Hvorledes dette gøres fremgår af eksempel 1.5.

I skemaet ses resultatet af en opdeling i 10 klasser med en bredde på 0.08.

Endvidere er der beregnet en søjle ved at dividere den relative hyppighed med intervallængden.

Klasser Antal n Relativ hyppighed n

75Skalering

n

75 0 08⋅ .

]6.94 - 7.02] 2 0.0267 0.3333

]7.02 - 7.10] 5 0.0667 0.8333

]7.10 - 7.18] 8 0.1067 1.3333

]7.18 - 7.26] 17 0.2267 2.8333

]7.26 - 7.34] 18 0.2400 3.0000

]7.34 - 7.42] 16 0.2133 2.6667

]7.42 - 7.50] 4 0.0533 0.6667

]7.50 - 7.58] 3 0.0400 0.5000

]7.58 - 7.66] 1 0.0133 0.1667

]7.66 - 7.74] 1 0.0133 0.1667

17

Page 24: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

3. Kontinuert stokastisk variabel

Histogram for pH

pH

6,9 7,1 7,3 7,5 7,7 7,9

0

3

6

9

12

15

18

Vi får det nedenfor tegnede histogram (kan ses beregnet i eksempel 1.5)

Dette viser et "klokkeformet histogram", hvor der er flest tal fra 7.19 til 7.42, og derefter falder

antallet til begge sider.

Man regner normalt med, at resultaterne af forsøg hvor man har foretaget målinger (hvis man

lavede nok af dem) har et sådant klokkeformet histogram. Hvis man tænker sig antallet af forsøg

stiger (for eksempel undersøger hele populationen på måske 1 million nordiske knæ), samtidig

med at man øger antallet af klasser tilsvarende (til for eksempel ) , vil histogrammet10 10006≈

blive mere og mere fintakket, og til sidst nærme sig til en kontinuert klokkeformet kurve (indteg-

net på grafen).

Hvis man benytter den skalerede skala fra skemaet, som også er afsat på højre side af tegningen,

vil arealet af hver søjle være den relative hyppighed, og for den idealiserede kontinuerte kurve,

vil arealet under kurven i et bestemt interval fra a til b være sandsynligheden for at få en værdi

mellem a og b.

Det samlede areal under kurven er naturligvis 1.

Man siger, at den kontinuerte stokastiske variabel X (pH værdien) har en tæthedsfunktion f(x)hvis graf er den ovenfor nævnte kontinuerte kurve.

Da arealet under en kontinuert kurve beregnes ved et bestemt integral, følger heraf følgende

definition:

Bemærk, at for kontinuerte variable er

P a X b P a X b P a X b P a X b( ) ( ) ( ) ( ).≤ ≤ = < ≤ = ≤ < = < <

DEFINITION af tæthedsfunktion f(x) for kontinuert variabel X.

for ethvert interval af reelle tal P a X b f x dxa

b

( ) ( )≤ ≤ = ∫ [ ]a b;

, for alle xf x dx( ) =−∞

∫ 1 f x( ) ≥ 0

18

Page 25: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

3.3 Tæthedsfunktion

Fig.3.1 Tæthedsfunktion

Et eksempel på en tæthedsfunktion for en kontinuert variabel er den i næste kapitel beskrevne

normalfordeling.

Måleresultater vil sædvanligvis være værdier af normalfordelte variable, så en rimelig hypotese

for den i eksempel 3.2 angivne kontinuerte stokastiske variabel X = pH er således, at den er

normalfordelt. Dette bestyrkes af at grafen for sådanne netop er klokkeformede .

Det er væsentlig at finde en central værdi i populationen, samt angive et spredningsmål

Disse angives i de følgende kapitler for de konkrete funktioner, der behandles.

Generelt gælder følgende definitioner

DEFINITION af middelværdi for kontinuert variabel. Middelværdi for en kontinuert variabel X med tætheds-

funktion f ( x ) benævnes eller E ( X ) og er defineret som µ µ = = ⋅−∞

∫E X x f x dx( ) ( )

DEFINITION af varians og spredning for kontinuert variabel. Variansen for en kontinuert variabel X med

tæthedsfunktion f ( x ) benævnes eller V( X ) og er defineret som σ2 σ µ

2 2= = − ⋅

−∞

∫V X x f x dx( ) ( ) ( )

Spredningen (engelsk: standard deviation) for en diskret variabel X med tæthedsfunktion f(x) benævnes og erσ

defineret som σ = V X( )

Eksempel 3.3 Kontinuert stokastisk variabel.

Lad der være givet følgende funktion: .f xx x

( ) =⋅ ≤ <

38

20 2

0

for

ellers

a) Vis, at f x dx( )−∞

∫ = 1

I det følgende antages, at f ( x ) er tæthedsfunktion for en kontinuert stokastisk variabel X.

b) Skitser grafen for f.

c) Beregn middelværdi og spredning for X.

Løsning:

a) .f x dx x dxx

( ) = =

=∫∫−∞

∞38

23

0

2

0

2

81

b) Grafen, som er en del af en parabel, ses på Fig 3.1.

c) .µ = = ⋅ = ⋅ =

=

−∞

∫ ∫E X x f x dx x x dxx

( ) ( )0

22

4

0

2

3

83

32

3

2

. .V X x f x dx x x dxx

( ) ( ) . .= ⋅ − = ⋅ −

=

− =

−∞

∫ ∫2 2 2

0

22

2 5

0

2

3

8

3

23

402 25 015µ σ ( ) . .X = =015 0 387

19

Page 26: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

3. Kontinuert stokastisk variabel

Fordelingsfunktion. I visse situationer er det en fordel at betragte den kontinuerte variabels fordelingsfunktion F(x)

DEFINITION af fordelingsfunktion F(x) for kontinuert variabel.

Fordelingsfunktionen for en kontinuert variabel X er defineret ved F x P X x f x dxx

( ) ( ) ( )= ≤ =−∞∫

DEFINITION af p-fraktil . Lad p være et vilkårligt tal mellem 0 og 1.

Ved p-fraktilen eller 100 p % fraktilen forstås det tal , for hvilket det gælder, at x p

F x P X x pp p

( ) ( )= ≤ = ( ( ) )= ∫ f x dxx p

0

Særlig ofte benyttede fraktiler er 50% fraktilen, som kaldes medianen (eller 2. kvartil), 25 % fraktilen, som kaldes

nedre kvartil (eller 1. kvartil) og 75% fraktilen, som kaldes øvre kvartil (eller 3. kvartil).

Eksempel 3.4. Fordelingsfunktion for kontinuert variabel. For den i eksempel 3.3 angivne kontinuerte variabel X med tæthedsfunktion f (x) ønskes fundet:

1) Fordelingsfunktionen F (x).

2) Medianen .

Løsning:

1)

.

F x f x dx

dx x

x dxx x

x

+ dx =

x

x

x

x

x

( ) ( )= = + =

= ≤ ≤

+

−∞

−∞

0

08 8

0 2

02

80 1

38

23

00

3

3

2

= 0 for < 0

for

for x > 2

2) Medianen er bestemt ved .F xx

x x( ) . . .= ⇔ = ⇔ = ⇔ =0 58

0 5 4 1593

3

20

Page 27: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

3.4 Linearkombination af stokastiske variable

3.4 LINEARKOMBINATION AF STOKASTISKE VARIABLE

Vi betragter i dette afsnit flere stokastiske variable.

Eksempel 3.5 vil blive benyttet som gennemgående eksempel

Eksempel 3.5. To variable.Insektpulver sælges i papkartoner. Lad den stokastiske variable X1 være vægten af pulveret, mens

X2 er vægten af papkartonen. I middel fyldes der 500 gram insektpulver i hver karton med en

spredning på 5 gram. Kartonen vejer i middel 10 gram med en spredning på 1.0 gram.

Y = X1 + X2 er da bruttovægten.

1) Find middelværdien af Y

2) Find spredning af Y.

Mere generelt haves:

Lad være n stokastiske variable.X X X n1 2, , . . . ,

Ved en linearkombination af disse forstås

, hvor er konstanter.Y a a X a X a Xn n

= + ⋅ + ⋅ + + ⋅0 1 1 2 2 ... a a a an0 1 2, , ,...,

Man kan vise (se eventuelt kapitel 11) at der gælder følgende

Linearitetsregel: . E Y a a E X a E X a E Xn n( ) ( ) ( ) ... ( )= + ⋅ + ⋅ + + ⋅0 1 1 2 2

I eksempel 3.5 synes det rimeligt at antage, at vægten af pulveret og vægten af papkartonen er

uafhængige ( påfyldningen kan tænkes at ske maskinelt, uden at den er afhængig på nogen måde

af hvilken vægt, kartonen tilfældigvis har).

Man kan vise (se eventuelt kapitel 11, for en mere udførlig behandling af uafhængighed m.m.),

at hvis er statistisk uafhængige, gælderX X X n1 2, , . . . ,

Kvadratregel for statistisk uafhængige variable:

.V Y a V X a V X a V Xn n( ) ( ) ( ) ... ( )= ⋅ + ⋅ + + ⋅1

2

1 2

2

2

2

Eksempel 3.5. (fortsat) To variable.Spørgsmål 1: E(Y) = E(X1) + E(X2) = 500 + 10 = 510 gram.

Spørgsmål 2: V(Y) = V(X1) + V(X2) = 5 2 + 12 = 26. gram.σ ( ) .Y = =26 51

Ensfordelte uafhængige variable.Lad os antage, at vi uafhængigt af hinanden og under de samme betingelser udtager n elementer

fra en population med middelværdi og spredning . Lad være den stokastiske variabel,µ σ X 1

der er resultatet af første udtagning af et element i stikprøven, være den stokastiske variabel,X 2

der er resultatet af anden udtagning, osv.

vil da være ensfordelte uafhængige stokastiske variable, dvs. have sammeX X X n1 2, , . . . ,

fordeling med middelværdi og spredning . µ σ

21

Page 28: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

3. Kontinuert stokastisk variabel

Eksempel 3.6. Ensfordelte variableBruttovægten af det i eksempel 3.4 nævnte karton insektpulver havde middelvægten 510 g med

en spredning på 5.1 g.

Vi udtager nu tilfældigt og uafhængigt af hinanden 10 pakker insektpulver.

a) Hvad bliver i middel den samlede vægt af de 10 kartonner

b) Hvad bliver i middel spredningen på den samlede vægt af de 10 kartoner

Løsning:Lad X1 være vægten af karton 1, X2 være vægten af karton 2 osv. X10 være vægten af karton 10.

Y= X1 + X2 + ... + X10 er da vægten af alle 10 kartonner.

a) E(Y) = E(X1)+E(X2)+ . . . +E(X10) =10 510 = 5100 g⋅

b) V(Y) = V(X1)+V(X2)+ . . . +V(X10) =10 (5.1)2 = 260.1 g⋅

σ( ) . . .Y = =2601 1613

Bemærk: En almindelig fejl er her, at man tror, at Y=10 X og dermed V(Y)=102 V(X)=2600⋅ ⋅

Vi har her at gøre med 10 ensfordelte uafhængige variable, og ikke 10 vægten af 1 karton.⋅

For ensfordelte uafhængige stokastiske variable gælder:

Bevis: Af linearitetsreglen fås ( )E X EX X X

n

n nE X E X E X

n( )

...( ) ( ) ... ( )=

+ + +

= + + + =

1 2 1

1 2µ

Af kvadratreglen fås .( )V X VX X X n

n nV X V X V X n

n

n n( )

...( ) ( ) ... ( )=

+ +

= + + + =⋅

=

1 1 1

2 1 2

2

2

2σ ο

Eksempel 3.7. Spredning på gennemsnit (eksempel 3.5 fortsat)

Hvis der udtages 5 kartoner insektpulver, hvad vil da være spredningen på gennemsnittet af

vægten af insektpulveret .

Løsning: Da spredningen på 1 karton er 5.1 gram, vil spredningen på gennemsnittet af 5 kartoner være

σσ

( ).

.Xn

= = =51

52 28

Opgave 3.1 Vægten af en (tilfældigt udvalgt) tablet af en vis type imod hovedpine har middelværdien

g og spredningen gµ = 0 65. σ = 0 04.

Beregn middelværdi og spredning af den sammenlagte vægt af 100 (tilfældigt udvalgte) tabletter

SÆTNING 3.1 (middelværdi og spredning for stikprøves gennemsnit )

og , hvor E X( ) = µ σσ

( )Xn

= XX X X

n

n=

+ + +1 2 ...

22

Page 29: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.1 Indledning

4 NORMALFORDELINGEN

4.1 INDLEDNING

Lad os som eksempel tænke os et kemisk forsøg, hvor vi måler udbyttet af et stof A. Selv om vi

gentager forsøget ved anvendelse af den samme metode og i øvrigt søger at gøre forsøgsbetingel-

serne så ensartet som muligt, varierer udbyttet dog fra forsøg til forsøg. Disse variationer fra den

ene forsøg til det næste må skyldes forhold vi ikke kan styre. Det kan skyldes små ændringer i

temperaturen, i luftens relative fugtighed, vibrationer under fremstillingen, små forskelle i de

anvendte råmaterialer (kornstørrelse, renhed), forskelle i menneskelig reaktionsevne osv. Hvis

ingen af disse variationsårsager er dominerende, der er et stort antal af dem, de er uafhængige og

lige så godt kan have en positiv som en negativ indvirkning på resultatet, så vil den totale fejl

sædvanligvis approksimativt være fordelt efter den såkaldte normalfordeling. (også kaldet

Gauss-fordelingen)

Som illustration af dette kan anvendes Galtons apparat.

Eksempel 4.1. Eksperiment med et Galton-apparat.På den anførte figur er skitseret et Galton-apparat.

A er en tragt; B er sømrækker, hvor sømmene i en

underliggende række er anbragt midt ud for mellem-

rummene mellem sømmene i den overliggende række;

C er opsamlingskanaler.

Lader man mange kugler passere gennem tragten A

ned gennem sømrækkerne B til opsamlingskanalerne

C, vil man konstatere, at de enkelte kugler nok bliver

tilfældigt fordelt i opsamlingskanalerne, men at kug-

lernes samlede fordeling giver et mønster, som genta-

ges, hver gang man udfører eksperimentet. Fordelingen er hver gang med tilnærmelse en

klokkeformet symmetrisk fordeling som skitseret på tegningen, noget som er karakteristisk for

normalfordelingen.

Galton-apparatet illustrerer, hvorfor man så ofte antager, at måleresultater er værdier af en

normalfordelt variabel: Hver sømrække repræsenterer en faktor, hvis niveau det ikke er muligt

at holde konstant fra måling til måling, og sømrækkernes påvirkning af kuglens bane symboliserer

den samlede virkning, som de ukontrollerede faktorer har på størrelsen af den målte egenskab.

23

Page 30: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.Normalfordelingen.

En anden illustration af under hvilke omstændigheder en normalfordelt variabel kan forekomme

i praksis så vi i kapitel 2 eksempel 2.5 hvor man på 75 mennesker med en bestemt ledsygdom

målte pH i knæleddet.

Histogrammet som er gentaget nedenfor har et klokkeformet udseende, som kraftigt antyder, at

den kontinuerte stokastiske variabel X = pH er normalfordelt.

I den teoretiske statistik giver den centrale grænseværdisætning en forklaring på, hvorfor

normalfordelingen er en god model ved mange anvendelser.

Den centrale grænseværdi siger (løst sagt), at selvom man ikke kender fordelingen for de n

ensfordelte stikprøvevariable , så vil gennemsnittet være approksimativtX X Xn1 2, , ... , X

normalfordelt blot n er tilstrækkelig stor (i praksis over 30) .

4.2 DEFINITION OG SÆTNINGER OM NORMALFORDELING

Definition af normalfordeling n( , )µ σ

Nornalfordelingen er sandsynlighedsfordelingen for en kontinuert stokastisk variabel X med

tæthedsfunktionen f(x) bestemt ved for ethvert xf x e

x

( ) =⋅ ⋅

⋅− ⋅

1

2

1

2

2

π σ

µ

σ

Den har middelværdi og spredning µ σ

Grafen er klokkeformet og symmetrisk om linien x = .µ

At f (x ) virkelig er en tæthedsfunktion med de angivne egenskaber vises i “Supplement til

statistiske grundbegreber afsnit 2.A”

For at få et overblik over betydningen af og er der nedenfor afbildet tæthedsfunktionen forµ σ

normalfordelingerne n(0 , 1), n(4.8 , 2.2), n(4.8 , 0.7) og n(10 , 1).

Hyppighed

0

2

4

6

8

10

12

14

16

18

20

6,94 7,02 7,1 7,18 7,26 7,34 7,42 7,5 7,58 7,66 Mere

Hyppighed

24

Page 31: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.2 Definition og sætning om normalfordeling

0,1

4,8,2,24,8,0,7

10,1

-7 -3 1 5 9 13 17

0

0,1

0,2

0,3

0,4

0,5

0,6

Fig 4.1 Forskellige normalfordelinger

Det ses, at tæthedsfunktionerne er klokkeformede, og at et interval på [ ; ]µ σ µ σ− ⋅ + ⋅3 3

indeholder stort set hele sandsynlighedsmassen.

Vi nævner uden bevis følgende sætning:

Kendes middelværdi og spredning for de n normalfordelte variable , kan man ved anvendelse af

linearitetsregel og kvadratregel finde Y’s middelværdi og spredning.

Endvidere følger det af additionssætningen, og sætning 3.1, at gennemsnittet er normalfordeltx

med en spredning på .σ

n

SÆTNING 4.1 (Additionssætning for linearkombination af normalfordelte variable).

Er Y en linearkombination af n stokastisk uafhængige , normalfordelte variable, vil Y også

være normalfordelt.

25

Page 32: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.Normalfordelingen.

Normeret normalfordeling

Af særlig interesse er den såkaldte normerede normalfordeling.

Den er bestemt ved at have middelværdien 0 og spredningen 1.

Grafen for den er tegnet som graf A i figur 4.1

Den kaldes sædvanligvis U eller Z og dens fordeling U- eller Z-fordelingen . Dens tæthedsfunk-

tion benævnes og dens fordelingsfunktion .ϕ Φ

Specielt vil dens p - fraktil zp indgå i adskillige formler i de næste afsnit.

Fig 4.2 Normeret normalfunktion

En vigtig sammenhæng mellem fraktiler for X og fraktiler for Z er følgende

(4.1)x zp p= ⋅ +σ µ

Beviset for denne relation indgår i beviset for den følgende sætning, som også viser, at man kan

overføre en vilkårlig normalfordeling til den normerede normalfordeling.

Det er derfor nok at lave en tabel over den normerede normalfordeling.

Dette er det man udnytter, hvis man ikke har rådighed over et program, der som beskrevet i afsnit

4.3 direkte kan beregne værdierne.

Der gælder følgende

Bemærk, at det for de to formler er ligegyldigt, om ulighederne er med eller uden lighedstegn.

SÆTNING 4.2. (normering af normalfordeling). Når X er normalfordelt n( , )µ σ

er den variable normalfordelt , og der gælderZX

=− µ

σn( , )0 1

og .P X bb

( )≤ =−

Φ

µ

σP a X b

b a( )< ≤ =

Φ Φ

µ

σ

µ

σ

Endvidere gælder x zp p= ⋅ +σ µ

26

Page 33: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.3. Beregn af sandsynligheder

Bevis: At Z også er normalfordelt vises ikke her.

E Z EX x

f x dx x f x dx f x dx E X( ) ( ) ( ) ( ) ( )=−

=

−= ⋅ − = − =

−∞

−∞

−∞

∫ ∫∫µ

σ

µ

σ σ

µ

σ σ

µ

σ

1 10

V Z VX x

f x dx x f x dxV X

( ) ( ) ( ) ( )( )

=−

=

= − ⋅ = =

−∞

−∞

∫∫µ

σ

µ

σ σµ

σ

2

2

2

2

11

Z har derfor middelværdi 0 og spredning 1.

Endvidere fås ogP X b PX b

P Zb b

( )≤ =−

≤−

= ≤

=

µ

σ

µ

σ

µ

σ

µ

σΦ

P a X b Pa

Zb b a

( )< ≤ =−

< ≤−

=

µ

σ

µ

σ

µ

σ

µ

σΦ Φ

Bevis for formel 2.1: P X x px

px

z x zp

p p

p p p( )≤ = ⇔−

= ⇔

−= ⇔ = ⋅ +Φ

µ

σ

µ

σσ µ

4.3. BEREGNING AF SANDSYNLIGHEDER

Stikprøves gennemsnit og spredning. Ofte er middelværdien og spredningen ukendt i en foreliggende normalfordeling. I så faldµ σ

erstattes fordelingen i praksis med en approksimerende fordeling , såfremt dern( , )µ σ n x s( , )foreligger et rimelig stort antal observationer fra den givne fordeling.

På basis af den i eksempel 1.5 angivne stikprøve på 75 patienter beregnes et gennemsnit af pH

værdierne på og en s værdi på .x =546 52

75. = 7 2868. s

SAK

n=

−=

10134355.

Vi vil altså antage, at pH værdierne er approksimativt normalfordelt n (7.29, 0.134).

Ønsker vi at benytte ovenstående normal-

fordeling n (7.29, 0.134) til at finde sand-

synligheden for, at pH er mindre end 7.2, er

denne sandsynlighed lig med arealet af det

skraverede areal under tæthedsfunktionen.

Ønsker vi tilsvarende at beregne sandsynligheden

for, at pH ligger mellem 7.2 og 7.5 er sandsynlighe-

den lig med det skraverede areal under kurven på

omstående figur.

27

Page 34: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.Normalfordelingen.

Eksempel 4.2. Beregning med TI89, Ti-Nspire og ExcelLad X være normalfordelt , hvor = 7.29 og = 0.134.n( , )µ σ µ σ

1) Find P X( . )≤ 7 2

2) Find P X( . . )7 2 7 5≤ ≤

3) Find P X( . )> 7 6

4) Find 90% fraktilen x0 9.

Løsning:TI89: Man finder de benyttede sandsynlighedsfordelinger ved at trykke på CATALOG F3

1) normCdf( , 7.2, 7.29, 0.134) = 0.2509P X( . )≤ =7 2 − ∞

2) = normCdf( 7.2,7,5, 7.29, 0.134) = 0.691P X( . . )7 2 7 5≤ ≤

3) normCdf( 7.6, 7.29, 0.134) = 0.0103P X( . )> =7 6 ∞

4) Har man omvendt givet en sandsynlighed p = 0.9 og ønsker at finde den tilsvarende

værdi for hvilken betyder det, at man kender arealet 0.9 og skalx p P X x p( ) .≤ = 0 9

finde x-værdien.

Det svarer jo til at finde den inverse (omvendte) funktion af normalfordelingen.

invnorm(0.9, 7.29, 0.134) = 7.462x0 9. =

TI-Nspire: Vælg Beregninger og skriv som under TI89.(eller vælg”Statistik Fordelinger)

Excel: Man finder de benyttede sandsynlighedsfordelinger ved på værktøjslinien foroven:

Tryk Vælg kategorien “Statistisk”f x

1) NORMFORDELING(7,2;7,29;0,134,1)=0.2509.P X( . )≤ =7 2

2) Beregningen sker ved (se det skraverede areal på figuren ) at beregne arealet fra til 7.5 og derfra− ∞trække arealet fra til 7.2, dvs.− ∞

P X P X P X( . . ) ( . ) ( . )7 2 7 5 7 2 7 5≤ ≤ = ≤ − ≤ =

NORMFORDELING(7,5;7,29;0,134;1)-NORMFORDELING(7,2;7,29;0,134;1)=0,691

3) Da arealet under kurven er 1, fås

=1-NORMFORDELING(7,6;7,29;0,134;1)= 0,01035P X P X( . ) ( . )≥ = − <7 6 1 7 6

4) NORMINV(0.9, 7.29, 0.134) = 7.462 .x0 9. =

28

Page 35: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.3. Beregn af sandsynligheder

Eksempel 4.3. Kvalitetskontrol.En fabrik støber plastikkasser. Fabrikken får en ordre på kasser, som blandt andet har den

specifikation, at kasserne skal have en længde på 90 cm. Kasser, hvis længder ikke ligger mellem

tolerancegrænserne 89.2 og 90.8 cm bliver kasseret.

Det vides, at fabrikken producerer kasserne med en længde X, som er normalfordelt med en

spredning på 0.5 cm.

a) Hvis X har en middelværdi på 89.6, hvad er så sandsynligheden for, at en kasse har en længde,

der ligger indenfor tolerancegrænserne.

b) Hvor stor er sandsynligheden for at en kasse bliver kasseret, hvis man justerer støbningen, så

middelværdien bliver den der giver den mindste procentdel kasserede (spredningen kan man

ikke ændre).

Fabrikanten finder, at selv efter den i spørgsmål 2 foretagne justering kasseres for stor en procent-

del af kasserne. Der ønskes højst 5% af kasserne kasseret.

c) Hvad skal spredningen formindskes til, for at dette er opfyldt?σ

Hvis det er umuligt at ændre , kan man prøve at få ændret tolerancegrænserne.σ

d) Find de nye tolerancegrænser (placeret symmetrisk omkring middelværdien 90,0) idet spred-

ningen stadig er 0.5, og højst 5% må kasseres.

En ny maskine indkøbes, og som et led i en undersøgelse af, om der dermed er sket ændringer i

middelværdi og spredning produceres 12 kasser ved anvendelse af denne maskine.

Man fandt følgende længder: 89.2 90.2 89.4 90.0 90.3 89.7 89.6 89.9 90.5 90.3 89.9 90.6.

e) Angiv på dette grundlag et estimat for middelværdi og spredning.

LØSNING: TI89: Man finder de benyttede sandsynlighedsfordelinger ved at trykke på CATALOG F3

a) normCdf(89.2, 90.8, 89.6, 0.5)= 0.7799 = 77.99%P X( . . )89 2 908≤ ≤ =

b) Middelværdien justeres til midtpunktet 90.0normCdf(90.8 , , 90, 0.5)+normCdf(- ,89.2, 90, 0.5)= 10.96%P X P X( . ) ( . )> + < =908 89 2 ∞ ∞

c) Da der ligger 5% udenfor intervallet, så må af symmetrigrunde 2,5% ligge på hver sin side

af intervallet. Vi har følgelig, at vi skal finde spredningen så σ P X( . ) .≤ =89 2 0 025

Metode 1:Af relationen (4.1) fås

.89 2 900 8 0 8

0 0250 4080 025

0 025

.. .

( . )..

.

= ⋅ + ⇔ =−

⇔ =−

=zz invNorm

σ σ σ

Metode 2: solve( normCdf( ,89.2, 90,x)=0.025,x)−∞ x > 0

eller solve(invNorm(0.025,90,x)=89.2,x) Resultat x =x > 0 σ = 0 408.

d) Kaldes den nedre tolerancegrænse for a fås med samme begrundelse som i punkt c :

. Vi kan her benytte den “inverse” normalfordelingP X a( ) .≤ = 0 025

Nedre grænse a = invNorm(0.025, 90,0.05) = 89.02

Øvre grænse b = 90 +(90 - 89.02) = 90.98

e) APPS Stat/List indtastning af de 12 tal i list1 F4 :Calc Udfylde menu

Man finder og x = 89 97. s = 0 435.TI-Nspire:

a) + b) Vælg Beregninger og skriv som under TI89.(eller vælg”Statistik Fordelinger)

c) Skriv nSolve(invNorm(0.025,90,x)=89.2,x)|x>0 (da ikke findes eksakt løsning bruges nsolve)

d) som TI89

e) Lister og regneark giv en liste et navn og indtal tal i listen vælg statistik statistiske beregninger

statistik med 1 variabel udfyld menuer Enter. Blandt mange tal findes gennemsnit og spredning

29

Page 36: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.Normalfordelingen.

Excel: Man finder de benyttede sandsynlighedsfordelinger ved

På værktøjslinien foroven: Tryk Vælg kategorien “Statistisk”f x

a) P X P X P X( . . ) ( . ) ( . )89 2 908 908 89 2≤ ≤ = ≤ − ≤ =

NORMFORDELING(90,8;89,6;0,5;1) - NORMFORDELING(89,2;89,6;0,5;1)=0,7799

b) Middelværdien justeres til midtpunktet 90.0P X P X( . ) ( . )> + < =908 89 2 1 908 89 2− ≤ + < =P X P X( . ) ( . )

1 -NORMFORDELING(90,8;90;0,5;1) - NORMFORDELING(89,2;90;0,5;1) = 0.1096

c) Metode 1: Som under TI89, punkt c

=(-0.8)/NORMINV(0,025;0;1)=0,408171 0.408σ ≈

Metode 2: I celle A1 skrives en startværdi for eksempelvis 0,5.σI celle B1 skrives =NORMFORDELING(89,2;90;A1;1)

2003: Funktioner “Målsøgning”

2007: Data Hvad-hvis analyse ”MålsøgningI “Angiv celle” skrives B1. I “Til Værdi” skrives 0,025. I “Ved ændring af celle” skrives A1.

2010: som 2007 men kaldes What if analyse Facit :0,408444

d) Med samme begrundelse som under TI89 punkt d fås:

.P d X d P X d P X d( . . ) . ( . ) . ( . ) .90 0 90 0 0 95 90 0 0 025 90 0 0 975− < < + = ⇔ ≤ − = ≤ + =og

Vi får nedre grænse =NORMINV(0,025;90;0,5) = 89,02002 = 89.0

Øvre grænse =NORMINV(0,975;90;0,5) = 90,97998 = 91.0

5) Ved indtastning af de 12 tal i Excel i cellerne A1 til A12 findes og s = STDAFV(A1:A2) = 0.435x A A= =Middel( 1 12 89 97: ) .

Eksempel 4.4. Additionssætning.En boreproces fremstiller huller med en diameter , der er normalfordelt med en middelværdi X1 µ1

og en spredning på 0.04. En anden proces fremstiller aksler med en diameter , der er normal-X 2

fordelt med en middelværdi og en spredning på 0.03.µ 2

Antag, at , og at . µ1 10 00= . µ 2 9 94= .Find sandsynligheden for, at en tilfældig valgt aksel har en mindre diameter end en tilfældig valgt

borehul.

LØSNING:

P X X P X X( ) ( ).2 1 2 1 0< = − <

Sættes er Y normalfordelt. Y X X= −2 1

.E Y E X E X( ) ( ) ( ) . . .= − = − = −2 1 9 94 10 00 0 06

V Y V X V X( ) ( ) ( ) ( ) . . .= + − = + =1 1 0 04 0 03 0 0252

2

2

1

2 2σ ( ) . .Y = =0 0025 0 05

TI89+TI-Nspire: normCdf( , 0, -0.06, 0.05) = 0.8849 = 88.49% P X X P Y( ) ( )2 1 0< = < = − ∞

Excel: NORMFORDELING(0;-0,06;0,05;1) = 0.8849P X X P Y( ) ( )2 1 0< = < =

30

Page 37: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 2

OPGAVER

Opgave 4.1

1) En stokastisk variabel X er normalfordelt med = 0 og = 1. µ σ

Find og P X P X( . ), ( . )≤ >0 75 16 P X( . . ).0 75 16< <

2) En stokastisk variabel X er normalfordelt med = 25.1 og = 2.4. µ σ

Find .P X( . . )22 3 27 8< ≤

Opgave 4.2

Maksimumstemperaturen, der opnås ved en bestemt opvarmningsproces, har en variation der er

tilfældig og kan beskrives ved en normalfordeling med en middelværdi på 113.3o og en spredning

på 5.6oC.

1) Find procenten af maksimumstemperaturer, der er mindre end 116.1oC.

2) Find procenten af maksimumstemperaturer, der ligger mellem 115oC og 116.7oC.

3) Find den værdi, som overskrides af 57.8% af maksimumstemperaturerne.

Man overvejer at gå over til en anden opvarmningsproces. Man udfører derfor 16 gange i løbet

af en periode forsøg, hvor man måler maksimumstemperaturen, der opnås ved denne nye proces.

Resultaterne var

116.6 , 116,6 , 117,0 , 124,5 , 122,2 , 128,6 , 109,9 , 114,8 , 106,4 , 110,7, 110,7 , 113,7 , 128,1,

118,8 , 115,4 , 123,1

4) Giv et estimat for middelværdien og spredningen.

Opgave 4.3

En fabrik planlægger at starte en produktion af rør, hvis diametre skal opfylde specifikationerne

2,500 cm ± 0,015 cm.

Ud fra erfaringer med tilsvarende produktioner vides, at de producerede rør vil have diametre, der

er normalfordelte med en middelværdi på 2,500 cm og en spredning på 0,010 cm. Man ønsker

i forbindelse med planlægningen svar på følgende spørgsmål:

1) Hvor stor en del af produktionen holder sig indenfor specifikationsgrænserne.

2) Hvor meget skal spredningen ned på, for, at 95% af produktionen holder sig indenforσ

specifikationsgrænserne (middelværdien er uændret på 2,500 cm).

3) Fabrikken overvejer, om det er muligt at få indført nogle specifikationsgrænser (symmetrisk

omkring 2,500), som bevirker, at 95% af dets produktion falder indenfor grænserne. Find disse

grænser, idet det stadig antages at middelværdien er 2.500 og spredningen 0.010 cm.

Opgave 4.4

En automatisk dåsepåfyldningsmaskine fylder hønskødssuppe i dåser. Rumfanget er normalfor-

delt med en middelværdi på 800 ml og en spredning på 6,4 ml.

1) Hvad er sandsynligheden for, at en dåse indeholder mindre end 790 ml?.

2) Hvis alle dåser, som indeholder mindre end 790 ml og mere end 805 ml bliver kasseret, hvor

stor en procentdel af dåserne bliver så kasseret?

3) Bestem de specifikationsgrænser der ligger symmetrisk omkring middelværdien på 800 ml,

og som indeholde 99% af alle dåser.

31

Page 38: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

4.Normalfordelingen.

Opgave 4.5

I et laboratorium lægges et nyt gulv.

Det forudsættes, at vægten Y der hviler på gulvet, er summen af vægten X1 af maskiner og

apparater og vægten X2 af varer og personale, dvs. Y = X1 + X2

Da både X1 og X2 er sum af mange relativt små vægte, antages det, at de er normalfordelte.

Det antages endvidere at X1 og X2 er statistisk uafhængige.

Erfaringer fra tidligere gør det rimeligt at antage, at der gælder følgende middelværdier og

spredninger (målt i tons):

E(X1) = 6.0, = 1.2, E(X2) = 3.5, = 0.4.σ ( )X 1 σ ( )X 2

1) Beregn E(Y) og .σ ( )Y

2) Beregn det tal y0 , som vægten Y med de ovennævnte forudsætninger kun har en sandsynlighed

på 1% for at overskride.

3) Beregn sandsynligheden for, at vægten af varer og personale en tilfældig dag, efter at det nye

gulv er lagt, er større end vægten af maskiner og apparater. (Vink: se på differensen X2 - X1)

Opgave 4.6

Ved fabrikation af et bestemt mærke opvaskemiddel fyldes vaskepulver i papkartoner.

I middel fyldes 4020 g pulver i hver karton, idet der herved er en spredning på 12 g.

Pulverfyldningen kan forudsættes ikke at afhænge af kartonernes vægt, der i middel er 250 g med

en spredning på 5g.

Beregn sandsynligheden p for, at en tilfældig pakke opvaskemiddel har en bruttovægt mellem

4250 g og 4300 g.

Opgave 4.7

Et system er af sikkerhedsmæssige grunde opbygget af to apparater A, der er parallelforbundne

(se figur) således, at systemet virker, så længe blot et af appara-

terne virker.

Svigter et af apparaterne, startes reparation. Det antages, at re-

parationstiden er normalfordelt med middelværdien

= 10 timer og spredning = 3 timer.µrep

σrep

I reparationstiden overbelastes den anden komponent, og det antages, at dens levetid fra reparatio-

nens start (approksimativt) er normalfordelt med middelværdi og spredning = 4 timer.µ σ

1) Find sandsynligheden for, at reparationen er afsluttet, inden den anden komponent fejler, hvis

= 20 timer.µ

2) Hvor stor skal være, for at sandsynligheden for, at reparationen kan afsluttes før den andenµ

komponent fejler, er mere end 99.9%?

Opgave 4.8

Vægten af en (tilfældig udvalgt) tablet af en vis type mod hovedpine har middelværdien 0.65 g

og spredningen 0.04 g.

1) Beregn middelværdi og spredning af den sammenlagte vægt af 100 (tilfældigt udvalgte )

tabletter.

2) Antag, at man benytter følgende metode til at fylde tabletter i et glas. Man placerer glasset på

en vægt og fylder tabletter på, indtil vægten af tabletterne i glasset overstiger 65,3 g. Beregn

sandsynligheden for, at glasset kommer til at indeholde mere end 100 tabletter (se bort fra

vægtens fejlvisning).

32

Page 39: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

1.3 Stikprøver

5. Konfidensinterval for normalfordelt variabel

5.1 UDTAGNING AF STIKPRØVER

I langt de fleste i praksis forekomne tilfælde vil det bl.a. af tidsmæssige og omkostningsmæssige

grunde være umuligt at foretage en totaltælling af hele populationen. Helt klart er dette ved

afprøvningen ødelægger emnet (åbning af konservesdåser) eller populationen i princippet er

uendelig ( for at undersøge om en metode giver et større udbytte end et andet, udføres en række

kemiske forsøg og her er der teoretisk ingen øvre grænse for antal delforsøg)

Som det senere vil fremgå kan selv en forholdsvis lille repræsentativ stikprøve give svar på

væsentlige forhold omkring hele populationen.

Det er imidlertid klart, at en betingelse herfor er, at stikprøven er repræsentativ, dvs. at

stikprøven med hensyn til den egenskab der ønskes er et “mini-billede” af populationen.

For at opnå det, foretager man en eller anden form for lodtrækning (kaldes randomisering).

Afhængig af problemet kan dette gøres på forskellig måde.

Simpel udvælgelse: Den enkleste form for stikprøveudtagning er, at man nummererer

populationens elementer, og så randomiserer (ved lodtrækning, evt. ved at benyttet et program

der generer tilfældige tal) udtager de N elementer der skal indgå i stikprøven.

Eksempel: For at undersøge om en ændring af vitaminindholdet i foderet for svin ændrede deres

vægt, udvalgte man ved randomisering de svin, som fik det nye foder.

Stratificeret udvælgelse.Under visse omstændigheder er det fordelagtigt (mindre stikprøvestørrelse for at opnå samme

sikkerhed) at opdele populationen i mindre grupper (kaldet strada), og så foretage en simpel

udvælgelse indenfor hver gruppe. Dette er dog kun en fordel, hvis elementerne indenfor hver

gruppe er mere ensartet end mellem grupperne.

Eksempel: Ønsker man at spørge vælgerne om deres holdning til et politisk spørgsmål (f.eks. om

deres holdning til et skattestop) kunne det måske være en fordel at dele dem op i indkomstgrupper

(høj, mellem og lav) .

Systematisk udvælgelse:Ved en såkaldt systematisk udvælgelse, vælger man at udtage hver k’te element fra populationen.

Eksempel: En detailhandler ønsker at måle tilfredsheden hos sine kunder. Der ønskes udtaget 40

kunder i løbet af en speciel dag.

Da man naturligvis ikke på forhånd kender de kunder der kommer i butikken, vælges en

systematisk udvælgelse, ved at vælge hver 7'ende kunde der forlader butikken. Man starter dagen

med ved lodtrækning at vælge et af tallene fra 1 til 7. Lad det være tallet 5. Man udtager nu kunde

nr. . Derved har man fået valgt i alt 40 kunder.5 5 1 7 12 5 2 7 19 5 39 7 278, , , ... ,+ ⋅ = + ⋅ = + ⋅ =

Problemet er naturligvis, om tallet 7 er det rigtige tal. Hvis man får valgt tallet for stort,

eksempelvis sætter det til 30, så vil en stikprøve på 40 kræve, at der er 1175 kunder den dag, og

det behøver jo ikke at være tilfældet. Omvendt hvis tallet er for lille, så får man måske udtaget

de 40 kunder i løbet af formiddagen, og så er stikprøven nok ikke repræsentativ, da man ikke får

eftermiddagskunderne med.

33

Page 40: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5 Stikprøver

Klyngeudvælgelse (Cluster sampling)

Denne metode kan med fordel benyttes, hvis populationen består af eller kan inddeles i

delmængder (klynger) . Metoden består i, at man ved randomisering vælger et mindre antal

klynger, som så totaltælles.

Eksempel: I et vareparti på 2000 emner fordelt på 200 kasser hver med 10 emner ønsker man en

vurdering af fejlprocenten. I alt ønskes udtaget 50 emner.

Man udtager randomiseret 5 kasser, og undersøger alle emnerne i kasserne.

5.2. FORDELING OG SPREDNING AF GENNEMSNIT

Udtages en stikprøve fra en population er det jo for, at man ud fra stikprøven kan fortælle noget

centralt om hele populationen.

I eksempel 1.5 var vi således interesseret i koncentrationen af brintioner (pH) i ledvæsken i knæet

hos patienter, der led af denne sygdom.

Som led i en nordisk medicinsk undersøgelse udtog man blandt patienter der led af denne sygdom

tilfældigt en stikprøve på 75.

På basis heraf beregnede man gennemsnittet af pH værdierne til = 7.2868 og spredningen x

s = 0.134355 .

Man vil nu sige, at et estimat (skøn) for den “sande” middelværdi for hele populationen er 7.29µ

og den “sande” spredning” er 0.134.σ

Det er imidlertid klart, at disse tal er behæftet med en vis usikkerhed.

Havde vi valgt 75 andre patienter havde vi uden tvivl fået lidt andre tal.

Det er derfor ikke nok, at angive at den “sande” middelværdi er , vi må også angive etx“usikkerhedsinterval”.

For at kunne beregne et sådant interval er det nødvendigt at kende fordelingen.

Her spiller den tidligere nævnte centrale grænseværdisætning en vigtig rolle, idet den jo (løst sagt)

siger, at selv om man ikke kender fordelingen af den kontinuerte stokastiske variabel, så vil

gennemsnittet af værdierne i en stikprøve på n tal vil være tilnærmelsesvis normalfordelt, hvis

blot n er tilstrækkelig stor ( i praksis over 30).

Dette er af stor praktisk betydning, idet det så ikke er så vigtigt, om selve populationen er

normalfordelt. Ofte er det jo kun af interesseret at kunne forudsige noget om hvor middelværdien

af fordelingen er placeret.

Endvidere fremgik det af sætning 3.1 , at spredningen på er , hvor erx σσ

( )xn

= σ

spredningen på den enkelte værdi i stikprøven.

Heraf fremgår, at gennemsnittet kan man “stole” mere på end den enkelte måling, da den har en

mindre spredning.

34

Page 41: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5.3 Konfidensinterval for middelværdi

Eksempel 5.1. Fordeling af gennemsnit Den tid, et kunde må venter i en lufthavn ved en check-in disk, er givet at være en stokastisk

variabel med en ukendt fordeling. Man har dog erfaring for, at ventetiden i middel er på 8.2

minutter med en spredning på 3 minutter.

Udtages en stikprøve på 50 kunder, ønskes fundet sandsynligheden for, at den gennemsnitlige

ventetid for disse kunder er mellem 7 og 9 minutter

Løsning:Da antallet n i stikprøven på 50 er større end 30, kan vi antage at gennemsnittet er approksimativt

normalfordelt med en middelværdi på 8.2 og en spredning på .σσ

xn

= = =3

500 424.

Vi har derfor

TI89+TI-Nspire: normCdf(7,9,8.2,0.424) = 0.9681 = 96.8%P X( )7 9< < =

Excel: =P X P X P X( ) ( ) ( )7 9 9 7< < = < − <

NORMFORDELING(9;8,2;0,424;1)-NORMFORDELING(7;8,2;0,429;1) =0,9681 = 96.8%

5.3. KONFIDENSINTERVAL FOR MIDDELVÆRDI

5.3.1 Definition af konfidensintervalUdtages en stikprøve fra en population er det jo for, at man ud fra stikprøven kan fortælle noget

centralt om hele populationen.

Man vil eksempelvis beregne gennemsnittet og angive det som et estimat (skøn) for den “sande”x

middelværdi for hele populationen µ

Det er imidlertid klart, at selv om et gennemsnit har en mindre spredning end den enkelte måling,

så er det stadig behæftet med et vis usikkerhed

Det er derfor ikke nok, at angive at den “sande” middelværdi er , vi må også angive etx“usikkerhedsinterval”.

Et interval indenfor hvilket den “sande værdi” med eksempelvis 95% “sikkerhed” vil ligge,µ

kaldes et 95% konfidensinterval for middelværdien.

Mere præcist gælder det, at hvis man for et stort antal stikprøver på den samme stokastiske

variabel angav 95% konfidensintervaller, så ville den sande middelværdi tilhøre 95% af disse

intervaller.1

1Præcis definition af konfidensinterval. Lad være givet en stikprøve for en stokastisk variabel X, lad være et talβ

mellem 0 og 1. Lad endvidere være en punktestimator for parameteren og lad L og U være stokastiske variable,Θ θ

for hvilke det gælder, at . På basis af den givne stikprøve findes tal l og u som bestemmer det ønskedeP L U( )≤ ≤ =θ β

interval . Dette kaldes et procent konfidensinterval for den ukendte parameter .l u≤ ≤θ 100 ⋅ β θ

35

Page 42: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5 Stikprøver

xx r− x r+

Fig 5.1. 95% konfidensinterval

5.3.2. Populationens spredning kendt eksakt

Et 95% konfidensinterval må ligge sym-[ ; ]x r x r− +

metrisk omkring gennemsnittet, og således, at

.P x r X x r( ) .− ≤ ≤ + = 0 95

Heraf følger, at hvis den sande middelværdi ligger i etµ

af de farvede områder på figur 5.1, så er der mindre end

2.5% chance for, at vi ville have fået det fundne gennem-

snit .x

For at finde grænsen for intervallet, må vi finde en middel-

værdi så .µ P X x( ) .≤ = 0 025

Man må her huske, at et gennemsnit har spredningen , hvor σ er spredningen på den enkelteσ

n

måling og n er antal målinger i stikprøven.

Fremfor at løse ovenstående ligning, er det lettere at benytte formlen som vedx zp p= + ⋅µ σ

benyttelse af, at giver følgende sætningσσ

( )Xn

=

Er spredningen eksakt kendt er et 95% konfidensinterval bestemt ved formlen

(1)x zn

x zn

− ⋅ ≤ ≤ + ⋅0 975 0 975. .

σµ

σ

Sædvanligvis udtrykkes de generelle formler ved signifikansniveauet , som er sandsynlighedenα

for at begå en fejl . sættes sædvanligvis til 10%, 5%, 1 % eller 0.1% svarende til henholdsvisα

90%, 95%, 99% og 99.9% konfidensintervaller.

I så fald bliver formlen (udtrykt ved ) (2)αx z

nx z

n− ⋅ ≤ ≤ + ⋅

− −12

12

α α

σµ

σ

Alle de anvendte regnemidler har programmer, der automatisk beregner enten konfidensinterval

eller radius r i konfidensintervallet.

36

Page 43: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5.3 Konfidensinterval for middelværdi

Eksempel 5.2. Konfidensinterval hvis spredningen er kendt eksaktLad gennemsnittet af 12 målinger være , og lad os antage, at spredningen kendes eksaktx = 90

til 0.5.σ =

Bestem et 95% konfidensinterval for middelværdien µ.

Løsning:Metode 1 Løsning af ligning:

Vi ved, at spredningen på gennemsnittet er “standardfejlen” .σσ

( ).

.Xn

= = =05

1201443

For at finde grænsen kunne man finde af ligningenµ P X( ) .≤ =90 0 025

TI89: solve(normCdf ( ,90, x, 0.1443) =0.025,x) Resultat 90.283−∞

Radius r = 90.283 - 90 = 0.283.

Konfidensinterval [90 - 0.283; 90 + 0.283] = [89.717 ; 90.283]

TI-Nspire: Som TI89 idet man dog skriver nsolve

Excel 2

Metode 2 Benytte formel x zn

x zn

− ⋅ ≤ ≤ + ⋅− −1

21

2

α α

σµ

σ

TI89: r = = 0.283 z0 975512

0 9750 5

12. ( . )

.⋅ = ⋅

σnorminv

Da der er symmetri omkring fås konfidensintervallet [90-0.283;90+0.283] = [89.717 ; 90.283] x

TI-Nspire samme formel

Metode 3: Benytte regnemaskiners program

TI89: APPS STAT/LIST F7, 2: Z-Interval Vælg Stats Udfyld menuen med 0.5 90 12 osv.

Resultat [85.72 ; 90.283 ]TI-Nspire: Beregninger Statistik Konfidensintervaller z-interval for 1 variabel menu:Statisk udfyld menu ENTER

Excel: På værktøjslinien foroven: Tryk på = eller Vælg kategorien “Statistisk” Vælg “konfidensniveau “f x

udfylde menuen : r = KONFIDENSINTERVAL(0,05;5;12)=0.283

95% konfidensinterval: [90-0.283;90+0.283] = [89.717 ; 90.283]

Vi ved derfor med 95% “sikkerhed”, at populationens sande middelværdi ligger indenfor disse

intervaller3.

2I celle A1 skrives en startværdi for eksempelvis 90. I celle B1 skrivesµ

=NORMFORDELING(90;A1;0,5/0.1443;1) Funktioner “Målsøgning” I “Angiv celle” skrives B1. I “Til

Værdi” skrives 0,025. I “Ved ændring af celle” skrives A1. Resultat 90,2841

3Mere præcist, at af de 100 stikprøver med tilhørende 95% konfidensintervaller, vil i middel kun 5 af disse

intervaller ikke indeholde den sande værdi.

37

Page 44: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5 Stikprøver

5.3.3. Populationens spredning ikke kendt eksaktSædvanligvis er populationens spredning jo ikke eksakt kendt, men man regner et estimat s udσ

for den.

Da s jo også varierer fra stikprøve til stikprøve, giver dette en ekstra usikkerhed, så konfidensinter-

vallet for bliver bredere.µ

Hvis stikprøvestørrelsen er over 30 er denne usikkerhed dog uden væsentlig betydning, så i

sådanne tilfælde kan man i formel (1) (eller formel (2)) blot erstatte med s.σ

Er stikprøvestørrelsen under 30 bliver denne usikkerhed på s så stor, at man i formel (1) må

erstatte Z-fraktilen med en såkaldt T-fraktil t0.975(f) (også benævnt ) hvor frihedsgrad-z0 975. t f0 975. ,

stallet f = n - 1, og n = antal målinger).

(eller udtrykt ved i formel (2) erstatte z- fraktilen med t - fraktilen .)α z1

2−

α tf1

2−

α,

t-fordelingerEn t - fordeling har samme klokkeformede udseende som en Z - fordeling (en normalfordeling

med middelværdi 0 og spredning 1)

I modsætning til Z - fordelingen afhænger dens udseende imidlertid af antallet n af tal i stikprøven.

Er frihedsgradstallet f = n -1 stort (over 30) er forskellen mellem en U- fordeling og en t-

fordeling uden praktisk betydning.

Er f lille bliver t - fordelingen så meget bredere end Z - fordelingen, at t-fordelingen må anvendes

i stedet for Z-fordelingen.

Grafen viser tæthedsfunktionen for t-fordelingerne for f = 1, 5 og 30.

Eksempel 5.3. Beregning af t-værdier.1) Find og .t0 975 12. ( ) t0 025 12. ( )2) Find , hvor X er t - fordelt med 12 frihedsgrader.P X( )≥ 1

Løsning:TI-89: 1) = inv_t(0.975,12) = 2.18t0 975 12. ( )

= inv_t(0.025,12) = -2.18t0 025 12. ( )

2) = tCdf(1, ,12) = 0.1685 = 16.85%P X( )≥ 1 ∞TI-Nspire: skriv invt(0.975,12) osv som TI89

38

Page 45: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5.3 Konfidensinterval for middelværdi

Excel:

På værktøjslinien foroven: Tryk på = eller Vælg kategorien “Statistisk” Vælg “TINV”f x

Der fremkommer en tabel med anvisning på, hvordan den skal udfyldes.

Bemærk: TINV( ; f) udregner den fraktil, der svarer til 1 - αα

2

Sætter vi således fås , dvs. der beregnes arealet af “øverste hale” hvilket jo også altid er det man harα = 5% t0 975.

brug for.1) = TINV(0.05;12) = 2,178813t0 975 12. ( )

= - 2,178813t0 025 12. ( )

2) =TFORDELING(1;12;1) = 0,168525P X( )≥ 1

(eller udtrykt ved (4)α x ts

nx t

s

nn n

− ⋅ ≤ ≤ + ⋅− − − −1

21 1

21

α αµ, ,

Eksempel 5.4. Konfidensinterval, hvis spredningen ikke er kendt eksakt.Ved fremstilling af et bestemt levnedsmiddel er det vigtigt, at et tilsætningsstof findes i

levnedsmidlet i en koncentration på 8.50 (g/l).

For at kontrollere dette udtager levnedsmiddelkontrollen 6 prøver af levnedsmidlet. Resultaterne

var:

Måling nr 1 2 3 4 5 6

koncentration x (g/l) 8.54 7.89 8.50 8.21 8.15 8.32

Idet man antager, på baggrund af tidligere lignende målinger, at resultaterne er normalfordelte,

skal man besvare følgende spørgsmål:.

a) Angiv et estimat for koncentrationens middelværdi og spredning.

b) Angiv et 95% konfidensinterval for koncentrationen, og vurder herudfra om kravet på 8.50

er opfyldt.

LøsningSåvel TI89, Ti-Nspire som Excel har indbygget programmer, så man ikke behøver at anvende

formlerne direkte.

a) TI-89: APPS Stat/List Indtast tal i en liste F7, 2: T-Interval Vælg Data Udfyld menuen

Resultater: og .x = 8 268. s = 0 241.

b) C Int : [ . ; . ]8 02 852

Da intervallet indeholder 8.50, er kravet opfyldt, men da intervallet kun lige netop indeholder

tallet 8.50, så det vil nok være rimeligt, at foretage en ny vurdering på basis af nogle flere

målinger.

TI-Nspire Lister og regneark udfyld liste (husk overskrift) Statistik Konfidensintervaller t-interval for 1 variabel nenu:data ud-

fyld menu ENTER

Er spredningen ukendt er et 95 % konfidensinterval bestemt ved formlen:

(3)x t ns

nx t n

s

n− − ⋅ ≤ ≤ + − ⋅0 975 0 9751 1, .( ) ( )µ

39

Page 46: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5 Stikprøver

Excel: Data indtastes i cellerne A1 til A6

Excel: 2003: Funktioner 2007 + 2010: Data derefter Dataanalyse Beskrivende statistik udfyld inputområde vælg Resumestatistik og konfidensniveau

Middelværdi 8,268333333

Standardfejl 0,098434976

Median 8,265

Tilstand #I/T

Standardafvigelse 0,241115463

Stikprøvevarians 0,058136667

Kurtosis -0,2376446

Skævhed -0,500530903

Område 0,65

Minimum 7,89

Maksimum 8,54

Sum 49,61

Antal 6

Konfidensniveau(95,0%) 0,25303516

a) Resultater: og .x = 8 268. s = 0 241.

b) 95% konfidensinterval: hvor r = 0.253x r r± = ±8 268.[8.268 -0.253 ; 8.268 + 0.253] =[8.02 ; 8.52]

Eksempel 5.5 Konfidensinterval, hvis originale data ikke kendtFind konfidensintervallet for middelværdien , idet stikprøven er på 20 tal, som har etµ

gennemsnit på 50 og en spredning på 12.

Løsning:TI89:APPS Stat/List F7, 2: T-Interval Vælg Stats Udfyld menuen

C Int :[44.38 ; 55.62]TI-Nspire: Beregninger Statistik Konfidensintervaller t-interval for 1 variabel menu:Statisk udfyld

menu ENTER

Excel : Har intet færdigt program, så her må man anvende formlen for konfidensinterval

I kolonne D er de formler angivet, som er brugt i kolonne E, men kolonne D er naturligvis

strengt taget unødvendig.

Bemærk, at for overskuelighedens skyld er udskrevet gitterlinier og søjle/række overskrifter

(se herom side 129)

A B C D E

1 Eksempel 4.6 Konfidensradius r = TINV(B6;B3-1)*B5/KVROD(B3) = 5,616173

2 nedre grænse = B4-E1 44,38383

3 n = 20 øvre grænse = B4+E1 55,61617

4 gennemsnit = 50

5 spredning s = 12

6 Signifikansniveau α = 0,05

95% konfidensinterval: [44.38 ; 55.62]

40

Page 47: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5.3 Konfidensinterval for middelværdi

Prædistinationsinterval. Ved mange anvendelser ønsker man at forudsige, hvor værdien af

en kommende observation af den variable med 95%”sikkerhed” vil falde, snarere end at give

et 95% konfidensinterval for middelværdien af den variable. Man siger, at man ønsker at

bestemme et 95% prædistinationsinterval (forudsigelsesinterval).

Bevis: Lad være en enkelt fremtidig observation. Eftersom er uafhængig af de øvrige X’er, erX n+1 X n+1

også uafhængig af . X n+1 X

Variansen af differensen er følgelig .X X n−+1 V X X V X V X

n nn n( ) ( ) ( )− = + = + = +

+ +1 1

22 2 1

1σσ σ

Da man sædvanligvis først regner konfidensintervallet ud, så er den nemmeste måde at beregne

det tilsvarende prædistinationsinterval at benytte, at radius rp i prædistinationsinterval fås af

radius rk i konfidensintervallet ved formlen r r np k= ⋅ +1

Bevis: r sn

sn

ns

n

n

s

nn r n

p k= ⋅ + =

+=

+= + = +1

1 1 11 1

Eksempel 5.6. Prædistinations-interval for middelværdi af normalfordeling.Samme problem som i eksempel 5.4, men nu ønskes bestemt et 95% prædistinationsinterval

for en enkelt ny måling af koncentrationen.

LøsningDa konfidensintervallet har længden 8.52 - 8.02 = 0.50 er radius rk = 0.25

Vi har derfor rp= og dermed 0 25 6 1 0 66. .⋅ + =

95% prædistinationsinterval .[ ] [ ]= − + ==8 27 0 66 8 27 0 66 7 61 8 93. . ; . . . ; .

Bestemmelse af stikprøvens størrelseFør man starter sine målinger, kunne det være nyttigt på forhånd at vide nogenlunde hvor

mange målinger man skal foretage, for at få resultat med en given nøjagtighed.

Hvis spredningen antages kendt , ved vi, at radius i konfidensintevallet er

r zn

= ⋅−1

2

α

σ

Løses denne ligning med hensyn til n fås

n

z

r=

−12

2

α σ

SÆTNING 4.2 ( % prædiktionsinterval for en enkelt observation ).100 1⋅ −( )α

Et % prædiktionsinterval for en enkelt fremtidig observation Xn+1 er bestemt ved100 1⋅ −( )α

.x t n sn

x t n sn

− − ⋅ ⋅ + ≤ ≤ + − ⋅ ⋅ +− −1

21

2

1 11

1 11

α αµ( ) ( )

41

Page 48: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5 Stikprøver

Det grundlæggende problem er her, at man næppe kender spredningen eksakt.

Man kender muligvis på basis af tidligere erfaringer størrelsesordenen af spredningen. Hvis

ikke må man eventuelt lave nogle få målinger, og beregne et s på basis heraf.

Som en første tilnærmelse antages, at antallet af gentagelser n er over 30, så man kan bruge U-

fordelingen.

Hvis det derved viser sig, at n er under 30 anvendes i stedet en t-fordeling, idet vi løser

ligningen

Det følgende eksempel illustrerer fremgangsmåden.

Eksempel 5.7. Bestemmelse af stikprøvens størrelse.En forstmand er interesseret i at bestemme middelværdien af diameteren af voksne egetræer i

en bestemt fredet skov.

Der blev målt diameteren på 7 tilfældigt udvalgte egetræer (i 1 meters højde over jorden)

På basis af målingerne på de 7 træer sættes .s ≈ 14

a) Find hvor mange træer der skal måles, hvis et 95% konfidensinterval højst skal have en

radius på ca. 5 cm.

b) Find hvor mange træer der skal måles, hvis et 95% konfidensinterval højst skal have en

radius på ca. 6 cm.

Løsning:

a) Først benyttes formlen nz s

r=

0 975

2

.

TI89+TI-Nspire: (invNorm(0.975)*14)/5)^2 = 30.1 = 31

Excel: (NORMINV(0,975;0;1)*14/5)^2 = 30.1

Da n > 30 er det rimeligt, at benytte en Z- fordeling frem for en t-fordeling.

Der skal altså tilfældigt udvælges ca. 31 egetræer.

b) Benyttes samme formel som under spm. a) fås n = 21

Da n < 30 burde man have anvendt en t - fordeling. nt n s

r=

− ⋅

0 975

21. , ( )

TI 89: solve(x=(invt(0.975,x-1)*14/6)^2,x) x>21 Efter nogen tid fås x = 23.37

TI-Nspire: som TI89, idet der bruges nsolve

Excel: I celle A1 skrives en startværdi for n eksempelvis 21.

I celle B1 skrives= (TINV(0,05;A1)*14/6)^2-A12003: Funktioner “Målsøgning”

2007+2010: Data Hvad-hvis analyse ”MålsøgningI “Angiv celle” skrives B1. I “Til Værdi” skrives 0. I “Ved ændring af celle” skrives A1. Facit :23,29865

Der skal altså tilfældigt udvælges ca. 24 egetræer.

Da overslaget jo er afhængigt af om vurderingen af s er korrekt, bør man dels for en

sikkerheds skyld vælge s lidt rigelig stor, dels efter at man har målt de 31/24 træer lige

kontrollere beregningen af konfidensintervallet.

n

t n

r=

− ⋅

−12

21

ασ( )

42

Page 49: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5.4 konfidensinterval for spredningen

5.4 KONFIDENSINTERVAL FOR SPREDNING

I visse situationer ønsker man at finde et konfidensinterval for spredningen.

Vi vil ikke gå nærmere ind på teorien herfor, men blot henvise til formlerne i oversigt 5.5.

Formel 3 i oversigt 5.5 benyttes: ( )

( )

( )

( )

n s

n

n s

n

−≤ ≤

−−

1

1

1

1

2

12

2

22

2

σχα α

I formlerne indgår den såkaldte - fordeling, (udtales ki i anden) . χ2

-fordelingerχ2

-fordelingen benyttes ved beregninger omkring varianser, når disse er erstattet af etχ2

estimat s2.1

På figuren er afbildet tætheds-

funktionen for - fordelingerneχ2

, og .χ2 5( ) χ

2 10( ) χ2 20( )

Det ses, at kun er defineret for tal større end eller lig nul, og at -fordelinger ikke erχ2

χ2

symmetriske om middelværdien. Jo større frihedsgradstallet bliver jo mere symmetriske bliver

de dog, og for store f - værdier - i praksis f > 30 - kan en -fordeling approksimeresχ2

χ2 ( )f

med normalfordelingen hvor og .n( , ),µ σ µ = f σ = ⋅2 f

TI89, TI-Nspire og Excel har en kumuleret - fordelingχ2

ligesom naturligvis alle statistikprogrammer har det.

Eksempel 5.8. Beregning af - værdier.χ2

1) Find og .χ0 025

2 8. ( ) χ 0 975

2 8. ( )2) Find , P X( )≤ 5

hvor X er - fordelt med 8 frihedsgrader.χ2

Løsning:

TI89: Vælg Catalog F3

1) =invChi2(0.025, 8) = 2.18χ0 025

2 8. ( )=invChi2(0.975, 8) = 17.5χ 0 975

2 8. ( ) (se det skraverede areal på figuren)

2) = chi2Cdf(0, 5, 8) = 0.242P X( )≤ 5

1Definition af -fordelingen. Lad være uafhængige normerede normalfor-delte variable. χ

2U U U f1 2, ,...,

Sandsynlighedsfordelingen for den stokastiske variabel kaldes -fordelingen medχ2

1

2

2

2 2= + +U U U f,..., χ

2

frihedsgradstallet f og betegnes χ2 ( )f

43

Page 50: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5 Stikprøver

TI-Nspire: Beregninger, Statistik, Fordelinger, invχ

Excel:1) =CHIINV(0,975;8)=2.18 =CHIINV(0,025;8)=17.5χ0 025

2 8. ( ) χ 0 975

2 8. ( )2) =1-CHIFORDELING(5;8) = 0.242P X( )≤ 5

Bemærk Excel beregner den “øvre hale”

Eksempel 5.9. Konfidensinterval for varians og spredning af normalfordeling.En virksomhed ønsker at kontrollere med hvilken spredning en bestemt målemetode angiver

saltindholdet i en opløsning. Der foretages følgende 12 målinger af en opløsning af det

pågældende salt. Resultaterne var:

Måling nr 1 2 3 4 5 6 7 8 9 10 11 12

% opløsning 6.8 6.0 6.4 6.6 6.8 6.1 6.4 6.3 6.0 6.2 5.8 6.2

a) Angiv på basis af måleresultaterne et estimat for opløsningens spredning.

b) Angiv et 95% konfidensinterval for variansen og for spredningen.

Løsning:TI-89, TI-Nspire og Excel har intet færdigt program.

De må anvende formel 3 i oversigt 5.5 : ( )

( )

( )

( )

n s

n

n s

n

−≤ ≤

−−

1

1

1

1

2

12

2

22

2

σχα α

TI89: a) Data indtastes i list 1 F4 1 var Stats menu udfyldes

Vi finder s = 0.3162 .

b) Nedre grænse: (11*0.3162^2/ invChi2(0.975,11) = 0.0502

Øvre grænse : (11*0.3162^2/ invChi2(0.025,11) = 0.288

. .0 0502 0 2882. .≤ ≤σ 0 0502 0 2880 0 2241 05366. . . .≤ ≤ ⇔ ≤ ≤σ σ

TI-Nspire: Data indtastes i “Lister og regneark” Statistik Statistiske beregninger Statistik

med 1 variabel menu udfyldes sprening findes blandt mange tal kopier over i

“beregninger” foretag beregningen som i TI89

Excel: A B C D E

1 6,8 spm. A s= STDAFV(A1:A12) 0,316228

2 6

3 6,4 spm b

4 6,6 Konfidensinterval for varians

5 6,8Nedre grænse (12-1)*E1^2/CHIINV(0,025;12-1) 0,050182

6 6,1 Øvre grænse (12-1)*E1^2/CHIINV(0,975;12-1) 0,288279

7 6,4 [0.0502 ;0.288]

8 6,3Konfidensinterval for spredning

9 6

10 6,2 Nedre grænse KVROD(E5) 0,224014

11 5,8 Øvre grænse KVROD(E6) 0,536916

12 6,2 [0.224 ; 0.537]

44

Page 51: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5.5 Oversigt

5.5. OVERSIGT over centrale formler i kapitel 5X antages normalfordelt .Givet stikprøve af størrelsen n med gennemsnit og spredning sn( , )µ σ x

Oversigt over konfidensintervaller

nr Forudsætninger Estimat for parameter 100 (1 - ) % konfidensinterval for parameterα

1

ukendt.µ

ukendtσ

For : µ xx t n

s

nx t n

s

n− − ⋅ ≤ ≤ + − ⋅

− −12

12

1 1α α

µ( ) ( )

TI89 :F7: t-interval

TI-Nspire:Konfidensintervaller t-interval for 1 variabel

Excel: Konfidensniveau (= radius)

ukendt.µ

kendtσ

For : µ xx z

nx z

n− ⋅ ≤ ≤ + ⋅

− −12

12

α α

σµ

σ

TI89 :F7: Z-interval

TI-Nspire:Konfidensintervaller z-interval for 1 variabel

Excel: Konfidensinterval (= radius)

3

ukendtµ

ukendt.σFor :σ

2 s2

( )

( )

( )

( )

n s

n

n s

n

−≤ ≤

−−

1

1

1

1

2

12

2

2

2

2

σχ

α α

4

kendtµ

ukendt.σ

For : σ2

2=

( ) ( )n s n x

n

− + −1 2 2µ

( ) ( )

( )

( ) ( )

( )

n s n x

n

n s n x

n

− + −≤ ≤

− + −

1 12 2

12

2

2

2 2

2

2

µ

χσ

µ

χα α

Oversigt over prædistinationsintervaller

nr Forudsætninger Estimat for parameter 100 (1 - ) % konfidensinterval for parameterα

1

ukendt.µ

kendtσ

For : µ xradius i konfidensinterval r z

nk = ⋅

−12

α

σ

radius i prædistinationsinterval r r np k= +1

2

ukendt.µ

ukendtσ

For : µ xradius i konfidensinterval r t n

s

nk = − ⋅

−12

1α ( )

radius i prædistinationsinterval r r np k= +1

Bestemmelse af stikprøvens størrelse n.

Ønsket værdi af radius r i 100 (1 - ) % konfidensintervalα

1

kendtσ

eller n > 30n

z

r=

−12

2

α σ TI89+TI-Nspire: (invNorm(1- /2)* /r)^2α σ

Excel:(NORMINV(1- /2);0;1)* /r)^2α σ

2

ukendt, men antagσ

den højst er s n

t n s

r=

− ⋅

−12

21

α( ) Løs ligning , se eksempel 5.8

45

Page 52: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

5 Stikprøver

OPGAVER

Opgave 5.1Lad der være givet 10 uafhængige observationer af en syres koncentration (i %).

12.4 10.8 12.1 12.0 13.2 12.6 11.5 11.9 12.8 12.0

1) Find et estimat for koncentrationens middelværdi og spredning .µ σ

2) Angiv et 95% konfidensinterval for .µ

3) Angiv et 95% prædistinationsinterval for en enkelt ny måling af koncentrationen..

4) Angiv et 95% konfidensinterval for , idet det antages, at man fra tidligere målinger ved,µ

at = 0.65.σ

Opgave 5.2Trykstyrken i beton blev kontrolleret ved at man støbte 12 betonklodser og testede dem.

Resultatet var:

2216 2225 2318 2237 2301 2255 2249 2281 2275 2204 2263 2295

1) Find et estimat for trykstyrkens middelværdi og spredning .µ σ

2) Angiv et 95% konfidensinterval for .µ

3) Angiv et 95% prædistinationsinterval for en enkelt måling af trykstyrken på en ny

betonklods.

4) Man fandt, at radius i konfidensintervallet var for stor.

Bestem med tilnærmelse antallet af målinger der skal udføres, hvis radius højst skal være

15.

Opgave 5.3En fabrik producerer stempelringe til en bilmotor. Det vides, at stempelringenes diameter er

approksimativt normalfordelt. Stempelringene bør have en diameter på 74.036 mm og en

spredning på 0.001 mm. For at kontrollere dette udtog man tilfældigt 15 stempelringe af

produktionen og målte diameteren. I resultaterne har man for simpelheds skyld, kun angivet de

3 sidste cifre, altså 74.0365 angives som 365.

Man fandt følgende resultater

342 364 370 361 351 368 357 374 340 362 378 384 354 356 369

1) Find et estimat for ringenes diameter og spredning .µ σ

2) Angiv et 99% konfidensinterval for .µ

Opgave 5.4

En polymer produceres i batch. Viskositetsmålinger udført på hver batch gennem et stykke tid

har vist, at variationen i processen er meget stabil med spredning = 20. σ

På 15 batch gav viskositetsmålingerne følgende resultater:

724 718 776 760 745 759 795 756 742 740 761 749 739 747 742

1) Find et estimat for viskositetens middelværdi .µ

2) Angiv et 95% konfidensinterval for idet man antager spredningen er 20.µ

3) Find et estimat for viskositetens spredning .σ

4) Angiv et 95% konfidensinterval for , for at kontrollere påstanden om, at = 20.σ σ

46

Page 53: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 5

Opgave 5.5Ved en fabrikation af et bestemt sprængstof er det vigtigt, at en reaktoropløsning har en pH-

værdi omkring 8.0. Der foretages 6 målinger på en bestemt reaktantopløsning.

Resultaterne var:

pH 8.42 7.36 8.04 7.71 7.65 7.82

Den benyttede pH-målemetode antages på baggrund af tidligere lignende målinger at give

normalfordelte resultater.

1) Angiv et estimat for opløsningens middelværdi og spredning.

2) Angiv et 95% konfidensinterval for pH.

3) Man finder, at radius i konfidensintervallet er for bredt.

Angiv med tilnærmelse antallet af målinger der skal foretages, hvis radius skal være 0.1.

Opgave 5.6Samme tal som i opgave 5.2

Find et 95% konfidensinterval for trykprøvens spredning.

Opgave 5.7Samme tal som i opgave 5.3

Find ud fra stikprøven et 99% konfidensinterval for diameterens spredning.

Opgave 5.8De 10 øverste ark papir i en pakke med printerpapir har følgende vægt

4.21 4.33 4.26 4.27 4.19 4.30 4.24 4.24 4.28 4.24

a) Angiv et 95%-konfidensinterval for middelværdi af papirets vægt.

b) Angiv med tilnærmelse antallet af ark, der skal anvendes, hvis radius i konfidensintervallet

højst skal være r = 0.01

c) Angiv et 95%-prædistinationsinterval for en enkelt nyt ark papir.

d) Angiv et 95%-konfidensinterval for spredningen af papirets vægt.

Opgave 5.9Til undersøgelse af alkoholprocenten i en persons blod foretages 4 uafhængige målinger, som

gav følgende resultater (i ‰):

108 102 107 98

1) Opstil et 95% konfidensinterval for personens alkoholkoncentration.

2) Opstil et 95% konfidensinterval for målemetodens spredning.

47

Page 54: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

6 HYPOTESETEST(ÉN NORMALFORDELT VARIABEL)

6.1 GRUNDLÆGGENDE BEGREBER

Ofte vil man se vendinger som” Stikprøven viser, at udbyttet ved den ny metode er signifikantstørre end ved den hidtidig anvendte metode”

Statistiske problemer, hvor man på basis af en stikprøve ønsker med eksempelvis 95% “sikker-hed” at bevise en påstand om hele populationen kaldes hypotesetest. De forskellige begreber der indgår i en hypotesetest vil blive gennemgået i forbindelse medfølgende eksempel.

Eksempel 6.1. Hypotesetest.En fabrik har gennem mange år benyttet en metode, der på basis af en given mængde råmaterialegav et middeludbytte af et produceret stof på = 69.2 kg og spredningen = 1.0 kg. 0 En nyansat ingeniør får til opgave at søge at forøge middeludbyttet ved en passende (billig)modifikation af procesbetingelserne. Efter en række lovende eksperimenter i laboratoriet synes opgaven at være lykkedes, men detendelige bevis herfor er, ud fra et passende antal driftsforsøg statistisk at kunne “bevise”, atmiddeludbyttet er blevet forøget. Ud fra kendskab til de forskellige mulige støjfaktorer antages spredningen at være uændret på1.0 kg. Da driftsforsøgene er meget ressourcekrævende, bevilges der kun 12 delforsøg.Der foretages 12 uafhængige delforsøg og udbyttet x måltes:

Forsøg nr 1 2 3 4 5 6 7 8 9 10 11 12

x 68.8 70.7 70.3 70.1 70.7 68.7 69.2 68.9 70.0 69.6 71.0 69.1

1) Kan man ud fra disse data bevise på signifikansniveau = 0.05 , at middeludbyttet er blevetforøget ?

2) Hvis svaret i spørgsmål 1 er bekræftende, så angiv et estimat for det nye middeludbytte, ogangiv et 95% konfidensinterval herfor.

48

Page 55: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

6.1 Grundlæggende begreber

Fig. 6.1 Accept- og forkastelsesområde

Løsning:1) Løsningen opdeles for overskuelighedens skyld i en række trin

1a) Definition af stokastisk variabel X. X = udbyttet ved den modificerede proces.

1b) Valg af X’s fordelingstype.X antages at være approksimativt normalfordelt .n( , . ) 10

1c) Opstilling af nulhypotese og alternativ hypoteseDer opstilles en såkaldt Nulhypotesen H0 : = 69.2 kg. Nulhypotesen skal indeholde en konkret påstand (her et lighedstegn). Påstanden er, atmodifikationen ingen (nul) virkning har Der opstilles endvidere en alternativ hypotese H: > 69.2 kg. Den alternative hypotese skal så vidt muligt indeholde det, der ønskes bevist. I dettetilfælde ønskes vist, at middeludbyttet er vokset, dvs. > 69.2 kg.

Testen kaldes en ensidet test i modsætning til en tosidet test :H0 : = 69.2 kg contra H: 69.2 kg, hvor vi blot ønsker at vise, at middeludbyttet har ændret sig.

1d) Angivelse af testens signifikansniveau.Hvis stikprøvens gennemsnit er meget større end 69.2 kg ( måske helt op mod 100xkg), så er der stor sandsynlighed for at udbyttet er steget. Man siger så, at nulhypotesenforkastes, eller at ligger i forkastelsesområdet (se figur 6.1). xHvis derimod kun ligger lidt over 69.2 kg, så kan det skyldes tilfældige udsving, ogxman kan ikke med nogen stor sikkerhed konkludere, at udbyttet er steget. Man siger, atnulhypotesen accepteres, eller at ligger i acceptområdet.x

Lad være grænsen mellem acceptområdet og forkastelsesområdet. skal bestemmesx0 x0

sådan, at forudsat H0 : = 69.2 kg er sand, så er det yderst usandsynligt, at enstikprøves gennemsnit vil komme til at ligge i forkastelsesområdet. Hvis stikprøvensxgennemsnit alligevel ligger i forkastelsesområdet, må det være forudsætningen H0 derer forkert, d.v.s. middeludbyttet må være blevet større.

Det er naturligvis ikke entydigt bestemt, hvad det vil sige, at noget er yderst usandsyn-ligt. Man starter derfor enhver test med at fastlægge det såkaldte signifikansniveau .Er valgt til 5% ,så har man derved fastlagt, at sandsynligheden for fejlagtigt atpåstå, at middeludbyttet er steget, er under 5%.Da det kan have alvorlige økonomiske konsekvenser fejlagtigt at påstå at middeludbyttet

49

Page 56: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

Fig 6.2 P-værdi

er steget (produktionen omstilles osv.) ,så er man naturligvis interesseret i, at dette ikkesker.

Det normale i industriel produktion er, at sætte = 5%, men er det eksempelvis medi-cinske forsøg, hvor det kan have alvorlige menneskelige konsekvenser, sættes måskeså lavt som 1% eller 0.1%, mens man i andre situationer måske sætter signifikansni-veauet til 10%.

I dette eksempel er sat til 5%.

1e) Beregning af P - værdiGennemsnittet af de 12 resultater giver = 69.76 kg.xUnder forudsætning af at nulhypotesen H0 : = 69.2 kg er sand, så er er normalfor- X

delt med middelværdi = 69.2 og spredning . 0

n

10

120 2887

..

Vi kan derfor nemt finde den præcise adskillelse mellem accept og forkastelsesområdet, da den jo er bestemt ved at arealet skal være 95%TI89: invNorm(0.95,69.2,1.0/12)= 69.67

Da 69.76 > 69.76 ligger det målte gennemsnit altså i forkastelsesområdet.Imidlertid vælger man i stedet at beregne den såkaldte P-værdi (Probability value) somer sandsynligheden for at få en værdi på det fundne stikprøvegennemsnit 69.76 ellerderover, dvs. P-værdi = P X( . ) 69 76

Er denne P-værdi er mindre end =0.05 må = 69.76 ligge i forkastelsesområdet (se xfigur 6.2)Hvis P-værdien ligger over ligger = 69.76 i acceptområdet, dvs. vi kan ikke bevise xat middeludbyttet er steget.

TI89+TI-Nspire: P - værdi = normCdf(69.76, =0.0262 P X( . ) 69 76 , . , / ( ))69 2 1 12

Excel: P - værdi = 1-NORMFORDELING(69,76;69,2;1/KVROD(12);1)=0,026196P X( . ) 69 76

1f) KonklusionDa P - værdi = 2.62% < 5% forkastes H0 , Vi har et statistisk bevis for, at den modificerede proces giver et større middeludbytte.

50

Page 57: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

6.1 Grundlæggende begreber

Alternativt kunne vi have benyttet nogle testfunktioner:TI-89: APPS STAT/LIST data indtastes i list1 F6, 1: Z-Test

Menu udfyldes : , =1 , list =list1, Alternate Hyp: , Calculate0 69 2 . 0

TI-Nspire: Lister og regneark data indtastes Statistik Statistiske test z-test for 1 middelværdi menuudfyldes ENTER

Excel: Data indtastes i A1 til A12 fx Statistisk Z-test ZTEST(A1:A12;69,2;1)

Vi får i alle tilfælde P-værdi = 0.0265, dvs. samme værdi som før.

2) Udbyttet kan i middel forventes at være ca. x 69 76. kg

95% konfidensinterval: TI-89: APPS STAT/LIST data indtastes i list1 F7, 2: Z-Interval C Int : [ . ; . ]6919 70 32

TI-Nspire: Beregninger Statistik Konfidensintervaller z-interval for 1 variabel menu:Statisk udfyld menu EN-TER

Excel: På værktøjslinien foroven: Tryk på = eller Vælg kategorien “Statistisk” Vælg “konfidensniveau“ f xudfylde menuen (se evt. beregning under eksempel 5.2)

At konfidensintervallet indeholder tallet 69.2 er klart i modstrid med at vi lige har vist, atmiddelværdien er større end 69.2.Det skyldes, at konfidensintervallet forkaster med 2.5% til hver side, mens en ensidet testforkaster kun til en side med 5%.Mere logisk ville det være, at lave en ensidet 95% konfidensinterval,

x zn

0 95 69 76 165

10

1269 28. ; . .

.; . ;

Det er imidlertid ikke standard, nok fordi det er sværere at forklare en udenforstående, atmiddelværdien med 95% sikkerhed ligger over 69.28 .

Eksempel 6.2. Hypotesetest, hvor man får accept af H0.Samme problem som i eksempel 6.1, men nu er signifikansniveauet =1%.Løsning: H0: = 69.2 mod H: H0: > 69.2 I eksemplet fandt vi på basis af 12 forsøg, at P-værdi = 2.6%. Konklusion: H0 accepteres , dvs.

vi kan ikke på et signifikansniveau på 1% bevise, at middelværdien var steget.

Bemærk: Vi skriver ikke at vi har bevist den ikke er steget, det kan meget vel være tilfældet.Vi kan bare ikke bevise det med den ønskede sikkerhed.

51

Page 58: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

6.2 HYPOTESETEST MED UKENDT MIDDELVÆRDI OG SPREDNING

I eksempel 6.1 blev baggrunden for testen gennemgået. Samtidig antog vi, at spredningen varkendt eksakt. Dette er sjældent tilfældet, men havde vi haft over 30 målinger i stikprøven, villedet være tilladeligt, at erstatte den eksakte værdi med den beregnede spredning s, og foretage desamme beregninger

Havde vi under 30 målinger bliver det for upræcist, og man må i stedet benytte en t-fordeling.

Eksempel 6.3. Ensidet hypotesetest om middelværdi (spredning ikke kendt eksakt)Samme problem som i eksempel 6.1, men nu er spredningen ikke kendt eksakt.Løsning:1) X = udbyttet ved den modificerede proces.

X antages at være approksimativt normalfordelt .n( , ) H0 : = 69.2 kg. H: > 69.2 kg. BeregningTI89: APPS STAT/LIST data indtastes i list1 F6, 2: T-Test

Menu udfyldes : , list =list1, Alternate Hyp: , Calculate0 69 2 . 0

P-værdi = 0.0185 =1.85%. TI-Nspire: Lister og regneark data indtastes Statistik Statistiske test t-test for 1 middelværdi menu

udfyldes ENTER

Excel Her benyttes formlen i oversigt 6.4.

, hvor og T er t-fordelt med n -1 frihedsgraderP T t( ) tx n

s

( )0

Data indtastes i A1 til A12

A B C D

1 68,8 x streg = MIDDEL(A1:A12) 69,75833

2 70,7 s= STDAFV(A1:A12) 0,816265

3 70,3 Ho μ0= 69,2

4 70,1

5 68,7 t= (D1-D3)*KVROD(12)/D2 2,369481

6 69,2

7 68,9 P-værdi= TFORDELING(ABS(D5);11;1) 0,018593

Da P-værdi < 5% forkastes H0 , dvs. vi har et statistisk bevis for, at den modificerede procesgiver et større middeludbytte.

2) TI-89: APPS Stat/List F7, 2: T-Interval Vælg Data Udfyld menuen C Int :[69.24 ; 70.28]

TI-Nspire: Beregninger Statistik Konfidensintervaller t-interval for 1 variabel menu:Statisk udfyldmenu ENTER

Excel: 2003: Funktioner 2007: Data Dataanalyse Beskrivende statistik udfyld inputområde vælg konfidensniveau

Resultat : Konfidensniveau(95,0%) 0,51863 Konfidensinterval [69.758-0.517;69.758+0.5179] = [69.24 ; 70.28]

52

Page 59: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

6.2 Eksempler på hypotesetest regnet med TI89 og Excel

Eksempel 6.4 Tosidet hypotesetest om middelværdi (spredning ikke kendt eksakt).Ved fremstilling af et bestemt levnedsmiddel er det vigtigt, at et tilsætningsstof findes ilevnedsmidler i en koncentration på 8.40 (g/l). For at kontrollere om tilsætningsstoffet har en koncentration på ca. 8.40, udtager levneds-middelkontrollen 6 prøver af levnedsmidler. Resultaterne var:

Måling nr 1 2 3 4 5 6 7 8

Koncentration x (g/l) 8.54 7.89 8.50 8.21 8.15 8.32 8.45 8.31Det ønskes på denne baggrund undersøgt om koncentrationen har den ønskede værdi.Signifikansniveau sættes til 5%.Løsning:Lad X være koncentrationen af tilsætningsstoffet i levnedsmidlet.Det antages, at X er normalfordelt n( , ) Da det både er uønsket, at koncentrationen er for lille og at den er for stor, bliver nulhypote-sen

H0: = 8.4 mod H: , dvs. vi har en tosidet test. 8 4.

Bemærk, at selv om man vel egentlig hellere ville bevise, at koncentrationen er 8.4 og derforhelst ville have denne påstand i den alternative hypotese, er dette ikke muligt, da nulhypote-sen skal indeholde et lighedstegn.

TI-89: APPS STAT/LIST data indtastes i list1 F6, 2: T-Test

Menu udfyldes : , list =list1, Alternate Hyp: , Calculate0 8 4 . 0

Vi får P-værdi = 0.2117 =21.17%. Da P-værdi > 5% accepteres nulhypotesen , dvs. vi kan ikke bevise, at koncentrationenafviger signifikant fra 8.4 g/lBemærk, at TI-89 beregner begge “haler” , så vi skal sammenligne med 5% .

TI-Nspire: Lister og regneark data indtastes Statistik Statistiske test t-test for 1 middelværdi menuudfyldes ENTER

Excel Benytter formler i oversigt 6.4 Data indtastes i A1 til A8

A B C D

1 8,54 x streg = MIDDEL(A1:A8) 8,29625

2 7,89 s= STDAFV(A1:A8) 0,2135373 8,50 Ho μ0= 8,4

4 8,21 n= 8

5 8,15 t= (D1‐D3)*KVROD(D4)/D2 ‐1,37423

6 8,45 P‐værdi= TFORDELING(ABS(D5);D4‐1;1) 0,105877

Da P-værdi > 2.5 % accepteres nulhypotesen , dvs. vi kan ikke bevise, at koncentrationenafviger signifikant fra 8.4 g/lBemærk, at da det er en tosidet test hvor man forkaster til begge sider sammenlignes med2,5%

I de tilfælde, hvor man har en tosidet test, kunne man i stedet beregne et konfidensinterval

53

Page 60: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

Eksempel 6.5. Test af spredning En fabrikant af læskedrikke har købt en automatisk “påfyldningsmaskine”. Ved købet af maskinen har man betinget sig, at rumfanget af den påfyldte væske i middel skalhave en spredning, der ikke overstiger 0.20 ml. Efter kort tids anvendelse får man mistanke om, at spredningen er for stor. Mange klager overunderfyldte flasker. Derfor foretages en kontrol, hvor man tilfældigt udtager 20 flasker med læskedrik, og målerrumfanget af væsken i flasken. Det viser sig, at stikprøvens spredning er s = 0.24 ml. Med et signifikansniveau på 5% er det da et statistisk bevis for, at den nye maskine ikke op-fylder det stillede krav?Løsning:Lad X = rumfang af drik i flaske. X antages normalfordelt , hvor såvel som er ukendte. n( , )

Ho: imod H: > 0.2, 0 2. eller udtrykt ved variansen : 2

Ho: mod H: . 2 20 2 . 2 20 2 .

Ifølge oversigt 6.4 ses, at vi skal beregne teststørrelsen , hvor 2

dvs. i det foreliggende tilfælde .

22

02

1 ( )n s 22

2

20 1 0 24

0 227 36 ( ) .

..

TI 89+ TI-Nspire: P- værdi = chi2Cdf(27.36, ,19) = 0.0965 = 9.65%P Q( . ) 27 36 Excel:

chi i anden= (20-1)*0,24^2/0,2^2 27,36

P-værdi= CHIFORDELING(C1;19) 0,096543

Da P-værdi=9.65% > 5 %, accepteres , dvs. det er ikke påvist, at spredningen ved på-H0

fyldningen er for stor, men der er dog nær ved at være signifikans.

6.3. FEJL AF TYPE I OG TYPE II: Ved enhver test kan der være to typer fejl, hvoraf vi hidtil kun har taget hensyn til den enetype. For bedre at forstå problemstillingen vil vi se på følgende skema.

Beslutning

H0 accepteres H0 forkastes

Forudsætning

H0 er sand Rigtig beslutning Forkert beslutningType I fejl

H0 er falsk Forkert beslutningType II fejl

Rigtig beslutning

Det må være et krav til en god test, at der kun er en lille sandsynlighed for at begå en fejl aftype I eller type II.

54

Page 61: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

6.3 Fejl af type I og type II

I eksempel 6.1 ville en type I fejl være, hvis man konkluderer, at den modificerede procesgiver et større udbytte, selv om det ikke er tilfældet. Virksomheden bruger måske millionbe-løb på at omlægge produktionen, og det er ganske forgæves. En type II fejl ville være, at man ikke opdager, at den modificerede proces giver et større ud-bytte. Dette er naturligvis uheldigt, men hvis det skyldes, at forbedringen ikke blev opdaget,fordi den er ganske ringe, har det muligvis ingen praktisk betydning.

Hvis en test har signifikansniveau og den beregnede P-værdi < så forkastes Ho . Vi ved hermed, at P(type I fejl) , dvs. vi rimelig sikre på, at have foretaget en korrekt beslutning. P-værdien angiver jo nogenlunde sandsynligheden for at vi træffer en forkert beslutning.

Hvis = 5% og P-værdien er 4.25% forkastes H0. Det samme sker, hvis P-værdi = 0.001%,men vi er her unægtelig noget sikrere på, at vi at vi træffer en korrekt beslutning.

Hvis vi accepterer Ho er det blot udtryk for, at vi ikke kan forkaste(svag konklusion: "Ho

frikendes på grund af bevisets stilling"). Man kan have begået en type II fejl, dvs. ikke opdaget, at den alternative hypotese var sand.

Eksempel 6.6. Fejl af type 2Samme problem som i eksempel 6.1, men nu er signifikansniveauet =1% Løsning: H0: = 69.2 mod H: H0: > 69.2 I eksemplet fandt vi på basis af 12 forsøg, at P-værdi = 2.6%. Konklusion: H0 accepteres , dvs. vi kan ikke på et signifikansniveau på 1% bevise, at middelværdien var steget.Imidlertid kan middeludbyttet meget vel være steget, men vi kunne bare ikke bevise det medden ønskede sikkerhed. Vi kan have begået en fejl af type 2.

Som det ses af eksempel 6.6, så vil en formindskelse af muligheden for at begå en type 1 fejl( formindskes) forøge sandsynligheden for at begå en type 2 fejl.Den eneste måde hvorpå begge kan formindskes er at øge antallet n af forsøg.Problemet hermed er, at man derved måske opdager en så lille forbedring, at det ikke er renta-belt at foretage en dyr ændring af fremstillingsprocessen.Først når udbyttet overstiger en bagatelgrænse vil man reagere.

Dimensionering af forsøg (vælge stikprøvestørrelse n).Lad os antage, at virksomheden i eksempel 6.1 finder, at hvis stigningen i udbyttet ved denmodificerede proces er mindre end = 0.5 kg, så har det ingen praktisk interesse ( = 0.5 kg er bagatelgrænsen), og derfor gør det intet, hvis man ikke opdager det (begår en type IIfejl). Hvis derimod stigningen er større end 0.5 kg, så har det stor betydning, og sandsynlighe-den for at begå en type II fejl må derfor være lille. Lad os sætte den til højst = 10%.

Problemet er nu, hvor stor en stikprøvestørrelse n (antallet af delforsøg) der skal udføres, forat ovennævnte krav er opfyldt.

55

Page 62: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

En sådan vurdering kaldes en dimensionering af forsøget. Udfører man det ud fra en dimen-sionering nødvendige antal forsøg, vil en accept af nulhypotesen nu betyde, at nok kan udbyt-tet være steget, men ikke så meget, at det har praktisk interesse.I oversigt 6.4 er angivet de formler, der skal anvendes ved en dimensionering.De følgende 2 eksempler viser anvendelsen heraf.

Eksempel 6.7. Dimensionering (kendt spredning).Inden man i eksempel 6.1 begyndte at lave de dyre delforsøg, vil ingeniøren gerne have envurdering af, hvor mange driftsforsøg der er nødvendige, når det vides, at det først er økono-misk rentabelt at gå over til den nye metode, hvis middeludbyttet er steget med mindst 0.5 kg. 1) Find stikprøvestørrelsen n, i det tilfælde, hvor = 0.5 kg og = 10%.

Det antages stadig, at = 1.0 kg og signifikansniveauet er = 5 %.

Lad n være den i spørgsmål 1 fundne stikprøvestørrelse.2) Idet der udføres n delforsøg skal man besvare følgende spørgsmål:

a) Hvilken konklusion kan drages, hvis man finder, at = 69.8xb) Hvilken konklusion kan drages, hvis man finder, at = 69.4x

Løsning1) X = udbyttet ved den modificerede proces.

X antages at være approksimativt normalfordelt .n( , . ) 10 H0 : = 69.2 kg. H: > 69.2 kg.

Da testen er ensidet fremgår det af oversigt 6.4) at: nz z z z

1 1

2

0 95 0 900 51 0

2

. ...

TI89+ TI-Nspire: ((invNorm(0.95)+invNorm(0.90))/(0.5/1.0))^2 = 34.25 , dvs. .n 35

Excel: =((NORMINV(0,95;0;1)+NORMINV(0,9;0;1))/(0,5/0,1))^2 Resultat 0,342554 dvs. n = 35

2a) H0: = 69.2 mod H: H0: > 69.2 TI89: APPS STAT/LIST F6, 1: Z-Test Vælg Stats, da data ikke kendt

Menu udfyldes : , =1 , = 69.8, n = 35, Alternate Hyp: , Calculate 0 69 2 . x 0

P-værdi = 0.019%,TI-Nspire: Lister og regneark Statistik Statistiske test z-test for 1 middelværdi menu udfyl-

des ENTER

Excel: P-værdi = =1 - NORMFORDELING(69,8;69,2;1/KVROD(35);1) = 0,000193

Da P_værdi < 0.05 forkastes H0: = 69.2 kg , dvs. vi er på et Signifikansniveau på 5%sikre på at middelværdien er over 69.2 kg.Imidlertid kan vi ikke være sikre på at den er over bagatelgrænsen 69.2 + 0.5 = 69.7 kg Lad H0: = 69.7 mod H: H0: > 69.7 Vi finder på samme måde som ovenfor, at P-værdi = 27.7%, dvs. en påstand om at mid-deludbyttet ligger over 69.7 kg vil være fejlagtig i ca. 28% af tilfældene.Vi vil derfor næppe på den baggrund gå over til den nye metode.

2b) H0: = 69.2 mod H: H0: > 69.2 Vi finder på samme måde som i punkt 2a) , at P-værdi = 11.8%%, H0: = 69.2 kg accepteres, dvs. vi kan ikke vise, at middeludbyttet er steget.Dette kan dog godt være tilfældet, men da vi har dimensioneret er vi rimeligt sikre på,at en eventuel stigning ikke har praktisk interesse.

56

Page 63: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

6.3 Fejl af type I og type II

Eksempel 6.8. Dimensionering, (ukendt spredning)En virksomhed bliver af miljøkontrollen pålagt at formindske indholdet i sit spildevand af etstof A, der mistænkes for at kunne forurene grundvandet. Indholdet af stoffet A i spildevandetskal under 1.7 mg/l, og miljøkontrollen henviser til en ny metode, som burde kunne formind-ske indholdet til det ønskede niveau. For at vurdere den nye metode ønskes foretaget en ræk-ke delforsøg.Hvor mange forsøg skal der mindst foretages, hvis = 5%, = 10%, = 0.10 mg/l og et overslag over hvor stor er sætter denne til 0.15 mg/l. Løsning:Lad X = indhold af A (i mg/l) efter benyttelse af den ny metode. X antages normalfordelt , hvor såvel som er ukendte. n( , ) Da indholdet af stoffet A ønskes formindsket, bliver nulhypotesen mg/l mod mg/l, dvs. vi har en ensidet test.H0 17: . H: . 17Da ikke er kendt (kun et løst skøn kendes), er testen en t - test.Formlen i oversigt 6.4 anvendes:

Først beregnes nz z

0 95 0 90

2

. .

TI89: ((invnorm(0.95)+invnorm(0.90))/(0.10/0.15))^2 Resultat n = 19.27

Da n < 30 løses nu ligningen nt n

z

19 27

10 95

0 95

2

.( ).

.

solve(x = 19.27 (inv_t(0.95,x-1)/invnorm(0.95))^2,x) x 19

Heraf følger x = 21.17, dvs. n = 22

Den ønskede dimensionering kræver altså 22 forsøg. TI-Nspire: som TI89 , idet dog skrives nsolve

Excel: ((NORMINV(0,95;0;1)+NORMINV(0,9;0;1))/(0,1/0,15))^2 Resultat n = 19.27

Da n < 30 løses nu ligningen 19 271

00 95

0 95

2

.( ).

.

t n

un

Resultatet 19.27 anbringes i celle A1I celle B1 skrives som startværdi for n tallet 19 .

I celle C1 skrives =A1*(TINV(0,10;B1-1)/NORMINV(0,95;0;1))^2-B12003: Funktioner “Målsøgning”2007: Data Hvad-hvis analyse ”MålsøgningI “Angiv celle” skrives C1. I “Til Værdi” skrives 0. “Ved ændring af celle” skrives B1

Resultat: I celle B1står 21,18523  dvs. n = 22

57

Page 64: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

6.4. OVERSIGT over centrale formler i kapitel 6 X antages normalfordelt .Givet stikprøve af størrelsen n med gennemsnit og spredning sn( , ) xSignifikansniveau: . er en given konstant 0

Oversigt over test af middelværdi T er en stokastisk variabel der er t - fordelt med f = n - 1.

Y er en stokastisk variabel, der er normalfordelt nn

( ,

0

Forudsætnin-ger

Alternativ hypotese H

P - værdi Beregning H0 forkastes

ukendt.

.t ( )x n

s0

H: 0 P T t( ) TI89+TI-Nspire: tCdf t n( , , ) 1

eller : t-testExcel:tfordeling(t,n-1,1)

P - værdi

H: 0 P T t( ) TI89+TI-Nspire: tCdf t n( , , ) 1

eller t-testExcel:1-tfordeling(t,n-1,1)

H: 0 forP T t( ) x 0

for P T t( ) x 0

som række 1som række 2

P - værdi < 12

dog hvis t-test P - værdi

kendt eksakt

H: 0 P Y x( ) TI89+TI-Nspire

: normCdf xn

( , , , )

0

eller Z-test

Excel:1-normfordeling xn

, , 0

eller ztest

P - værdi

H: 0 P Y x( ) TI89+TI-Nspire

: normCdf xn

, , ,

0

eller Z-test

Excel:normfordeling xn

, , 0

eller ztest

H: 0forP Y x( ) x 0

for P Y x( ) x 0

som række 1som række 2

P - værdi < 12

dog hvis Z-test anvendes P - værdi

58

Page 65: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

6.4 Oversigt

Dimensionering

er den mindste ændring i der har praktisk interesse. 0 =P(type I fejl), = P(type II fejl)

Forudsætning Hypotese Formel Beregning

kendt eksakt Ensidetn

z z

1 1

2

TI89+TI-Nspire: ((invNorm(1- )+invNorm(1- ))/( / ))^2

Excel: =((NORMINV(1- ;0;1)+NORMINV(1- ;0;1))/ ( / ))^2

Tosidet

n

z z

12

1

2

TI89+TI-Nspire: ((invNorm(1- )+invNorm(1- ))/( / ))^2 / 2

Excel: =((NORMINV(1- ;0;1)+NORMINV(1- ;0;1))/ ( / ))^2 / 2

er ukendt, men erstattes i formlerne afdet bedste esti-mat eller gætfor sprednin-gen.

Ensidet Løse ligning, se eksempel 6.10

Tosidet

n

z z t n

u

12

1

2

12

12

21

( ) Løse ligning, se eksempel 6.10

nz z t n

u

1 1

2

1

1

21

( )

59

Page 66: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

Oversigt over test af varians 2

Q er fordelt med f = n - 1. 2

er en given konstant 0

Forudsætning Alternativ hypotese H

P - værdi Beregning H0 forkastes

ukendt

22

02

1

( )n s

H: 202 P Q( ) 2 TI89+TI-Nspire:

chi Cdf n2 12( , , ) Excel: se eksempel 6.7

P-værdi<

H: 202 P Q( ) 2 TI89+TI-Nspire:

chi Cdf n2 12( , , )

H: 202 for P Q( ) 2 2 1 n

forP Q( ) 2 2 1 n

som række 1som række 2

P-værdi< 12

kendt

2

2 2

02

1

( ) ( )n s n x

H: 202 P Q( ) 2 TI89+TI-Nspire:

chi Cdf n2 2( , , ) Excel: se eksempel 6.7

P-værdi<

H: 202 P Q( ) 2 TI89+TI-Nspire

:

chi Cdf n2 2( , , )

H: 202 forP Q( ) 2

2 1 n

forP Q( ) 2 2 1 n

som række 1som række 2

P-værdi< 12

60

Page 67: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 6

OPGAVER

Opgave 6.1Et levnedsmiddel (“corned beef”) forhandles i pakker på 100 g. Ved fabrikationen tilsættes traditionelt et konserveringsmiddel B (nitrit). Da man har mistanke om, at B anvendt i større mængder kan have uønskede bivirkninger, måder højst tilsættes 2.5 mg B pr. 100 g.Fabrikanten reklamerer med, at der i middel højst er 2 mg B pr. pakke. En konkurrent tvivler herpå, og vil teste påstanden. Der købes i forskellige butikker i alt 36 pakker, og indholdet af B blev målt.Man fandt et gennemsnit af B på = 2.10 mg med et estimat på spredningen på s = 0.30 mgx. Kan man ud fra disse data bevise på signifikansniveau = 0.01, at reklamen lyver.

Opgave 6.2Et flyselskab overvejer at lukke en flyrute, såfremt = “middelværdien af antal solgte plad-ser pr. afgang” er under 60. På de sidste n = 100 afgange er der i gennemsnit solgt = 58.0 pladser med en standardafvi-xgelse på s =11.0 pladser. 1) Kan man ud fra disse data bevise på signifikansniveau = 0.05, at der i middel er solgt

under 60 pladser pr. afgang? (Husk at anføre: Hvad X er. Antagelser. Nulhypotese. Bereg-ninger. Konklusion.).

2) Angiv et estimat for middelværdien .~ 3) Forudsat, at man i spørgsmål 1 kan bevise, at der er solgt under 60 pladser, skal der angi-

ves et 95% konfidensinterval for middelværdien .

Opgave 6.3 En fabrikation er baseret på en kemisk reaktion, hvor processen forudsætter tilstedeværelse afen katalysator. Med den hidtil benyttede katalysatortype C1 udnyttes i middel kun ca. 70% afden dyreste råvare. Firmaet overvejer at gå over til en mere effektiv katalysatortype C2 vedproduktionen. Omlægning hertil vil imidlertid kræve betydelige etableringsomkostninger,hvorfor firmaet kun vil lægge produktionen om, såfremt i middel mindst 80% af den dyresteråvare udnyttes, når C2 benyttes. Til vurdering heraf foretoges en række forsøg med benyttel-se af C2. Følgende udnyttelsesprocenter fandtes:

68.3 87.7 80.0 84.2 84.0 83.6 76.4 79.9 89.3 75.8

96.1 88.0 79.8 83.7 84.4 95.5 84.2 92.1 92.4 83.91) Lad X = udnyttelsesprocenten når C2 benyttes.

Beregn estimater og s for middelværdi E(X) og spredning .x ( )X2) Vurder, om de opnåede forsøgsresultater kan opfattes som et eksperimentelt bevis for, at i

middel over 80% af den dyreste råvare udnyttes, når C2 benyttes.3) Forudsat, at man i spørgsmål 2 kan bevise, at i middel over 80% udnyttes. Skal opstilles et

(tosidet) 95% konfidensinterval for E(X).Vi antager i det følgende, at X (approksimativt) er normalfordelt .n x s( , )4) Beregn sandsynligheden for, at udnyttelsesprocenten X (for en enkelt måling) er mindre

end 80%, når C2 benyttes.

61

Page 68: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

Opgave 6.4 Et kemikalium fremstilles industrielt ved inddampning af en bestemt opløsning. Det var vig-tigt, at denne opløsning var svagt basisk med pH = 8.0. Man foretog derfor kontrolmæssigtnogle pH-bestemmelser for den benyttede opløsning. Følgende værdier fandtes:

8.2 8.3 7.9 8.2 7.8 8.6 8.9 7.8 8.2

a) Foretag en testning af om opløsningen kan antages at opfylde kravet til pH-værdib) Forudsat, at man i spørgsmål a kan bevise, at opløsningen ikke opfylder kravet, skal opstil-

les et 95% konfidensinterval for pH-værdien.

Opgave 6.5 Man frygter, at den såkaldte “ syreregn er årsag til, at en bestemt skov er stærkt medtaget.Man måler SO2 - koncentrationen forskellige steder i skovbunden (i g/m3) og finder:

32.7 23.9 21.7 18.6 27.6 35.1 42.2 36.5 13.4 41.8 34.3 30.0

I ubeskadede skove er SO2 - koncentrationen 20 g/m3. a) Giver forsøgene et bevis for, at middelkoncentrationen af SO2 i den beskadigede skov er

større end normalt?b) Forudsat, at man i spørgsmål a kan bevise, at middelkoncentrationen af SO2 i den beskadi-

gede skov er større end normalt, skal man angive et tosidet 95%-konfidensinterval for SO2

- koncentrationen.

Opgave 6.6Et nyt måleapparat påstås at give måleresultater med spredningen = 1.8 mg/l ved måling afsalt-indholdet i en opløsning. Da dette er mindre end det sædvanlige, køber et laboratorium eteksemplar af apparatet for at kontrollere påstanden.Der foretages 15 målinger med følgende resultater:

3.4 7.7 6.0 8.1 8.4 2.7 4.9 1.2 2.1 5.4 3.5 1.5 5.2 4.1 3.9

Test på basis af disse resultater, om spredningen afviger fra 1.8 mg/l.(Husk altid at anføre: Hvad X er. Antagelser. Nulhypotese. Beregninger. Konklusion.).

Opgave 6.7En medicinalvarefabrik overvejer at indføre en ny analysemetode. Det formodes, at spredningen er mindre end 2.0 mg/l. Man ved, at den nye metode er uden systematiske fejl. Der fremstilles ved afvejning et præparat med nøjagtig 40.5 mg/l, dvs. middelværdien er ke-ndt. Følgende måleresultater (i mg/l) findes med den nye metode:

42.8 39.3 41.2 40.9 40.2 40.7 40.6 40.0 41.5

1) Bekræfter de foretagne observationer forhåndsformodningen om spredningen. (Husk altid at anføre: Hvad X er. Antagelser. Nulhypotese. Beregninger. Konklusion.).

2) Angiv et estimat for spredningen.3) Angiv et 95% konfidensinterval for spredningen.

62

Page 69: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 6

Opgave 6.8Ved indkøbet af et nyt måleapparat oplystes det, at apparatet målte med en spredning på 2.8enheder. Efter at have brugt apparatet et stykke tid nærede køberen mistanke om, at apparatetmålte med større spredning end oplyst. For at få spørgsmålet undersøgt lod køberen en bestemt måling udføre et antal gange. Følgende resultater fandtes:

18.8 15.5 12.2 14.8 4.80 1.20 1.43 9.60 1.39 1.17 5.60 1.27 1.35

8.70 1.23 1.40 1.02 1.65 1.91 1.14 1.46 1.59 1.54 1.01 1.80

Hvilke konklusioner kan køberen drage ud fra en statistisk analyse af de fundne forsøgsresul-tater?

Opgave 6.9En sukkerfabrik leverer sukkeret i 1 kg-poser og 2 kg-poser. Vægten af de fyldte poser vari-erer.1) For 1 kg-posernes vedkommende antages vægten at have en middelværdi på 1000 gram.

En række forsøg har vist, at sandsynligheden for, at en tilfældig udtaget 1 kg-pose vejermere ned 1025 gram, er 10%. Giv på det grundlag en vurdering af spredningen.

2) For 2 kg-posernes vedkommende bør middelværdien være 200 gram, og spredningen måikke overstige 25 gram. For at kontrollere, om en ny pakkemaskine overholder disse nor-mer, udtages tilfældigt 100 pakker af denne maskines produktion. Gennemsnittet beregnestil = 2008 gram, og et estimat for spredningen til s = 25 gram.xDet formodes på forhånd, at den nye maskine overholder de ovennævnte normer. Foretagen statistisk vurdering af, om dette kan antages at være tilfældet.

Opgave 6.10 Under produktionen forekommer blandt en fabriks affaldsprodukter 1,5 mg/l af et stof A,som i større mængder kan være kræftfremkaldende. Man håber ved en ny og mere kostbarmetode, at formindske indholdet af det pågældende stof.1) Inden man lavede forsøgene, foretog man en dimensionering. Hvis formindskelsen er un-

der 0.2 mg/l, er det ikke rimeligt at gå over til den nye metode. Man ønsker derfor at findedet mindste antal målinger, der skal indgå i undersøgelsen, for at man ved en ændring iindholdet af A på = 0.2 mg/l højst har, at P (type II fejl) = = 10%. Man har en begrundet formodning om, at spredningen i resultaterne højst kan være 0.21mg/l ( = 0.05 ).

2) Ved en række kontrolmålinger efter tilsætning af additivet fandtes følgende resultater (img/l)

1.12 1.47 1.35 1.27 1.17 1.26 1.83 1.10 1.39 1.25 1.44 1.14

Test på 5% niveau, om målingerne beviser, at der er sket en formindskelse af middelind-holdet af stoffet A. (Husk altid at anføre: Hvad X er. Antagelser. Nulhypotese. Beregnin-ger. Konklusion.).

3) Er det på basis af resultaterne muligt at vurdere, om den fundne formindskelse er stor noktil, at man vil gå over til den nye metode?

63

Page 70: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Hypotesetestning (1 normalfordelt variabel)

Opgave 6.11På et kraftvarmeværk mener man, at en ny metode vil kunne formindske svovlindholdet i deslagger, der bliver tilbage efter kulfyringen. Med en bestemt kvalitet kul, har det hidtidige svov-lindhold været 2.70 %.For at vurdere den nye metode ønsker ingeniøren at foretage en række forsøg.1) Hvor mange forsøg skal der mindst foretages, hvis = 5%, = 10%, = 0.04 og et over-

slag over spredningens størrelse sætter den til højst 0.08%. 2) Uanset resultatet af dimensioneringen i spørgsmål 1), er der kun praktiske muligheder for at

lave 16 forsøg. Følgende værdier af svovlindholdet fandtes (%).

2.58 2.64 2.80 2.50 2.52 2.69 2.60 2.73 2.61 2.62 2.65 2.58 2.70 2.67 2.62 2.64

Test om disse måleresultater beviser, at svovlindholdet ved den nye metode i middel er blevetmindre.

3) Er det på basis af resultaterne muligt at vurdere, om den fundne formindskelse er stor nok til,at man vil gå over til den nye metode?

Opgave 6.12 På pakken af en iscreme står, at portionen indeholder 14 gram fedt. For at kontrollere dette kø-bes n pakker is, og fedtindholdet måles.1) Bestem den nødvendige stikprøvestørrelse n, for at man ved en forskel i fedtindhold på

= 0.50 gram højst har, at P (type I fejl) = = 0.01 og P (type II fejl) = = 0.05. ( gram). 0 42.

2) Man finder et gennemsnit på 13.1 gram og et estimat s for spredningen på 0.42 gram. Kan man ud fra disse data bevise på signifikansniveau = 0.01, at middelindholdet afvigerfra 14 gram? (Husk altid at anføre: Hvad X er. Antagelser. Nulhypotese. Beregninger.Konklusion.).

2) Angiv et estimat for middelindholdet.3) Forudsat, at man i spørgsmål 1 kan bevise, at middelindholdet afviger fra 14 gram, skal angi-ves et 95% konfidensinterval for middelindholdet.

64

Page 71: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

7.1 Indledning

7 . HYPOTESETESTTO NORMALFORDELTE VARIABLE

7.1 INDLEDNING

I dette kapitel benyttes følgende eksempel til at forklare problemstilling, metode osv.

Eksempel 7.1. Sammenligning af 2 normalfordelte variable To produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 20 personer,

hvoraf de 10 bliver sat til at arbejde med den ene metode, og de 10 andre med den anden.

Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed.

Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget

pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2.

Man fik følgende resultater.

M1 87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90.1 92.4

M2 92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92.8 94.6

For at forsøgsresultaterne skal være “statistisk gyldige”, skal målingerne være uafhængige og

repræsentative for det man skal undersøge.

Det er således ikke korrekt, hvis man i eksempel 7.1 først udtager 10 personer, foretager målin-

gerne, laver en test, opdager man ikke kan vise at metode 1 giver 2 minutters lavere tidsforbrug,

udtager yderligere 10 personer , tester på de samlede fremkomne tal, osv. indtil man opnår den

ønskede signifikans.

Forsøg bør udføres så der er lige mange gentagelser.Det er klart, at det ville være forkert, at udtage 2 personer til at arbejde med metode M1 og 18

personer til at arbejde med metode M2.

Hvis en af personerne bliver syg under arbejdet, så der kun er 9 på det ene hold, ødelægger det

dog ikke testen.

Ved sammenligning af 2 normalfordelte variable er der afhængigt af hvordan stikprøven er

indsamlet valg mellem 2 metoder.

Er stikprøverne for de to variable som i eksempel 7.1 indsamlet ” uafhængigt af hinanden “

benyttes sædvanligvis den i appendix 7.1 angivne metode.

Er observationerne indsamlet “parvist” skal man benytte den i eksempel 7.3 angivne metode.

65

Page 72: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

7. Hypotesetest 2 variable

7.2. SAMMENLIGNING AF 2 NORMALFORDELTE VARIABLE

Eksempel 7.1. Sammenligning af 2 normalfordelte variable To produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 20 personer,

hvoraf de 10 bliver sat til at arbejde med den ene metode, og de 10 andre med den anden.

Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed.

Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget

pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2.

Man fik følgende resultater.

M1 87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90.1 92.4

M2 92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92.8 94.6

1) Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at

tidsforbruget ved metode M1 er 2 minutter mindre end ved metode M2

2) Hvis dette kan påvises, skal der angives et 95% konfidensinterval for differensen i tidsforbrug.

Løsning:1) Lad X1 = udbyttet ved anvendelse af metode M1 og

X2 = udbyttet ved anvendelse af metode M2.

X1 og X2 antages approksimativt normalfordelte med middelværdi og spredning henholdsvis

.µ σ µ σ1 1 2 2, ,og

Begrundelse: Nulhypotesen udtrykker jo, at intet er ændret (nul virk-H0 2 1 2: µ µ− =

ning), så den angiver, at differensen i middeltidsforbruget er præcist 2.

Begrundelse: Den alternative metode udtrykker jo det vi ønsker at bevise, H: µ µ2 1 2− >

så den angiver, at differensen i middeltidsforbruget er større end 2. Såvel TI89 som Excel anvender et færdigt program, der anvender en testmetode (Satterthwaites metode), som

er robust overfor mindre afvigelser fra kravet om normalitet, når blot antallet af gentagelser er (næsten) den

samme.

Er det ikke tilfældet kan man stadig foretage testen, men så stilles der større krav til, at de variable X1 og X2

virkelig er normalfordelte.

Formlen for Satterthwaites metode kan findes i oversigt 7.3.

Når regnemidlerne anvendes, omskrives hypoteserne til

H0 1 22: µ µ+ = H: µ µ1 22+ <

TI89: APPS, STAT/LIST , indtast data i list1 og list 2 F6, 4: 2 - SampTtest ENTER

I den fremkomne menu vælg Data ok

I menu for “list 1" skrives list1+2, for “alternative Hyp” og pooled til “NO” OKµ µ1 2<

Man får P-værdi = 0.0464.

TI-Nspire: Lister og regneark Udfyld lister med overskrift m1 og m2 Statistik statistiske tests t-interval for 2 variable menu:data ok menu: List1: benyt pil til at vælge “m1" og skriv

+2 List 2: Vælg “m2" “alternative Hyp” samlet: nej okµ µ1 2<

Excel: Tallene for metode 1 indtastes i A1 til A10

Tallene for metode 2 indtastes i B1 til B10I C1 til C10 indsættes tallene fra A-kolonnen +2 (Skriv i C1 =A1+2 , og kopiere resultat ned)

På værktøjslinien foroven: Tryk på Vælg kategorien “Statistisk” Vælg “TTEST”f x

Tabel udfyldes: =TTEST(C1:C10;B1:B10;1;3)P-værdi= 0,0464

Da P-værdi =4.64% < 5% forkastes H0, dvs. vi har bevist, at tidsforbruget ved metode M1 er 2

minutter mindre end ved metode M2.

66

Page 73: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

7.2 Sammenligning af 2 normalfordelte variable

2) 95% Konfidensinterval for differens

TI89: F7, 4: 2 - SampTint ENTER I den fremkomne menu vælg Data ok

I menu for “list 1" skrives blot list2, osv. poole til “No” OK

Differensen er 3.21 og 95% konfidensinterval for differensen er [1.77 ; 4.64]

TI-Nspire: Lister og regneark Udfyld lister med overskrift m1 og m2 Statistik konfidensintervallert-interval for 2 variable menu:data ok menu: List1: benyt pil til at vælge “m2" List

2: Vælg “m1" samlet: nej ok

Excel:Excel har intet program til beregning af konfidensinterval, så man må benytte formlen

: , hvor µ µ1 2− x x t f c x x t f c1 2 0 975 1 2 1 2 0 975− − ⋅ ≤ − ≤ − + ⋅, ,( ) ( )µ µ cs

n

s

n= +

1

2

1

2

2

2

og frihedsgradstallet f er det nærmeste hele tal der er større end gc

s

n

n

s

n

n

=

−+

2

1

2

1

2

1

2

2

2

2

21 1

A B C D E

1 87.8 92.4 xA streg= MIDDEL(A1:A10) 90,31

2 91.9 94.6 xB streg= MIDDEL(B1:B10) 93,52

3 98.8 93 vA= VARIANS(A1:A10) 2,785444

4 89 94 VB= VARIANS(B1:B10) 1,839556

5 92.6 92.4 n1= 10

6 89.4 92.9 n2= 10

7 91.4 96.4 c= E3/E5+E4/E6 0,4625

8 88.7 92.1 f= AFRUND.LOFT(E7^2/((E3/E5)^2/(E5-1)+(E4/E6)^2/(E6-1));1) 18

9 90.1 92.8 Differens E2-E1 3,21

10 92.4 94.6 Nedre grænse E2-E1-TINV(0,05;E8) * KVROD(E3/E5+E4/E6) 1,781219

11 Øvre grænse E2-E1+TINV(0,05;E8) * KVROD(E3/E5+E4/E6) 4,638781

Differensen er 3.21 og 95% konfidensinterval for differensen er [1.77 ; 4.64]

Gemmes ovenstående excelfil, kan man nu hurtigt finde konfidensinterval for andre data.

Eksempel 7.2. Sammenligning af 2 normalfordelte variable (oprindelige data ikke givet)Et luftfartsselskab A hævder, at dets fly til USA i gennemsnit afgår mere præcist end et konkur-

rerende luftfartsselskab.

En forbrugergruppe undersøger denne påstand ved i en given periode at bestemme forsinkelserne

for samtlige flyafgange til USA for hver af de to selskaber.

Man fandt følgende tal:

Luftfartsselskab Antal afgange x s

A 100 55 minutter 30 minutter

B 80 60 minutter 35 minutter

Støtter undersøgelsen luftfartsselskab A's påstand?

67

Page 74: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

7. Hypotesetest 2 variable

Løsning:XA = forsinkelsen i minutter for luftfartselskab A.

XB =forsinkelsen i minutter for luftfartselskab B.

XA og XB antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ σA A,

og .µ σB B,

Da vi ønsker at vise, at A er mere præcise end B, så haves:

H HA B A B0 : :µ µ µ µ= <

TI89 t - test: APPS STAT/LIST F6, 4 2 - SampTtest ENTER

I den fremkomne menu vælg STATS OK (da oprindelige data ikke er kendt)

Menuen udfyldes bl.a. “alternative Hyp” og poole til “No” OK µ µ1 2<

P-værdi = 0.156

Konklusion: Da P-værdi > 0.05 accepteres H0 , dvs.

vi kan ikke vise, at A er mere præcis end B.

TI-Nspire: Lister og regneark Statistik Statistiske test t-interval for 2 variable menu:Statistik ok

udfyld menu “alternative Hyp” samlet: nej okµ µ1 2<

Excel har intet program til beregning af P-værdi, så man må benytte formlen fra oversigt 7.3

, hvor P-værdi = P(T < t)tx x d

c=

− −1 2c

s

n

s

n= +

1

2

1

2

2

2

og frihedsgradstallet f er det nærmeste hele tal der er større end gc

s

n

n

s

n

n

=

−+

2

1

2

1

2

1

2

2

2

2

21 1

A B C D E

1 Eksempel 7.2

2

3 XA =forsinkelsen for luftfartselskab A XA er normalfordelt med middelværdi µA

4 XB =forsinkelsen for luftfartselskab A XB er normalfordelt med middelværdi µB

5 H0: µA =µB H: µA < µB

6 Data Beregning

7 nA = 100 a= B9^2/B7 9

8 x-streg-A= 55 b= B12^2/B10 15,3125

9 sA = 30 c= E7+E8 24,3125

10 nB = 80 t= (B8-B11-B13)/KVROD(E9) -1,01404

11 x-streg-B= 60 g= E9^2/(E7^2/(B7-1)+E8^2/(B10-1)) 156,1194

12 sB = 35 f = RUND.OP(E11;0) 157

13 d= 0 P-værdi= TFORDELING(ABS(E10);E12;1) 0,156062

14 Konklusion: Da p -værdi > 0.05 accepteres H0, dvs.

15 det kan ikke på dette grundlag vises, at A er mere præcis end B

68

Page 75: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

7.2 Sammenligning af 2 normalfordelte variable

Parvise observationerParvise observationer (Matched pairs samples) kan anvendes, hvis det har mening at sammen

ligne observationerne to og to (i par)

Som et eksempel herpå vil vi igen betragte problemstillingen i eksempel 7.1, men nu antage, at

forsøget er foretaget på en anden måde.

Eksempel 7.3. Parvise observationerTo produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 10 personer.

Efter lodtrækning bliver 5 personer sat til først i 2 uger, at arbejde med produktionsmetode M1

og derefter i de næste 2 uger med produktionsmetode M2.

De øvrige 5 personer arbejder omvendt først med metode M2 og derefter med metode M1.

Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed.

Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget

pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2.

Man fik følgende resultater.

Person nr. 1 2 3 4 5 6 7 8 9 10

M1 87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90.1 92.4

M2 92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92.8 94.6

1) Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at

tidsforbruget ved metode M1 er 2 minutter mindre end ved metode M2

2) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter.

Forklaring på metode:Da en forsøgsperson kan være hurtig og en anden langsom (person 1 er således hurtigere end

person 2) kan spredningen på M1 og M2 være så stor, at man intet kan vise.

Hvis man i stedet tager differenserne M2 - M1 vil disse forskelle jo udjævnes, da person 1 jo er

hurtig under arbejdet med begge metoder, mens person 2 er langsom ved begge.

Person nr. 1 2 3 4 5 6 7 8 9 10

M1 87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90,1 92,4

M2 92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92,8 94,6

D = M2 - M1 4.6 2.7 3.2 5 -0.2 3.5 5 3.4 2,7 2,2

I stedet for at benytte metoden i eksempel 7.1 kan vi nu teste nulhypotesen

mod ved metoden i eksempel 6.2 (en variabel)H D0 2: = H D: > 2

Løsning:1) D = forskellen i tidsforbruget ved metode M2 og metode M1

D antages approksimativt normalfordelt med middelværdi og spredning .µ σ

H0: D = 2 H: D > 2

TI89:Data indtastes (de samme som i eksempel 7.1)

APPS STAT/LIST data indtastes i list 1 og list 2 Cursor på list 3 list2 - list 1

Enter F6 t-test menu udfyldes

P-værdi = 0.0178

TI-Nspire: Lister og regneark Udfyld lister med overskrift m1 og m2 ny liste benævnes m3 i cellenlige under højre musetast :tryk 2 gange og skriv m2 - m1 ENTER vælg på menu variabel-reference Statistik t-interval for 1 variabel menu:data ok menu udfyldes med m3

ok

69

Page 76: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

7. Hypotesetest 2 variable

ExcelTallene for metode 1 indtastes i A1 til A10Tallene for metode 2 indtastes i B1 til B10I C1 til C10 indsættes tallene fra A-kolonnen +2 (Skriv i C1 =A1+2 , og kopiere resultat ned)

På værktøjslinien foroven: Tryk på Vælg kategorien “Statistisk” Vælg “TTEST”f x

Tabel udfyldes: =TTEST(C1:C10;B1:B10;1;1) (bemærk 1 for parvis)P-værdi= 0,017836

Konklusion: Da P-værdi < 0.05 forkastes H0, dvs.

M1 er signifikant 2 minutter lavere end M2, dvs. man vil gå over til at benytte metode M1

2) Konfidensinterval for differens:

TI89:F6 t-interval menu udfyldes

Differens = 2.31 KONFIDENSINTERVAL [2.10 ; 4.32 ]

TI-Nspire: Beregninger Statistik Konfidensintervaller t-interval for 1 variabel menu:Statisk udfyldmenu bl.a. med m3 ENTER

Excel: Danner en kolonne D1 til D10 med differenserne mellem A og B kolonner.

På værktøjslinien foroven: Tryk på Vælg kategorien “Statistisk” Middelf x

Excel: 2003: Funktioner 2007: Data

derefter Dataanalyse Beskrivende statistik udfyld inputområde vælg konfidensniveau

Resultatx streg 3,21

Konfidensniveau(95,0%) 1,10896985

nedre grænse 2,1011

øvre grænse 4,3190

70

Page 77: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Oversigt 1.2

7.3 OVERSIGT over centrale formler i kapitel 7 Test af middelværdier og konfidensinterval for differens for 2 normalfordelteµ µ1 2og µ µ1 2−

variable . X1 og X2 antages normalfordelte henholdsvis og . n( , )µ σ1 1 n( , )µ σ2 2

Givet 2 stikprøver af X1 og X2. Størrelse, gennemsnit og spredning henholdsvis n1, , s1 og n2, , s2. x1 x2

Signifikansniveau er Lad d være en given konstant.α

Forkortelser: a = , b = , c = a + b, s

n

1

2

1

s

n

2

2

2

gc

a

n

b

n

=

−+

2

2

1

2

21 1

T er t - fordelt med frihedsgradstallet f.

Forudsætninger Alternativ

hypotese H

P - værdi Beregning H0 forkastes

ukendteσ σ1 2,

tx x d

c=

− −1 2

f er det nærme-

ste hele tal, som

er større end g

µ µ1 2> + d P T t( )≥ TI89+TI-Nspire: tCdf t f( , , )∞

el. F6: 2-sampTtest,pooled, No

Excel:TTEST(se eksempel 7.1)

P - værdi< α

µ µ1 2< + d P T t( )≤ TI89+TI-Nspire: tCdf t f( , , )−∞

el. F6: 2-sampTtest,pooled, No

Excel:TTEST(se eksempel 7.1)

µ µ1 2≠ + d forP T t( )≥ x x d1 2> +

for P T t( )≤ x x d1 2< +

som række 1

som række 2

P - værdi <12

α

dog hvis Ttest

P - værdi< α

konfidensinterval for differens :100 1⋅ −( )%α µ µ1 2−

x x t f c x x t f c1 21

2

1 2 1 21

2

− − ⋅ ≤ − ≤ − + ⋅− −

α αµ µ( ) ( )

TI89: F7, 2-SampTint Excel: Formel benyttes: se eksempel 7.1

Forkortelser: Y er normalfordelt x x x d= − −1 2 σσ σ

= +1

2

1

2

2

2n n

n( , )µ σ

Forudsætninger Alternativ

hypotese H

P - værdi Beregning H0 forkastes

kendteσ σ1 2, µ µ1 2> + d P Y x( )≥ TI89: normCdf x( , , , )∞ µ σ

eller F6: 2-sampZtest

Excel: 1-normfordeling( )x, ,µ σ

P - værdi< α

µ µ1 2< + d P Y x( )≤ TI89: normCdf x( , , , )−∞ µ σ

eller F6: 2-sampZtest

Excel: ZTEST

µ µ1 2≠ + d forP Y x( )≥ x x d1 2> +

for P Y x( )≤ x x d1 2< +

som række 1

som række 2

P - værdi <12

α

dog hvis Ztest

P - værdi< α

konfidensinterval for differens : 100 1⋅ −( )%α µ µ1 2−

x x z x x z1 21

2

1 2 1 21

2

− − ⋅ ≤ − ≤ − + ⋅− −

α ασ µ µ σ

TI89: F7, 2-SampZint Excel: Formel benyttes:

71

Page 78: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

7. Hypotesetest 2 variable

OPGAVER

Opgave 7.1

Det påstås at modstanden i en tråd af type A er større end modstanden i en tråd af type B. Til

afklaring af denne påstand udtages tilfældigt 6 tråde af hver type og deres modstande måles.

Følgende resultater fandtes:

Modstand i tråd A (i ohm) 0.140 0.138 0.143 0.142 0.144 0.137

Modstand i tråd B (i ohm) 0.135 0.140 0.142 0.136 0.138 0.140

Hvilke konklusioner kan drages med hensyn til påstanden?

Opgave 7.2 Et levnedsmiddelfirma havde udviklet en diæt, som har lavt indhold af fedt, kulhydrater og kole-

sterol. Diæten er udviklet med henblik på patienter med hjerteproblemer, men firmaet ønsker nu

at undersøge diætens virkning på folk med vægtproblemer.

To stikprøver på hver 100 personer med vægtproblemer blev udtaget tilfældigt. Gruppe A fik den

nye diæt, mens gruppe B fik den diæt, man normalt gav. For hver person blev registreret størrel-

sen af vægttabet i en 3 ugers periode.

Man fandt følgende værdier for gennemsnit og spredning:

Gruppe A: kg , x A = 9 31. sA = 4 67.

Gruppe B: kg , .xB = 7 40. sB = 4 04.

1) Undersøg om vægttabet for gruppe A er signifikant større end for gruppe B. Signifikansniveau

.α = 5%2) I tilfælde af signifikans beregn da et 95% konfidensinterval for differensen mellem de to grup-

pers middelværdier.

Opgave 7.3 I et laboratorium foretoges 15 uafhængige bestemmelser af furfurols kogepunkt, idet 8 af bestem-

melserne foretoges af én kemiingeniør, de resterende bestemmelser af en anden kemiingeniør.

Resultaterne var ( 0C ) :

1. ingeniør 162.2 161.3 161.9 161.2 163.4 162.4 162.5 162.0

2. ingeniør 163.3 162.6 161.8 163.8 163.0 163.2 164.1

Undersøg, om de to ingeniørers resultater i middel er ens.

Opgave 7.4 På et laboratorium undersøgtes filtreringstiden for en opløsning af et bestemt gødningsstof ved

benyttelsen af to forskellige filtertyper (F1) og (F2). Følgende stikprøveværdier observeredes:

(F1) 8 10 12 13 13 9 14 10

(F2) 9 10 10 7 9 11 7

Det antages, at filtreringstiderne X1 og X2 er normalfordelte og n( , )µ σ1 1 n( , )µ σ2 2

Test om det kan antages, at filtreringstiderne i middel er forskellige.

72

Page 79: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 7

Opgave 7.5En produktion af plastikvarer må omlægges på grund af bestemmelser i en ny miljølov.

Ved den fremtidige produktion kan inden for miljølovens rammer vælges mellem 2 pro- duk-

tionsmetoder I og II. Metode I er den dyreste, og fabrikanten har regnet ud, at det (kun) kan betale

sig at benytte metode I, såfremt den giver et middeludbytte, som er mindst 10 måleenheder (ud-

bytteprocenter) større end udbyttet ved benyttelse af metode II.

Ved et fuldstændigt randomiseret forsøg fandtes følgende måleresultater:

Metode I 35.2 38.1 37.6 37.6 34.9 37.9 36.5 40.0 36.2 37.4 37.2 37.9

Metode II 26.2 22.2 24.3 24.5 22.0 27.6 23.8 22.8 23.4 20.8

Fabrikanten valgte herefter at benytte metode I.

a) Foretag en undersøgelse af, om valget var statistisk velmotiveret.

b) Hvis forslaget er velmotiveret skal der opstilles et 95% - konfidensinterval for differensen

mellem middeludbytterne ved benyttelse af metoderne l og II.

Opgave 7.6 To sjællandske fabrikker producerer begge en bestemt type kvægfoder, for hvilken det ønskes, at

proteinindholdet i færdigvaren skal være 26%. På de 2 fabrikkers driftslaboratorier foretoges

følgende målinger af proteinindholdet i en uges produktion:

Fabrik 1 27.3 26.1 26.9 24.8 26.2 25.7 26.5

Fabrik 2 26.0 26.7 25.6 26.1 26.2 25.5 26.0 26.1 26.2 25.9

Foretag en statistisk vurdering af, om de to produktioner kan antages i middel at give kvægfoder

med samme proteinindhold.

Opgave 7.7Måling af intelligenskvotient på 16 tilfældigt udvalgte studerende ved en diplom-retning (med

mere end 200 studerende) viste et gennemsnit på = 107 og en empirisk varians på =100,x1

s1

2

medens en tilsvarende måling på 14 tilfældigt udvalgte studerende fra en anden diplomretning

viste et gennemsnit på =112 og en empirisk varians på = 64. x2 s2

2

Tyder disse tal på en forskel på studentermaterialet på de to retninger?

Opgave 7.8Et bestemt medikament ønskes testet for dets effekt på blodtrykket. 12 mænd fik deres blodtryk

målt før og efter indtagelse af medikamentet. Resultaterne var:

mand nr 1 2 3 4 5 6 7 8 9 10 11 12

Før 120 124 130 118 140 128 140 135 126 130 126 127

Efter 128 131 131 127 132 125 141 137 118 132 129 135

Udfør en testning af, om disse tal tyder på, at medikamentet påvirker blodtrykket.

73

Page 80: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

7. Hypotesetest 2 variable

Opgave 7.9

Et diætprodukt påstår i en reklame, at brug af produktet i en måned vil resultere i et vægttab på 3

kg.

En forbrugerorganisation ønsker at teste denne påstand, dvs. om vægttabet er netop 3 kg

8 personer bruger produktet i en måned, og resultatet fremgår af nedenstående tabel:

Person nr 1 2 3 4 5 6 7 8

Startvægt 81 101 98 99 78 71 75 93

Slutvægt 79 95 95 97 73 69 71 89

1) Undersøg på grundlag af disse tal, om det på basis af disse tal på et signifikansniveau på 5%

kan vises, at reklamens påstand er fejlagtig, dvs. om vægttabet afviger signifikant fra 3 kg?

2) Opstil et 95% tosidet konfidensinterval for middelværdien af vægttabet, og giv på grundlag

heraf en vurdering af virkningen af diætproduktet.

Opgave 7.10 (parvise observationer).

En producent af malervarer har laboratorieresultater, der tyder på, at en ny lak A, har en større

slidstyrke end den sædvanlige lak B. Han ønsker en afprøvning i praksis og aftaler med ejerne af

6 bygninger med mange trapper, at han må lakere deres trapper. Efter 3 måneders forløb måles

graden af slid (i %) i hver bygning.

1) Angiv hvorledes du ville foretage forsøget.

2) De målte værdier af slid efter valg af plan var

Bygning nr 1 2 3 4 5 6

Ny lak 20.3 25.1 21.8 19.6 18.9 23.5

Sædvanlig lak 19.5 28.4 21.6 22.0 20.9 25.8

Undersøg om observationerne leverer et eksperimentelt bevis for, at den nye lak er mere slid-

stærk end den sædvanlige lak.

74

Page 81: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8.1 Regneregler for sandsynlighed

Fig. 8.2 Foreningsmængde

8. REGNEREGLER FOR SANDSYNLIGHED,KOMBINATORIK

8.1 REGNEREGLER FOR SANDSYNLIGHEDERVi har tidligere omtalt sandsynlighed.

I dette kapitel omtales nogle af de grundlæggende definitioner og begreber

Det følgende eksempel blive benyttet til illustration af definitioner og begreber.

Eksempel 8.1. Gennemgående eksempel.To skytter Anders og Brian skyder hver ét skud mod en skydeskive. Sandsynligheden for at

Anders rammer skiven er 0.80 mens Brian har en træfsandsynlighed på 0,60.

Et eksperiment består i at de hver skyder et skud.

Lad A være hændelsen at Anders rammer skiven og lad B være sandsynligheden for at Brian

rammer skiven.

Vi har derfor, at P(A) = 0.80 og P(B) = 0.60.

Lad os ved at sætte en streg over A forstå “ikke A”.

Generelt gælder = 1 - P ( A )P A( )

I eksempel 8.1 er hændelsen at Anders ikke rammer skiven.A

Vi har derfor, at P( ) = 1 - P(A) = 1 - 0.8 = 0.20A

Fællesmængden til A og B benævnes og erA B∩

mængden af alle udfald i udfaldsrummet U, der tilhører

både A og B (Den skraverede mængde i figur 8.1 ).

Eksempelvis er i eksempel 8.1 hændelsen, atA B∩

både Anders og Brian rammer skiven

Foreningsmængden af A og B benævnes ogA B∪

er mængden af alle udfald i udfaldsrummet U, der

enten tilhører A eller B eventuelt dem begge (den

skraverede mængde på figur 8.2 )

Eksempelvis er i eksempel 6.1 den hændelse,A B∪

at enten rammer Anders eller også rammer Brian

skiven eventuelt gør de det begge.

Man kunne også udtrykke det ved at mindst en af dem

rammer skiven.

Fig 8.1. Fællesmængde

75

Page 82: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8. Regneregler for sandsynlighed, Kombinatorik

Der gælder nu følgende sætninger:

Additionssætning: P A B P A P B P A B( ) ( ) ( ) ( ).∪ = + − ∩

Sætningen fremgår umiddelbart ved at betragte arealerne i figur 8.3.

Statistisk uafhængighed.To hændelser A og B siges at være statistisk uafhængige, såfremt sandsynligheden for, at den

ene hændelse indtræffer, ikke afhænger af, om den anden hændelse indtræffer.

I eksempel 8.1 må man eksempelvis antage, at om Anders rammer skiven har ingen indflydelse

på om Brian rammer, så her må man antage A og B er uafhængige.

Et andet eksempel er kast med en terning. Her vil sandsynligheden for at få en sekser i andet kast

være uafhængigt af udfaldet i første kast

Der gælder følgende sætning:

Eksempel 8.2 (eksempel 8.1 fortsat)

Lad A være hændelsen, at Anders rammer skiven, og lad B være hændelsen, at Brian rammer

skiven. Det er givet, at P(A) = 0.80 og P(B) = 0.60.

Find sandsynligheden for

a) At både Anders og Brian rammer skiven

b) At enten Anders eller Brian (evt. begge) rammer skiven, dvs. mindst en af dem rammer skiven.

c) At hverken Anders elle Brian rammer skiven

Løsning:a) Da hændelserne antages at være uafhængige gælder ifølge produktsætningen

P A B( ) . . .∩ = ⋅ =08 0 6 0 48

b) Ifølge additionssætningen gælder P A B( ) . . . .∪ = + − =0 6 08 0 48 0 92

c) P A B P A P B( ) ( ) ( ) ( . )( . ) .∩ = ⋅ = − − =1 08 1 0 6 0 08

P A B( )U P A( ) P B( ) P A B( )I

Fig.8.3 Additionssætning

Produktsætning for uafhængige hændelser:

For to uafhængige hændelser gælder P A B P A P B( ) ( ) ( )∩ = ⋅

76

Page 83: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8.2 Betinget sandsynlighed

Fig. 8.4 Taleksempel

Produktsætning og additionssætning kan generaliseres til flere hændelser end 2.

For tre hændelser A, B og C gælder således

P A B C P A P B P C P A B P A C P B C( ) ( ) ( ) ( ) ( ) ( ) ( )∪ ∪ = + + − ∩ − ∩ − ∩

I tilfælde af at hændelserne A, B og C er uafhængige gælder således:

.P A B C P A P B P C( ) ( ) ( ) ( )∩ ∩ = ⋅ ⋅

Er hændelserne A og B ikke uafhængige, kan man som beskrevet i afsnit 11.3 udlede en mere

generel produktsætning

8.2. Betinget sandsynlighed

Er hændelserne A og B ikke uafhængige vil P A B P A P B( ) ( ) ( )∩ ≠ ⋅

Eksempel 8.3. Ikke uafhængige hændelserEn fabrik har erfaring for, at den daglige produktion af glasfigurer indeholder 10 % misfarvede, 20% har ridser, og

1 % af produktionen er både ridsede og misfarvede.

Et eksperiment består i tilfældigt at udtage en glasfigur af produktionen. Lad A være hændelsen at få en misfarvet

og lad B være hændelsen at få en ridset.

Her er . P A P B P A B( ) ( ) . . . ( ) .⋅ = ⋅ = ≠ ∩ =01 0 2 0 02 0 01

For at få en mere generel regel indføres som kaldes sandsynligheden for, at B indtræffer, når A er indtruffetP B A( )

(den af A betingede sandsynlighed for B).

For at forklare den følgende definition, vil vi simplificere eksem-

pel 8.3, idet vi antager, at den daglige produktion er 100 glasfi-

gurer. I så fald er der 10 misfarvede figurer, 20 ridsede figurer, og

1 figur der er både misfarvet og ridset.

Hvis vi begrænser vort udfaldsrum til A, så er

.P B AP A B

P A( )

( )

( )= = =

∩1

10

1

10010

100

Denne beregning begrunder rimeligheden i følgende definition:

Den af A betingede sandsynlighed for B skrives P B A( )

(eller sandsynligheden for, at B indtræffer, når A er indtruffet )

defineres ved .P B AP A B

P A( )

( )

( )=

Ved multiplikation fås Produktsætningen: .P A B P A P B A( ) ( ) ( )∩ = ⋅

Benyttes produktsætningen på eksempel 8.1 fås .P A B P A P B A( ) ( ) ( ) . . .∩ = ⋅ = ⋅ =01 01 0 01

77

Page 84: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8. Regneregler for sandsynlighed, Kombinatorik

Eksempel 8.4: Betinget sandsynlighed.En beholder indeholder 3 røde og 3 hvide kugler. Vi udtrækker successivt 2 kugler fra urnen.

Vi betragter følgende 2 hændelser:

A: Den først udtrukne kugle er rød. B: Den anden udtrukne kugle er rød.

Beregn hvis P A B( )∩

1) kugleudtrækningen foregår, ved at den først udtrukne kugle lægges tilbage før den anden udtrækkes.

2) kugleudtrækningen foregår, ved at den først udtrukne kugle ikke lægges tilbage før den anden udtrækkes.

Løsning1) Her er og derfor ifølge produktsætningen P B A( ) = 3

6P A B P A P B A( ) ( ) ( )∩ = ⋅ = 1

4

2) Her er og derfor P B A( ) = 25 P A B( )∩ = ⋅ =

36

25

15

Bayes sætningFor to hændelser A og B for hvilken P(A) > 0 gælder

Bevis:

Af definitionen på betinget sandsynlighed og produktsætningen fås P B AP A B

P A

P B A

P A

P B P A B

P A( )

( )

( )

( )

( )

( ) ( )

( )=

∩=

∩=

Bayes sætning gør, at det er let at omskrive fra den ene betingende sandsynlighed til den anden.

Dette er tilfældet, hvis den ene af de to betingede sandsynligheder er meget lettere atP B A P A B( ) ( )og

beregne end den anden.

Eksempel 8.5 (Bayes sætning)I en officeruddannelse kan man vælge mellem en “teknisk” linie og en “operativ”linie. På en bestemt årgang har 60

% valgt den operative linie og af disse er 20% kvinder. På den tekniske linie er 10% kvinder.

Ved lodtrækning vælges en elev.

a) Find sandsynligheden for, at denne er en kvinde.

Ved ovenstående lodtrækning viste det sig at eleven var en kvinde.

b) Hvad er sandsynligheden for, at hun kommer fra den tekniske linie.

Løsning:Vi definerer følgende hændelser:

T: Den udtrukne er tekniker

K: Den udtrukne er en kvinde.

a) P K P T K P O K P K T P T P K O P O( ) ( ) ( ) ( ) ( ) ( ) ( ) . . . . .= ∩ + ∩ = ⋅ + ⋅ = ⋅ + ⋅ = =01 0 4 0 2 0 6 016 16%

b) Af Bayes sætning fås: P T KP K T P T

P K( )

( ) ( )

( )

. .

.=

⋅=

⋅= =

01 0 4

016

1

425%

En anden metode ville det være, at antage, at der bliver optaget 100 elever.

Vi har så følgende skema

Kvinder I alt

Operativ 12 60

Teknisk 4 40

Heraf fås umiddelbart og P K( ) = =16

10016% P T K( ) = =

4

1625%

Bayes sætning: P B AP B P A B

P A( )

( ) ( )

( )=

78

Page 85: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8.3 Kombinatorik

8.3. Kombinatorik

8.3.1. Indledning:Såfremt et udfaldsrum U indeholder n udfald som alle er lige sandsynlige, vil sandsynligheden

for hvert udfald være .P un

( ) = 1

En hændelse A som indeholder a udfald vil da have sandsynligheden . P A an

( ) =

Dette udtrykkes ofte kort ved at sige, at sandsynligheden for A er antal gunstige udfald i A

divideret med det totale antal udfald i udfaldsrummet.

I sådanne tilfælde, bliver problemet derfor, hvorledes man let kan optælle antal udfald. Dette kan

ofte gøres ved benyttelse af kombinatorik.

8.3.2. Multiplikationsprincippet

Multiplikationsprincippet illustreres ved følgende eksempel.

Eksempel 8.6. MultiplikationsprincippetEn mand ejer 2 forskellige jakker, 4 slips og 3 forskellige fabrikater skjorter.

På hvor mange forskellige måder kan han sammensætte sin påklædning af skjorte,slips og jakke.

Løsning:1) Valg af skjorte giver 3 valgmuligheder

2) Valg af slips giver 4 valgmuligheder

3) Valg af jakke giver 2 valgmuligheder

Ifølge multiplikationsprincippet giver det i alt muligheder2 3 4 24⋅ ⋅ =

Man kunne illustrere løsningen ved følgende “forgreningsgraf”

Multiplikationsprincippet: Lad et valg bestå af n delvalg, hvoraf det første valg

har valgmuligheder, det næste valg har valgmuligheder, . . . og det n’te valg harr1 r2

valgmuligheder.rn

Det samlede antal valgmuligheder er da r r rn1 2⋅ ⋅ ⋅....

79

Page 86: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8. Regneregler for sandsynlighed, Kombinatorik

Eksempel 8.7 FakultetPå hvor mange måder kan 5 personer opstilles i en kø (i rækkefølge)

Løsning:Pladserne i køen nummereres 1,2,3,4,5.

Plads nr. 1 i køen besættes 5 valgmuligheder

Plads nr. 2 i køen besættes 4 valgmuligheder

Plads nr. 3 i køen besættes 3 valgmuligheder

Plads nr. 4 i køen besættes 2 valgmuligheder

Plads nr. 5 i køen besættes 1 valgmulighed

I alt forskellige rækkefølger.5 4 3 2 1 120⋅ ⋅ ⋅ ⋅ =

Ved n fakultet (n udråbstegn) forstås n n n n! ( ) ( ) . . .= ⋅ − ⋅ − ⋅ ⋅ ⋅1 2 2 1

Endvidere defineres 0! = 1.

TI89: 5 MATH Probability ! 5! = 120

TI-Nspire: 5 Sandsynlighedsregning Fakultet ENTER

Excel: fx Math/trig FAKULTET(5) 120

8.3.3 Ordnet stikprøveudtagelseLad os tænke os vi har en beholder indeholdende 9 kugler med numrene 1, 2, 3, ..., 9 .

Vi udtager nu en stikprøve på 4 kugler. Det kan ske

1) uden tilbagelægning: En kugle er taget op, nummeret noteres, men den lægges ikke tilbage inden man tager en

ny kugle op.

2) med tilbagelægning: En kugle tages op, nummeret noteres, og derefter lægges kuglen tilbage inden man tager en

ny kugle op. Man kan følgelig få den samme kugle op flere gange.

Ved en ordnet stikprøveudtagelse lægges vægt på den rækkefølge hvori kuglerne udtages, .

dvs. der er forskel på 2,1,3,5 og 3,1,2,5

a) Uden tilbagelægningEksempel 8.8. Ordnet uden tilbagelægningI en forening skal der blandt 10 kandidater vælges en bestyrelse

På hvor mange forskellige måder kan man sammensætte denne bestyrelse, hvis

1) Bestyrelsen består af en formand og en kasserer

2 Bestyrelsen består af en formand, en næstformand, en kasserer og en sekretær.

Løsning:1) En formand vælges blandt 10 kandidater 10 valgmuligheder

En Kasserer vælges blandt de resterende 9 kandidater 9 valgmuligheder

Da der for hvert valg af formand er 9 muligheder for kasserer, følger af multiplikationsprincippet, at det totale

antal forskellige bestyrelser er .10 9 90⋅ =

2) Analogt fås ifølge multiplikationsprincippet at antal forskellige bestyrelser er = 5040 10 9 8 7⋅ ⋅ ⋅

TI89: MATH Probability nPr(10,4) . Resultat: = 5040

Excel: fx Statistisk PERMUT(10;4) 5040

Eksempel 8.8 begrunder følgende definition

Permutationer. Antal måder (rækkefølger eller “permutationer”) som m elementer kan udtages (ordnet og

uden tilbagelægning) ud af n elementer er P n m n n n n m( , ) ( ) ( ) ... ( )= ⋅ − ⋅ − ⋅ ⋅ − +1 2 1

80

Page 87: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8.4 Kombinatorik

b) Med tilbagelægning

Eksempel 8.9. Ordnet, med tilbagelægningI en forening skal 4 tillidshverv fordeles mellem 10 personer. En person kan godt have flere tillidshverv. På

hvor mange forskellige måder kan disse hverv fordeles.?

Løsning:Tillidshverv 1 placeres. 10 valgmuligheder

Tillidshverv 2 placeres 10 valgmuligheder

Tillidshverv 3 placeres 10 valgmuligheder

Tillidshverv 4 placeres 10 valgmuligheder

I alt (ifølge multiplikationsprincippet) 10 10 10 10 104⋅ ⋅ ⋅ =

8.3.4. Uordnet stikprøveudtagelse

Eksempel 8.10 Uordnet uden tilbagelægning

En beholder indeholdende 5 kugler med numrene k k k k k1 2 3 4 5, , , ,

Vi udtager nu en stikprøve på 3 kugler uden tilbagelægning. Rækkefølgen kuglen tages op er

uden betydning, dvs. der er ikke forskel på eksempelvis og k k k1 4 2, , k k k4 1 2, ,

Hvor mange forskellige stikprøver kan forekomme?

Løsning:Antallet er ikke flere end man kan foretage en simpel optælling:

{ } { }{ }{ }{ }{ }{ }{ }{ }k k k k k k k k k k k k k k k k k k k k k k k k k k k1 2 3 1 2 4 1 2 5 1 3 4 1 3 5 2 3 4 2 3 5 2 4 5 4 53, , , , , , , , , , , , , , , , , , ,

Antal stikprøver = 10

Det er klart, at ren optælling er uoverkommeligt, hvis mængden er stor.

Definition af kombinationLad M være en mængde med n elementer.

En kombination af r elementer fra M er et udvalg af r elementer udtaget af M uden at tage

hensyn til rækkefølgen af elementer

Antallet af kombinationer med r elementer betegnes K(n,r) eller (n over r).n

r

Sætning 8.1 (Antal kombinationer).

Antal kombinationer med r elementer fra en mængde på n elementer er K n rn

r n r( , )

!

! ( )!=

⋅ −

Bevis: Beviset knyttes for enkelheds skyld til et taleksempel, som let kan generaliseres.

Lad os antage, vi på tilfældig måde udtager 3 kugler af en kasse, der indeholder 5 kugler med numrene

.k k k k k1 2 3 4 5, , , ,

Vi skal nu vise, at k ( , )!

! !5 3

5

3 2=

Lad os først gå ud fra, at rækkefølgen hvori kuglerne trækkes er af betydning, Der er altså eksempelvis forskel på k k k1 3 4, ,og . Dette kan gøres på P(5,3) = måder.k k k3 1 4, , 5 4 3⋅ ⋅

81

Page 88: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8. Regneregler for sandsynlighed, Kombinatorik

Hvis de 3 kugler udtages, så rækkefølgen ikke spiller en rolle, har vi vedtaget, det kan gøres på K(5,3) måder. Lad

en af disse måder være . Disse 3 elementer kan ordnes i rækkefølge på måder. k k k1 3 4, , 3 3 2 1! = ⋅ ⋅

Vi har følgelig, at P K KP

K( , ) ( , ) ! ( , )( , )

!( , )

! ! !

!

! !5 3 5 3 3 5 3

5 3

35 3

5 4 3

3

5 4 3 2 1

3 2

5

3 2= ⋅ ⇔ = ⇔ =

⋅ ⋅=

⋅ ⋅ ⋅ ⋅

⋅=

Eksempel 8.11. Antal kombinationerI en forening skal der blandt 10 kandidater vælges 4 personer til en bestyrelse

På hvor mange forskellige måder kan man sammensætte denne bestyrelse?

Løsning:Antal måder man kan sammensætte bestyrelsen er

K(10,4) måder=⋅

=⋅ ⋅ ⋅

= ⋅ ⋅ =10

4 6

10 9 8 7

410 3 7 210

!

! ! !

TI89: MATH Probability nCr(10,4) . Resultat: = 210

TI-Nspire: Sandsynlighedsregning Kombinationer nCr(10,4)

Excel: fx Matematik og trig KOMBIN(10;4) 210

82

Page 89: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 8

OPGAVER

Opgave 8.1 I en mindre by viser en undersøgelse, at 60% af alle husstande holder en lokal avis, mens 30%

holder en landsdækkende avis. Endvidere holder 10% af husstandene begge aviser.

Lad en husstand være tilfældig udvalgt, og lad A være den hændelse, at husstanden holder en

lokal avis, og B den hændelse, at husstanden holder en landsdækkende avis.

Beregn sandsynlighederne for følgende hændelser.

C: Husstanden holder begge aviser .

D: Husstanden holder kun den lokale avis.

E: Husstanden holder mindst én af aviserne.

F: Husstanden holder ingen avis

G: Husstanden holder netop én avis.

Opgave 8.2 1) I figur 1 er vist et elektrisk apparat, som kun fungerer, hvis enten alle komponenter 1a, 1b og

1c i den øverste ledning eller alle komponenter 2a, 2b og 2c i den nederste ledning fungerer.

Sandsynligheden for at hver komponent fungerer er vist på tegningen, og det antages, at

sandsynligheden for at en komponent fungerer er uafhængig af om de øvrige komponenter

fungerer.

1) Hvad er sandsynligheden for at apparatet

i figur 1 fungerer.

2) I figur 2 er vist et andet elektrisk apparat,

som tilsvarende kun fungerer, hvis alle de

tre kredsløb I, II og III fungerer, og det er

kun tilfældet hvis enten den øverste eller

den nederste komponent fungerer.

Hvad er sandsynligheden for at apparatet

i figur 2 fungerer.

83

Page 90: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

8. Regneregler for sandsynlighed, Kombinatorik

Opgave 8.3 Tre skytter skyder hver ét skud mod en skydeskive. De har træfsandsynligheder 0.75, 0.50 og

0.30.

Beregn sandsynligheden for

1) ingen træffere, 2) én træffer, 3) to træffere, 4) tre træffere.

Opgave 8.4 En “terning” har form som et regulært polyeder med 20 sideflader. På 4 sideflader er der skrevet

1, på 8 sideflader er der skrevet 6 mens der er skrevet 2, 3 , 4 og 5 på hver 2 sideflader.

Find sandsynligheden for i tre kast med denne terning at få

1) tre seksere

2) mindst én sekser

3) enten tre seksere eller tre enere

Opgave 8.5 Fire projektgrupper på en virksomhed antages at have sandsynlighederne 0.6, 0.7, 0.8 og 0.9 for at få succes med

deres projekt. Grupperne antages at arbejde uafhængigt af hinanden. Find sandsynligheden for, at

a) alle grupper får succes,

b) ingen grupper får succes,

c) mindst 1 gruppe får succes,

d) i alt netop 1 gruppe får succes,

e) i alt netop 3 grupper får succes,

f) i alt netop 2 grupper får succes.

Opgave 8.6 En klasse med 21 elever skal under en øvelse fordeles på 5 grupper. 4 af grupperne skal være på 4 elever, og 1 gruppe

skal være på 5 elever.

På hvor mange måder kan fordelingen af eleverne på de 5 grupper foregå?

Opgave 8.7 Af en forsamling på 8 kvinder og 4 mænd skal udtages en arbejdsgruppe på 5 personer.

a) Gør rede for, at gruppen kan udvælges på 448 forskellige måder, når det forlanges, at den skal bestå af højst 3

kvinder og højst 3 mænd.

b) Beregn antallet af måder, hvorpå gruppen kan udvælges, når det forlanges, at de 5 personer ikke alle må være af

samme køn.

Opgave 8.8

a) Bestem det antal måder, hvorpå bogstaverne A, B og C kan stilles rækkefølge.

b) Samme opgave for A, B, C og D.

Opgave 8.9.

På et spisekort er opført 6 forretter, 10 hovedretter og 4 desserter.

1) Hvor mange forskellige middage bestående enten af forret og hovedret eller af hovedret og dessert kan man

sammensætte.

2) Hvor mange forskellige middage bestående af en forret, en hovedret og en dessert kan man sammensætte.

Opgave 8.10

Bestem antallet af 5-cifrede tal, der kan skrives med to l-taller, et 2- tal og to 3-taller.

84

Page 91: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 8

Opgave 8.11

En virksomhed fremstiller en bestemt slags apparater. Hvert apparat er sammensat af 5 komponenter. Heraf er 3

tilfældigt udvalgt blandt komponenter af typen a og 2 blandt komponenter af typen b. Det vides, at 10% af a-

komponenterne er defekte og 20% af b-komponenterne er defekte. Et apparat fungerer hvis og kun hvis det ikke

indeholder nogen defekt komponent.

Der udtages på tilfældig måde et apparat fra produktionen. Lad os betragte hændelserne:

A: Det udtagne apparat indeholder mindst 1 defekt a-komponent.

B: Det udtagne apparat indeholder mindst 1 defekt b-komponent.

1) Find og .P A P B( ), ( ) P A B( )∩

2) Find sandsynligheden for, at et apparat, der på tilfældig måde udtages af produktionen ikke fungerer.

3) Et apparat udtages på tilfældig måde fra produktionen og det konstateres ved afprøvning at det ikke fungerer. Find

sandsynligheden for, at apparatet ikke indeholder nogen defekt a-komponent.

Opgave 8.12

En test består af 40 spørgsmål, der alle skal besvares med ,'ja'. 'nej' og 'ved ikke'. På hvor mange forskellige måder

kan prøven besvares?

Opgave 8.13

I en virksomhed skal der installeres et kaldesystem. I hvert lokale

opsættes et batteri af n lamper, og hver af de ansatte har sin bestemte

lampekombination.

1) Hvis n = 5, hvor mange ansatte kan da have deres eget kaldesystem

(se figuren)

2) Hvis virksomheden har 500 ansatte, hvor stor skal n så være.

Opgave 8.14

Normale personbilers indregistreringsnumre består af to bogstaver og et nummer mellem 20000 og 59999 .

Lad os antage, at man er nået til numre der begynder med UV. Et eksempel på en nummerplade er da UV 54755

Hvad er sandsynligheden for, at en nyindregistreret bil får et registreringsnummer med lutter forskellige cifre, når

vi antager, at alle cifre har samme sandsynlighed?

Opgave 8.15

Hvor mange forskellige telefonnumre på 8 cifre kan man danne, når første ciffer ikke må være nul?

85

Page 92: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9. Vigtige diskrete fordelinger

9. VIGTIGE DISKRETE FORDELINGER

9.1 INDLEDNING

Vi vil i dette kapitel betragte diskrete stokastiske variable, hvis værdier er hele tal.

Vi vil især behandle de diskrete fordelinger: “Den hypergeometriske fordeling”, “Binomialfordelingen” og “Poissonfordelingen”

9.2 HYPERGEOMETRISK FORDELING

Den “hypergeometriske fordeling”, finder bl.a. anvendelse ved kvalitetskontrol af varepartier(jævnfør eksempel 9.2), ved markedsundersøgelser, hvor man uden tilbagelægning udtager enrepræsentativ stikprøve på eksempelvis 500 personer

I det følgende eksempel “udledes” formlen for den hypergeometriske fordeling.

Eksempel 9.1. Hypergeometrisk fordelingI en forening skal der blandt 5 kvindelige og 8 mandlige kandidater vælges en bestyrelse på 4personer. Find sandsynligheden for, at der er netop 1 kvinde i bestyrelsen..Løsning: X = antal kvinder i bestyrelsenAt der skal være netop 1 kvinde i bestyrelsen forudsætter, at vi udtager 1 kvinde ud af de 5kvinder og 3 mænd ud af de 8 mænd. At udtage 1 kvinde ud af 5 kvinder kan gøres på K(5,1) måderAt udtage 3 mænd ud af 8 mænd kan gøres på K(8,3) måder.Antal gunstige udfald er ifølge multiplikationsprincippet K(5,1) K(8,3)Det totale antal udfald fås ved at udtage 4 personer ud af de 13 kandidaterDette kan gøres på K(13,4) måder.

P XK K

K( )

( , ) ( , )

( , )

1

51 8 3

13 4TI-89: Vælg MATH Probability nCr nCr(5,1) nCr(8,3)/nCr(13,4) =0.3916 TI-Nspire: Vælg Sandsynlighedsregning Kombinationer nCr(5,1) nCr(8,3)/nCr(13,4)Excel: Vælg fx Matematik og trig KOMBIN(5;1)*KOMBIN(8;3)/KOMBIN(13;4) =0,391608

Karakteristisk for en hypergeometrisk fordeling er, at elementerne i udfaldsrummet (kugler i enbeholder) kan opdeles i to grupper. En opdeling kunne som i eksempel 9.1 være kvinder og mænd eller som i kvalitetskontrol være i defekte varer og ikke-defekte varer.

86

Page 93: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9.2 Hypergeometrisk fordeling

Stolpediagram for h (10, 6, 3).

Lad os antage, at vi har en beholder med N kugler, hvoraf de M er røde og resten har en andenfarve.Der udtrækkes en stikprøve på n kugler uden tilbagelægning.Lad X være antallet af røde kugler blandt de n kugler.X er hypergeometrisk fordelt med parametrene N, M, n (kort skrevet h(N,M,n))P(X = x) er sandsynligheden for at netop x kugler er røde blandt de n udtrukne kugler.X siges at være hypergeometrisk fordelt med parametrene N, M, n (kort skrevet h(N,M,n))hvor

Formlen udledes på samme måde som det skete i eksempel 9.1Sætte x = 0, 1, 2, ... finder vi forskellige værdier af tæthedsfunktionen.

I “Supplement til statistiske grundbegreber” afsnit 9A bevises, at den hypergeometriske fordeling

har middelværdien og spredningen , hvor .E X n p( ) ( ) ( )X n p pN n

N

1

1p

MN

Eksempel 9.2: Hypergeometrisk fordeling h (10, 6, 3 ).I en urne findes 10 kugler, hvoraf 6 er sorte, 4 er hvide.Vi betragter det tilfældige eksperiment: "Udtrækning af en kugle og observation af farven påkuglen”. Eksperimentet gentages 3 gange, idet den udtrukne kugle ikke lægges tilbage mellemhver udtrækning.Lad X betegne antallet af udtrukne sorte kugler. Find og skitser tæthedsfunktionen for X, og beregn middelværdi og spredning for X.Løsning:X er en diskret stokastisk variabel, der som er hypergeometrisk fordelt h (10, 6, 3) medtæthedsfunktionen f (x) = P(X = x):

f x P X x

K K

Kx

K K

Kx

K K

Kx

K K

Kx

( ) ( )

( , ) ( , )

( , ).

( , ) ( , )

( , ).

( , ) ( , )

( , ).

( , ) ( , )

( , ).

6 0 4 3

10 3

4

1200 033 0

6 1 4 2

10 3

36

1200 300 1

6 2 4 1

10 3

60

1200500 2

6 3 4 0

10 3

20

1200167 3

0

for

for

for

for

ellers

P X xK M x K N M n x

K N n( )

( , ) ( , )

( , )

87

Page 94: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9. Vigtige diskrete fordelinger

Sættes er middelværdien og pM

N

6

10E X n p( ) . 3

6

1018

spredningen = 0.748 ( ) ( )X n p pN nN

1

13

610

16

1010 310 1

Den hypergeometriske fordeling finder bl.a. anvendelse i kvalitetskontrol, hvilket følgendeeksempel viser.

Eksempel 9.3: Stikprøveudtagning (kvalitetskontrol)En producent fabrikerer komponenter, som sælges i æsker med 600 komponenter i hver. Som led i en kvalitetskontrol udtages hvert kvarter tilfældigt en æske produceret indenfor desidste 15 minutter, og 25 tilfældigt udvalgte komponenter i denne undersøges, hvorefter detforegående kvarters produktion godkendes, såfremt der højst er én defekt komponent i stik-prøven.Hvor stor er acceptsandsynligheden p, hvis æsken indeholder i alt 10 defekte komponenter,såfremt udtrækningen sker uden mellemliggende tilbagelægninger ?

Løsning:X = antal defekte blandt de 25 komponenterDa partiet godkendes, hvis der enten er 0 defekte eller 1 defekt, følger af additionssætningen at p = P (X = 0) + P (X = 1).

Hændelsen "X = 0" forudsætter, at vi i alt udtager 0 af de 10 defekte og 25 forskellige af de 590

ikke-defekte, dvs. .P XK K

K( )

( , ) ( , )

( , ).

0

10 0 590 25

600 250 6512

Hændelsen "X = 1" forudsætter, at vi i alt udtager 1 af de 10 defekte og 24 forskellige af de 590

ikke-defekte, dvs. .P XK K

K( )

( , ) ( , )

( , ).

1

10 1 590 24

600 250 2876

Vi har altså p = 0.6512 + 0.2876 = 0.9388 = 93.88%.

TI-89: Vælg MATH\Probability\nCr (nCr(10,0) nCr(590,25)+nCr(10,1) nCr(590,24))/nCr(600,25) = 0.9388

TI-Nspire: Beregner Skriv (nCr(10,0) nCr(590,25)+nCr(10,1) nCr(590,24))/nCr(600,25) Excel: Vælg fx Statistik HYPGEOFORDELING Udfyld menu

HYPGEOFORDELING(0;25;10;600)+HYPGEOFORDELING(1;25;10;600) = 0,938876

88

Page 95: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9.3 Binomialfordelingen

9.3 BINOMIALFORDELINGBinomialfordelingen benyttes som model for antallet af "succeser" ved n uafhængige gentagelseraf et eksperiment, som hver gang har samme sandsynlighed p for "succes". Problemstillingen fremgår af følgende eksempel.

Eksempel 9.4. En binomialfordelt variabel. En drejebænk producerer 1 % defekte emner. Lad X være antallet af defekte blandt de næste 5 emner der produceres. Vi ønsker at finde sandsynligheden for at finde netop 2 defekte blandt disse 5, det vil sige

.P X( ) 2Løsning:Lad et eksperiment være at udtage et emne fra produktionen. Resultatet af eksperimentet har to udfald: defekt, ikke defekt. Eksperimentet gentages 5 gange uafhængigt af hinanden.Der er en bestemt sandsynlighed for at få en defekt, nemlig p = 0.01. Lad d være det udfald at få en defekt, og være det udfald at få en fejlfri. dVi opskriver nu samtlige forløb, der giver 2 defekte ud af 5

.

d d d d d

d d d d d

d d d d d

d d d d d

d d d d d

d d d d d

d d d d d

d d d d d

d d d d d

d d d d d

, , , ,

, , , ,

, , , ,

, , , ,

, , , ,

, , , ,

, , , ,

, , , ,

, , , ,

, , , ,

Da eksperimenterne gentages uafhængigt af hinanden, følger det af produktsætningen (både -og),at det første forløb må have sandsynligheden

.0 01 0 01 1 0 01 1 0 01 1 0 01 0 01 1 0 012 3. . ( . ) ( . ) ( . ) . ( . ) Det næste forløb må have sandsynligheden

0 01 1 0 01 0 01 1 0 01 1 0 01 0 01 1 0 012 3. ( . ) . ( . ) ( . ) . ( . ) Vi ser, at alle gunstige forløb har samme sandsynlighed. Antal forløb må være lig antal måder man kan placere 2 d’er på 5 tomme pladser (eller antalmåder man kan tage 2 kugler ud af en mængde på 5). Dette ved vi kan gøres på K(5,2)=10 måder (svarende til de 10 forløb).Vi får følgelig, at p K ( , ) . ( . ) .5 2 0 01 1 0 01 0 000972 3

TI-89: CATALOG\F3\binomPdf(5, 0.01,2) = 0.00097

TI-Nspire: Statistik Fordelinger binomialPdf Udfyld menu

Excel: Vælg fx Statistik BINOMIALFORDELING Udfyld menu BINOMIALFORDELING(2;5;0,01;0) =0,00097

89

Page 96: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9. Vigtige diskrete fordelinger

I eksemplet har vi “udledt” den såkaldte binomialfordeling, som er defineret på følgende måde:

Bevis: Lad os betragte et eksperiment, hvor resultatet “succes” har sandsynligheden p for at ske. Lad os foretage n uafhængige gentagelser af eksperimentet. At gentagelserne er uafhængige betyder, at udfaldetaf et eksperiment ikke afhænger af udfaldet af de forrige eksperimenter.

Lad os betragte n stokastiske variable ,X X Xn1 2, , . . . ,

hvor X i

1

0

hvis i' te gentagelse af eksperimentet giver succes.

ellers

Vi har , ogE X x f x p p pi i ii

( ) ( ) ( ) 1 0 1

V X x f x p p p p p p p pi i ii

( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 21 0 1 1

Idet er binomialfordelt b ( n, p) fås af linearitetsreglen (kapitel 1afsnit 5), atX X X Xn 1 2 . . ..E X E X E X E X E X p p p p n pn( ) ( ) ( ) ( ) ... ( ) ... 1 2 3

Endvidere fås af kvadratreglen i kapitel 1 afsnit 5, idet vi har uafhængige gentagelser, at,V X V X V X V X p p p p p pn( ) ( ) ( ) ... ( ) ( ) ( ) ... ( ) 1 2 1 1 1

eller .V X n p p( ) ( ) 1

Eksempel 9.5: Tæthedsfunktion for binomialfordelt variabel .Lad der på to af sidefladerne på en terning være skrevet tallet 1, på to andre sideflader væreskrevet tallet 2 og på de sidste to sideflader være skrevet tallet 3.Vi betragter det tilfældige

DEFINITION af binomialfordeling.

1) Lad et tilfældigt eksperiment have 2 udfald “succes” og “fiasko”

2) Lad eksperimentet blive gentaget n gange uafhængigt af hinanden, og lad

sandsynligheden for succes være en konstant p

Lad X være antallet af succeser blandt de n gentagelser

X er en diskret stokastisk variabel med tæthedsfunktionen

f x P X x

K n x p p x nx n x

( ) ( )( , ) ( ) , , ,...,

1 0 1 2

0

for

ellers

X siges at være binomialfordelt b ( n, p).

SÆTNING 9.1. (middelværdi og spredning for binomialfordeling).

Lad X være binomialfordelt b (n, p).

Der gælder da og .E X n p( ) ( ) ( )X n p p 1

90

Page 97: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9.3 Binomialfordelingen

Stolpediagram for binomialfordelingen

eksperiment: "7 kast med en terningen og observation af det fremkomne tal.

Lad X betegne antallet af toere ved de 7 kast. X antages at være binomialfordelt . b 7 13,

1) Angiv tæthedsfunktionen f (x) for X (3 betydende cifre), og tegn et stolpediagram for f (x).2) Find middelværdi og spredning for X

En person foretager eksperimentet 11 gange, d.v.s. foretager 11 gange en serie på 7 kast medterningen. Stikprøven gav følgende resultat

Antal toere i en serie 0 1 2 3 4 5 6 7

Antal gange dette skete 1 2 4 3 1 0 0 0

3) Giv på grundlag af stikprøven et estimat for p i binomialfordelingen.4) Giv på grundlag af stikprøven et estimat for middelværdi og spredningLøsning:

1) f x P X x K xx n x

( ) ( ) ( , )

71

31

1

3

TI89+TI-Nspire: binomPdf(7,1/3,x) og derefter x = 1 osv.x 0 Excel:BINOMIALFORDELING(0;7;1/3;0), og derefter BINOMIALFORDELING( 1;7;1/3;0) osv.

f x P X x

x

x

x

x

x

x

x

x

( ) ( )

.

.

.

.

.

.

.

0 059 0

205 1

0 307 2

0 256 3

0128 4

0 038 5

0 006 6

0 000 7

0 0

for

for

for

for

for

for

for

for

ellers

2) og E X n p( ) . 713

2 33 ( ) ( ) .X n p p

1 7

1

31

1

3125

3) Der er i alt toere i 77 kast.1 0 2 1 4 2 3 3 1 4 23

Et estimat for p er .p 2377

0 299

4) Stikprøvens middelværdi er , og stikprøvens spredning erx 23

112 09.

( ) ( ) .X n p p

1 7

23

771

23

77121

Hypotesetest for binomialfordelt variabel.I kapitel 6 gennemgik vi ved en række eksempler de grundlæggende begreber for hypotesetest-

91

Page 98: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9. Vigtige diskrete fordelinger

ning for én normalfordelt variabel. Disse begreber kan uændret overføres til hypotesetestningfor binomialfordelt variabel.

Konfidensintervaller.Som beskrevet i appendix er det ofte muligt at approksimere med en normalfordeling.Derved fremkommer de formler som er beskrevet i appendix 4.1 punkt 5.Kan approksimationen ikke anvendes, kan man ved løsning af en passende ligning finde deeksakte grænser for konfidensintervallerne. Da det er ret besværligt, foretrækkes så vidt muligt(selv i statistikprogrammer) at anvende approksimationen med normalfordelingen.

De følgende to eksempler viser anvendelser heraf.

Eksempel 9.6. Ensidet binomialfordelingstest.En levnedsmiddelproducent fremstiller et levnedsmiddel A, som imidlertid har en ret ringeholdbarhed. Efter en række eksperimenter lykkedes det at frembringe et produkt B, som i altvæsentligt er identisk med A, men som har en bedre holdbarhed. Af markedsmæssige grunde erdet vigtigt, at der ikke er forskel på smagen af B og af det velkendte produkt A. For at undersøgedette, lader producenten et panel af 24 ekspertsmagere vurdere, om man kan smage forskel. Manforetog derfor følgende smagsprøvningseksperiment.

Hver ekspertsmager fik 3 ens udseende portioner, hvoraf en portion var af det ene levnedsmiddelog de to andre portioner var af det andet levnedsmiddel.

Hvilket af de 3 portioner der skulle indeholde et andet levnedsmiddel end de to andre, og om detskulle være levnedsmiddel A eller B , afgjordes hver gang ved lodtrækning. Kun forsøgslederenhavde kendskab til resultatet.Hver ekspertsmager fik besked på, at de skulle fortælle forsøgslederen hvilken af de tre portionerder smagte anderledes. Hvis man ikke kunne smage forskel, skulle man gætte.

Resultatet viste, at af de 24 svar var 13 svar rigtige.Ved ren gætning kunne man forvente ca. dvs. ca. 8 rigtige svar. 13 rigtige svar er betydeligt1

3flere, men kan det alligevel tilskrives tilfældigheder ved gætning?

Kan der på et signifikansniveau på 5% statistisk påvist, at ekspertsmagerne kan smage forskelpå smagen af A og B?Løsning:Lad X = antallet af rigtige svar. X er binomialfordelt b (n, p), hvor n = 24 og p er ukendt.

Nulhypotese mod den alternative hypotese H p01

3: H p: 1

3TI89+TI-Nspire: P - værdi = binomCdf(24, 1/3, 13, 24) = 0.0284 = 2.84%P X( ) 13Excel: P - værdi = = 1-BINOMIALFORDELING(12;24;1/3;1) = 0,0284411 12 P X( )Da P - værdi < 5% forkastes nulhypotesen (enstjernet), dvs. der må konkluderes, at der er ensmagsforskel mellem produkt A og B.

Eksempel 9.7. Konfidensinterval for parameteren p i binomialfordeling.En plastikfabrik har udviklet en ny type affaldsbeholdere. Man overvejer at give en 6 års garanti

92

Page 99: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9.3 Binomialfordelingen

for holdbarheden. For at få et skøn over om det er økonomisk rentabelt, bliver 100 beholdereudsat for et accelereret livstidstest som simulerer 6 års brug af beholderne. Det viste sig, at af de100 beholdere overlevede de 85 testen. Idet antallet af overlevende beholdere antages at være binomialfordelt, skal man 1) Angive et estimat for sandsynligheden p for at en beholder “overlever” i 6 år .2) Angive et 95% konfidensinterval for p.Løsning:1) Lad X være antallet af “overlevende” beholdere.

X forudsættes binomialfordelt b (100, p).

Ifølge oversigt 9.8 er et estimat for p: ~ .px

n 85

100085

2) Da er forudsætningerne for at benytte normalfordelingsapproksimation opfyldt.10 10 x nVi får:

~~ ( ~)

. ( . ). ( . )

. .p zp p

ninvNorm

12

10 85 0 975

0 85 1 0 85

1000 85 0 07

dvs. 0 78 0 92. . p

TI 89, TI-Nspire og Excel benytter denne formel, dvs. man skal altid først undersøge omforudsætningen er opfyldt.TI89: APPS STATS/List F7 5:1-PropZInt ENTERMenuen udfyldes med x: 85 n: 100 C-level: 0.95 ENTER

Resultat: C Int : [0.78 ; 0.92 ]TI-Nspire: Statistik Konfidensintervaller z-interval for en andel Udfyld menu ENTER

Excel:radius= NORMINV(0,975;0;1)*KVROD(0,85*(1-0,85)/100) 0,069985

Nedre grænse 0,85-I3 0,780015

Øvre grænse 0,85+I3 0,919985

Eksakt løsning:Er betingelsen ikke opfyldt (eller vil man have det “eksakte” resultat) benyttes formel i oversigt 9.8.Øvre grænse: Løs ligningen = 0.025 med hensyn til p.P X( ) 85

TI89: solve(binomCdf(100, p,0,85)=0.025,p) Resultatet blev p = 0.914.p 0

Nedre grænse: Løs ligningen = 0.025 med hensyn til p.P X( ) 85

TI89: solve(binomCdf(100, p,85,100)=0.025,p) Resultatet blev p = 0.765. p 0

95% Konfidensinterval: [0.765; 0.914]Bemærk, at konfidensintervallet ikke ligger helt symmetrisk omkring 0.85, da binomialfordelingen ikke erhelt symmetrisk omkring 0.85Forklaring på formlen:Udenfor et 95% konfidensinterval ligger 5%, og af symmetrigrunde ligger der 2,5% på hver side. (jævnførfiguren)

Jo større den sande værdi p er i forhold til 0.85 jo mindre bliver sandsynligheden for at 85 eller færreoverlevede testen. Vi leder derfor i grænsen efter et p > 0.85 , så = 0.025.P X( ) 85Dernæst findes nedre grænse ved at lade p falde, indtil P X( ) . 85 0 025

Bestemmelse af stikprøvens størrelseFør man starter sine målinger, kunne det være nyttigt på forhånd at vide nogenlunde hvor

93

Page 100: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9. Vigtige diskrete fordelinger

mange målinger man skal foretage, for at få resultat med en given nøjagtighed.Hvis man antager, at man kan approksimere med normalfordelingen, ved vi, at radius for et

95% konfidensinterval er .r zp p

n

0 975

1.

( )

Løses denne ligning med hensyn til n fås

Det grundlæggende problem er her, at man næppe kender eksakt. p

Man kender muligvis på basis af tidligere erfaringer størrelsesordenen af . Hvis ikkep

kunne man eventuelt udtage en lille stikprøve, og beregne et på basis heraf.p

Endelig er der den mulighed, at sætter = 0.5, som er maksimumsværdien af p ( )p p 1

Benyttes denne værdi får man den størst mulige værdi af n for en given værdi af r. Ulempen er, at dette fører til en større stikprøvestørrelse end nødvendigt.Det følgende eksempel illustrerer fremgangsmåden.

Eksempel 9.8. Bestemmelse af antal i stikprøve.I en opinionsundersøgelse vil man spørge et repræsentativt antal vælgere om hvilket parti devilde stemme på, hvis der var valg i morgen.I denne undersøgelse ønskes inden udtagning af stikprøven, at antallet skal være så stort, atradius i konfidensintervallet højst er 2%.Løsning:Metode 1. For at få en øvre grænse, sættes = 0.5.p

Vi får nz

rp p

invNorm

0 9752 2

10 975

0 02

1

2

1

22401. ( )

( . )

.Metode 2 Da man på forhånd ved, at ved sidste valg fik ingen partier mere end 30% afstemmerne sættes = 0.3.p

nz

rp p

invNorm

0 9752 2

10 975

0 020 3 0 7 2017. ( )

( . )

.. .

Approksimation af hypergeometrisk fordeling med binomialfordeling.

nz

rp p

0 9752

1. ( )

94

Page 101: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9.4 Poissonfordelingen

At erstatte den hypergeometriske fordeling h (N, M, n) med binomialfordelingen b (n, p) vilfor de fleste anvendelser kunne gøres med en passende nøjagtighed, hvis stikprøvestørrelsen n

er mindre end eller lig 10% af partistørrelsen N ( ). nN n

N

10

1

10

I så fald sættes i binomialfordelingen .pM

N

Eksempel 9.9. Approksimation af hypergeometrisk fordeling til binomialfordeling. I eksempel 9.3, hvor man udtog 25 komponenter fra æsker på 600 komponenter, sketeudtagningen logisk nok uden tilbagelægning. Imidlertid er det klart, at da æskerne indeholdermange komponenter vil sandsynligheden for at få en defekt ikke ændrer sig meget, hvis man istedet havde foretaget udtagningen med tilbagelægning. Der blev antaget, at der var 10 defekte i en sådan æske med 600, og dette antal defekte vil såvære konstant, under hver udtrækning.

Vi har derfor, at P(at få en defekt) = . Betingelserne for at benytte binomialfordelin-10

600

1

60

gen er nu til stede. Løsningen af problemet i eksempel 9.3 vil derfor nu være: TI89: = binomCdf(25,1/60,0,1) = 0.9353p P X P X P Xa ( ) ( ) ( )1 0 1

Det ses, at vi får praktisk samme resultat som i eksempel 9.3.

9.4 POISSONFORDELINGENPoissonfordelinger benyttes ofte som statistisk model for antallet af "impulser" pr. tidsenhed.Disse impulser antages at komme tilfældigt og uafhængigt af hinanden.

Som eksempler kan nævnes: Antal trafikuheld på en bestemt vejstrækning i løbet af et år,antal biler, der passerer en militær kontrolpost, antal varevogne der ankommer pr. time til etstort varehus og antal telefonsamtaler der føres fra en telefoncentral, der er oprettet under enøvelse.Modellen kan dog også anvendes på andet end pr. tidsenhed, eksempelvis også på antalrevner pr. km kabel, hvis disse revner forekommer tilfældigt og uafhængigt af hinanden.

Under sådanne omstændigheder kan man ofte benytte den i det følgende omtalte Poissonfor-deling som statistisk model for antallet af "impulser" pr. tidsenhed eller volumenenhed ellerlængdeenhed osv.

95

Page 102: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Vigtige diskrete fordelinger

SÆTNING 9.2 (Poissonfordeling). Lad X være en stokastisk variabel, som angiver antalletaf impulser i et givet tidsrum (eller areal, volumen, produktionsenhed osv.), idet ethverttidspunkt i tidsrummet har samme mulighed for at være impulstidspunkt som ethvert andettidspunkt. Endvidere skal impulserne indtræffe tilfældigt og uafhængigt af hinanden *). Hvis det gennemsnitlige antal impulser i tidsrummet er , så siges X at være 0Poissonfordelt p ( ) med sandsynlighedsfordelingen (tæthedsfunktionen) f(x) = P(X = x)bestemt ved

f x P X x xx

x

( ) ( ) !{ , , , ...}

e for

ellers

0 1 2

0

Middelværdien for p( ) er E ( X ) = og spredningen er . ( )X

I formuleringen af de ovennævnte betingelser kan efter behov "et lille tidsrum t" erstattesmed "en lille længde ", "et lille areal A" eller "et lille volumen V".

*) Præcis formulering: Følgende 3 betingelser skal være opfyldt:1) Sandsynligheden for netop én impuls i et meget lille tidsrum er med tilnærmelse proportional med t t

.

(Matematisk formulering ( er en positiv konstant)lim( )

t

P X

t

0

1

2) Sandsynligheden for 2 eller flere impulser i det meget lille tidsrum er lille sammenlignet med . t t

(Matematisk formulering )lim( )

t

P X

t

0

10

3) Antal impulser i forskellige, ikke overlappende tidsrum er statistisk uafhængige.En bevisskitse for sætningen kan ses i “Supplement til statistiske grundbegreber” afsnit 9.C.

Eksempel 9.10: Antal revner p. meter i et tyndt kobberkabel.På en fabrik fremstilles kobberkabler af en bestemt tykkelse. Mikroskopiske revner forekom-mer tilfældigt langs disse kabler. Man har erfaring for, at der i gennemsnit er 12.3 af den typerevner p. 10 meter kabel.Beregn sandsynligheden for, at der 1) ingen ridser er i 1 meter tilfældigt udvalgt kabel.2) er mindst 2 ridser i 1 meter tilfældigt udvalgt kabel.3) er højst 4 ridser i 2 meter tilfældigt udvalgt kabel

Fabrikken går nu over til en anden og billigere produktionsmetode. For at få et estimat formiddelværdien ved den nye metode måltes antallet af revner på 12 kabelstykker på hver 10meter. Resultaterne var

Kabel nr. 1 2 3 4 5 6 7 8 9 10 11 12

Antal revner 8 4 14 6 8 10 10 16 2 2 6 8

4) Angiv på basis heraf et estimat for middelværdien af antal revner pr. 10 m kabel.

96

Page 103: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9.4 Poissonfordelingen

Løsning: X = antal revner i 1 meter kabel. X antages Poissonfordelt p ( ). (idet vi med tilnærmelse kan antage, at betingelserne isætning 9.2 er opfyldt (impuls er her ridser).

Da det gennemsnitlige antal revner pr. 1m kabel er fås: 12 3

10123

..

1) .P X( ).

!.. 0

123

00 292

01 23e

TI89: PoissPdf(1.23,0) = 0.292

TI-Nspire:Statistik, Fordelinger, PoissonPdf,Udfyld menu

Excel: POISSON(0;1,23;0) =0,292293

2) TI-89+Excel: 1-PoissCdf(1.23, 0, 1) = 0.3482P X P X( ) ( ) 2 1 1

Excel: 1 - POISSON(1;1,23;1) = 0,348188P X P X( ) ( ) 2 1 1

3) Y = antal revner i 2 meter kabel. Da der i gennemsnit er 2,46 revner i 2 meter kabel, er 2.46 et estimat for . Vi har derfor TI89+TI-Nspire: = poissCdf(2.46, 0, 4) = 0.8965P X( ) 4

Excel: =POISSON(4;2,46;1) = 0,896458P X( ) 44) Der er i alt 94 revner i 12 kabelstykker på hver 10 meter. Et estimat for er derfor

.~ . 9412

7 83

Hypotesetest for Poissonfordelt variabel.

I kapitel 5 gennemgik vi ved en række eksempler de grundlæggende begreber for hypotese-testning for én normalfordelt variabel. Disse begreber kan uændret overføres til hypotesetest-ning for Possonfordelt variabel.Har man rådighed over en lommeregner med kumuleret Poissonfordeling kan testenegennemføres eksakt. (se appendix 5.5)

Konfidensintervaller.

Som beskrevet i afsnit 9.5 er det ofte muligt at approksimere med en normalfordeling.Derved fremkommer de formler som er beskrevet i oversigt 9.8

97

Page 104: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Vigtige diskrete fordelinger

Eksempel 9.11. Ensidet Poissontest.I eksempel 9.10 betragtede vi mikroskopiske revner i et kobberkabel. Fabrikken gik over tilen anden og billigere produktionsmetode.1) Test, om den nye metode giver færre revner end den gamle metode.2) Forudsat, den nye metode giver signifikant færre revner end den gamle metode, skal man

2a) Angiv et 95% konfidensinterval for middelværdien af antal revner pr. 120 meterkabel .

2b) Angiv et 95% konfidensinterval for middelværdien af antal revner pr. 10 meter1

kabel.

Løsning:1) Lad X betegne antallet af revner i 120 meter kabel ved ny metode

X antages Poissonfordelt , hvor vi i eksempel 9.8 fandt at et estimat for varp( ) .~ 94

Ved gammel metode er antal revner i 120 m kabel i middel 12 3 12 147 6. . Nulhypotese mod den alternative hypotese .H0 147 6: . H: . 147 6TI89+TI-Nspire :P - værdi = PoissCdf(147.6, 0 , 94) = 0.000002P Y( ) 94Excel:P - værdi = Poisson(94;147,6;1) = 1,52403E-06P Y( ) 94Da P - værdi < 0.05 forkastes nulhypotesen (stærkt) ,dvs. vi er sikre på, at middelantallet afrevner er blevet formindsket ved at anvende den nye metode

2a) Idet m= 94>10 kan formel i oversigt 9.8 anvendes. Antal revner pr 120 m kabel:

Idet er et 95% konfidensinterval for x 94

194

. [75 ; 113].x zx

ninvNorm 0 975 94 0 975

94

1. ( . )

2b) Antal revner pr 10 m kabel:

75

12

113

126 25 9 41; . ; .

9.5 APPROKSIMATIONER Vi har undertiden benyttet os af, at det under visse forudsætninger er muligt med en rimelignøjagtighed, at foretage approksimationer, f.eks. at approksimere en binomialfordeling elleren Poissonfordeling med en normalfordeling. Dette kan give nogle simplere beregninger, eksempelvis når man approksimerer en hypergeo-metrisk fordeling med en binomialfordeling eller når man ved udregning af konfidensinterval-ler for binomialfordeling approksimerer med normalfordeling.

I appendix 9.1 er angivet en samlet oversigt over de mulige approksimationer.

98

Page 105: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9.6 Polynomialfordelingen

9.6 Den generaliserede hypergeometriske fordeling.Den hypergeometriske fordeling benyttes som model ved stikprøveudtagning uden tilbagelægning, hvor hvertelement har enten en bestemt egenskab (defekt) eller ikke har denne egenskab (ikke defekt). Hvis der foreliggerflere end to egenskaber, f.eks. udtagning af møtrikker, hvis diameter enten tilhører et givet toleranceinterval ellerer for stor eller for lille, kan man generalisere den hypergeometriske fordeling. Dette illustreres ved følgendeeksempel:Eksempel 9.12. Generaliseret hypergeometrisk fordeling.I en urne findes 12 kugler, hvoraf 5 er sorte, 4 er hvide og 3 er røde. Vi betragter det tilfældige eksperiment: "Udtrækning af 6 kugler uden tilbagelægning og observation af farvenpå kuglerne”. Beregn sandsynligheden for at få 2 sorte, 3 hvide og 1 rød kugle.LØSNING:Lad X1 være antallet af sorte kugler, X2 være antallet af hvide kugler og X3 være antallet af røde kugler. Analogt med begrundelsen for den hypergeometriske fordeling fås:

P X X XK K K

K( , , )

( , ) ( , ) ( , )

( , ).1 2 32 3 1

5 2 4 3 31

12 6

10 4 3

924013

9.7 Polynomialfordelingen.Binomialfordelingen benyttes som model ved uafhængige gentagelser af samme eksperiment. Eksperimentet harto udfald succes eller ikke succes og der er en konstant sandsynlighed for succes. Hvis der foreligger flere end toudfald, f.eks. udtagning af møtrikker fra en løbende produktion, hvor diameter enten tilhører et givet tolerancein-terval eller er for stor eller for lille, kan man generalisere til polynomialfordelingen. Idet formlen for binomialfor-delingen kan skrives

, hvorf xn

xp p

nx n x

p pn

x xp px n x x n x x x( ) ( )

!! ( )!

( )!

! !

1 1

1 2

1 21 2

og fås analogtp p1 2 1 x x n1 2

Dette illustreres ved følgende eksempel:

Eksempel 9.11. Polynomialfordelingen

En stor produktion af glaskugler indeholder 40% sorte, 35% hvide og 25% røde kugler.

Vi betragter det tilfældige eksperiment: "Udtrækning af 6 kugler observation af farven på kuglerne”.

Beregn sandsynligheden for at få 2 sorte, 3 hvide og 1 rød kugle.

LØSNING:

Lad X1 være antallet af sorte kugler, X2 være antallet af hvide kugler og X3 være antallet af røde kugler.

Vi får nu P X X X( , , )!

! ! !. . . .1 2 3

2 3 12 3 16

2 3 10 4 0 35 0 25 01029

DEFINITION af polynomialfordeling. Lad n være et positivt helt tal, og lad og hvor alle pér er positive talp p pk1 2 1 ... x x x nk1 2 ...og alle xér er hele tal.

Sandsynlighedsfordelingen for en polynomialfordelt stokastisk variabel er( , ,..., )X X X k1 2

P X x X x X xn

x x xp p pk k

k

x xkxk( , ,..., )

!

! ! . . . !...1 1 2 2

1 21 2

1 2

99

Page 106: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Vigtige diskrete fordelinger

9.8. OVERSIGT over centrale formler i kapitel 9

X er binomialfordelt , hvor n er kendt og p ukendt. Givet stikprøveværdi xb n p( , )

Konfidensinterval

Forudsætninger Estimat for parameter 100 (1 - ) % konfidensinterval for parameter

10 xx n 10

For p: ~pxn

~~( ~) ~

~( ~)p z

p p

np p z

p p

n

1

21

2

1 1

TI89: F7: 1-prop Z-interval TI-Nspire;z-imterval for en andelExcel: Se eksempel 9.7

eksakt nedre grænse:Løs ligning med hensyn til p.P X x( ) 1 2

øvre grænse: Løs ligning med hensyn til pP X x( ) 1 2

Test af parameter p for binomialfordelt variabel Der foreligger en stikprøve på X . Observeret stikprøveværdi x. Signifikansniveau er . Y er binomialfordelt , hvor er en given konstantb n p( , )0 p0

Alternativ hypotese H

P - værdi Beregning H0 forkastes

H p p: 0P Y x( ) TI89+TI-Nspire:binomCdf(n, p0, x,n)

Excel:1-Binomialfordeling(x-1;n;p,1) P-værdi <

H p p: 0P Y x( ) TI89+TI-Nspire:binomCdf(n, p0,0,

x)Excel: Binomialfordeling(x;n;p;1)

H: p p 0 forP Y x( ) x n p 0

P Y x( )for x n p 0

som række 1som række 2

P-værdi <12

100

Page 107: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

9.8 Oversigt

X er Poissonfordelt , hvor ukendt. Stikprøve er af størrelsen n, og der optælles i alt m impulserp( )

Konfidensinterval

Forudsætninger Estimat for parameter 100 (1 - ) % konfidensinterval for parameter

m 10For : x

m

n x z

x

nx z

x

n

12

12

Test af parameter for Poissonfordelt variabel .Der foreligger en stikprøve på X af størrelsen n med gennemsnit . Signifikansniveau er .x Y er Poissonfordelt , hvor er en given konstant.p n( ) 0 0

Alternativ hypotese H

P - værdi Beregning på TI 89 H0 forkastes

H: 0 P Y n x( ) TI89+TI-Nspire:poissCdf n n x( , , ) 0 1000

Excel: 1-Poisson( -1; ;1) n x n 0

P - værdi

H: 0 P Y n x( ) TI89+TI-Nspire:poissCdf n n x( , , ) 0 0

Excel: Poisson( ; ;1)n x n 0

H: 0for P Y n x( ) x n 0

for P Y n x( ) x n 0

som række 1som række 2

P-værdi 12

101

Page 108: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Vigtige diskrete fordelinger

OPGAVER

Opgave 9.1 Ved en lodtrækning fordeles 3 gevinster blandt 25 lodsedler. En spiller har købt 5 lodsedler.1) Beregn sandsynligheden for at spilleren vinder netop én gevinst.Lad den stokastiske variable X være bestemt ved X = Spilleren vinder x gevinster2) Find og skitser tæthedsfunktionen for X3) Beregn middelværdien for X

Opgave 9.2Fra et sædvanligt spil kort udtrækkes på tilfældig måde 3 kort uden tilbagelægning. Bestemsandsynlighederne for hver af hændelserne

A: Der udtrækkes kun 8'ere.

B: Der udtrækkes lutter hjerter.

C: Der udtrækkes 2 sorte og 1 rødt kort.

Opgave 9.3På en undervisningsinstitution skal 105 studerende holde fest sammen med deres 23 lærere.Et festudvalg på 3 personer vælges tilfældigt. Beregn sandsynligheden for at der kommerbåde lærere og studerende med i udvalget.

Opgave 9.4.I en kortbunke er der 26 kort, hvoraf netop 4 er spar. Kortene fordeles i 2 lige store bunker Aog B. 1) Peter påstår, at sandsynligheden for at bunke A indeholder netop 3 spar er 24.87%.

Har Peter ret?2) Beregn sandsynligheden for, at en af bunkerne indeholder netop 1 spar.

Opgave 9.5

En fabrikant fremstiller en bestemt type radiokomponenter. Disse leveres i æsker med 30komponenter i hver æske. En køber har den aftale med fabrikanten, at hvis en æske indehol-der 4 defekte komponenter eller derover, kan køberen returnere æsken, i modsat fald skal dengodkendes. Køberen kontrollere hver æske ved en stikprøve, idet han af æsken udtager 10komponenter tilfældigt. Lad X være antal defekte i stikprøven. Der overvejes nu to planer:1) Hvis X = 0, så godkendes æsken, ellers undersøges æsken nærmere.2) Hvis , så godkendes æsken, ellers undersøges æsken nærmere. X 1Hvad er sandsynligheden for, at en æske, der indeholder netop 4 defekte komponenter, blivergodkendt af køberen ved metode 1 og ved metode 2.

Opgave 9.6 En tipskupon har 13 kampe med 3 mulige tegn - 1, x og 2 - for hver kamp. En personbestemmer tegnet, der skal sættes for hver kamp, ved tilfældig udtrækning af en seddel fra 3sedler med tegnene henholdsvis 1, x og 2. Angiv sandsynligheden for, at personen opnår netop 8 rigtige tippede kampe på sin kupon.

102

Page 109: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 9

Opgave 9.7 I et elektrisk specialapparat indgår 30 komponenter, som hver er indkapslet i et heliumfyldthylster. Beregn, idet sandsynligheden for, at et komponenthylster lækker, er 0.2%, sandsyn-ligheden for, at mindst ét af de 30 komponenthylstre lækker.

Opgave 9.8 En “sypigetipper” (M/K) deltog i tipning 42 gange i løbet af et år. På hver tipskupon var der13 kampe, ved hver af hvilke tipperen ved systematisk gætning satte et af de 3 tegn: 1, x, 2.Beregn sandsynligheden p for, at tipperen det pågældende år tippede mindst 200 kamperigtigt.

Opgave 9.9 Blandt familier med 3 børn udvælges 50 familier tilfældigt. Angiv sandsynligheden for, at deri mindst 8 af disse familier udelukkede er børn af samme køn.

Opgave 9.10.Ved en fabrikation af plastikposer leveres disse i æsker med 100 poser i hver. Ved engodkendelseskontrol af et parti plastikposer udtages og undersøges en tilfældigt udtaget æske,og partiet godkendes, såfremt æsken højst indeholder én defekt pose.Vi antager, at den løbende produktion af poser er således, at hver produktion med sandsynlig-heden 2% giver en pose, der er defekt; vi vil senere formulere dette således, at produktionener i statistisk kontrol med fejlsandsynligheden p = 2%.Hvor stor er sandsynligheden for, at partiet under disse omstændigheder accepteres?

Opgave 9.11 Det er oplyst, at der for en given vaccine er 80% sandsynlighed for, at den ved anvendelse harden ønskede virkning.På et hospital foretoges vaccination af 100 personer med den pågældende vaccine.Beregn sandsynligheden for, at 15 eller færre af de foretagne vaccinationer er uden virkning.

Opgave 9.12 En ny vaccine formodes med en sandsynlighed på mindst 85% at have en forebyggendevirkning over for en bestemt influenzatype. Før en truende influenzaepedemi vaccineres et hospitalspersonale på 600 personer med denpågældende vaccine. 125 af disse bliver smittet af sygdommen. Kan dette opfattes som en eksperimentel påvisning af, at vaccinen er mindre virksom endventet?

Opgave 9.131) Antag, at en vis type af fostermisdannelse normalt forekommer med hyppigheden 164

tilfælde p. 100000 fødsler. Beregn sandsynligheden for 3 eller flere fostermisdannelserblandt 256 fødsler.

2) For at undersøge om forholdene i et bestemt arbejdsmiljø forøger hyppigheden af dennetype misdannelse, undersøgte man hyppigheden af misdannelser for mødre, som undergraviditeten havde haft den aktuelle type af arbejde, og fandt 3 misdannelser blandt 256fødsler. Kan den forøgede relative hyppighed i dette materiale skyldes tilfældigheder?

Opgave 9.14

103

Page 110: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Vigtige diskrete fordelinger

Udsættes planterne af en bestemt sort roser for meldugssmitte, bliver i middel brøkdelen pangrebet, hvor p er mindst 0.20. En rosengartner fremavler en rosenstamme, som han påstårer mere modstandsdygtig over for meldugssmitte. For at kontrollere denne påstand bliver 100roser af den nye stamme udsat for meldugssmitte. Det viser sig, at 12 roser bliver angrebet. 1) Bekræfter dette resultat rosengartnerens påstand? (Husk altid at anføre: Hvad X er.

Antagelser. Nulhypotese. Beregninger. Konklusion.).2) Angiv et estimat for den nye stammes p.~p3) Angiv et 95% konfidensinterval for den nye stammes p.

Opgave 9.15 En fabrikant af chip til computere reklamerer med, at højst 2% af en bestemt type chip, somfabrikken sender ud på markedet er defekte.Et stort computerfirma vil købe et meget stort parti af disse chip, hvis påstanden er rigtigt.For at teste påstanden købes 1000 af dem. Det viser sig, at 33 ud af de 1000 er defekte.Kan fabrikantens påstand på denne baggrund forkastes på signifikansniveau 5% ?

Opgave 9.16 En producent af billigt plastiklegetøj får mange klager over at en bestemt type legetøj erdefekt ved salget. Legetøjet sælges til butikkerne i kasser på 10 stk, og som et led i enkvalitetetskontrol udtages 100 kasser og antallet x af defekt legetøj optaltes. Følgenderesultater fandtes:

x 0 1 2 3 4 5 6

Antal kasser 34 38 19 6 2 0 1

Lad p være sandsynligheden for at få et defekt stykke legetøj.1) Find et estimat for p.~p2) Angiv et 95% konfidensinterval for p.

Opgave 9.17 Af 1000 tilfældigt udvalgte patienter, der led af lungekræft, var 823 døde senest 5 år eftersygdommen blev opdaget. Angiv på dette grundlag et 95% konfidensinterval for sandsynligheden for at dø af dennesygdom senest 5 år efter at sygdommen bliver opdaget.

Opgave 9.18 En fabrikant af lommeregnere vurderer, at ca. 1% af de producerede lommeregnere erdefekte. For at få en nøjere vurdering heraf ønskes udtaget en stikprøve, der er så stor, at radius i et95% konfidensinterval for fejlprocenten p er højst 0.5%.Find stikprøvens størrelse n.

Opgave 9.19 Ved et køb af 100000 plastikbægre aftaltes med leverandøren, at det skal være en forudsæt-ning for købet, at partiet godkendes ved en stikprøvekontrol.Kontrollen udøves ved, at 100 bægre udtages tilfældigt af partiet og kontrolleres. Partietgodkendes, såfremt ingen af de 100 bægre er defekte.Beregn sandsynligheden for, at partiet godkendes, hvis det i alt indeholder 250 defekte bægre.

104

Page 111: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 9

Opgave 9.20 En fabrikant får halvfabrikata hjem i partier på 200000 enheder. Fra hvert parti udtages enstikprøve på 100 enheder og antallet af fejlagtige blandt disse noteres.Hvis dette antal er mindre end eller lig med 2, accepteres hele partiet; i modsat fald undersø-ges partiet yderligere.1) Hvad er sandsynligheden for, at et parti med en fejlprocent på 1 vil blive yderligere

undersøgt.2) Hvor stor er sandsynligheden for, at et parti med en fejlprocent på 5 vil blive accepteret.

Opgave 9.21 En maskinfabrikant påtænker at købe 100000 møtrikker af en bestemt type. Man beslutter sigtil at købe et tilbudt parti af den nævnte størrelse, såfremt en stikprøve på 150 møtrikker højstindeholder 4% defekte møtrikker.1) Beregn sandsynligheden for, at partiet bliver godkendt af maskinfabrikken, såfremt det

indeholder a) 4% defekte møtrikker,b) 2,5% defekte møtrikker,c) 7,5% defekte møtrikker,

2) Bestem, for hvilken procentdel defekte møtrikker det ovennævnte parti (approksimativt)har 50% sandsynlighed for at blive godkendt af maskinfabrikken.

Opgave 9.22 På en fabrik fremstilles gulvtæpper, som har størrelsen 20 m2. Ved fabrikationen er dergennemsnitlig 6 vævefejl p. 100 m2 klæde. 1) Beregn sandsynligheden for, at et tilfældigt gulvtæppe ingen vævefejl har.2) Beregn sandsynligheden for, at et tilfældigt gulvtæppe højst har 2 vævefejl.

Fabrikken køber en ny væv. For at få et estimat for middelværdien måltes antallet af vævefejli 12 gulvtæpper hver på 20 m2. Resultaterne var

Gulvtæppe nr 1 2 3 4 5 6 7 8 9 10 11 12

Antal vævefejl 4 2 7 3 4 5 5 8 1 1 3 5

3) Find et estimat for middelværdien af antal vævefejl p. 20 m2 klæde.

Opgave 9.23 Et radioaktivt præparat undergår gennemsnitligt 100 desintegrationer (sønderdelinger) p.minut. Lad X betegne antal desintegrationer i et sekund (som er lille i forhold til præparatetshalveringstid).Find .P X( ) 1

105

Page 112: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Vigtige diskrete fordelinger

Opgave 9.24 Ved en TV-fabrikation optælles som led i en godkendelseskontrol antal loddefejl p. 5 TV-apparater. Fabrikanten ønsker at få et overblik over antal loddefejl, og optalte derfor antalloddefejl på 24 tilfældigt udtagne TV apparater. Resultatet fremgår af skemaet:

Antal loddefejl 0 1 2 3 4 5 6 7 8 9

Antal TV apparater 3 2 4 6 5 2 1 0 1 0

Lad X være antallet af loddefejl i 5 TV apparater.1) Angiv den sandsynlighedsfordeling X approksimativt kan antages at følge, og giv et

estimat for parameteren i fordelingen.2) Beregn på basis af svaret i spørgsmål 1 sandsynligheden for, at der på 5 tilfældigt udtagne

TV-apparater højst er i alt 18 loddefejl?

Opgave 9.25 På et teknisk universitet er et centralt edb-anlæg i konstant brug. Man har erfaring for, atanlægget i løbet af en 20 ugers periode har gennemsnitligt 7 maskinstop. Beregn sandsynligheden p for, at anlægget i en 4 ugers periode har mindst ét maskinstop.

Opgave 9.26 På en fabrik indtræffer i gennemsnit 72 ulykker om året. Antag, at de forskellige ulykkerindtræffer uafhængigt af hinanden, og at de er nogenlunde jævnt fordelt over året. Beregn, idet et arbejdsår sættes lig med 48 uger, sandsynligheden for at der i en uge indtræf-fer flere end 3 ulykker.

Opgave 9.27 Til et bestemt telefonnummer er der i løbet af aftenen i middel 300 opkald i timen. Beregn sandsynligheden for, at der i løbet af et minut er højst 8 opkald.

Opgave 9.28 En fabrikation af fortinnede plader finder sted ved en kontinuerlig elektrolytisk proces.Umiddelbart efter produktionen kontrolleres for pladefejl. Man har erfaring for, at der imiddel er 1 pladefejl hvert 5'te minut.Beregn sandsynligheden for, at der højst er 5 pladefejl ved en halv times produktion.

Opgave 9.29 Lastbiler med affald ankommer tilfældigt og indbyrdes uafhængigt til en losseplads.Lossepladsens maksimale kapacitet er beregnet til, at der i middel ankommer 90 lastbiler p.time. Ledelsen af pladsen føler, at travlheden er blevet større i den sidste tid, således atantallet af lastbiler overskrider den maksimale kapacitet. For at undersøge dette, foretages enoptælling af lastbiler i perioder à 10 minutter. Følgende resultater fremkom:

13 16 17 15 18 12 22 16 21 18

1) Bekræfter disse resultater ledelsens formodning? (Husk altid at anføre: Hvad X er.Antagelser. Nulhypotese. Beregninger. Konklusion.).

2) Angiv et estimat for middelværdien [lastbiler/time].~ 3) Angiv et 95% konfidensinterval for middelværdien [lastbiler/time].

106

Page 113: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 9

Opgave 9.30 Nedenstående tabel viser fordelingen af 400 volumenenheder med hensyn til antal gærcellerp. volumenenhed.

Antal gærceller 0 1 2 3 4 5 6 7 8 9 10 11 12

Antal volumenenheder 0 20 43 53 86 70 54 37 18 10 5 2 2

Lad X være antal gærceller p. volumenenhed. Det antages, at X er en stokastisk variabel derer Poissonfordelt p ( ). 1) Find et estimat for .~ 2) Angiv et 95% konfidensinterval for .3) Forudsat at X er Poissonfordelt p ( ) ønskes beregnet det forventede antal volumenenhe-~

der, hvori der forekommer 5 gærceller (for x = 5).

Opgave 9.31 Ved inspektion af en produktion med isolering af kobberledning taltes der i løbet af 50minutter i alt 11 isoleringsfejl.Idet antallet af isoleringsfejl p. 50 minutter antages at være Poissonfordelt p ( ), skal man 1

1a) angive et estimat for .1

1b) angive et 95% konfidensinterval for .1

Det oplyses nu, at man i hver 5 minutters periode i den ovenfor omtalte 50 minutters periodehavde observeret følgende antal isoleringsfejl:

Periode 1 2 3 4 5 6 7 8 9 10

Antal fejl 1 0 2 2 1 1 3 0 1 0

Idet antallet af isoleringsfejl p. 5 minutter antages at være Poissonfordelt p ( ), skal man 2

2a) angive et estimat for . 2

2b) angive et 95% konfidensinterval for . 2

Opgave 9.32 I en urne findes 10 røde kugler, 5 hvide kugler og 3 sorte kugler.6 gange efter hinanden optages tilfældigt en kugle fra urnen.Bestem sandsynligheden for, at der i alt er optaget 1 rød, 2 hvide og 3 sorte kugler, når1) kuglerne optages uden tilbagelægning2) kuglerne optages med tilbagelægning.

Opgave 9.33 En virksomhed fabrikerer farvede glasklodser til dekorationsbrug. Defekte glasklodser frasorteres. Man har erfaring for, at afde frasorterede klodser har i middel 50% kun revner, 35% kun farvefejl, medens resten har begge disse fejl.Beregn sandsynligheden for, at af 12 tilfældige defekte klodser har 6 kun revner, 4 kun farvefejl og 2 begge disse fejl.

Opgave 9.34 I et kortspil med de sædvanlige 52 spillekort har en spiller modtaget 13 kort. Angiv i procent med 2 decimaler sandsynlighe-den for, at 3 af disse er esser og 5 er billedkort.

107

Page 114: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

10 ANDRE KONTINUERTE FORDELINGER

10.1 INDLEDNINGVi vil i dette kapitel kort orientere om en række fordelinger, som er vigtige i specielle

sammenhænge,

10.2 DEN REKTANGULÆRE FORDELING

Bevis:

E Xx

b adx

x

b a

b a

a

b

a

b

( )( )

=−

=⋅ −

=

+

∫2

2 2

V X

xa b

b adx

xa b

b a

b a

a

b

a

b

( )( )

( )=

−+

−=

−+

=−

∫2 2

3 12

2 3

2

Eksempel 10.1 giver et eksempel på den rektangulære fordeling.

DEFINITION af rektangulær fordeling med parametrene a og b. Lad a og b være to reelle tal, hvor a<b.

Sandsynlighedsfordelingen for en kontinuert stokastisk variabel X med tæthedsfunktionen f

(x) bestemt ved f x b aa x b

( ) = −≤ ≤

1

0

for

ellers

siges at være rektangulært fordelt rekt (a , b ).

SÆTNING 10.1. ( Middelværdi og spredning for rektangulær fordeling ).

Den rektangulære fordeling har og (a < b)E Xa b

( ) =+

2σ ( )X

b a=

⋅2 3

108

Page 115: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

10.2 Den rektangulære fordeling

Eksempel 10.1 Kontinuert variabel.Lad randen af en roulette være ækvidistant inddelt efter en

skala fra 0 til 12, jævnfør figuren.

Ved et roulettespil bringes roulettens viser til at rotere,

hvorefter den standser ud for et tilfældigt punkt på skalaen.

Lad X være det tal som roulettens viser peger på.

Idet X må kunne antage ethvert tal mellem 0 og 12, må X

være en kontinuert variabel.

Angiv tæthedsfunktion og fordelingsfunktion for X og

skitser disse.

LØSNING:

Da for P X xx

( )012

≤ ≤ = 0 12≤ ≤x

er fordelingsfunktionen for X

F x

x

xx

x

( ) =

≤ ≤

0 0

120 12

1 12

for

for

for

Ved differentiation fås tæthedsfunktionen

f xx

( ) =≤ ≤

1

120 12

0

for

ellers

109

Page 116: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

10.Andre kontinuerte fordelinger

10.3 EKSPONENTIALFORDELINGEN

I kapitel 7 betragtede vi antallet N af revner pr. meter langs et kobberkabel. Vi antog, at N var

Poissonfordelt. Hvis vi i stedet havde betragtet afstanden X mellem revnerne, havde vi fået en ny

stokastisk variabel, som må være kontinuert. Som det fremgår af følgende sætning er X

eksponentialfordelt.

Bevis:

I tidsrummet fra x0 til x0 + x er der I gennemsnit impulser. Lad W være det aktuelle antal impulser i tidsrummetλ ⋅ x[x0 ; x0 + x ]. W er da Poissonfordelt . p x( )λ ⋅Idet X er tiden fra én impuls til den næste, er , da der ingen impulser er i tidsrummetP X x P W( ) ( )> = = 0[x0 ; x0 + x ].

Da , er .P Wx x x( )

( )

!= =

⋅⋅ =

− ⋅ − ⋅00

0λ λ λe e P X x

x( )> =− ⋅e λ

Vi har derfor . F x P X x P X xx( ) ( ) ( )= ≤ = − > = −

− ⋅1 1 e λ

Ved differentiation fås tæthedsfunktionen: . Sættes fås formlen.f x F xx( ) ' ( )= = ⋅

− ⋅λ

λe λµ

=1

Bevis for middelværdi og spredning:

E X x dx xx x( ) (= ⋅ ⋅ = −−

= =

∞− ⋅ − ⋅

∫ λλ λ

µλ λ

00

1 1e - e

.( )V X E X E X x dxx( ) ( ) ( )= − = ⋅ ⋅ −

∞− ⋅

∫2 2 2

0

2λ µ

λe = − +

− ⋅

- e λ

λ λµ

xx

x2

2

0

22 2= − =

22

2 2

λµ µ

Som det fremgår af beviset for sætning 10.2, er fordelingsfunktionen for en eksponentialfordelt

variabel bestemt ved udtrykket

SÆTNING 10.2 (Eksponentialfordeling).

Lad W være en Poissonfordelt stokastisk variabel.

Lad det gennemsnitlige antal impulser i en tidsenhed være . Lad X være tiden indtilλ

næste impuls.

X er da en kontinuert stokastisk variabel med sandsynlighedsfordelingen

(tæthedsfunktionen)

f ( x ) = P ( X = x) bestemt ved

hvor f xe x

x

( ) =⋅ >

−10

0

µ

µ for

ellers

µλ

=1

X siges at være eksponentialfordelt exp ( ) med parameteren .µ µ

110

Page 117: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

10.3 Eksponentialfordelingen

0 2 4 6 8 10 12

0

0,2

0,4

0,6

0,8

1

Fig 10.1 Eksponentialfordelingerne exp(1) og exp(2)

F x P X xx

x

( ) ( )= ≤ =− >

1 0

0

e for

ellers

µ

På nedenstående graf er afbildet tæthedsfunktionen for eksponentialfordelingerne exp(1.0) og

exp(2.0)

Eksempel 10.2. Afstanden mellem successive revner i kabel.Vi betragter det i eksempel 5.1 omtalte problem, hvor man fandt, at antallet N af mikroskopiske

revner i et kobberkabel er Poissonfordelt. Der var i gennemsnit 12.3 af den type revner pr. 10

meter. Lad X være afstanden mellem to på hinanden følgende revner.

Beregn sandsynligheden for, at der er mere end 1 meter mellem to revner.

LøsningDa der i gennemsnit er 1.23 revner pr. meter, må der i gennemsnit være meter mellem1

1 230812

..=

to revner. Vi har derfor at X er eksponentialfordelt med = 0.813.µ

P X P X( ) ( ) .. .> = − ≤ = − −

=

−−1 1 1 1 1 0 2923

1

0 813 1 23e = e

Levetider. I apparater, som består af elektroniske komponenter (eksempelvis lommeregnere), er

der et meget ringe mekanisk slid. Apparatets fremtidige levetid vil derfor (næsten ikke) afhænge

af, hvor længe det har fungeret indtil nu. I sådanne tilfælde vil eksponentialfordelingen

erfaringsmæssigt være en god approksimativ model for apparatets levetid.

Det kan nemlig vises, at eksponentialfordelingen er den eneste kontinuerte fordeling, som har

ovennævnte egenskab (er uden hukommelse)Bevis: Lad X være eksponentialfordelt med middelværdi og lad b > a > 0 være vilkårlige konstanter. Der gælderµ

da:

( )P X a b X a

P X a b X a

P X a

P X a b

P X aP X b

a b

b

b

( )( ) ( )

( )

( )

( )( )> + > =

> + ∧ >

>=

> +

>= = >

−+

−e

e

= e

µ

µ

µ

111

Page 118: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Andre kontinuerte fordelinger

Eksempel 10.3. Levetid for elektriske pærer.

Man har erfaring for, at en bestemt type elektriske pærer har en "brændtid" T (målt i timer), som

approksimativt er eksponentialfordelt. På basis af et stort antal målinger ved man , at

middellevetiden er = 1500 timer.µ

1) Hvor stor er sandsynligheden for, at en tilfældig pære brænder over, inden den har været tændt

i 1200 timer?

2) Find sandsynligheden for, at en tilfældig pære brænder i mere end 1800 timer.

3) En pære har brændt i 800 timer. Hvad er sandsynligheden for, at den brænder i mindst 1800

timer mere.

Løsning1) .P T F( ) ( ) .< = = −

1200 1200 1 551%1200

1500e = 1- 0.449 =

2) P T F( ) ( ) .> = − =−

1800 1 1800 3012%1800

1500e =

3) Da eksponentialfordelingen ingen hukommelse har, vil svaret blive som i spørgsmål 2, dvs.

30.12%.

10.4 WEIBULLFORDELINGENHvis komponenterne i et elektronisk apparat ikke “slides”, dvs. den fremtidige levetid ikke

afhænger af den foregående tid, er som nævnt i afsnit 10.3 eksponentialfordelingen velegnet som

model for apparatets levetid.

Hvis derimod de pågældende komponenters eventuelle svigten afhænger af den forløbne tid, kan

man ofte med fordel benytte den i det følgende nævnte Weibullfordeling som approksimativ

model for apparatets levetid (model for apparatets pålidelighed).

Det kan vises, at Weibullfordelingen har middelværdien 1 )wei k( , )µ E Xk

k( ) = ⋅

+

µ Γ

1

og spredningen σ µ( )Xk

k

k

k= ⋅

+

+

Γ Γ

2 12

Det ses, at Weibullfordelingen kan opfattes som en generalisation af eksponentialfordelingen, idet

.wei( , ) exp( )1 µ µ=

Såfremt levetiderne for komponenter i et apparat aftager jo længere tid apparatet har været i

funktion (på grund af slid), kan man benytte en Weibullfordeling med k > 1 som approksimativ

model for apparatets levetid.

DEFINITION af Weibulfordeling. Lad k og være positive tal. Sandsynlighedsfordelingenµ

for en kontinuert stokastisk variabel X med tæthedsfunktionen f ( x ) bestemt ved

f xk

x for x

ellers

k

k

xk

( ) =⋅ ⋅ >

−−

µ

µ10

0

e

siges at være Weibullfordelingen .wei k( , )µ

1)Gammafunktionen er defineret i “Supplement til statistiske grundbegreber”Γ( )x

3A

112

Page 119: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

10.6 Den 2-dimensionale normalfordeling

Mean,Std. dev.8,5

Lognormal Distribution

x

den

sity

0 10 20 30 40

0

0,03

0,06

0,09

0,12

0,15

10.5 DEN LOGARITMISKE NORMALFORDELINGIndenfor det biokemiske eller biologiske område (forsøgsdyrs reaktionstid, cellevækst m.v.) er

den stokastiske variabel X ikke normalfordelt, men hvis man foretager en logaritmisk

transformation er Y (approksimativt) normalfordelt.Y X= lnMan siger så, at X er logaritmisk normalfordelt.

Tæthedsfunktionen for X er bestemt ved for x > 0.f xx

e

x

( )

ln

=⋅

− ⋅−

1

2

11

2

2

π σ

µ

σ

Det kan vises, at mens har middelværdi og spredning har X middelværdi Y X= ln µ σ

og .E X e e( ) = ⋅− ⋅

µσ

1

22

V X( ) ( )= ⋅ ⋅ −e e e2 2 2

1µ σ σ

Nedenfor er tegnet en logaritmisk normalfordeling med middelværdi 8 og spredning 5.

10.6 DEN 2-DIMENSIONALE NORMALFORDELINGFlerdimensionale fordelinger vil blive omtalt nærmere i kapitel 11. Her nævnes uden forklaring

et eksempel herpå.

DEFINITION af 2-dimensional normalfordeling Lad være reelle tal og væreµ µ1 2, σ σ1 2,

positive tal. Sandsynlighedsfordelingen for 2-dimensional kontinuert stokastisk variabel (X1,X2)

med tæthedsfunktion bestemt ved

f x e

x x x x

( )( )

=

⋅ ⋅ −

−⋅ −

⋅−

−⋅

−+

1

2 11 2

2

1

2 12

2

1 1

1

2

1 1

1

2 2

2

2 2

2

2

π σ σ ρ

ρ

µ

σρ

µ

σ

µ

σ

µ

σ

kaldes den 2-dimensionale normalfordeling med

parametrene , og .µ µ1 2, σ 1 σ 2

Det kan vises, at , , E X( )1 1= µ E X( )2 2= µ

, og σ σ( )X 1 1= σ σ( )X 2 2= ρ ρ( , )X X1 2 =

( defineres i kapitel 9).

Grafen ses overfor.

113

Page 120: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Andre kontinuerte fordelinger

OPGAVEROpgave 10.1

På et betalingsnummer måltes man i tidsrummet fra kl 20 til 22 tiden t (antal minutter) mellem

på hinanden følgende telefonopkald. Følgende resultater fandtes:

Beliggenhed af t ]0;1] ]1;2] ]2;3] ]3;4] ]4;5] ]5;6] ]6;7] ]7;8] ]8;9] ]9;10] ]10; [ ∞

Antal observationer 36 21 16 13 7 9 6 1 2 6 0

Det antages, at antallet N af telefonopkald til nummeret er Poissonfordelt. Lad T være tiden

mellem to opkald.

1) Angiv fordelingsfunktionen for T, og giv et estimat for middelværdien .µ

Vink: Antage, at for alle observationer i et interval er tidsrummet mellem observationerne

intervallets midterværdi.

2) På baggrund af den i spørgsmål 1 fundne estimat for , ønskes bestemt .µ P T( )2 3< ≤

3) Af tabellen ses, at i intervallet ]2; 3] forekommer i alt 16 observationer. Angiv hvor mange

observationer man må forvente, ud fra resultatet i spørgsmål 2.

Opgave 10.2

Om en bestemt type elektriske komponenter vides, at deres levetider er eksponentialfordelte med

en middellevetid på 800 timer.

1) Find sandsynligheden for, at en komponent holder mindst 200 timer.

2) Find sandsynligheden for, at en komponent holder mellem 600 og 800 timer.

3) En komponent har holdt i 900 timer. Find sandsynligheden for, at den kan holde i mindst 200

timer mere.

4) I et elektrisk system indgår netop én komponent af denne type. Hver gang komponenten

svigter, udskiftes den øjeblikkeligt med en ny komponent af samme type. Find

sandsynligheden for, at komponenten udskiftes 12 gange i løbet af 8000 timer.

Opgave 10.3

Antag, at levetiderne for en bestemt slags elektroniske

komponenter er uafhængige og alle er eksponentialfordelt

med en middellevetid på 3 (år). Betragt et delsystem bestående af 3 sådanne komponenter i

seriekobling:(en seriekobling ophører at fungere, når én af komponenterne ophører at fungere).

Bestem middellevetiden for et sådant system.

Opgave 10.4

Nedbrydningstiden i den menneskelige organisme for et givet kvantum af et bestemt stof antages

at være eksponentialfordelt med middelværdien 5 timer.

Ved et forsøg indsprøjtes stoffet samtidig i 10 patienter.

1) Beregn sandsynligheden (afrundet til et helt antal procent) for, at stoffet hos en tilfældig valgt

patient vil være nedbrudt efter 8 timers forløb.

2) Beregn sandsynligheden for, at stoffet efter 8 timers forløb vil være nedbrudt hos mindst 5 af

patienterne.

3) Efter hvor mange timers forløb vil der være ca. 90% sandsynlighed for, at stoffet er nedbrudt

hos samtlige 10 patienter?

4) Hvor mange patienter skal indgå i en ny undersøgelse, hvis der skal være ca. 95%

sandsynlighed for, at der er mindst en patient, hvis organisme efter 8 timers forløb endnu ikke

har nedbrudt stoffet?

114

Page 121: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

11.1 Indledning

X1

X2

150 160 170 180 190 200

45

55

65

75

85

95

Stikprøve viser positiv

korrelation: .ρ( , ) .X X1 2 084≈

X1

X3

150 160 170 180 190 200

45

55

65

75

85

Stikprøve viser ingen

korrelation: ρ( , ) .X X1 2 0 00=

.

X1

X4

150 160 170 180 190 200

14

24

34

44

54

64

Stikprøve viser negativ

korrelaton: .ρ( , ) .X X1 2 084≈ −

Bjarne Hellesen:

11 FLERDIMENSIONAL STOKASTISK VARIABEL

ESSENS

Kovariansen er et mål for to variables tendens til at( )V X X E X Xi j i( , ) ( ) ( )= − ⋅ −µ µ1 2 2

variere i takt med hinanden (samvarians). Kovariansen er f.eks. positiv(negativ), når afvigelsen

har en tendens til at være positivt (negativt) proportional med afvigelsen . ErX i i− µ X j j− µ

og statistisk uafhængige, bliver kovariansen 0 (men man kan ikke slutte den anden vej).X iX j

Korrelationskoefficienten er normeret , så .ρσ σ

( , )( , )

X XV X X

i j

i j

i j

≡⋅

− ≤ ≤1 1ρ( , )X Xi j

Poolet estimat med frihedsgrader benyttes,sf s f s f s

f f fpool

k k

k

2 1 1

2

2 2

2 2

1 2

=+ + +

+ + +

...

...f f f fpool k= + + +1 2 ...

når man har k uafhængige estimater for den samme varians :σ2

, ,..., ,sSAK

f1

2 1

1

= sSAK

f2

2 2

2

= sSAK

fk

k

k

2=

115

Page 122: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Flerdimensional statistisk variabel

Har to stikprøver givet estimaterne , med frihedsgrader,s1

2 2 345= . s2

2 3456= . f f1 26 4= =,

bliver det poolede estimat sf s f s

f fpool

2 1 1

2

2 2

2

1 2

6 2 345 4 3456

6 42 7894 2 789=

+

+=

⋅ + ⋅

+= ≈

. .. .

med frihedsgrader.f f fpool = + = + =1 2 6 4 10

Linearitetsreglen , E a a X a X a X a a E X a E X a E Xk k k k( ... ) ( ) ( ) ... ( )0 1 1 2 2 0 1 1 2 2+ + + + = + + + +

(a’erne er konstanter).

Er , fåsE X( )1 2= E X( )2 3=

E X X E X E X( ) ( ) ( ) .4 5 6 4 5 6 4 5 2 6 3 321 2 1 2+ + = + + = + ⋅ + ⋅ =

Kvadratreglen V a a X a X a Xk k( ... )0 1 1 2 2+ + + +

.= + + + += +=

∑∑a V X a V X a V X a a V X Xk k i j i jj i

k

i

k

1

2

1 2

2

2

2

11

2( ) ( ) ... ( ) ( , )

Er fås V X V X V X X( ) , ( ) , ( , ) . ,1 2 1 22 3 15= = =

V X X V X V X V X X( ) ( ) ( ) ( , )4 5 6 5 6 2 5 61 2

2

1

2

2 1 2+ + = + + ⋅ ⋅ ⋅

= ⋅ + ⋅ + ⋅ ⋅ ⋅ =5 2 6 3 2 5 6 15 2482 2 .

11.1 INDLEDNINGVed anvendelserne optræder der ofte flere stokastiske variable ad gangen. Det kan da væreX X X k1 2, , ... ,naturligt at samle dem i et ordnet sæt , som kaldes en k-dimensional stokastisk variabel.

rX X X X k= ( , ,..., )1 2

Eksempelvis:

* Et levnedsmiddel kan af en tilfældig udtaget forbruger bedømmes ved en karakter for smagen og enX1karakter for lugten. Så er en 2-dimensional stokastisk variabel.X 2

rX X X= =( , ) ( )1 2 Smag,Lugt

* Et tilfældigt eksperiment går ud på at udtage en tilfældig person og måle vedkommendes højde og masseX1

. Så er en 2-dimensional stokastisk variabel.X 2

rX X X= =( , ) ( )1 2 Højde, Masse

* Ugens 7 lottotal udgør en 7-dimensional stokastisk variabel .rX X X X= ( , ,..., )1 2 7

* Et tilfældigt eksperiment går ud på at kaste en rød og en hvid terning. Så er (Antal øjne oprX X X= =( , )1 2

på rød terning, Antal øjne op på hvid terning) en 2-dimensional stokastisk variabel.

For hver af de 1-dimensionale stokastiske variable har vi defineret:X X X k1 2, ,..., * Fordelingsfunktioner :F F Fk1 2, ,...,

. . . , .F X P X x1 1 1 1( ) ( ),≡ ≤ F X P X x2 2 2 2( ) ( ),≡ ≤ F X P X xk k k k( ) ( )≡ ≤

* Tæthedsfunktioner , når er diskrete variable:f f f k1 2, ,..., X X X k1 2, ,...,

, , . . . , ,f x P X x1 1 1 1( ) ( )≡ = f x P X x2 2 2 2( ) ( )≡ = f x P X xk k k k( ) ( )≡ =

og når de er kontinuerte variable:

, , . . . , .f xdF x

dx1 1

1 1

1

( )( )

≡ f xdF x

dx2 2

2 2

2

( )( )

≡ f xdF x

dxk k

k k

k

( )( )

* Middelværdier, når er diskrete variable:X X X k1 2, ,...,, . . . , ,( )E g X g x f x

x

( ( ) ( ) ( )1 1 1 1

1

≡ ⋅∑ ( )E g X g x f xk k k kxk

( ( ) ( ) ( )≡ ⋅∑og når de er kontinuerte variable:

116

Page 123: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

11.1 Indledning

, . . . , ,( )E g X g x f x dx( ( ) ( ) ( )1 1 1 1 1≡ ⋅−∞

∫ ( )E g X g x f x dxk k k k k( ( ) ( ) ( )≡ ⋅−∞

∫specielt

, . . . , ,µ1 1 1 1 1

1

≡ ≡ ⋅∑E X x f xx

( ) ( ) µk k k kx

E X x f xk

≡ ≡ ⋅∑( ) ( )2

og

, . . . , .µ1 1 1 1 1 1≡ ≡ ⋅−∞

∫E X x f x dx( ) ( ) µ k k k k k kE X x f x dx≡ ≡ ⋅−∞

∫( ) ( )

Af definitionen på middelværdi følger linearitetsreglen:

.( ) ( ) ( )E a g X b h X a E g X b E h Xi i i i⋅ + ⋅ = ⋅ + ⋅( ) ( ) ( ) ( )

For en k-dimensional stokastisk variabel definerer vi analogt:rX X X X k= ( , ,..., )1 2

* Fordelingsfunktionen : ( betyder “både og”)F ∧

.F x x x P X x P X x P X xk k k( , ... , ) ( ) ( ) ... ( ),1 2 1 1 2 2≡ ≤ ∧ ≤ ∧ ∧ ≤

* Tæthedsfunktionen f, når er diskrete variable:X X X k1 2, , ... ,

f x x x P X x P X x P X xk k k( , ... , ) ( ) ( ) . . . ( ),1 2 1 1 2 2≡ = ∧ = ∧ ∧ =

og når de er kontinuerte variable: .f x x xF x x x

x x xk

k

k

k

( , ... , )( , , ... , )

, ... ,,1 2

1 2

1 2

≡∂

∂ ∂ ∂

* Middelværdier, når er diskrete variable:X X X k1 2, ,...,

( )E g X X X g x x x f x x xk k

xx

k

x k

( , , ... , ) ... ( , , ... , ) ( , , ... , )1 2 1 2 1 2

21

= ⋅∑∑∑

og når de er kontinuerte variable:

( )E g X X X dx dx g x x x f x x x dxk k k k( , , ... , ) ... ( , , ... , ) ( , , ... , )1 2 1 2 1 2 1 2= ⋅− ∞

−∞

− ∞

∫ ∫∫Af definitionen på middelværdi følger linearitetsreglen: ( ) ( ) ( )E a g X b h X a E g X b E h X⋅ + ⋅ = ⋅ + ⋅( ) ( ) ( ) ( )

r r r r

De variable kaldes stokastisk uafhængige, såfremt de for alle værdier af opfylderX X X k1 2, ,..., x x xk1 2, ,...,

betingelsen: ,f x x x f x f x f xk k k( , ... , ) ( ) ( ) . . . ( )1 2 1 1 2 2= ⋅ ⋅ ⋅

der kan vises at være ækvivalent med betingelsen: .F x x x F x F x F xk k k( , ... , ) ( ) ( ) . . . ( )1 2 1 1 2 2= ⋅ ⋅ ⋅

En stikprøve af størrelsen n på en stokastisk variabel defineres somrX X X X k= ( , ,..., )1 2

( ) ( )r r r

X X X X X X X X X X X Xn k k n n kn1 2 11 21 1 12 22 2 1 2, ,..., ( , ,..., ),( , ,..., ),...,( , ,..., )=

hvor er statistisk uafhængige variable, der hver har samme fordeling som .r r rX X X n1 2, ,...,

rX

Eksempel 11.1. 2-dimensional stokastisk variabel.

Et levnedsmiddel kan af en tilfældig forbruger bedømmes ved en karakter for smagen og en karakter forX1 X 2

lugten. Karakteren kan antage værdierne 0, 1 og 2, mens kun kan antage værdierne 0 og 2.X1 X 2

a) Antag, at man teoretisk kender tæthedsfunktionen :f x x( , )1 2

f x x( , )1 2 x1

0 1 2

x2 0 0.2 0.1 0.1

2 0.1 0.2 0.3

a1) Find de 1-dimensionale tæthedsfunktioner og .f x1 1( ) f x2 2( ) a2) Er og statistisk uafhængige ?X1 X 2

a3) Find middelværdierne og samt spredningerne og .µ1 1= E X( ) µ2 2= E X( ) σ σ1 1= ( )X σ σ2 2= ( )X

a4) Find middelværdien .E X X( , )1 2

b) Antag, at man i stedet kender en stikprøve på :( , )X X1 2

(1,2), (0,0), (2,2), (2,2), (1,0), (2,2), (0,2), (2,2), (0,2 ), (2,2).

b1) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a3)

.

117

Page 124: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Flerdimensional stokastisk variabel

LØSNING:

a1) Ved summation ned gennem de lodrette søjler i tabellen for tæthedsfunktionen

fås den 1-dimensionale tæthedsfunktion :f x x P X x X x( , ) ( )1 2 1 1 2 2≡ = ∧ = f x P X x1 1 1 1( ) ( )= =

, , .f1 0 0 2 01 0 3( ) . . .= + = f1 1 01 0 2 0 3( ) . . .= + = f1 2 01 0 3 0 4( ) . . .= + =

Ved summation hen gennem de vandrette rækker i tabellen for tæthedsfunktionen fås analogt denf x x( , )1 2

1-dimensionale tæthedsfunktion :f x2 2( ), .f2 0 0 2 01 01 0 4( ) . . . .= + + = f2 2 01 0 2 0 3 0 6( ) . . . .= + + =

a2) De variable og er statistisk uafhængige, hvis og kun hvis for alle værdierX1 X 2 f x x f x f x( , ) ( ) ( )1 2 1 1 2 2= ⋅

af i definitionsmængden. Men da f.eks. er forskellig fra( , )x x1 2 f f1 20 0 0 3 0 4 012( ) ( ) . . .⋅ = ⋅ =

, er og ikke statistisk uafhængige.f ( , ) .0 0 0 2= X1 X 2

a3) Vi finder

µ1 1 1 1 1 1 1 10 0 1 1 2 2= = ⋅ = ⋅ + ⋅ + ⋅∑E X x f x f f f( ) ( ) ( ) ( ) ( ) = ⋅ + ⋅ + ⋅ =0 0 3 1 0 3 2 0 4 11. . . .

µ 2 2 2 2 2 2 20 0 2 2 0 0 4 2 0 6 12= = ⋅ = ⋅ + ⋅ = ⋅ + ⋅ =∑E X x f x f f( ) ( ) ( ) ( ) . . .

( )σ σ µ µ1 1 1 1 1

2

1 1

2

1 1= ≡ ≡ − = − ⋅∑( ) ( ) ( ) ( ) ( )X V X E X x f x

= − ⋅ + − ⋅ + − ⋅ = =( . ) . ( . ) . ( . ) . . .0 11 0 3 1 11 0 3 2 11 0 4 0 69 0830672 2 2

( )σ σ µ µ2 2 2 2 2

2

2 2

2

2 2= ≡ ≡ − = − ⋅∑( ) ( ) ( ) ( ) ( )X V X E X x f x

= − ⋅ + − ⋅ = =( . ) . ( . ) . . .0 12 0 4 2 12 0 6 0 96 0 979802 2

a4) Vi finder

E X X x x f x xxx

( ) ( , )1 2 1 2 1 2

21

⋅ ≡ ⋅ ⋅∑∑ = ⋅ ⋅ + ⋅ ⋅ +0 0 0 0 1 0 1 0f f( , ) ( , )

2 0 2 0 0 2 0 2 1 2 1 2 2 2 2 2⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅f f f f( , ) ( , ) ( , ) ( , )

.= ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ =0 0 2 0 01 0 01 0 01 2 0 2 4 0 3 16. . . . . . .

b1) Stikprøvens -værdier 1, 0, 2, 2, 1, 2, 0, 2, 0, 2 kan indtastes på en lommeregner, der finder gennemsnittetx1

og standardafvigelsen som tilnærmelser til middelværdi og spredning for . Man finder:x1 s1 µ1 σ1 X1

, .µ1 1 1 12≡ ≈ =E X x( ) . σ σ1 1 1 0 9189= ≈ =( ) .X s

Analogt indtastes stikprøvens - værdier 2, 0, 2, 2, 0, 2, 2, 2, 2, 2, og man finderx2

, µ2 2 2 16≡ ≈ =E X x( ) . σ σ2 2 2 08433= ≈ =( ) .X s

Det ses, at estimaterne har en vis lighed med de eksakte værdier i spørgsmål a3).

11.2 KOVARIANS OG KORRELATIONSKOEFFICIENTVi har omtalt, at hver stokastisk variabel har en varians. Men et par variable og kan have en tendens til atX1 X 2

variere i overensstemmelse med hinanden (samvarians), således at afvigelserne og overvejendeX1 1− µ X 2 2− µ

har samme fortegn (positiv korrelation) eller overvejende har modsat fortegn (negativ korrelation). Eksempelvis kan

en høj forekomst af ét vitamin i et levnedsmiddel ofte være ledsaget af en høj forekomst af et andet vitamin (positiv

korrelation).

Og studerendes højde og masse kan også have en positiv korrelation.

Vi betragter igen en k-dimensional stokastisk variabel . For et par af variable og rX X X X k= ( , ,..., )1 2

X iX j

defineres kovariansen (“samvariansen”)

( )V X X E X Xi j i i j j( , ) ( ) ( )≡ − ⋅ −µ µ

(den giver jo et vist mål for, om afvigelserne og i middel har samme fortegn eller modsatX i i− µ X j j− µ

fortegn).

Sættes i = j, fås , som er identisk med variansen for variablen ( )V X X E Xi i i i( , ) ( )= − µ2 V X i( ) X i

118

Page 125: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

11.1 Indledning

Man kan vise (se nedenfor), at , som for i = j giver .( )V X X E X Xi j i j i j( , ) = ⋅ − ⋅µ µ ( )V X E Xi i i( ) = −2 2

µ

Bevis: .( )V X X E X X E X X X Xi j i i j j i j i j i j i j( , ) ( ) ( ) ( )≡ − ⋅ − = − − +µ µ µ µ µ µ

Anvendes linearitetsreglen kan sidste led omformes:

= − − + = − − +E X X E X E X E X Xi j i j i j i j i j i j i j i j( ) ( ) ( ) ( )µ µ µ µ µ µ µ µ µ µ = −E X Xi j i j( ) µ µ

For bedre at kunne vurdere hvor meget de variable varierer i “takt” med hinanden, divideres kovariansen med

spredningerne, så man får den såkaldte korrelationskoefficient:

ρσ σ

( , )( , )

X XV X X

i j

i j≡

⋅1 2

Man kan vise (se nedenfor) , at . − ≤ ≤1 1ρ( , )X Xi j

Bevis: Vi har

( )02

≤ ⋅ − + −

E X Xi i j jλ µ µ( ) ( ) ( )= ⋅ − + − − + −E X X X Xi i i i j j j jλ µ λ µ µ µ

2 2 22( ) ( )( ) ( )

( ) ( ) ( )= ⋅ − + − − + −λ µ λ µ µ µ2 2 22E X E X X E Xi i i i j j j j( ) ( )( ) ( ) = ⋅ + +λ λ

2 2V X V X X V Xi i j j( ) ( , ) ( )

Da dette andengradspolynomium i aldrig er negativt, kan diskriminanten ikke være positiv, dvs.λ

.( )( )

( )4 4 0 1 12

2

2

V X X V X V XV X X

V X V XX Xi j i j

i j

i j

i j( , ) ( ) ( )( , )

( ) ( )( , )− ⋅ ⋅ ≤ ⇔

⋅≤ ⇔ ≤ρ ⇔ − ≤ ≤1 1ρ( , )X Xi j

Man kan (som det ses nedenfor) vise, at

og stat. uafhængige X1 X 2 ⇒ ⋅ = ⋅ ⇔ = ⇔ =E X X E X E X V X X X Xi j i j i j i j( ) ( ) ( ) ( , ) ( , )0 0ρ

Bevis: Vi har

og stat. uafhængigeX1 X 2⇔ = ⋅f x x f x f xi j i i j j( , ) ( ) ( )

⇒ ⋅ = ⋅ ⋅ = ⋅ ⋅ ⋅∑∑ ∑∑E X X x x f x x x x f x f xi j i j i jxx

i j i i j jxxji ji

( ) ( , ) ( ) ( )

= ⋅ ⋅ = ⋅∑∑ x f x x f x E X E Xi i i j j j i j

xx ji

( ) ( ) ( ) ( )

.⇔ = ⋅ − ⋅ = ⋅ − ⋅ =V X X E X X E X E Xi j i j i j i j i j( , ) ( ) ( ) ( )µ µ µ µ 0 ⇔ =⋅

=ρσ σ

( , )( , )

X XV X X

i j

i j

i j

0

Estimater for kovarians, varians og korrelationskoefficient

Ud fra en stikprøve kan man beregne( , ), ( , ), . . . , ( , )x y x y x yn n1 1 2 2

, ,SAP x x y yXY ii

n

i≡ − ⋅ −=

∑ ( ) ( )1

SAK x xX ii

n

≡ −=

∑ ( )1

2SAK x xX i

i

n

≡ −=

∑ ( )1

2

( SAP = “Sum af Afvigelsers Produkter” , SAK = “Sum af Afvigelsers Kvadrater” )

og heraf danne estimater for kovarians, varianser og korrelationskoefficient:

kovarians: og varianser: , V X YSAP

n

XY( , ) ≈

− 1V X

SAK

n

X( ) ≈− 1

V YSAK

n

Y( ) ≈− 1

korrelationskoefficient: ρ( , )X Y rSAP

SAK SAK

XY

X Y

≈ ≡⋅

119

Page 126: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Flerdimensional stokastisk variabel

Det kan således vises (for enhver fordelingstype), at

, ,ESAP

nV X Y

XY

=

1( , ) E

SAK

nV X

X

=

1( ) E

SAK

nV Y

Y

=

1( )

Bevis: Vi har

( ) ( )SAP X X Y Y X X Y YXY i ii

n

i x x i Y Yi

n

= − − = − − − ⋅ − − −= =

∑ ∑( )( ) ( ) ( ( ) ( )1 1

µ µ µ µ

= − − + − − − − − − − −= = ==

∑ ∑ ∑∑( )( ) ( )( ) ( )( ) ( )( )X Y X Y X Y X Yi x i Yi

n

x Y i x Yi

n

x i Yi

n

i

n

µ µ µ µ µ µ µ µ1 1 11

= − − + ⋅ − − − − ⋅ − − − − ⋅=

∑ ( )( ) ( )( ) ( )( ) ( )( )X Y n X Y n X n Y X nY ni x i Yi

n

x Y x Y x Yµ µ µ µ µ µ µ µ1

.= − − − ⋅ − −=

∑ ( )( ) ( )( )X Y n X Yi x i Yi

n

x Yµ µ µ µ1

Altså fås ved hjælp af linearitetsreglen:

( ) ( )E SAP E X Y n E X YXY i x i Y x Yi

n

( ) ( )( ) ( )( )= − − − ⋅ − −=

∑ µ µ µ µ1

( )= − ⋅ + + + − ⋅ + + + − ⋅=

∑ V X Yn

E X X X n Y Y Y ni i n x n Yi

n

( , ) ( ... )( ... )1

1 2 1 21

µ µ

= − ⋅ − −

= ==

∑ ∑∑V X Yn

E X Yi

i

n

x j

j

n

Y

i

n

( , ) ( ) ( )1

1 11

µ µ

( )= ⋅ − − − = ⋅ −

====

∑∑∑∑n V X Yn

E X Y n V X Yn

V X Yi x j Y i j

j

n

i

n

j

n

i

n

( , ) ( )( ( , ) ( , )1 1

1111

µ µ

( idet for i en stikprøve)= ⋅ −

=

∑n V X Yn

V X Yi i

i

n

( , ) ( , )1

1

V X Yi j( , ) = 0 i j≠

, dvs. .= ⋅ − ⋅ ⋅ = − ⋅n V X Yn

n V X Y n V X Y( , ) ( , ) ( ) ( , )1

1 ESAP

nV X Y

XY

=

1( , )

Erstattes Y med X i beviset, bliver erstattet med , og bliver erstattet med ,SAPXY SAKXV X Y( , ) V X( )

hvorved vi også får bevist, at . Erstattes X med Y , fås endelig ESAK

nV X

X

=

1( ) E

SAK

nV Y

Y

=

1( )

Poolet estimatSom nævnt er SAK en forkortelse for “Sum af Afvigelsers Kvadrater”. De afvigelser der tænkes på er de n differenser

. De har summen 0, så når n - 1 af dem er kendt, er den sidste fastlagt. Da SAK såledesX X X X X Xn1 2− − −, ,...,kun er baseret på n - 1 uafhængige differenser, siger man, at SAK har f = n - 1 frihedsgrader. Det er også antallet

af frihedsgrader der optræder i estimatet for varians: sSAK

f

X2=

Ofte har man taget k stikprøver på variable med samme varians , så vi får k uafhængige estimater for den sammeσ2

varians :σ2

, ,. . . . . .,sSAK

f1

2 1

1

= sSAK

f2

2 2

2

= sSAK

fk

k

k

2=

og det er da fordelagtigt at forene dem i et såkaldt fællesestimat eller poolet estimat:

.sf s f s f s

f f ff f f fpool

k k

k

pool k

2 1 1

2

2 2

2 2

1 2

1 2=+ + +

+ + += + + +

. . .

. . ....med frihedsgrader

Dette kan også skrives

, med frihedsgrader.sSAK SAK SAK

f f fpool

k

k

2 1 2

1 2

=+ + +

+ + +

...

...f f f fpool k= + + +1 2 ...

Det ses, at har den rigtige middelværdi , idet linearitetsreglen giverspool

2

.E sf E s f E s f E s

f f f

f f f

f f fpool

k k

k

k

k

( )( ) ( ) ... ( )

...

...

...2 1 1

2

2 2

2 2

1 2

1

2

2

2 2

1 2

2=

+ + +

+ + +=

+ + +

+ + +=

σ σ σσ

120

Page 127: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

11.3 Linearkombination

Eksempel 11.2. Kovarians. Korrelationskoefficient.Vi betragter igen den 2-dimensionale fordeling fra eksempel 11.1.

a5) Find kovariansen og korrelationskoefficienten.

b2) Benyt stikprøven til at finde estimater for kovariansen og korrelationskoefficienten.

LØSNING:

a5) Idet vi i eksempel 11.1 har fundet , og , finder vi nu kovariansen µ1 11= . , µ2 12= . σ = 0 69. σ = 0 96.

og korrelationskoefficienten :V X X( , )1 2 ρ( , )X X1 2

( )V X X E X X x x f x xi j i i j jxx

( , ) ( ) ( ) ( )( ) ( , )≡ − ⋅ − = − −∑∑µ µ µ µ1 1 2 2 1 2

21

= − ⋅ − ⋅ + − ⋅ − ⋅ + − ⋅ − ⋅( ) ( ) ( , ) ( ) ( ) ( , ) ( ) ( ) ( , )0 0 0 0 1 0 1 0 2 0 2 01 2 1 2 1 2µ µ µ µ µ µf f f

+ − ⋅ − ⋅ + − ⋅ − ⋅ + − ⋅ − ⋅( ) ( ) ( , ) ( ) ( ) ( , ) ( ) ( ) ( , )0 2 0 2 1 2 1 2 2 2 2 21 2 1 2 1 2µ µ µ µ µ µf f f

= − ⋅ − ⋅ + − ⋅ − ⋅ + − ⋅ − ⋅( . ) ( .. ) . ( . ) ( . ) . ( . ) ( . ) .0 11 0 1 2 0 2 1 11 0 12 01 2 11 0 12 01

+ − ⋅ − ⋅ + − ⋅ − ⋅ + − ⋅ − ⋅ =( . ) ( .. ) . ( . ) ( . ) . ( . ) ( . ) . .0 11 2 1 2 01 1 11 2 12 0 2 2 11 2 12 0 3 0 28

.ρσ σ

( , )( , )

( ) ( )

.

. ..X X

V X X

X X1 2

1 2

1 2

0 28

0 69 0 960 3440≡

⋅=

⋅=

b2) Stikprøvens værdier (1,2), (0,0), (2,2), (2,2), (1,0), (2,2), (0,2), (2,2), (0,2), (2,2) kan indtastes på en

lommeregner, der finder tilnærmelser (estimater) til kovariansen og korrelationskoefficienten V X X( , )1 2

:ρ( , )X X1 2

V X XSAP

n

x x x x

n

i ii

n

( , )

( )( )

.1 2

121 1 2 2

1

1 10 3111≈

−=

− −

−=

=

.

ρ( , )

( )( )

( ) ( )

.X X rSAP

SAK SAK

x x x x

x x x x

i ii

n

i jj

n

i

n1 2

12

1 2

1 1 2 2

1

1 12

2 22

11

0 4015≈ ≡⋅

=

− −

− ⋅ −

==

==

∑∑

Det ses, at estimaterne har en vis lighed med de eksakte værdier i spørgsmål a5).

11.3 LINEARKOMBINATIONNår vi skal tage en stikprøve på en 1-dimensional stokastisk variabel X, så skal vi n gange skaffe et( , ,..., )X X X n1 2

tal X fra et tilfældigt eksperiment. Derfor kan vi opfatte stikprøven som en n-dimensional stokastisk variabel

. rX X X X n= ( , ,..., )1 2

Vi bruger ofte stikprøven til at danne gennemsnittet XX X X

n nX

nX

nX

n

n=+ + +

= + + +1 2

1 2

1 1 1......

som er en speciel linearkombination af .X X X n1 2, ,...,

Ved en linearkombination L for en k-dimensional stokastisk variabel forstås et udtryk afrX X X X k= ( , ,..., )1 2

formen

, hvor er konstanter.L a a X a X a Xk k= + + + +0 1 1 2 2 ... a a a ak0 2 3, , ,...,

For middelværdien af L giver linearitetsreglen:

.E L a a E X a E X a E Xk k( ) ( ) ( ) ... ( )= + + + +0 1 1 2 2

Eksempelvis kan vi se, at et gennemsnit altid har den “rigtige” middelværdi :X µ

.E Xn

E Xn

E Xn

E Xn n nn( ) ( ) ( ) ... ( ) ...= + + + = + + + =

1 1 1 1 1 11 2 µ µ µ µ

For variansen af en linearkombination L gælder kvadratreglen:

V L a V X a V X a V X a a V X Xk k i j i j

j i

k

i

k

( ) ( ) ( ) ... ( ) ( , )= ⋅ + ⋅ + + ⋅ +

= +=

∑∑1

2

1 2

2

2

2

11

2

121

Page 128: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Flerdimensional stokastisk variabel

Eksempelvis:

a) V a bX cY b V X c V Y bcV X Y( ) ( ) ( ) ( , )+ + = + +2 2 2

b) V a bX cY dZ( )+ + +

.= + + + + +b V X c V Y d V Z bcV X Y cdV Y Z dbV Z X2 2 2 2 2 2( ) ( ) ( ) ( , ) ( , ) ( , )

c) (X’erne statistisk uafhængige)V Xn

V Xn

V Xn

V Xn( ) ( ) ( ) ... ( )= + + +1 1 1

2 1 2 2 2

, dvs. .= + + + =1 1 1

2

2

2

2

2

2

2

n n n nσ σ σ

σ... σ

σ( )

( )X

X

n=

Den sidste ligning viser, at spredningen på et gennemsnit kun er omvendt proportional med kvadratroden på

stikprøvestørrelsen n. For at få et gennemsnit med en 10 gange mindre spredning, skal stikprøven altså gøres 100 gange

større!

Bevis for kvadratreglen. Vi finder

( ) ( )V L E L E L E a a X a X a a ak k k k( ) ( ( )) ( ... ... )≡ − = + + + − − − −2

0 1 1 0 1 1

2µ µ

( )( )= − + + −E a X a Xk k k1 1 1

2

( ) ... ( )µ µ

= − + + − + − −

==

∑∑E a X a X a a X Xk k k i j i i j jj

k

i

k

1

2

1 1

2 2 2

11

2( ) ... ( ) ( )( )µ µ µ µ

( ) ( ) ( )= − + + − + − −==

∑∑a E X a E X a a E X Xk k k i j i i j jj

k

i

k

1

2

1 1

2 2 2

11

2( ) ... ( ) ( )( )µ µ µ µ

= + + +==

∑∑a V X a V X a a V X Xk k i j i jj

k

i

k

1

2

1

2

11

2( ) ... ( ) ( , ).

Eksempel 11.3. Linearkombination af stokastiske variable.Et levnedsmiddel leveres i poser. Lad og [mg/kg] betegne koncentrationerne af to stoffer A og B i enX1 X 2

tilfældig udvalgt pose. Det vides, at , , , og E X( ) .1 20 0= E X( ) .2 30 0= σ ( ) .X1 2 0= σ ( ) .X 2 4 0=

. Holdbarheden Y er teoretisk givet ved [dage] . V X X( , ) .1 2 4 0= − Y X X= + +5 4 31 2

Find holdbarhedens middelværdi og spredning .E Y( ) σ ( )YLØSNING:

Vi finder

E Y E X X E X E X( ) ( ) ( ) ( )= + + = + ⋅ + ⋅5 4 3 5 4 31 2 1 2 = + ⋅ + ⋅ =5 4 20 0 3 30 0 1750. . .

V Y V X X V X V X V X X( ) ( ) ( ) ( ) ( , )= + + = ⋅ + ⋅ + ⋅ ⋅ ⋅5 4 3 4 3 2 4 31 2

2

1

2

2 1 2

= ⋅ + ⋅ + ⋅ ⋅ ⋅ − =4 2 0 3 4 0 2 4 3 4 0 1122 2 2 2. . ( . )

.σ ( ) ( ) .Y V Y≡ = =112 10 5830

122

Page 129: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 11

OPGAVER

Opgave 11.1.1 (2-dimensional stokastisk variabel)

Et spil i et casino går ud på at trække en tilfældig seddel fra en urne (og lægge sedlen tilbage igen). Urnen indeholder

10 sedler, og på hver seddel står 2 tal :( , )X X1 2

(1,0) (3,0) (4,0)

(1,0) (3,3) (4,3)

(1,3) (4,3)

(1,3)

(1,3)

a1) Find den 2-dimensionale tæthedsfunktion :f x x( , )1 2

a2) Find de 1-dimensionale tæthedsfunktioner og .f x1 1( ) f x2 2( )a3) Er og statistisk uafhængige ?X1 X 2

a4) Find middelværdierne og samt spredningerne og .µ1 1= E X( ) µ2 2= E X( ) σ1 1( )X σ 2 2( )Xa5) Find middelværdien .( )E X X1 2

2⋅

b) Antag, at man i stedet kender en stikprøve på :( , )X X1 2

(1,3), (1,0), (1,0), (4,3), (3,0), (4,3), (1,0), (3,0), (3,3 ), (1,3).

b1) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a4).

Opgave 11.1.2 (kovarians, korrelationskoefficient)

a6) Find kovariansen og korrelationskoefficienten .V X X( , )1 2 ρ( , )X X1 2

b2) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a6).

Opgave 11.1.3 (linearkombination)

For det i opgave 11.1.1 og 11.1.2 omtalte casino aftales et spil, hvor gevinsten er

.G X X= + +20 10 51 2

a7) Find gevinstens middelværdi og spredning .E G( ) σ ( )Gb3) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a7).

Opgave 11.2.1 (2-dimensional stokastisk variabel)

Under en produktion kan der optræde fejl. Lad =( Antal gange der optræder fejl af type 1, Antal gange der( , )X X1 2

optræder fejl af type 2) i en tilfældig produktion. Variablen kan antage værdierne 0, 1 og 2, mens kun kan antageX1 X 2

værdierne 0 og 1.

a) Antag, at man teoretisk kender tæthedsfunktionen :f x x( , )1 2

f x x( , )1 2 x1

0 1 2

x2 0 0.3 0.1 0.1

1 0.1 0.2 0.2

a1) Find de 1-dimensionale tæthedsfunktioner og .f x1 1( ) f x2 2( )a2) Er og statistisk uafhængige ?X1 X 2

a3) Find middelværdierne og samt spredningerne og .µ1 1= E X( ) µ2 2= E X( ) σ1 1( )X σ 2 2( )Xa4) Find middelværdien .( )E X X1 2+

b) Antag, at man i stedet kender en stikprøve på :( , )X X1 2

(0,1), (0,0), (1,1), (1,1), (0,0), (0,0), (0,1), (2,1), (0,0 ), (2,1).

b1) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a3).

Opgave 11.2.2 (kovarians, korrelationskoefficient)

Vi betragter igen produktionsprocessen fra opgave 11.2.1.

a5) Find kovariansen og korrelationskoefficienten .V X X( , )1 2 ρ( , )X X1 2

b2) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a5).

123

Page 130: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Flerdimensional stokastisk variabel

Opgave 11.2.3 (linearkombination)

For den i opgave 11.2.1 og 11.2.2 omtalte produktionsproces er fortjenesten

.F X X= − −20000 3000 40001 2

a6) Find fortjenestens middelværdi og spredning .E F( ) σ ( )Fb3) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a6).

Opgave 11.3.1 (2-dimensional stokastisk variabel)

År 4001. En sonde er vendt hjem med oplysninger om individer på en fremmed planet. De kan have 2, 4 eller 6 øjne,

og 2 eller 4 ører. Lad = (Antal øjne, Antal ører) for et tilfældigt udtaget individ på planeten.( , )X X1 2

a) Professor Cosmussen har teoretisk opstillet tæthedsfunktionen :f x x( , )1 2

f x x( , )1 2

x1

2 4 6

x2

2 0.1 0.2 0.1

4 0.1 0.3 0.2

a1) Find de 1-dimensionale tæthedsfunktioner og .f x1 1( ) f x2 2( )a2) Er og statistisk uafhængige ?X1 X 2

a3) Find middelværdierne og samt spredningerne og .µ1 1= E X( ) µ2 2= E X( ) σ1 1( )X σ 2 2( )X

a4) Find middelværdien .EX X

1 1

1 2

+

b) Antag, at man i stedet kender en stikprøve på :( , )X X1 2

(6,2), (2,4), (6,4), (2,2), (6,4), (4,4), (2,2), (4,2), (4,4 ), (4,4).

b1) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a3).

Opgave 11.3.2 (kovarians, korrelationskoefficient)

Vi betragter igen individerne fra opgave 11.2.1.

a5) Find kovariansen og korrelationskoefficienten .V X X( , )1 2 ρ( , )X X1 2

b2) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a5).

Opgave 11.3.3 (linearkombination)

For de i opgave 11.3.1 og 11.3.2 omtalte individer har professor Cosmussen opstillet en formel for deres masse:

kg.M X X= + +200 20 101 2

a6) Find massens middelværdi og spredning .E M( ) σ( )M

b3) Benyt stikprøven til at finde estimater for størrelserne i spørgsmål a6).

Opgave 11.4.1 (2-dimensional stokastisk variabel)

Lad = ( Højde [cm], Masse [kg] ) af en tilfældigt udtaget studerende på 3. halvår. ( , )X X1 2

Der foreligger følgende stikprøve:

(178,63), (186,85), (180,68), (183,75), (164,55), (193,77),

(193,84), (160,55), (165,63), (180,84), (169,74), (189,79) .

Find estimater for middelværdierne og samt spredningerne og .µ1 1= E X( ) µ2 2= E X( ) σ1 1( )X σ 2 2( )X

Opgave 11.4.2 (kovarians, korrelationskoefficient)

Benyt stikprøven i opgave 11.4.1 til at finde estimater for kovariansen og korrelationskoefficientenV X X( , )1 2

.ρ( , )X X1 2

Opgave 11.4.3 (linearkombination)

Vi betragter igen de i opgave 11.4.1 og 11.4.2 omtalte studerende. En frugtavler har opstillet en formel for den timeløn,

han vil give dem som frugtplukkere:

kroner/time.L X X= + −100 0 3 0 21 2. .Benyt stikprøven til at finde estimater for timelønnens middelværdi og spredning .E L( ) σ ( )L

124

Page 131: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Opgaver til kapitel 11

Opgave 11.5 (poolet estimat)

Koncentrationen af et stof A blev målt i 3 partier råvarer:

Råvare 1: 56, 60, 54, 49, 61

Råvare 2: 78, 73, 80

Råvare 3: 66, 62, 70, 72, 60

Det antages, at der er samme spredning i de 3 tilfælde. Find et estimat for spredningen .spool σ

Opgave 11.6 (poolet estimat)

Koncentrationen af et stof A blev målt i 2 levnedsmidler:

Levnedsmiddel 1: 87, 89, 94, 86, 89, 95 Levnedsmiddel 2: 93, 99, 94, 91, 98 .

Det antages, at der er samme spredning i de 2 tilfælde. Find et estimat for spredningen .spool σ

Opgave 11.7 (poolet estimat)

Koncentrationen af et stof A blev målt i mælken fra 5 køer:

Ko 1: 44, 48, 46, 43, 45 Ko 2: 40, 38, 41

Ko 3: 43, 45, 42, 42 Ko 4: 36, 32

Ko 5: 50

Det antages, at der er samme spredning i de 5 tilfælde. Find et estimat for spredningen .spool σ

125

Page 132: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Statistiske beregninger på lommeregner og PC-er

STATISTISKE BEREGNINGER PÅ LOMMEREGNER TI89SAMT PÅ PC-PROGRAMMERNE TI-Nspire, EXCEL, MAPLEOG MATHCAD

TI 891) Generelt:Beregning af sandsynlighedsfordelinger:Metode 1 Vælg HOME\ CATALOG,, F3\ vælg den ønskede fordeling\ENTER

(tryk evt på “forbogstav” for hurtigt at komme til det ønskede navn). Fordel: Hurtig ved beregning af sandsynligheder, såsom P(X < 0.87) da resultatet straks

indsættes på HOME-linien.Ulempe: Man skal huske parametrenes rækkefølge (de kan dog ses nederst på skærmen)

Metode 2: Vælg APPS\ Stats/List\F5\vælg den ønskede fordeling\ENTER

Fordel: Der fremkommer nu en menu, som er næsten selvforklarende.Ulempe:Skal resultatet ned på HOME-linien (man vil regne videre), bliver det lidt besværligt:

HOME, Var-Link\I StatsVar mappen markeres den ønskede størrelse, ENTER

Tal indlagt på liste Vælg APPS\ Stats/List\ indtast data i eksempelvis “list1"

Fordele og ulemper som under metode 2 ovenfor

Beregning af gennemsnit , spredning , middelværdi osv.1) Hvis tal indlagt på liste 1

F4\ 1: 1-Var Stats , I menu sættes “List” til “List1" (Benyt evt. Var-Link til at finde List1) Udskriften består af en række statistiske størrelser.

2) Anvendes med få tal og kun ønsker beregning af en enkelt størrelse.HOME\ MATH\6.Statistics\ Gennemsnit: Mean ({liste}) , Varians: Variance({liste}), Spredning: stdDev({liste})

Beregning af test1) Hvis tal indlagt på liste(r)

F6\i menu vælg relevant test\ENTER\Data\ENTER\udfyld menu\ENTER2) Oprindelige data ikke kendt, men kun middelværdi osv.

Som ovenfor, men nu vælges Stats fremfor Data

Beregning af konfidensintervaller 1) Hvis tal indlagt på liste(r)

F7\i menu vælg relevant konfidensinterval\ENTER\Data\ENTER\udfyld menu\ENTER2) Oprindelige data ikke kendt, men kun middelværdi osv.

Som ovenfor, men nu vælges Stats fremfor Data

Oprette en “Folder”: VAR-Link\ F1\ 5: Create Folder\ Skriv navn på folder.

Vælg en mappe som den aktuelle mappe: MODE\ Current Folder\navn

Formål: Det kan være praktisk ikke at gemme alle sine resultater i MAIN.

126

Page 133: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

TI89

2) Sandsynlighedsfordelinger.Normalfordeling n(μ,σ)a) , hvor a ,b,μ,σ er givne konstanter(a og b kunne evt. være 4): p = normcdf(p P a X b ( ) a b, , , )

b) Find : , hvor p, μ, σ er givne konstanter. =invNorm(p,μ,σ)x p P X x pp( ) x p

t - fordeling. Lad T være t - fordelt med frihedsgradstallet f.a) Find p = P(a # T # b), hvor a og b er givne konstanter.(a og b kunne evt. være 4): p = tCdf(a,b,f)b) Find ( given konstant). invt( ,f )t f P T t f ( ): ( ( )) t f ( ) χ2 - fordeling. Lad Q være χ2 - fordelt med frihedsgradstallet f.a) Find , hvor a og b er givne konstanter. p = chi2Cdf(a,b,f)p P a Q b ( )

b) Find fraktilen : ( given konstant). invChi2( ,f)2 ( )f P Q f( ( ))

2

Binomialfordeling. Lad X være binomialfordelt b(n,p)Find , hvor og l og m er hele tal. binomtCdf(n,p,l,m)P l X m( ) 0 l m m n

Poissonfordeling. Lad X være Poissonfordelt p( ) Find , hvor og l og m er hele tal. poissCdf( ,l,m)P l X m( ) 0 l m

3) Konfidensintervaller Normalfordeling. 1 variabel1) ukendt: F7\ 1: T-Interval (hvis oprindelige data ikke kendt så Stats ellers Data)2) kendt: F7\ 1: Z-Interval (hvis oprindelige data ikke kendt så vælg Stats ellers Data)

Normalfordeling. 2 variableF7\ 4: 2-SampTint\ udfyld menu(se eksempel 7.1, parvis så eksempel 7.3)

Binomialfordeling.F7, 5: 1-Prop-ZInt (Kræver der kan approksimeres til normalfordeling)

Poissonfordeling: findes ikke, så her må formel for konfidensinterval benyttes

4) Hypotesetest Normalfordeling. 1 variabel1) kendt: F6\ 1: Z-Test (hvis oprindelige data ikke kendt så Stats ellers Data)2) ukendt: F6\ 1: T-Test (hvis oprindelige data ikke kendt så Stats ellers Data)Normalfordeling. 2 variable

F6\ 4: 2-SampTtest\ udfyld menu (se eksempel 7.1 eller 7.3)Binomialfordeling.

F7, 5: 1-Prop-ZTest (Kræver der kan approksimeres til normalfordeling)Poissonfordeling: findes ikke, så her må formel for konfidensinterval benyttes

127

Page 134: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Statistiske beregninger på lommeregner og PC-er

TI-Nspire1) Generelt:Beregning af sandsynlighedsfordelinger:Vælg Beregninger\Statistik\Fordelinger\ vælg den ønskede fordeling\udfyld menu\ENTER

Huskes fordelingens navn og parametrenes rækkefølge kan man skrive direkte

Tal indlagt på liste Lister og regneark giv en liste et navn og indtal tal i listen

Beregning af gennemsnit , spredning , middelværdi osv.1) Hvis tal indlagt på liste

Lister og regneark giv en liste et navn og indtal tal i listen vælg statistik statistiske beregningerstatistik med 1 variabel udfyld menuer Enter.

Blandt mange tal findes det ønskede2) Anvendes med få tal og kun ønsker beregning af en enkelt størrelse.

Beregninger\statistik\listematematik\vælg Middel: mean({liste}), Stikprøvevarians: varSamp({liste}), Standardafvigelse for stikprøve:stDevSamp({liste})

Beregning af test1) normal, 1 variabel

1) Lister og regneark udfyld liste (husk overskrift) Statistik t-test for 1 variabel menu:data udfyldmenu ENTER

2) Oprindelige data ikke kendt, men kun middelværdi osv.Som ovenfor, men nu vælges Stats fremfor Data

2) normal, 2 variable1) Lister og regneark Udfyld lister med overskrift m1 og m2 Statistik t-test for 2 variable

menu:data ok menu: List1: skriv m1 List 2: Skriv m2 “alternative Hyp” samlet: nej (hvisparvise observationer så ja vælg variabelreference ok

2) Oprindelige data ikke kendt, men kun middelværdi osv.Som ovenfor, men nu vælges Stats fremfor Data

Beregning af konfidensintervaller Som under test blot vælges nu konfidensintervaller

De konkrete beregninger af en given sandsynlighedsfordeling konfidensinterval eller test svarertil det der står under TI89

128

Page 135: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Excel

Excel1) GenereltForudsætninger.Da ikke alle de anvendte statistiske funktioner er indbygget fra starten, skal man først vælge et tilføjelsesprogram:I Excel 2003: Vælg “Funktioner”, “Tilføjelsesprogrammer”, marker “Problemløser”I Excel 2007: Vælg “Excel-Office-knappen”, “Excel indstillinger (findes forneden)”, Tilføjelsesprogrammer”,

”Udfør”, ”marker Analysis toolpak, Analysis toolpak VBA, Problemløser”, “Installer”.

Inddata.Vi vil i det følgende for kortheds skyld antage, at den første stikprøves værdier står i cellerne A1, A2, A3 . . . A10. Kræves der flere variable vil den næste stå i cellerne B1, B2, B3 . . . B8, osv.

Man angiver “udskriftsområdet” eller “inputområdet” f.eks en søjle placere i cellerne A1:A10 ved a) at markere området A1 til A10b) at skrive eksempelvis A1:A10c) at give det et navn: Vælg “Indsæt” i Excel 2003: Navn i Excel 2007:Formler Definer i menu skriv søjlensnavn og (nederst)A1:A10

Skrive , beregne og kopiere formler.Vælg den celle hvor resultatet skal stå. Lad det være B1: På værktøjslinien foroven skriv = formel skrives ENTER Resultatet står nu i celle B1Hvis selve formlen skal stå i en anden celle. Lad det være A1: Cursor placeres i B1 I formelfelt markeres formlenuden lighedstegn og man kopierer den (CTRL C)” ENTER (så formlen igen er beregnet i B1 Cursor over i A1og paste (CTRL V)

Udskrive gitterlinier og række og kolonneoverskrifterExcel 2003: Vælg Filer Sideopsætning Ark Marker gitterlinier marker række- og kolonneoverskrifter.Excel 2007: Vælg Sidelayout Under“Gitterlinier” marker “Udskriv” Under “Overskrifter” marker “Udskriv”

2: Indsætte og tegne diagrammer Lagkage eller søjle: se eksempel 2.1 side 2Kurve: se eksempel 2.4 side 4 Tegne histogram: se eksempel 2.5 side 6

3: Beregne statistiske størrelser og funktionerBeregning af “Karakteristiske tal” (se evt. ekempel 2.9)Data indtastes i eksempelvis søjle A1 til A10Excel 2003: Funktioner Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik Excel 2007: Data Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik

Valg af statistiske størrelser (funktioner)1) Vælg den celle hvor resultatet skal stå (eksempelvis A1).2) På værktøjslinien foroven:

2a) Tryk på f x

2b) På den fremkommne menu vælges den ønskede funktion eksempelvis “NORMALFORDELING”2c) Der fremkommer en menu med anvisning på, hvordan den skal udfyldes.

Gennemsnit, spredning, median, kvartil Navnene anføres nedenunder, men den fremkomne menu gør det let at indsætte de rette parametre. Gennemsnit = MIDDEL(A1:A10)xSpredning s = STDAFV (A1:A10)Median m = MEDIAN(A1:A10) (= KVARTIL(A1:A10;2) )1. Kvartil = KVARTIL(A1:A10;1)

129

Page 136: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Statistiske beregninger på lommeregner og PC-er

Fakultet, kombination, Permutation (se evt. eksempel 8.8)Fakultet n! = FAKULTET(n) Eksempel: 5! =FAKULTET(5) = 120Kombination K(n,p) = KOMBIN(n;p) Eksempel: K(5,3)==KOMBIN(5;3) = 10Permutation P(n,p = PERMUT(n;p) Eksempel: P(5,3) = PERMUT(5;3) = 60

Normalfordeling. Lad X være normalfordelt med middelværdi og spredning 1) = NORMFORDELING(x ; ; ;1)P X x( ) 2) = 1 - NORMFORDELING(x ; ; ;1)P X x( ) 3) NORMFORDELING(b ; ; ;1) -NORMFORDELING(a ; ; ;1)P a X b P X b P X a( ) ( ) ( ) Fraktil : NORMINV(p; ; )x p P X x pp( )

Eksempel: = NORMINV(0,975;0;1) = 1,959961 u0 975.

t - fordeling. (se evt. eksempel 5.3 side 44)Lad T være t - fordelt med f frihedsgrader..1) = TFORDELING(abs(t); f ;1)P T t( )

(bemærk: TFORDELING(abs(t); f ;1) udregner “øvre hale” af fordelingen)2) + = TFORDELING(abs(t); f ;2) (udregner “halen” til begge sider)P T t( ) P T t( )Fraktil

= TINV(2(1 - ) ; f) , > 0.5t f ( ) = - TINV(2 ; f) , < 0.5t f ( )

Bemærk: TINV( ;f) udregner “øvre hale”, svarende til 1 - 2

Bemærk: Man må må udnytte symmetrien i t-fordelingen, for værdier mindre end 0 (svarende til < 0.5)Eksempel:

Lad T være t - fordelt med 12 frihedsgrader 1) = = TFORDELING(abs(-1);12;1) = 0,168525P X( ) 1 P X( ) 1

2) = TINV(0,05;12) = 2,178813t0 975 12. ( )

= - TINV(0,05;12) = - 2,178813t0 025 12. ( )

- fordeling. (se evt.eksempel 5,8 side 49) 2

Lad X være - fordelt med f frihedsgrader 2

= CHIFORDELING(x;f) P X x( )(bemærk: CHIFORDELING(x;f) udregner “øvre hale” af fordelingen)Fraktil

=CHIINV(1- ;f) 2 ( )f

(bemærk: CHIINV( ;f) udregner “øvre hale”)Eksempel:

Lad X være - fordelt med 8 frihedsgrader 2

1) = 1- CHIFORDELING(5;8) = 0,242424P X( ) 5

2) =CHIINV(0,025;8) = 17,534540 9752 8. ( )

=CHIINV(0,975;8) = 2,1797250 0252 8. ( )

Hypergeometrisk fordeling (se evt. eksempel 9.2 side 91)Lad X være hypergeometrisk fordelt med parametrene N, M og n

= HYPGEOFORDELING(x ; n ; M ; N)P X x( )Eksempel: Lad N = 600, M = 10 og n = 25

= HYPGEOFORDELING(1;25;10;600)+HYPGEOFORDELING(0;25;10;600) = 0,938876P X( ) 1

130

Page 137: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

TI - 83

Binomialfordeling ( se evt. eksempel 9.5 side 96)Lad X være binomialfordelt med parametrene n og p

= BINOMIALFORDELING(x ; n; p; 0)P X x( )= BINOMIALFORDELING(x ; n; p; 1)P X x( )

Eksempel (jævnfør eksempel 72)Lad X være binomialfordelt med n = 6 og p = 0.15

= BINOMIALFORDELING(3;6;0,15;0) = 0,041453P X( ) 3= 1- =1 - BINOMIALFORDELING(2;6;0,15;1) = 0,047339P X( ) 3 P X( ) 2

Poissonfordeling (se evt. eksempel 9.10 side 102)Lad X være Poissonfordelt med middelværdien

= POISSON(x; ; 0)P X x( ) = POISSON(x; ; 1)P X x( )

EksempelLad X være Poissonfordelt med middelværdien 10P(X = 4) = POISSON(4; 10;0) = 0.018917

= 1 - POISSON(4;10;1) = 0,970747 P X( ) 4

Eksponentialfordeling Lad T være eksponentialfordelt med middelværdien .

EKSPFORDELING(t,1/ ,1)P T t( ) Eksempel:Lad T være eksponentialfordelt med middelværdi =2

EKSPFORDELING(3;1/2;1) = 0,77687P T( ) 3

KonfidensintervallerKonfidensinterval middelværdi for 1 normalfordelt variabel. kendt eksaktRadius r i et 95% konfidensinterval for : (se evt. eksempel 5.2 side 42) x r x u

n 0 975.

r = KONFIDENSINTERVAL(0,05; , n).Eksempel. Lad stikprøven have n =6 værdier, lad spredning = 0.25 og gennemsnit =8 x

r =KONFIDENSINTERVAL(0,05;0,25;6). Resultat 0,200038 95% konfidensinterval: 8,0 0.200

Konfidensinterval for middelværdi for 1 normalfordelt variabel . ikke kendt eksakt se eksempel 5.4 side 45

Konfidensinterval for sandsynlighed p for 1 binomialfordelt variabel.se eksempel 9.7 side 98

Hypotesetest1 normalfordelt variabel

kendt eksakt se eksempel 6.1 side 55 ikke kendt eksakt se eksempel 6.3 side 57

2 normalfordelte variable 1) Ikke parvise observationer:

data givet: se Excel-program i eksempel 7.1 side 72data ikke givet: se Excel-program i eksempel 7.2 side 73

2) Parvise observationer:se Excel-program i eksempel 7.3 side 74

1 binomialfordelt variabelse eksempel 9.5 side 96

131

Page 138: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Statistiske beregninger på lommeregner og PC-er

MAPLEBeregn gennemsnit og spredning af tallene 1 3 4 8 > with(stats):data:=[1,3,4,8]; data := [1, 3, 4, 8]> describe[mean](data); 4> describe[standarddeviation[1]](data);

Beregne korrelationskoefficient for den i eksempel 9.2 nævnte stikprøve (1,2), (0,0), (2,2), (2,2), (1,0), (2,2), (0,2), (2,2), (0,2), (2,2) .Programudførelse:> data1:=[1,0,2,2,1,2,0,2,0,2]; x- værdier data1 := [1, 0, 2, 2, 1, 2, 0, 2, 0, 2] udskrift> data2:=[2,0,2,2,0,2,2,2,2,2]; y-værdier

data2 := [2, 0, 2, 2, 0, 2, 2, 2, 2, 2] udskrift> describe[linearcorrelation](data1,data2): evalf("); .4014775343 resultat Normalfordeling. Find for n(113.3,5.6) .P X( 116.1)Programudførelse: > with(stats):> with(statevalf):> cdf[normald[113.3,5.6]](116.1);Facit .6914624613

fordeling. 2

Find en tests P-værdi: idet frihedsgradstallet er 19 (jævnfør eksempel 5.6)P Q( 27.26)Programudførelse: > with(stats):> with(statevalf):> 1-cdf[chisquare[19]](27.36);Facit: .0965431211

t - fordeling. Find en tests P-værdi: idet frihedsgradstallet er 14 (jævnfør eksempel 5.5)P T( -1.31)Programudførelse: > with(stats):> with(statevalf):> cdf[studentst[14]](-1.31);Facit: .1056420798

Find for binomialfordelingen b(100,0.3) P X( 35)Programudførelse: > with(stats):> with(statevalf):> dcdf[binomiald[100,0.3]](35);Facit: .8839213940

132

Page 139: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

MATHCAD

MATHCAD

1) Generelt:Sandsynlighedsfunktioner :

Skriv funktionens navn eller vælg fra (øverste) værktøjslinie \Probability Density (dfunktionsnavn). Tæthedsfunktion ,f x( ) P X a( )\Probability Distribution (pfunktionsnavn). Fordelingsfunktion eller f x( ) P X a( )

\Probability Distribution (qfunktionsnavn) Invers tæthedsfunktion: Find .f x( ) P X x pp( ) x p

Rækkefølgen af parametrene kan findes ved at placere cursor på navnet og trykke på tasten F1.

2) Sandsynlighedsfordelinger.Normalfordeling n( ) ,a) Find , hvor a ,b, er givne konstanter.p P a X b ( ) ,

pnorm(b, ) - pnorm(a, )p P a X b P X b P X a ( ) ( ) ( ) , ,Eksempel: , hvor p = pnorm(11.6, 11.3,5) = 0.524p P X ( . )116 113 5. ,

b) Find : , hvor p, er givne konstanter. =qnorm(x p P X x pp( ) , x p p, , )

Eksempel: ,hvor =qnorm(0.7,11.4,6) =14.55P X x p( ) . 0 7 11 4 6, , x p

t - fordeling.Lad T være t - fordelt med frihedsgradstallet f.a) Find , hvor a og b er givne konstanter. p P a T b ( )

pt(b,f) -pt(a,f)p P a X b P X b P X a ( ) ( ) ( )

Eksempel: , med f = 14 p = pt(-1.3,14) = 0.1073p P T ( . )13

b) Find ( given konstant). = qt( ,f )t f P T t f ( ): ( ( )) t f ( ) Eksempel: = qt (0.975,12) = 2.179t0 975 12. ( )

fordeling. 2

Lad Q være fordelt med frihedsgradstallet f. 2 a) Find , hvor a og b er givne konstanter. p = pchisq(b,f) - pshisq(a,f)p P a Q b ( )

Eksempel:Find , med f = 19 =1- pchisq(27.3,19) = 0.0979p P Q ( . )27 3 p P Q 1 27 3( . )

b) Find fraktilen : ( given konstant). = qchisq( ,f )2 ( )f P Q f( ( ))

2 2 ( )f

Eksempel: = qchisq(0.025,8) = 2.180 0252 8. ( )

Binomialfordeling.Lad X være binomialfordelt b(n,p)a) P(X=x) =dbinom(x,n,p)

pbinom(x,n,p)P X x( ) Eksempel :q = , hvor n = 10 og p = 0.3 P X( )3 6

q = = pbinom(6,10, 0.3)-pbinom(2,10,0.3) = 0.6066P X P X( ) ( ) 6 2

b) Find det hele tal m for hvilket m = qbinom(p, n, )P X m( ) Eksempel: Lad X være binomialfordelt med p = 0.3 og n = 10.

Find det hele tal m for hvilket m = qbinom(0.3, 10,0.95 ) = 9P X m( ) . 0 95

133

Page 140: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Statistiske beregninger på lommeregner og PC-er

Poissonfordeling.Lad X være Poissonfordelt p( ) a) P(X=x) =dpois(x, )

ppois(x, )P X x( ) Eksempel: p = , hvor = 147.6 p = ppois(94,147.6) = 1.54 10-6P X( ) 94

b) Find det hele tal m for hvilket m = qpois( , )P X m( ) Eksempel: Lad X være Poissonfordelt med = 147.6.

Find det hele tal m for hvilket m = qpois(0.95, 147.6 ) =168P X m( ) . 0 95

Hypergeometrisk fordeling:Lad X være hyprgeometrisk fordelt h(N,M,n)a) P(X=x) =dhypgeo(x,M, N-M,n)

phypgeo(x,M,N-M,n)P X x( )

3) Gennemsnit, varians og spredningFind gennemsnit , varians og spredning af tallene 1, 3, 4, 8

Opret en søjlematrix v:=

1

3

4

8

Vælg fra værktøjslinie \ Category: Statistics \ Function Name: eksempelvis mean f x( )Eksempel : Gennemsnit: mean (v) =4 Mean({1,3,4,8}) = 4

Varians: Var(v) = 8.667Spredning: Stdev (v) = 2.944

134

Page 141: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

APPENDIX

n

N≤

1

10

M

N

p ≤1

10

1

10

9

105 5< < ∧ ≤ ⋅ ≤ −p n p n

APPENDIX . Oversigt over approksimationer.

1) Når og benyttes, at .n

N>

1

10

M

N≤

1

10h N M n h N n M( , , ) ( , , )=

2) For benyttes, i stedet for at tælle Xgammel = “antal af successer”, så at tælle X = antal fiaskoer dvs.p ≥9

10

og .p p= −1 gammel X n X= − gammel

3) Husk heltalskorrektion ved approksimation med normalfordeling. (se næste side)

135

Page 142: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

APPENDIX

Fig. 1. Heltalskorrektion

Approksimation af binomialfordeling til normalfordeling.

Det kan vises, at tæthedsfunktionen for binomialfordelingen b (n, p) nærmer sig ubegrænset til normalfordelingen

, hvor og , når n vokser ubegrænset1) .n( , )µ σ µ = ⋅n p σ = ⋅ ⋅ −n p p( )1

Approksimation af en binomialfordeling med en normalfor-

deling anses, når i praksis for at være tilfreds-1

10

9

10< <p

stillende, såfremt (og ). n p⋅ ≥ 5 n p⋅ − ≥( )1 5

Da binomialfordelingen kun antager heltalsværdier, medens

en normalfordeling kan antage alle værdier på talaksen,

svarer hvert helt tal ved binomialfordelingen til et interval

af længden 1 ved normalfordelingen. På figur 1 er derfor

tegnet en firkant, der har bredden 1, og hvis højde er

udregnet ved binomialfordelingen. ArealetP X( )= 4

under normalfordelingskurven fra x = 3.5 til x = 4,5 er med

tilnærmelse lig firkantens areal. Man siger, at man ved

approksimationen må heltalskorrigere (korrigeres for

kontinuitet).

Ved approksimationen benyttes derfor følgende anførte formler, gældende for en binomialfordelt variabel X fordelt

b (n, p), hvor og .1

10

9

10≤ ≤p 5 5≤ ⋅ ≤ −n p n

Eksempel 7.13: Approksimation af binomialfordeling med normalfordeling.

En kunde til de i eksempel 2.3 producerede plastikkasser køber kasserne i partier på 2000. Kunden godkender

et parti efter en stikprøvekontrol, hvor der udtages 100 kasser. Hvis antallet af defekte kasser i stikprøven højst

er 14 godkendes hele partiet. I modsat fald kasseres partiet.

Hvor stor er sandsynligheden for at et parti bliver godkendt, hvis der er 300 defekte kasser i hele partiet på de

2000.

Løsning:

Lad X være antallet af defekte kasser i stikprøven. Vi ønsker at udregne .P X( )≤ 14

Umiddelbart er X hypergeometrisk fordelt med N = 2000, M = 300, og n = 100.

Da stikprøvestørrelsen er lille kan fordelingen af X umiddelbart approksimeres medn

N= <

100

2000

1

10

binomialfordelingen b (100, p), hvor . Dette giver ved benyttelse af en lommeregner sompM

N= = =

300

2000015.

TI-89 at = 45.72%. P X( )≤ 14

Idet , kan i stedet for approksimeres med normalfordelingen med og .n p⋅ = >15 5 µ = 15 σ = ⋅ =15 085 357. .

Ved hjælp af denne approksimation kan vi beregne:

normCdf( , 14.5, 15, 3.57) = 44.43% P X( )≤ =14 − ∞

Det ses, at der er ca. 1.5 % afvigelse, hvilket normalt ingen betydning har.

1) Matematisk formulering: Når X er fordelt b(n, p), vil for den tilsvarende normerede variabel

gælde, at for ethvert tal y.YX n p

n p p=

− ⋅

⋅ ⋅ −( )1P Y y y

n( ) ( )≤ →

→∞Φ

136

Page 143: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Facitliste

FACITLISTE

KAPITEL 22.1 -2.2 -2.32.4 (1) - (2) ca 24%2.5 (1) - (2) ca 0.0522.6 (1) - (2) ca 13%2.7 (1) - (2) 24.8 24.52.8 (1) - (2) - (3) -

KAPITEL 44.1 (1) 0.7734 0.0548 0.1718 (2) 0.74804.2 (1) 69.15% (2) 10.88% (3) 112.2 (4) 117.3 6.5354.3 (1) 86.64% (2) 0.008 (3) 0.0204.4 (1) 5.94% (2) 27.71% (3) [783.51; 816.49]4.5 (1) 9.5 1.265 (2) 12.45 (3) 2.41%4.6 (1) 92.8%4.7 (1) 97.71% (2) 25.454.8 (1) 65 0.4 (2) 77.34%

KAPITEL 55.1 (1) 12.13 0.6783 (2) [11.65 ; 12.61] (3) [10.52 ; 13.74] (4) [11.73 ; 12.53]5.2 (1) 2259.92 35.569 (2) [2237 ; 2283] (3) [2178 ; 2341]5.3 (1) 74.0362 0.00124 (2) [74.035; 74.037]5.4 (1) 750.2 (2) [740.1 ; 760.3] (3) 19.13 (4) [14.0 ; 30.2]5.5 (1) 7.83 0.363 (2) [7.45 ; 8.22] (3) 535.6 [25.20 ; 60.39]5.7 [0.00083 ; 0.00231]5.8 (a) [4.23 ; 4.29] (b) 22 (c ) [4.16 ; 4.36] (d) [0.028 ; 0.076]5.9 (1) [0.965 ; 1.111] (2) [0.0263; 0.1714]

KAPITEL 66.1 (1) nej P-værdi = 2.27%6.2 ja 3.45% (2) 58.0 (3) [55.84; 60.16] 6.3 (1) 84.47 6.85 (2) ja P-værdi = 0.44% (3) [81.27 ; 87.67] (4) 25.7%6.4 (a)nej P-værdi = 12.1% (b) [7.93 ; 8.49 ]6.5 (a) ja P-værdi = 0.157% (b) [24.07 ; 35.56]6.6 nej P-værdi = 6.45%6.7 (1) ja, P-værdi = 0.012 (2) 0.987 (3) [0.68 ; 1.80 ]

6.8 ja, P-værdi =18 10 9.

6.9 (1) 19.5 (2) nej, P-værdi =0.1% , (eller P-værdi =0.135%)6.10 (1) 12 (2) ja P-værdi = 0.48 (3) nej

137

Page 144: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Facitliste

6.11 (1) 24 (2) ja P-værdi = 0.16% (3) nej [2.59 ; 2.67]6.12 (1) 26 (2) ja P-værdi = (3) ja2 5 10 13.

KAPITEL 77.1 P - værdi = 0.10447.2 (1) P - værdi = 0.001 (2) [0.69 ; 3.13]7.3 P - værdi = 0.02047.4 (1) P - værdi = 0.0714 (2) P - værdi = 0.4017.5 (1) 18 (2) P - værdi = 0.00017 , [11.9 ; 15.0]7.6 P - værdi = 0.5897.7 P - værdi = 0.13987.8 (1) nej P-værdi =29.9%7.9 (1) nej, P-værdi =9.85% (2) [0.22 ;7.28 ]7.10 (1) - (2) Ja, P-værdi =3.63%

KAPITEL 88.1 0.1 0.8 0.2 0.78.2 (1) 0.9134 (2) 0.96788.3 (1) 8.75% (2) 38.75% (3) 41.25% (4)11.25%8.4 (1) 6.4% (2) 78.4% (3) 7.2%8.5 (a) 30.24% (b) 0.24% (c ) 99.76% (d) 4.04% (e) 44.04% (f) 21.44%

8.6 1.283 1012

8.7 (a) - (b) 7368.8 (a) 6 (b) 248.9 (a) 100 /b) 24008.10 608.11 (1) 27.1% 36.0% 9.756% (2) 53.34% (3) 49.20%

8.12 340

8.13 (1) 5 (2) 98.14 30.24%

8.15 9 107

KAPITEL 99.1 (1) 41.3% 2)- 3) 0.69.2 (A) 0.018% (B) 1.29% ( C) 38.24%9.3 44.57%9.4 (1) ja (2) 49.73%9.5 (1) 17.68% (2) 59.28%9.6 2.58%9.7 5.83%9.8 5.6%9.9 94.9%9.10 40.33%9.11 13%9.12 nej, P-værdi =0.08%

138

Page 145: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Facitliste

9.13 (1) 0.9% (2) nej9.14 (1) ja, P-værdi = 2.53% (2) 0.12 (3) [0.056 ; 0.184]9.15 ja p = 0.43%9.16 (1) 0.108 (2) [0.089 ; 0.127]9.17 [0.799 ; 0.847]9.18 15229.19 77.86%9.20 (1) 7.94% (2) 11.8%9.21 (1) (a) 60.6% (b) 91.6% (c) 6.2% (2) 4.4%9.22 (1) 30.1% (2) 87.9% (3) 49.23 50.37%9.24 (1) 15 (2) 81.9%9.25 75.3%9.26 6.56%9.27 92.2%9.28 44.6%9.29 (1) nej P-værdi = 7.84% (2) 100.8 (4) [85.56 ; 116.04]9.30 (1) 4.68 (2) [4.47 ; 4.89] (3) 69.449.31 (1a) 11 (1b) [4.5 ; 17.5] (2a) 1.1 (2b) [0.45 ; 1.75]9.32 (1) 0.539% (2) 0.119%9.33 7.31%9.34 0.188%

KAPITEL 1010.1 (1) 2.90 (2) 14.6% (3) 16.9810.2 (1) 77.88% (2) 10.45% (3) 77.88% (4) 9.48%10.3 110.4 (1) 79.8% (2) 99.33% (3) 22.8 (4) 14

KAPITEL 1111.1.1 (a1) - (a2) - (a3) nej (a4) 2.3 1.8 1.345 1.470 (a5) 12.6 (b1) 2.2 1.5 1.316

1.581111.1.2 (a6) 0.06 0.0304 (b2) 0.6667 0.320311.1.3 (a7) 52 15.52 (b3) 53.33 17.5111.2.1 (a1) - (a2) nej (a3) 0.9 0.5 0.830 0.5 (a4) 0.9707 (b1) 0.6 0.6 0.843

0.51611.2.2 (a5) 0.15 0.36 (b2) 0.2667 0.612411.2.3 (a6) 15300 3716.18 (b3) 15800 4131.1811.3.1 (a1) - (a2) nej a3) 4.2 3.2 1.4 0.9798 (a4) 0.625 (b1) 4 3.2 1.633 1.03311.3.2 (a5) 0.16 0.0342 (b2) 0.4444 0.263511.3.3 (a6) 316 44.36 (b3) 300 28.2811.4.1 178.33 71.833 11.428 10,87011.4.2 100.97 0.812811.4.3 139.13 2.08911.5 4.6344

139

Page 146: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Facitliste

11.6 3.55911.7 3.3466

140

Page 147: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

FacitlisteStikord

STIKORDSREGISTER

Aacceptområde 49additionssætning

for sandsynligheder 76for linearkomb. af normalf. variable 25, 30

alternativ hypotese 53approksimation 99

binomial til normalfordeling 135binomial til Poissonfordeling 135hypergeometrisk til binomialford. 95, 135 Poisson til normalfordeling 135

Bbagatelgrænse 55Bayes sætning 78betinget sandsynlighed 77 binomialfordeling binomialfordelingstest 92, 100både A og B 75

Ccentrale grænseværdisætning 34chi i anden fordeling 44

Ddeskriptiv statistik 2dimensionering 55, 59diskret variabel 16, 86

Eeksperiment, tilfældigt 15eksponentialfordeling 100ensfordelte variable 21ensidet

binomialtest 97, 105chi-i-anden test 54Poissontest 97, 101t -test 52, 58test 48

enten A eller B 75 estimat 7Excel, oversigt 129

Ffakultet 80fejl af type I 54 fejl af type II 54flerdimensional variabel 115 fordeling

binomial- 89chi i anden- 44eksponential- 110 hypergeometrisk- 86 kontinuert 17logaritmisk normal- 114 normal- 23rektangulær 108t- 38To-dimensional normal- 113 Weibull- 112

fordelingsfunktionkontinuert variabel 20

foreningsmængde 75forkastelsesområde 49fraktil 9, 20frihedsgrad 10fællesmængde 75

GGalton apparat 24 Gauss fordeling 24generaliseret hypergeometrisk ford. 98 gennemsnit 7, 27, 34

Hheltalskorrektion 136 histogram 5, 17hypergeometrisk fordeling 86 hypotesetest

1 normalfordelt variabel 482 normalfordelte variable 65binomialfordeling 92Poissonfordeling 97

hyppighed, relativ 7, 15hændelse 15

additionssætning 76både A og B 75enten A eller B 75

141

Page 148: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

Stikord

foreningsmængde 75fællesmængde 75ikke A 75uafhængige 76

I,Jikke A 75 inferentiel statistik 1

Kkarakteristiske tal 7kombination 81kombinatorik 79konfidensinterval 35, 37 , 39, 43, 44konfidensinterval

1 normalfordelt variabel 35, 37, 39, 43, 442 normalfordelte variable , differens 67, 71 binomialfordeling 93, 100Poissonfordeling 98, 101

kontinuert stokastisk variabel 17 korrelationskoefficient 115, 118kovarians 115, 118kvadratregel 21 kvalitative data 2kvalitetskontrol 29kvantitative data 4kvartil 8kvartilafstand 11kvartilafstand, relativ 11

Llagkagediagram 2levetid 111linearitetsregel 21linearkombination 21 logaritmisk normalfordeling 113lommeregner

TI - 89 127

MMaple 132 Mathcad 133median 8middelværdi 7

diskret variabel 86, 90kontinuert variabel 19

multiplikationsprincip 79

Nnedre kvartil 9n fakultet 80 normalfordeling 28

logaritmisk 113 normeret 26 todimensional 113

nulhypotese 49

Oobservationer, parvise 69opgaver kapitel

2 12 4 315 466 61 7 728 83 9 10210 11411 123

ophobningslov 24oversigt

kap 45kap6 58kap 7 71kap 9 100

Pparvise observationer 69Poissonfordeling 95 Poissonfordelingstest 97 polynomialfordeling 99population 1, 17produktsætning 76, 77prædistinationsinterval 41P-værdi 50

Rrandomisering 33 rektangulær fordeling 108 relativ hyppighed 7relativ usikkerhed 23repræsentativ stikprøve 33

SSAK 10

142

Page 149: MOGENS ODDERSHEDE LARSEN - larsen-net.dk · PDF filegrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i “Danmarks Statistik”

FacitlisteStikord

sandsynlighed 16, 75additionssætning 76 betinget 77produktsætning 76

Satterwaithes metode 66signifikansniveau 49simpel udvælgelse 33spredning 9, 27

på gennemsnit 23SS 10 standard deviation 9statistisk uafhængige 76stikprøve 17 , 33

gennemsnit 7, 27ordnet 80spredning 9, 27udvælgelse 31uordnet 81varians 9

stikprøvestørrelse 41, 96stokastisk variabel 16 stratificeret udvælgelse 33systematisk udvælgelse 33søjlediagram 3

Ttest

af middelværdi 48, 58 af spredning 54, 60fejl af type I 54fejl af type II 54P-værdi 48

testfunktioner - fordeling 44 2

t - fordelingen 38t-fordeling 38to-dimensional normalfordeling 113tosidet test 53TI - 89 126TI-Mspire 128t-test, ensidet 52tæthedsfunktion

diskret variabel 87, 91kontinuert variabel 17

Uuafhængige hændelser 15 uafhængige stokastiske variable 15

udfald 15udfaldsrum 15

Vvariabel

binomialfordelt 89 diskret 1kontinuert 17 stokastisk 16

varians 9diskret variabel 16, 86 kontinuert variabel 19

variationsbredde 5

W Weibullfordeling 112

ZZ - fordeling 26

Øøvre kvartil 9

143