utvalgsteori og modellbasert statistisk teori

42
Ronny Klæboe Transportøkonomisk institutt Utvalgsteori og modellbasert statistisk teori

Upload: afya

Post on 23-Feb-2016

123 views

Category:

Documents


1 download

DESCRIPTION

Utvalgsteori og modellbasert statistisk teori. Ronny Klæboe Transportøkonomisk institutt. Før vi starter på utvalgsmetodikk;. Vi er ofte interessert i sammenhenger mellom variable for å forstå virkningsmekanismer og mulige utviklingsbaner. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Utvalgsteori og modellbasert statistisk teori

Ronny KlæboeTransportøkonomisk institutt

Utvalgsteori og modellbasert statistisk teori

Page 2: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Før vi starter på utvalgsmetodikk;

Vi er ofte interessert i sammenhenger mellom variable for å forstå virkningsmekanismer og mulige utviklingsbaner. Populasjonen vi ser på kan da sees som en av mange mulige realisasjoner av de mekanismene som virker, men da er det ikke lenger utvalgsstatistikk vi bedriver, men modellbasert statistikk.

Page 3: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Om statistiske teorier for tolking av data

Det eksisterer to statistiske teoriar, statistisk utvalsteori og modellbasert statistisk teori”I den samfunnsvitskaplege metodelitteraturen har utvalsteorien fått ein brei plass, medan modellbasert statistisk teori sjeldan eller i liten grad blir omtalt ... Vanlegvis ønskjer samfunnsforskarane å studere strukturar i sosiale prosessar. Dataanalysen må da baserast på teorien for stokastiske modellar…Bruk av utvalsteorien i slike situasjonar er idemessig galt og kan dessutan gi opphav til feilaktige slutningar.

Rolf Aaberge, Petter Laake Tidskrift for samfunnsforskning 1984

Page 4: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Hva er utvalgsteori, hva er egenskapene Dette er teori for hvordan vi kan si noe om en endelig

populasjon ved å trekke et utvalg av denne (Gallup, meningsmåling)

Bruk av utvalg erstatter ofte fullstendige tellinger/ manntall hvor en fastslår egenskapene til alle enhetene

Kostnadene ved registreringen kan være stor, og bruk av utvalgsstatistikk gir vesentlige innsparinger

Vi skal altså fastslå egenskaper ved populasjonen ved å undersøke noen få av medlemmene

Prosedyrene som følges når en trekker enheter, bestemmer de statistiske egenskapene til anslagene en kommer fram til

Page 5: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Reelt eller tenkt eksperiment -- Design viktig Modellbasert statistisk teori (stokastiske modellar)

byggjer på ideen om at observasjonane i eit gitt materiale er resultata frå eit reelt eller tenkt eksperiment. Sosiale fenomen som livslengda til folk, giftemål og skilsmisse kan vi sjå på som resultat av tenkte ikkje-deterministiske eksperiment.

Modellbasert statistisk teori er ein matematisk disiplin som er blitt utvikla for å handtere reelle eller tenkte ikkje-deterministiske eksperiment

Page 6: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Modellbasert stastistikk nødvendig for å studere sammenhenger

Samfunnsforskarane er ofte interessert i å studere samanhengar eller strukturar mellom variablar. For å kunne gjere dette på ein meiningsfull måte må vi formulere ein stokastisk modell. Dei aktuelle samanhengane eller strukturane blir da uttrykt ved parametrene i den stokastiske modellen.

Problemet med å studere dei aktuelle strukturane er da overført til parametrene i modellen. Vi treng da metodar for analyse av desse parametrene. Den modellbaserte statistiske teorien gir opphav til nødvendige analysemetodar

Page 7: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Utvalgsmetodikk Vi har imidlertid fortsatt behov for å planlegge

undersøkelser og ta utvalgsstatistikken i bruk når vi skal gi en beskrivelse av egenskapene ved ulike befolkninger.

Det er vanligvis alt for dyrt å spørre eller undersøke hele befolkningen.

Det kan være lure måter å gå fram på og som gjør at vi får mer for pengene (mer presise anslag)

Page 8: Utvalgsteori og modellbasert statistisk teori

Variasjon står i sentrum Populasjonen er sammensatt av enheter (ofte personer)

som er ulike. For å beskrive en heterogene befolkning, er det nødvendig

å skaffe til veie observasjoner/svar som gjør at vi kan trekke konklusjoner om ulike grupper i befolkningen.

Page 9: Utvalgsteori og modellbasert statistisk teori

Ofte kontekstuelle rammer som det må tas hensyn til

Æra Kultur Budsjett Kunnskap Ressurser Logistikk/ Tid Respondenter Tillatelser

Page 10: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Design av utvalgsundersøkelser Seleksjonsprosessen

Hvilke variable er vi interessert i, hvordan definerer vi dem? Hvordan har vi tenkt å foreta utvalget: Matcher utvalget -- problemstillingen (Selvseleksjon,

konkurranseflater, scope) Hvordan har vi tenkt å måle variablene vi er interessert i

Estimeringen Hvordan har vi tenkt å gå fram for å slutte noe om populasjonen

etter at vi har fått tak i utvalget Ofte mange “kunder” til en og samme undersøkelse, ikke

så lett å svare generelt om hva som er ønskelig presisjon på estimatene -- Ofte kompromisser.

Page 11: Utvalgsteori og modellbasert statistisk teori

Utvalgsramme:

Befolkning

UtvalgetUtvalgs-ramme

Trekningsmåten

Befolkningen du vil si noe

om

Hva utvalget forteller

deg

Slutninger om hele befolkningen og sub-

grupper I befolkningen

Selve utvalgsplanenGjennomføringenResultatet (frafall)

Page 12: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Utvalg ikke bare geografi og gruppe men også tid

Temporal spredning: Sommerpopulasjon kontra vinterpopulasjon Promilleprøver på natta eller på morgenen Søvn kvelden/natten eller morgenen Snø eller solskinn Unge førere – utvalg kan bli skjevt hvis en ikke tar

hensyn til at de bare har førerkort deler av første år

Page 13: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Enkelt tilfeldig utvalg (Simple random sample)

Uttrekkingsprosedyren bestemmer egenskapene:Sverdrup m. fl.

!Mulige utvalg av n blant N = ! !

1: (antall mulige utvalg der der du er med)

1Sjansen for å bli trukket ut:

1 ( 1)! /1 ( 1)! !

N Nn n N n

NGunstige

n

N NGunstige Nn nMulige n N n

! ! /

n! n ( 1)... 3 2 1

N nN

n

nn N

Page 14: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Estimering av et prosenttall (proporsjon) La p angi andelen i populasjonen som har en egenskap: Vi estimerer denne andelen ved å bruke gjennomsnittet i

utvalget:

ˆ ˆ(1 )ˆ ˆVariansen estimeres gjennom v ( ) (1 ) 1

hvor f er utvalgsbrøken.Har vi spurt 70% av populasjonen er f=70% og (1-f)=30%.

ˆ ˆ(1 )ˆ ˆNår n << N v ( )1

p pp fn

p ppn

Page 15: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Animasjoner Vi viser nå en animasjon over usikkerheten knyttet til

prosenttall hvor andelen av de som er spurt går fra en forsvinnende liten del av populasjonen som skal undersøkes (vanlig når vi trekker fra et helt land eller en storby), til en stor andel av befolkningen som skal undersøkes.

Vi varierer f fra 0 til 100 ˆ ˆ(1 )ˆ ˆv ( ) (1 )

1hvor f er utvalgsbrøken: f= n/N.

p pp fn

Page 16: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Her ser du hvor stort utvalget er

Utvalgsbrøken

Her finner du usikkerheten når

n=1000, og p=50%

Kolonnep=50%

Rad n=1000

Page 17: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 18: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 19: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 20: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 21: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 22: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 23: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 24: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 25: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 26: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 27: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 28: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Animasjoner Mens den forrige animasjonen viser usikkerheten i

prosent, er det også mulig å se på den relative feilen. Dette får fram at en to prosent feilanslag kan være stort når det er en liten gruppe i populasjonen en ønsker anslag for.

ˆ ˆv ( ) Vi ser på der som før:ˆ

ˆ ˆ(1 )ˆ ˆv ( ) (1 ) 1

hvor f er utvalgsbrøken: f= n/N. Her ser vi på f=70%, 50% 30% og 0% (liten andel)

pp

p pp fn

Page 29: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Som før, men nå se vi på den relative feilen

Variansen delt på p

Page 30: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 31: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 32: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 33: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Page 34: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Den som sist har geburtsdag – flertrinnsutvalg

Page 35: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Enperson og flerpersonhusholdninger har ulike sjanser for å bli valgt ut, men har det betydning?

Page 36: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Bilen er tilgjengelig for hele husholdningen Bilhold (sjansen for at det er en bil i husholdningen)

større dessto større husholdningen er Husholdningsinntekten er større med antall personer Større mengde fritidsreiser, reiser der en er sjåfør Færre handlereiser (siden flere kan dele oppgaven)

Når en spør etter person som sist har bursdag må dataene vektes med valgbar husholdningsstørrelse.

Page 37: Utvalgsteori og modellbasert statistisk teori

Optimum cluster size Two opposing factors in optimum cluster size

Smaller cluster size, lower design effect = more precision for given sample size.

Larger cluster size, easier & cheaper = larger sample size for given cost

You can estimate the optimal cluster size if you know: transport costs to each cluster cost for interviewing each respondent Roh

Total field costs = C1m + C2mbC1 = cost of travel to each cluster C2 = cost for interviewing (and listing) each individual in chosen

clustersm = number of clusters b = number in each cluster* Optimum cluster size (b) = Square root of (C 1/C2)[(1-roh) / roh]

Page 38: Utvalgsteori og modellbasert statistisk teori

Cluster sampling Used when:

Researchers lack a good sampling frame for a dispersed population.

The cost to reach an element to sample is high.

Each cluster is as varied heterogeneous internally and homogeneous to all the other clusters.

Usually less expensive than Simple Random Sampling (SRS) but not as accurate Each stage in cluster sampling introduces sampling error—the

more stages there are, the more error there tends to be.

Can combine SRS, SS, stratification and cluster sampling!!

Page 39: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Stratumlotteriske utvalg – ”optimale” utvalg Med en god inndeling i strata (strata som er homogene) kan vi

tjene mye Ofte velger en utvalgsstørrelsen er proporsjonal med antallet

enheter i hvert av strataene (Proportional Probability sampling PPS)

Enda bedre (men mer komplisert) er det om man i tillegg velger proposjonalt med variasjonen i strataene

Har man ett stratum med kloner, og et med stort mangfold kan det være greit å bruke relativt lite ressurser på klonene og mer der forskjelligheten er større

Ytterligere forbedring kan en få gjennom å ta hensyn til kostnadene ved å hente inn informasjonen – Ulandsproblematikk, tilgang til måleutstyr, ekspertise mv.

Page 41: Utvalgsteori og modellbasert statistisk teori

Bootstrapping kan brukes for å få numeriske anslag på usikkerhet – ikke alltid enkelt analytisk

Metodekurs 19. 8 2011

Page 42: Utvalgsteori og modellbasert statistisk teori

Metodekurs utvalgsteori 13. mai 2011

Gode råd Tenk først !

Tenk på mulige hovedfunn og alternative forklaringer Innebærer at vi av og til ønsker å spørre for å utelukke heller enn å

bekrefte Forstå temaet for undersøkelsen – og bruksområdet Ofte viktig å vite hva som ikke dekkes Ofte vanskelig å legge til data i ettertid Hva er viktig kontra hva er gjort tidligere

Et element av innovasjon i alle undersøkelserNoe en gjør bedre enn tidligere – noe nytt, en “perle”