föreläsning 1 - ida732g60/forelasning 1.pdftabeller och diagram kvalitativ variabel, korstabell...
TRANSCRIPT
1
Föreläsning 1 732G60
Statistiska metoder
Kursens uppbyggnad
o 10 föreläsningar
• Teori blandas med exempel
• Läggs ut några dagar innan på kurshemsidan
o 5 räknestugor
• Tillfälle för individuella frågor
• Viktigt att börja räkna på egen hand!
o 5 laborationer
• Datasalar i E-huset, ingång 27 (B-huset)
• Minitab 16
2
732G60
Kursens uppbyggnad
o Examination
• Projekt (inlämning 21 mars)
• Salstentamen 27 mars
• Hjälpmedel är formelsamling, tabeller, miniräknare
o Kurslitteratur
• Statistiska metoder (Körner & Wahlgren)
• Kompendium på kurshemsida (Kursinformation)
3
732G60
Introduktion
4
732G60
Introduktion
5
732G60
Statistiska undersökningar Olika typer av undersökningar
Statistiska undersökningar kan delas upp i två olika typer,
beroende på vad målet är med undersökningen.
o Beskrivande undersökningar
• Målet är att beskriva någonting
o Analytiska undersökningar
• Målet är att djupare analysera någonting
6
732G60
Statistiska undersökningar Datainsamling
I en statistisk undersökning kan data samlas in på olika sätt.
o Genom experiment
• Klassiskt exempel: läkemedelstest
o Totalundersökning
• Alla enheter i en population undersöks
o Urvalsundersökning
• En del av hela populationen undersöks, och utifrån denna
del dras slutsatser om hela populationen
7
732G60
Statistiska undersökningar Definiera termer
När en statistisk undersökning ska genomföras brukar dessa olika
termer definieras.
o Målpopulation
• Den population man vill undersöka
o Rampopulation
• Den population som man kan undersöka
o Urvalsram
• Ev. register över rampopulationen
o Stickprov
• (Slumpmässigt) urval av enheter från populationen
o Urvalsenhet
• De enheter som blivit utvalda i stickprovet (observationer)
8
732G60
Statistiska undersökningar Urvalsfel
När en urvalsundersökning genomförs kan två typer av fel
förekomma:
o Övertäckning
• En enhet som inte tillhör målpopulationen kommer med i
stickprovet
o Undertäckning
• En enhet som tillhör målpopulationen har ingen möjlighet att
komma med i stickprovet
9
732G60
Statistiska undersökningar Exempel
En undersökning ska göras bland studenter vid Linköpings
universitet, och det fokuseras enbart på studenter på
Campus Valla. Urvalet sker genom ett så kallat ”på-stan”-
urval, där slumpmässigt valda studenter i rörelse på
Campus Valla intervjuas.
Definiera:
• Målpopulation
• Rampopulation
• Ev. urvalsram
• Ev. övertäckning
• Ev. undertäckning
10
732G60
Variabler Indelning och skalor
En variabel är något som observeras hos en enhet och denna kan
variera från enhet till enhet.
Först och främst brukar det anges om variabel är kvalitativ eller
kvantitativ.
o Kvalitativ (kategorivariabel)
• T.ex. ögonfärg, partitillhörighet
o Kvantitativ (numerisk variabel)
• Diskret
Antar enbart heltal
• Kontinuerlig
Kan anta ett oändligt antal decimaler
11
732G60
Variabler Indelning och skalor
Variablerna är också på olika skalor.
o Nominalskala (kvalitativa variabler)
• Enheterna kan delas i grupper
o Ordinalskala
• Enheterna kan sorteras/rangordnas
o Intervallskala
• Skillnader mellan observationer kan beräknas
• Absolut nollpunkt saknas
o Kvotskala
• Alla fyra räknesätt kan användas
• Det finns en absolut nollpunkt
12
732G60
Variabler Exempel
Data har samlats in i undersökningen bland studenter på Campus
Valla och presenteras i nedanstående tabell. De olika variablerna
är i kolumner och en rad representerar en urvalsenhet (person).
13
732G60
Person Kön Ålder Parti Tränar
1 Man 22 S Ofta
2 Kvinna 19 Mp Mycket ofta
3 Kvinna 23 Kd Ibland
… … … … …
Ange vilka variabler som är kvantitativa respektive kvalitativa samt
vilka skalor de olika variablerna är på.
Tabeller och diagram Kvalitativ variabel
Datamaterialet som har samlats in brukar ofta sammanställas i
tabeller och visas visuellt i olika diagram.
En kvalitativ variabel brukar visas i ett stapel- eller cirkeldiagram.
Procent är alltid att föredra vid urvalsundersökningar!
14
732G60
Parti Antal Procent
Socialdemokraterna 559 33,6
Vänsterpartiet 77 4,6
Miljöpartiet 150 9
Moderaterna 488 29,3
Centerpartiet 53 3,2
Folkpartiet 103 6,2
Kristdemokraterna 75 4,5
Sverigedemokraterna 152 9,1
Övriga 7 0,4
Total 1664 100
Tabeller och diagram Kvalitativ variabel
Cirkeldiagram ska dock användas med försiktighet, speciellt de
med 3D-effekt.
15
732G60
Väljarbarometern januari 2013
Socialdemokraterna
Vänsterpartiet
Miljöpartiet
Moderaterna
Centerpartiet
Folkpartiet
Kristdemokraterna
Sverigedemokraterna
Väljarbarometern januari 2013
Socialdemokraterna
Vänsterpartiet
Miljöpartiet
Moderaterna
Centerpartiet
Folkpartiet
Kristdemokraterna
Sverigedemokraterna
Övriga
Tabeller och diagram Kvalitativ variabel, korstabell
Ofta vill man undersöka två variabler samtidigt, då kan så kallade
korstabeller skapas.
16
732G60
Åldersgrupp Tränar Tränar inte Totalt
Yngre 142 87 229
Äldre 28 34 62
Totalt 170 121 291
Som vanligt är det mer intressant att använda sig av de relativa
frekvenserna (procent) än de absoluta frekvenserna (antal).
Men vilka procentberäkningar är meningsfulla?
Tabeller och diagram Kvalitativ variabel, korstabell
Det är alltså mest meningsfullt att beräkna procent inom
åldersgrupperna. Dessa relativa frekvenser kan visas i ett
stapeldiagram.
17
732G60
Tabeller och diagram Kvalitativ variabel, korstabell
Tänk på att inte ”kapa” diagram!
18
732G60
Tabeller och diagram Kvantitativ variabel
Kvantitativa variabler kan presenteras i frekvenstabeller och
stolpdiagram (om få olika värden, diskret variabel) eller
histogram (många olika värden, kontinuerlig variabel).
Nedan presenteras åldersfördelningen vid en undersökning på
Campus Valla.
19
732G60
Ålder (x) Antal (f)
19 4
20 13
21 36
22 27
23 13
24 5
25 1
26 1
Tabeller och diagram Kvantitativ variabel
Om en undersökning har gjorts där åldrarna är mycket mer
varierande rekommenderas histogram.
20
732G60
Åldersgrupp Antal
17 eller yngre 3
18 - 22 4
23 - 27 6
28 - 32 8
33 - 37 19
38 - 42 17
43 - 47 19
48 - 52 13
53 - 57 3
58 - 62 6
63 eller äldre 2
Beskriva variabler
Förutom att visa variabler i olika tabeller och diagram brukar man
med hjälp av olika mått beskriva variablerna.
o Lägesmått
• Typvärde
• Median
• Medelvärde
o Spridningsmått
• Variationsområde, variationsvidd
• Kvartiler
• Standardavvikelse
21
732G60
Beskriva variabler Lägesmått
Typvärde
Det vanligaste värdet, fungerar på alla skalor
Median
Det mittersta värdet när värdena har sorterats i storleksordning. Vid
ojämnt antal observationer är det värdet i mitten, men om det är
jämnt antal observationer är det medelvärdet av de två mittersta
värdena. Förutsätter minst ordinalskala.
Medelvärde
Summan av alla värden dividerat med antalet observationer.
Förutsätter minst intervallskala.
𝑥 = 𝑥
𝑛
eller:
𝑥 = (𝑓 ∗ 𝑥)
𝑛
22
732G60
Beskriva variabler Spridningsmått
Variationsområde
Intervallet mellan det lägsta och det största värdet
Variationsvidd
Det största värdet minus det lägsta värdet
Standardavvikelse
Mått på spridningen kring ett medelvärde
𝑠 = 𝑥 − 𝑥 2
𝑛 − 1=
𝑥2 − 𝑥 2
𝑛𝑛 − 1
𝑠 = 𝑓 ∗ 𝑥2 −
𝑓 ∗ 𝑥 2
𝑛𝑛 − 1
23
732G60
Beskriva variabler Spridningsmått
Kvartiler
Med hjälp av kvartilerna delas datamaterialet upp i fyra lika stora
delar.
Under första kvartilen (Q1) finns 25 % av datamaterialet och kan
ses som medianen på den undre halvan av datamaterialet
Under andra kvartilen (Q2) finns 50 % av datamaterialet och är
medianen
Under tredje kvartilen (Q3) finns 75 % av datamaterialet, och kan
ses som medianen på den övre halvan av datamaterialet
Kvartilerna brukar användas tillsammans med medianen och de
tillsammans beskriver datamaterialet i ett lådagram (boxplot).
24
732G60
Beskriva variabler Spridningsmått
25
732G60
Första kvartil Andra kvartil
(median) Tredje kvartil
Outlier
Beskriva variabler Exempel
För enkelhetens skull antar vi att en undersökning innehållande 11
personer har genomförts, och deras åldrar var följande:
20, 21, 21, 26, 20, 24, 37, 22, 20, 22, 22
Beräkna:
• Typvärdet
• Medianen samt första och tredje kvartil
• Variationsområde och variationsvidd
• Medelvärde och standardavvikelse
26
732G60
Beskriva variabler Exempel
Vi återgår till undersökningen på Campus Valla. Beräkna
medelvärde och standardavvikelse för variabeln ålder med hjälp av
frekvenstabellen.
27
732G60
Ålder (x) Antal (f)
19 4
20 13
21 36
22 27
23 13
24 5
25 1
26 1
Normalfördelningen
Normalfördelningen är en så kallad sannolikhetsmodell, och de
flesta beräkningar vi kommer att använda i denna kurs bygger på
denna fördelning.
28
732G60
Normalfördelningen
Mellan gränserna 𝑥 − 𝑠 och 𝑥 + 𝑠 ligger ungefär 68 % av
observationerna.
Mellan gränserna 𝑥 − 2𝑠 och 𝑥 + 2𝑠 ligger ungefär 95 % av
observationerna.
Som regel för hyfsat symmetriska material brukar man säga att
variationsvidden ska vara fyra standardavvikelser (4s). Detta kan
användas för att undersöka om standardavvikelsen har beräknats
korrekt, genom att dividera variationsvidden med fyra och se om
detta blir ungefär samma som standardavvikelsen.
I verkligheten blir i princip aldrig en variabel perfekt normalfördelad,
så ibland får man anstränga sig för att kunna anta att en variabel är
normalfördelad.
29
732G60
Tack för idag!
Nästa tillfälle:
Föreläsning 2, tisdag 26/2 13-15, sal A34
30