föreläsning 1 - ida732g60/forelasning 1.pdftabeller och diagram kvalitativ variabel, korstabell...

30
1 Föreläsning 1 732G60 Statistiska metoder

Upload: others

Post on 11-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

1

Föreläsning 1 732G60

Statistiska metoder

Page 2: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Kursens uppbyggnad

o 10 föreläsningar

• Teori blandas med exempel

• Läggs ut några dagar innan på kurshemsidan

o 5 räknestugor

• Tillfälle för individuella frågor

• Viktigt att börja räkna på egen hand!

o 5 laborationer

• Datasalar i E-huset, ingång 27 (B-huset)

• Minitab 16

2

732G60

Page 3: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Kursens uppbyggnad

o Examination

• Projekt (inlämning 21 mars)

• Salstentamen 27 mars

• Hjälpmedel är formelsamling, tabeller, miniräknare

o Kurslitteratur

• Statistiska metoder (Körner & Wahlgren)

• Kompendium på kurshemsida (Kursinformation)

3

732G60

Page 4: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Introduktion

4

732G60

Page 5: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Introduktion

5

732G60

Page 6: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Statistiska undersökningar Olika typer av undersökningar

Statistiska undersökningar kan delas upp i två olika typer,

beroende på vad målet är med undersökningen.

o Beskrivande undersökningar

• Målet är att beskriva någonting

o Analytiska undersökningar

• Målet är att djupare analysera någonting

6

732G60

Page 7: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Statistiska undersökningar Datainsamling

I en statistisk undersökning kan data samlas in på olika sätt.

o Genom experiment

• Klassiskt exempel: läkemedelstest

o Totalundersökning

• Alla enheter i en population undersöks

o Urvalsundersökning

• En del av hela populationen undersöks, och utifrån denna

del dras slutsatser om hela populationen

7

732G60

Page 8: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Statistiska undersökningar Definiera termer

När en statistisk undersökning ska genomföras brukar dessa olika

termer definieras.

o Målpopulation

• Den population man vill undersöka

o Rampopulation

• Den population som man kan undersöka

o Urvalsram

• Ev. register över rampopulationen

o Stickprov

• (Slumpmässigt) urval av enheter från populationen

o Urvalsenhet

• De enheter som blivit utvalda i stickprovet (observationer)

8

732G60

Page 9: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Statistiska undersökningar Urvalsfel

När en urvalsundersökning genomförs kan två typer av fel

förekomma:

o Övertäckning

• En enhet som inte tillhör målpopulationen kommer med i

stickprovet

o Undertäckning

• En enhet som tillhör målpopulationen har ingen möjlighet att

komma med i stickprovet

9

732G60

Page 10: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Statistiska undersökningar Exempel

En undersökning ska göras bland studenter vid Linköpings

universitet, och det fokuseras enbart på studenter på

Campus Valla. Urvalet sker genom ett så kallat ”på-stan”-

urval, där slumpmässigt valda studenter i rörelse på

Campus Valla intervjuas.

Definiera:

• Målpopulation

• Rampopulation

• Ev. urvalsram

• Ev. övertäckning

• Ev. undertäckning

10

732G60

Page 11: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Variabler Indelning och skalor

En variabel är något som observeras hos en enhet och denna kan

variera från enhet till enhet.

Först och främst brukar det anges om variabel är kvalitativ eller

kvantitativ.

o Kvalitativ (kategorivariabel)

• T.ex. ögonfärg, partitillhörighet

o Kvantitativ (numerisk variabel)

• Diskret

Antar enbart heltal

• Kontinuerlig

Kan anta ett oändligt antal decimaler

11

732G60

Page 12: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Variabler Indelning och skalor

Variablerna är också på olika skalor.

o Nominalskala (kvalitativa variabler)

• Enheterna kan delas i grupper

o Ordinalskala

• Enheterna kan sorteras/rangordnas

o Intervallskala

• Skillnader mellan observationer kan beräknas

• Absolut nollpunkt saknas

o Kvotskala

• Alla fyra räknesätt kan användas

• Det finns en absolut nollpunkt

12

732G60

Page 13: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Variabler Exempel

Data har samlats in i undersökningen bland studenter på Campus

Valla och presenteras i nedanstående tabell. De olika variablerna

är i kolumner och en rad representerar en urvalsenhet (person).

13

732G60

Person Kön Ålder Parti Tränar

1 Man 22 S Ofta

2 Kvinna 19 Mp Mycket ofta

3 Kvinna 23 Kd Ibland

… … … … …

Ange vilka variabler som är kvantitativa respektive kvalitativa samt

vilka skalor de olika variablerna är på.

Page 14: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Tabeller och diagram Kvalitativ variabel

Datamaterialet som har samlats in brukar ofta sammanställas i

tabeller och visas visuellt i olika diagram.

En kvalitativ variabel brukar visas i ett stapel- eller cirkeldiagram.

Procent är alltid att föredra vid urvalsundersökningar!

14

732G60

Parti Antal Procent

Socialdemokraterna 559 33,6

Vänsterpartiet 77 4,6

Miljöpartiet 150 9

Moderaterna 488 29,3

Centerpartiet 53 3,2

Folkpartiet 103 6,2

Kristdemokraterna 75 4,5

Sverigedemokraterna 152 9,1

Övriga 7 0,4

Total 1664 100

Page 15: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Tabeller och diagram Kvalitativ variabel

Cirkeldiagram ska dock användas med försiktighet, speciellt de

med 3D-effekt.

15

732G60

Väljarbarometern januari 2013

Socialdemokraterna

Vänsterpartiet

Miljöpartiet

Moderaterna

Centerpartiet

Folkpartiet

Kristdemokraterna

Sverigedemokraterna

Väljarbarometern januari 2013

Socialdemokraterna

Vänsterpartiet

Miljöpartiet

Moderaterna

Centerpartiet

Folkpartiet

Kristdemokraterna

Sverigedemokraterna

Övriga

Page 16: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Tabeller och diagram Kvalitativ variabel, korstabell

Ofta vill man undersöka två variabler samtidigt, då kan så kallade

korstabeller skapas.

16

732G60

Åldersgrupp Tränar Tränar inte Totalt

Yngre 142 87 229

Äldre 28 34 62

Totalt 170 121 291

Som vanligt är det mer intressant att använda sig av de relativa

frekvenserna (procent) än de absoluta frekvenserna (antal).

Men vilka procentberäkningar är meningsfulla?

Page 17: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Tabeller och diagram Kvalitativ variabel, korstabell

Det är alltså mest meningsfullt att beräkna procent inom

åldersgrupperna. Dessa relativa frekvenser kan visas i ett

stapeldiagram.

17

732G60

Page 18: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Tabeller och diagram Kvalitativ variabel, korstabell

Tänk på att inte ”kapa” diagram!

18

732G60

Page 19: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Tabeller och diagram Kvantitativ variabel

Kvantitativa variabler kan presenteras i frekvenstabeller och

stolpdiagram (om få olika värden, diskret variabel) eller

histogram (många olika värden, kontinuerlig variabel).

Nedan presenteras åldersfördelningen vid en undersökning på

Campus Valla.

19

732G60

Ålder (x) Antal (f)

19 4

20 13

21 36

22 27

23 13

24 5

25 1

26 1

Page 20: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Tabeller och diagram Kvantitativ variabel

Om en undersökning har gjorts där åldrarna är mycket mer

varierande rekommenderas histogram.

20

732G60

Åldersgrupp Antal

17 eller yngre 3

18 - 22 4

23 - 27 6

28 - 32 8

33 - 37 19

38 - 42 17

43 - 47 19

48 - 52 13

53 - 57 3

58 - 62 6

63 eller äldre 2

Page 21: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Beskriva variabler

Förutom att visa variabler i olika tabeller och diagram brukar man

med hjälp av olika mått beskriva variablerna.

o Lägesmått

• Typvärde

• Median

• Medelvärde

o Spridningsmått

• Variationsområde, variationsvidd

• Kvartiler

• Standardavvikelse

21

732G60

Page 22: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Beskriva variabler Lägesmått

Typvärde

Det vanligaste värdet, fungerar på alla skalor

Median

Det mittersta värdet när värdena har sorterats i storleksordning. Vid

ojämnt antal observationer är det värdet i mitten, men om det är

jämnt antal observationer är det medelvärdet av de två mittersta

värdena. Förutsätter minst ordinalskala.

Medelvärde

Summan av alla värden dividerat med antalet observationer.

Förutsätter minst intervallskala.

𝑥 = 𝑥

𝑛

eller:

𝑥 = (𝑓 ∗ 𝑥)

𝑛

22

732G60

Page 23: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Beskriva variabler Spridningsmått

Variationsområde

Intervallet mellan det lägsta och det största värdet

Variationsvidd

Det största värdet minus det lägsta värdet

Standardavvikelse

Mått på spridningen kring ett medelvärde

𝑠 = 𝑥 − 𝑥 2

𝑛 − 1=

𝑥2 − 𝑥 2

𝑛𝑛 − 1

𝑠 = 𝑓 ∗ 𝑥2 −

𝑓 ∗ 𝑥 2

𝑛𝑛 − 1

23

732G60

Page 24: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Beskriva variabler Spridningsmått

Kvartiler

Med hjälp av kvartilerna delas datamaterialet upp i fyra lika stora

delar.

Under första kvartilen (Q1) finns 25 % av datamaterialet och kan

ses som medianen på den undre halvan av datamaterialet

Under andra kvartilen (Q2) finns 50 % av datamaterialet och är

medianen

Under tredje kvartilen (Q3) finns 75 % av datamaterialet, och kan

ses som medianen på den övre halvan av datamaterialet

Kvartilerna brukar användas tillsammans med medianen och de

tillsammans beskriver datamaterialet i ett lådagram (boxplot).

24

732G60

Page 25: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Beskriva variabler Spridningsmått

25

732G60

Första kvartil Andra kvartil

(median) Tredje kvartil

Outlier

Page 26: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Beskriva variabler Exempel

För enkelhetens skull antar vi att en undersökning innehållande 11

personer har genomförts, och deras åldrar var följande:

20, 21, 21, 26, 20, 24, 37, 22, 20, 22, 22

Beräkna:

• Typvärdet

• Medianen samt första och tredje kvartil

• Variationsområde och variationsvidd

• Medelvärde och standardavvikelse

26

732G60

Page 27: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Beskriva variabler Exempel

Vi återgår till undersökningen på Campus Valla. Beräkna

medelvärde och standardavvikelse för variabeln ålder med hjälp av

frekvenstabellen.

27

732G60

Ålder (x) Antal (f)

19 4

20 13

21 36

22 27

23 13

24 5

25 1

26 1

Page 28: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Normalfördelningen

Normalfördelningen är en så kallad sannolikhetsmodell, och de

flesta beräkningar vi kommer att använda i denna kurs bygger på

denna fördelning.

28

732G60

Page 29: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Normalfördelningen

Mellan gränserna 𝑥 − 𝑠 och 𝑥 + 𝑠 ligger ungefär 68 % av

observationerna.

Mellan gränserna 𝑥 − 2𝑠 och 𝑥 + 2𝑠 ligger ungefär 95 % av

observationerna.

Som regel för hyfsat symmetriska material brukar man säga att

variationsvidden ska vara fyra standardavvikelser (4s). Detta kan

användas för att undersöka om standardavvikelsen har beräknats

korrekt, genom att dividera variationsvidden med fyra och se om

detta blir ungefär samma som standardavvikelsen.

I verkligheten blir i princip aldrig en variabel perfekt normalfördelad,

så ibland får man anstränga sig för att kunna anta att en variabel är

normalfördelad.

29

732G60

Page 30: Föreläsning 1 - IDA732G60/Forelasning 1.pdfTabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller

Tack för idag!

Nästa tillfälle:

Föreläsning 2, tisdag 26/2 13-15, sal A34

30