introduksjon til dataanalyse · 5 deskriptiv statistikk deskriptiv statistikk er metoder for å...
TRANSCRIPT
![Page 1: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/1.jpg)
Introduksjon til dataanalyseDeskriptiv statistikk
www.ntnu.no , Introduksjon til dataanalyse
![Page 2: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/2.jpg)
2
Kapittel 1
Denne timen og delvis forrige time er inspirert av Kapittel 1, men vikommer ikke til å gå igjennom alt fra dette kapittelet i forelesning.Siden Kapittel 1 er pensum er det viktig at dere leser resten selv.
Denne forelesningen vil bruke slides, men forelesningen i morgenog de etterfølgende forelesningene vil for det meste væretavleforelesninger.
www.ntnu.no , Introduksjon til dataanalyse
![Page 3: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/3.jpg)
3
Datasett
Vi skal se på to datasett frahttp://www.math.hope.edu/swanson/statlabs/data.html:
1. Høyde til 50 mannlige og 50 kvinnlige studenter gitt i meter2. Kroppstemperatur for 65 menn og 65 kvinner gitt i grader
Celsius
Vi ønsker å finne ut om det er en forskjell mellom høyden ogkroppstemperaturen til kvinner og menn
www.ntnu.no , Introduksjon til dataanalyse
![Page 4: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/4.jpg)
3
Datasett
Vi skal se på to datasett frahttp://www.math.hope.edu/swanson/statlabs/data.html:
1. Høyde til 50 mannlige og 50 kvinnlige studenter gitt i meter2. Kroppstemperatur for 65 menn og 65 kvinner gitt i grader
Celsius
Vi ønsker å finne ut om det er en forskjell mellom høyden ogkroppstemperaturen til kvinner og menn
www.ntnu.no , Introduksjon til dataanalyse
![Page 5: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/5.jpg)
4
Hvor begynner man?
Datasettene er for store til å bare skrive ut tallene for menn og forkvinner og sammenligne dem, men vi kan— Regne ut tall som beskriver sentrene til de observerte
verdiene for menn og kvinner— Regne ut tall som beskriver spredningene til de observerte
verdiene for menn og kvinner— Lage plott som viser hvordan de observerte verdiene er spredt
i forhold til hverandre
Dette er metoder for å beskrive de observerte verdiene og bruk avdisse kalles deskriptiv statistikk
www.ntnu.no , Introduksjon til dataanalyse
![Page 6: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/6.jpg)
4
Hvor begynner man?
Datasettene er for store til å bare skrive ut tallene for menn og forkvinner og sammenligne dem, men vi kan— Regne ut tall som beskriver sentrene til de observerte
verdiene for menn og kvinner— Regne ut tall som beskriver spredningene til de observerte
verdiene for menn og kvinner— Lage plott som viser hvordan de observerte verdiene er spredt
i forhold til hverandre
Dette er metoder for å beskrive de observerte verdiene og bruk avdisse kalles deskriptiv statistikk
www.ntnu.no , Introduksjon til dataanalyse
![Page 7: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/7.jpg)
5
Deskriptiv statistikk
Deskriptiv statistikk er metoder for å beskrive eller oppsummere deobserverte verdiene på en slik måte at man kan se mønstre. Typiskgjennom enkle grafiske presentasjoner eller ved utregning av tallsom oppsummerer de observerte verdiene slik som middelverdi ogspredning.
www.ntnu.no , Introduksjon til dataanalyse
![Page 8: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/8.jpg)
6
KryssplottEt enkelt startpunkt er å plotte verdiene for hvert av kjønnene ogsammenligne
Kjønn0.5 1 1.5 2 2.5
Høyd
e (
m)
1.5
1.6
1.7
1.8
1.9
2
2.1Kryssplott for høyde
Kjønn0.5 1 1.5 2 2.5
Kro
pp
ste
mp
era
tur
(C)
35.5
36
36.5
37
37.5
38
38.5Kryssplott for kroppstemperatur
www.ntnu.no , Introduksjon til dataanalyse
![Page 9: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/9.jpg)
7
Sentralmål
Den vanligste måten å oppgi senteret til de observerte verdiene erå regne ut den empiriske middelverdien
Definisjon (Empirisk middelverdi)
Den empiriske middelverdien (utfallsmiddelverdien) tilobservasjonene x1, x2, . . . , xn
, betegnet med x̄ , er gitt ved
x̄ =x1 + x2 + . . .+ x
n
n
=nX
i=1
x
i
n
www.ntnu.no , Introduksjon til dataanalyse
![Page 10: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/10.jpg)
8
Eksempler
— Empirisk middelverdi til 1, 2, 3, 4, 5 er 3— Empirisk middelverdi til 1, 1, 1, 2, 2, 2 er 1.5— Empirisk middelverdi til 1, 2, 3, 4, 20 er 6
www.ntnu.no , Introduksjon til dataanalyse
![Page 11: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/11.jpg)
9
Sentralmål som unngår ekstremeobservasjoner
Hvis det er ekstreme observasjoner som har sterk påvirkning påden empiriske middelverdien er empirisk median et bedre mål påsenteret av de observerte verdiene
Definisjon (Empirisk median)
Den empiriske medianen (utfallsmedianen) til observasjonenex1, x2, . . . , xn
, betegnet med x̃ , er gitt ved
x̃ =
(x(n+1)/2, for n odde,12
�x
n/2 + x
n/2+1�, for n like,
www.ntnu.no , Introduksjon til dataanalyse
![Page 12: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/12.jpg)
10
Eksempler
— Empirisk median til 1, 2, 3, 4, 5 er 3— Empirisk median til 1, 1, 1, 2, 2, 2 er 1.5— Empirisk median til 1, 2, 3, 4, 20 er 3
www.ntnu.no , Introduksjon til dataanalyse
![Page 13: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/13.jpg)
11
Sammenligning av sentrene
Høyde KroppstemperaturSentralmål Kvinne Mann Kvinne MannEmpirisk middelverdi 1.687 1.840 36.72 36.89Empirisk median 1.702 1.842 36.72 36.89
Empirisk middelverdi er høyre for menn enn for kvinner for bådehøyde og kroppstemperatur, men er det nok til å hevde at detfaktisk er en forskjell?
www.ntnu.no , Introduksjon til dataanalyse
![Page 14: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/14.jpg)
11
Sammenligning av sentrene
Høyde KroppstemperaturSentralmål Kvinne Mann Kvinne MannEmpirisk middelverdi 1.687 1.840 36.72 36.89Empirisk median 1.702 1.842 36.72 36.89
Empirisk middelverdi er høyre for menn enn for kvinner for bådehøyde og kroppstemperatur, men er det nok til å hevde at detfaktisk er en forskjell?
www.ntnu.no , Introduksjon til dataanalyse
![Page 15: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/15.jpg)
12
Middelverdi og median forteller ikke helehistorien
Kjønn0.5 1 1.5 2 2.5
Høyd
e (
m)
1.5
1.6
1.7
1.8
1.9
2
2.1Kryssplott for høyde
Kjønn0.5 1 1.5 2 2.5
Kro
pp
ste
mp
era
tur
(C)
35.5
36
36.5
37
37.5
38
38.5Kryssplott for kroppstemperatur
Empiriske middelverdier er markerte med horisontale streker
www.ntnu.no , Introduksjon til dataanalyse
![Page 16: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/16.jpg)
13
Variabilitet om middelverdien
Vi må også vurdere variabilitetene til de observerte verdiene for åkunne trekke konklusjoner om forskjeller for menn og kvinner
For høyde ser forskjellen ut til å være stor sammenlignet medvariabiliten, men for kroppstemperatur ser forskjellen ut til å væreliten sammenlignet med variabiliteten
Men vi er nødt til å tallfeste forskjellene!
www.ntnu.no , Introduksjon til dataanalyse
![Page 17: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/17.jpg)
13
Variabilitet om middelverdien
Vi må også vurdere variabilitetene til de observerte verdiene for åkunne trekke konklusjoner om forskjeller for menn og kvinner
For høyde ser forskjellen ut til å være stor sammenlignet medvariabiliten, men for kroppstemperatur ser forskjellen ut til å væreliten sammenlignet med variabiliteten
Men vi er nødt til å tallfeste forskjellene!
www.ntnu.no , Introduksjon til dataanalyse
![Page 18: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/18.jpg)
13
Variabilitet om middelverdien
Vi må også vurdere variabilitetene til de observerte verdiene for åkunne trekke konklusjoner om forskjeller for menn og kvinner
For høyde ser forskjellen ut til å være stor sammenlignet medvariabiliten, men for kroppstemperatur ser forskjellen ut til å væreliten sammenlignet med variabiliteten
Men vi er nødt til å tallfeste forskjellene!
www.ntnu.no , Introduksjon til dataanalyse
![Page 19: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/19.jpg)
14
Mål på variabilitet
Det mest vanlige målet på variabilitet er empirisk varians
Definisjon (Empirisk varians)
Den empiriske variansen (utfallsvariansen) til observasjonenex1, x2, . . . , xn
, betegnet med s
2, er gitt ved
s
2 =1
n � 1[(x1� x̄)2+(x2� x̄)2+. . .+(x
n
� x̄)2] =1
n � 1
nX
i=1
(xi
� x̄)2
www.ntnu.no , Introduksjon til dataanalyse
![Page 20: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/20.jpg)
15
Eksempler
— Empirisk varians til 1, 2, 3, 4, 5 er 2.5— Empirisk varians til 1, 1, 1, 2, 2, 2 er 0.3— Empirisk varians til 1, 2, 3, 4, 20 er 62.5
www.ntnu.no , Introduksjon til dataanalyse
![Page 21: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/21.jpg)
16
Mål på variasjon
Empirisk varians kan være vanskelig å tolke fordi den er uttrykt ikvadratiske enheter. Empirisk standardavvik er uttrykt i sammeenheter som dataene.
Definisjon (Empirisk standardavvik)
Det empiriske standardavviket (utfallsstandardavviket) tilobservasjonene x1, x2, . . . , xn
, betegnet med s, er gitt ved
s =p
s
2 =
vuut 1n � 1
nX
i=1
(xi
� x̄)2
www.ntnu.no , Introduksjon til dataanalyse
![Page 22: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/22.jpg)
17
Eksempler
— Empirisk standardavvik til 1, 2, 3, 4, 5 er 1.58— Empirisk standardavvik til 1, 1, 1, 2, 2, 2 er 0.548— Empirisk standardavvik til 1, 2, 3, 4, 20 er 7.91
www.ntnu.no , Introduksjon til dataanalyse
![Page 23: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/23.jpg)
18
Sammenligning av menn og kvinner
Høyde KroppstemperaturKvinne Mann Kvinne Mann
Empirisk middelverdi 1.687 1.840 36.72 36.89Empirisk standardavvik 0.074 0.068 0.39 0.41
Forskjellen i kroppstemperatur er mindre enn ett standardavvik,men forskjellen i høyde er større enn to standardavvik
www.ntnu.no , Introduksjon til dataanalyse
![Page 24: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/24.jpg)
18
Sammenligning av menn og kvinner
Høyde KroppstemperaturKvinne Mann Kvinne Mann
Empirisk middelverdi 1.687 1.840 36.72 36.89Empirisk standardavvik 0.074 0.068 0.39 0.41
Forskjellen i kroppstemperatur er mindre enn ett standardavvik,men forskjellen i høyde er større enn to standardavvik
www.ntnu.no , Introduksjon til dataanalyse
![Page 25: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/25.jpg)
19
Sentrum og variabilitet
Kjønn0.5 1 1.5 2 2.5
Høyd
e (
m)
1.5
1.6
1.7
1.8
1.9
2
2.1Kryssplott for høyde
Kjønn0.5 1 1.5 2 2.5
Kro
pp
ste
mp
era
tur
(C)
35.5
36
36.5
37
37.5
38
38.5Kryssplott for kroppstemperatur
Empiriske middelverdier er markerte med horisontale streker og ±ett empirisk standardavvik er markerte med stiplede horisontalelinjer
www.ntnu.no , Introduksjon til dataanalyse
![Page 26: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/26.jpg)
20
Boksplott
Denne sammenligningen gjøres bedre i et boksplott
Kjønn1 2
Høyd
e (
m)
1.5
1.6
1.7
1.8
1.9
2
Boksplott for høyde
Kjønn1 2
Kro
ppst
em
pera
tur
(C)
36
36.5
37
37.5
38
Boksplott for kroppstemperatur
www.ntnu.no , Introduksjon til dataanalyse
![Page 27: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/27.jpg)
21
HistogramHvis man ønsker å se hvordan de observerte verdiene er spredtrundt middelverdien for en av kategoriene er det vanlige å bruke ethistogram
Høyde (m)1.7 1.8 1.9 2
Rela
tiv fre
kvens
0
0.05
0.1
0.15
0.2
0.25
0.3Høyde av menn
www.ntnu.no , Introduksjon til dataanalyse
![Page 28: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/28.jpg)
22
Mangler ved deskriptiv statistikk
— Ingen bruk av sannsynlighet. Vi har ingen tall på hvor sikker vier på at menn er høyere enn kvinner.
— Veldig subjektivt om man anser det for å være en forskjell ellerikke
— Deskriptiv statistikk egner seg best som et startpunkt for åutforske de observerte verdiene
I morgen begynner vi reisen mot statistisk inferens hvor vigjennom sannsynlighetsteori kan tallfeste vår sikkerhet tilkonklusjonene vi gjør
www.ntnu.no , Introduksjon til dataanalyse
![Page 29: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre](https://reader036.vdocuments.net/reader036/viewer/2022071021/5fd58d861ee75521953a5526/html5/thumbnails/29.jpg)
22
Mangler ved deskriptiv statistikk
— Ingen bruk av sannsynlighet. Vi har ingen tall på hvor sikker vier på at menn er høyere enn kvinner.
— Veldig subjektivt om man anser det for å være en forskjell ellerikke
— Deskriptiv statistikk egner seg best som et startpunkt for åutforske de observerte verdiene
I morgen begynner vi reisen mot statistisk inferens hvor vigjennom sannsynlighetsteori kan tallfeste vår sikkerhet tilkonklusjonene vi gjør
www.ntnu.no , Introduksjon til dataanalyse