varför statistik -...

37
Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: Kvantitativt beskriva fenomen Undersöka samband mellan variabler Undersöka skillnader mellan grupper i något avseende Undersöka skillnader inom gruppen

Upload: lytuyen

Post on 25-Apr-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Varför statistik

Vi vill sammanfatta stora mängder av data i syfte att:

• Kvantitativt beskriva fenomen• Undersöka samband mellan variabler• Undersöka skillnader mellan grupper i något

avseende• Undersöka skillnader inom gruppen

Page 2: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Population

Stickprov

Observationsenhet

Variabel Värden

Ålder 37 år

Kön Kvinna

Blodtryck 120/80

Page 3: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Diskret

Kvantitativ

KontinuerligVariabel

KvalitativDikotom

Polykotom

Page 4: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Olika skalor

• Nominalskala = kategorisering• Ordinalskala = rangordning• Intervallskala = rangordning + lika långa

intervall• Kvotskala = rangordning + lika långa

intervall + absolut nollpunkt

Page 5: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Nominalskala (nomen = namn)

Markera det rätta alternativet nedan.1. Kvinna 2. Man

Vilket nationalitet du är?• . svensk• . finsk• . norsk• . dansk

Page 6: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Ordinalskala

Hur uppfattar du din hälsa? Ringa in siffran framför det påstående som stämmer bäst med din uppfattning om din hälsa.

1. Min hälsa är mycket dålig2. Min hälsa är ganska dålig3. Min hälsa är ganska bra4. Min hälsa är mycket bra

Page 7: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Intervallskala, kvotskala

Längden på 10 personer var:

134.4, 125.6, 156.3, 173.9, 182.8, 183.9, 185.7, 188.5, 189.2, 199.9

Page 8: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Beskrivande statistik

Överskådlig sammanfattning av data

• Frekvenser• Centralmått - var tyngdpunkten ligger• Spridningsmått - hur stor variationen är• Diagram

Page 9: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Frekvenstabell

Värde Frekvens Procent Kumulativ procent110-119 10 IIIIIIIIII 33 33120-129 12 IIIIIIIIIIII 40 73130-139 5 IIIII 17 90140-149 2 II 7 97150-159 1 I 3 100

30

Page 10: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Centralmått Spridningsmått

Typvärde (T) Variationsvidd (r)

Median (Md) Kvartilavstånd (Q)

Medelvärde (M) Standardavvikelse (s)

Page 11: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

37, 37, 40, 39, 38, 41, 43, 44, 36, 37

36, 37, 37, 37, 38, 39, 40, 41, 43, 44

Q1=37 Q3=41Md=38.5

M=∑ Xn = 39.2

T=37, r= 36-44 (r=8)

Page 12: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

∑(x-M)2 M=39.2n-1

36, 37, 37, 37, 38, 39, 40, 41, 43, 44x x-M (x-M)2

36 -3.2 10.237 -2.2 4.837 -2.2 4.837 -2.2 4.838 -1.2 1.439 -0.2 0.0440 0.8 0.641 1.8 3.243 3.8 14.444 4.8 23__

67.2

S=

S =67.2

9

S= 2.7

Page 13: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

68.3%95.4%

99.7%

Page 14: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

0

200

400

600

800

1000

1200

1400

1600

1 2 3 4 5 6 7 8 9 10 11

Page 15: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

0

100

200

300

400

500

600

700

800

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Page 16: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Stapeldiagram

Hälsa

Grundskola Gymn.skola Högskola

Man Kvinna

Page 17: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Box & Whisker plot

MaxMax

75%

Median

25%

Min

75%

Md

25%

Min

Page 18: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Cirkeldiagram 17%Olika utbildningar

46%

37%

Page 19: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Statistisk inferens

Att dra slutsatser om egenskaperna hos en

population på basis av egenskaperna hos ett

urval

Page 20: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Mätningsfel

Population

Stickprov

Urvalsfel

Mätfelet

Standard error

Page 21: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Statistisk inferens

Med hjälp av mätfelet kan vi uppskatta sannolikheten för att våra resultat beror på slumpfaktorer i urvals-och mätprocedurer.

SSE

n

Page 22: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Nollhypotes (H0)Ett antagande om ingen skillnad eller inget samband

Alternativhypotes (H1)Ett antagande om att det finns skillnad eller samband

Page 23: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Signifikansnivå

sannolikheten att få medelvärdet som vi fått i vår resultat under förutsättning att nollhypotesen är sann: p < 0.05, p < 0.01, p < 0.001

Page 24: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Typ I-fel

Ett falskt positivt resultat

Typ II-fel

Ett falskt negativt resultat

Page 25: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Enkelsidig - dubbelsidig prövning

Page 26: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Analysområden

• Skillnader mellan grupper

• Skillnader inom samma grupp över tid

• Samband mellan variabler

Page 27: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Statistisk analys(analysverktyg)

Parametrisk statistikMedelvärden och standardavvikelser

Bakomliggande normalfördelningIntervall-, kvotskala (ev. ordinalskala)

Icke parametrisk statistikTypvärde, median, variationsvidd, kvartilavstånd

RangordningOkänd bakomliggande fördelning

Litet antal personerAlla typer av skalor

Page 28: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Statistiska analyserParametriska Icke-parametriska

Skillnader mellan grupper vid samma tidpunktOberoende / oparat t-test Mann Whitney UIndependent / unpaired t-test Willcoxon rank sum test

Willcoxon’s rangsummetest

Skillnader inom samma grupp över tidBeroende / parat t-test Wilcoxon’s teckenrangtestDependent / paired t-test Wilcoxon signed rank test

Samband mellan variablerPearson’s produktmomentkorrelation Spearman’s rangkorrelation

Chi 2 test

Page 29: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Group Statistics

51 157,92 37,37424 5,2 3344

32 125,53 40,17300 7,1 0165

GRUPP1,00

2,00

SESTREMN Mea n

Std.Deviat ion

Std. ErrorMea n

Independent Samples Test

,57 5 ,450 3,734 81 ,000 32, 3903 8,67550 15, 129 49,652

3,672 62, 403 ,001 32, 3903 8,82170 14, 758 50,022

Equal variancesassumedEqual variancesnot assumed

SESTREMF Sig.

Levene's Test forEquality ofVariances

t dfSig.

(2- tailed)Mean

DifferenceStd. Er rorDifference Lower Uppe r

95% ConfidenceInterval of the

Difference

t- test for Eq uality of Means

Independent samples t-test

Page 30: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Ranks

51 49,32 2515,5

32 30,33 970,50

83

GRUPP1,00

2,00

Total

SESTREMN Mean Rank

Sum ofRanks

Mann-Whitney Test

Test Statis ticsa

442,500

970,500

- 3,497

,00 0

Mann -Whitney U

Wilcoxon W

Z

Asymp. Sig. (2- tailed)

SESTREM

Grouping Variable: GRUPPa.

Median (SES) Grupp 1: 157

Grupp 2: 125

Page 31: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

T-test

Paired Samples Statistics

145,2561 82 41,6164 4,5958148,1220 82 45,9859 5,0783

SESTREMSESETTÅR

Pair 1Mean N Std. Deviation Std. Error Mean

Paired Samples Test

-2,8659 32,5405 3,5935 -10,0158 4,2841 -,798 81 ,427SESTREM - SESEPair 1Mean Std. DeviatioStd. Error Mea Lower Upper

95% Confidence Inteof the Difference

Paired Differences

t df Sig. (2-tailed

Page 32: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Descriptive Statistics

83 145,4337 41,3935 53,00 200,00 115,0000 158,0000 177,000085 148,8588 46,0743 37,00 200,00 106,5000 165,0000 191,0000

SESTREMSESETTÅR

N Mean Std. Deviation Minimum Maximum 25th 50th (Median) 75thPercentiles

Ranks

27 a 39,41 1064,0045 b 34,76 1564,0010 c

82

Negative RanksPositive RanksTiesTotal

SESETTÅR - SESTREMN Mean Rank Sum of Ranks

SESETTÅR < SESTREMa.

SESETTÅR > SESTREMb.

SESTREM = SESETTÅRc.

Test Statistics b

-1,403 a

,161ZAsymp. Sig. (2-tailed)

SESETTÅR -SESTREM

Based on negative ranks.a.

Wilcoxon Signed Ranks Testb.

Willcoxon Signed Rank Test

Page 33: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Samband (korrelation) mellan variabler

• Parvisa observationer x - och y

• Samvariation, inte orsaksförhållande

• Samband kan vara positiva eller negativa

• Graden av linjärt samband beräknas med den så kallade korrelationskoefficienten, r, som kan variera mellan -1 och +1

Page 34: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

r=1 r=0 r=0

r=- 0.97 r= -0.79r= 0.63

Page 35: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Correlations

1,000 -,665 **, ,000

83 82-,665 ** 1,000,000 ,

82 82

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

SESTREM

VASTREM

SESTREM VASTREM

Correlation is significant at the 0.01 level (2-tailed).**.

Correlations

Descriptive Statistics

145,4337 41,3935 833,0180 2,2083 82

SESTREMVASTREM

Mean Std. Deviation N

Correlations

1,000 -,713 **, ,000

83 82-,713 ** 1,000,000 ,

82 82

Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N

SESTREM

VASTREM

Spearman's rhoSESTREM VASTREM

Correlation is significant at the .01 level (2-tailed).**.

Page 36: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Statistiska analyser kvalitativa variabler

• För nominal- / kategoridata används analyser som är baserade på chi-två x2 fördelningen.

• Räknemässigt används samma analys vare sig man undersöker

1. Skillnad mellan grupper2. Samband mellan variablerFör 1 gäller två eller flera stickprov och en variabelFör 2 gäller ett stickprov och två variabler

Page 37: Varför statistik - media.medfarm.uu.semedia.medfarm.uu.se/dynlec/data/statistik_as_demo/slides.pdf · Varför statistik Vi vill sammanfatta stora mängder av data i syfte att: •

Konfidensintervall• Punktskattning av en variabels medelvärde i

populationen är alltid osäker eftersom den gjorts utifrån enbart en del av populationen -stickprovet.

• Därför bildas ofta ett intervall inom vilket det sanna medlevärdet med viss sannolikhet ligger.

• Ett sådant intervall kallas konfidensintervall.• Konfidensintervall kan bildas för enstaka

medelvärde eller för medelvärdesskillnad.• Konfidensintervall anges med sannolikheterna

95%, 99% eller 99.9%.