varför statistik -...
TRANSCRIPT
Varför statistik
Vi vill sammanfatta stora mängder av data i syfte att:
• Kvantitativt beskriva fenomen• Undersöka samband mellan variabler• Undersöka skillnader mellan grupper i något
avseende• Undersöka skillnader inom gruppen
Population
Stickprov
Observationsenhet
Variabel Värden
Ålder 37 år
Kön Kvinna
Blodtryck 120/80
Diskret
Kvantitativ
KontinuerligVariabel
KvalitativDikotom
Polykotom
Olika skalor
• Nominalskala = kategorisering• Ordinalskala = rangordning• Intervallskala = rangordning + lika långa
intervall• Kvotskala = rangordning + lika långa
intervall + absolut nollpunkt
Nominalskala (nomen = namn)
Markera det rätta alternativet nedan.1. Kvinna 2. Man
Vilket nationalitet du är?• . svensk• . finsk• . norsk• . dansk
Ordinalskala
Hur uppfattar du din hälsa? Ringa in siffran framför det påstående som stämmer bäst med din uppfattning om din hälsa.
1. Min hälsa är mycket dålig2. Min hälsa är ganska dålig3. Min hälsa är ganska bra4. Min hälsa är mycket bra
Intervallskala, kvotskala
Längden på 10 personer var:
134.4, 125.6, 156.3, 173.9, 182.8, 183.9, 185.7, 188.5, 189.2, 199.9
Beskrivande statistik
Överskådlig sammanfattning av data
• Frekvenser• Centralmått - var tyngdpunkten ligger• Spridningsmått - hur stor variationen är• Diagram
Frekvenstabell
Värde Frekvens Procent Kumulativ procent110-119 10 IIIIIIIIII 33 33120-129 12 IIIIIIIIIIII 40 73130-139 5 IIIII 17 90140-149 2 II 7 97150-159 1 I 3 100
30
Centralmått Spridningsmått
Typvärde (T) Variationsvidd (r)
Median (Md) Kvartilavstånd (Q)
Medelvärde (M) Standardavvikelse (s)
37, 37, 40, 39, 38, 41, 43, 44, 36, 37
36, 37, 37, 37, 38, 39, 40, 41, 43, 44
Q1=37 Q3=41Md=38.5
M=∑ Xn = 39.2
T=37, r= 36-44 (r=8)
∑(x-M)2 M=39.2n-1
36, 37, 37, 37, 38, 39, 40, 41, 43, 44x x-M (x-M)2
36 -3.2 10.237 -2.2 4.837 -2.2 4.837 -2.2 4.838 -1.2 1.439 -0.2 0.0440 0.8 0.641 1.8 3.243 3.8 14.444 4.8 23__
67.2
S=
S =67.2
9
S= 2.7
68.3%95.4%
99.7%
0
200
400
600
800
1000
1200
1400
1600
1 2 3 4 5 6 7 8 9 10 11
0
100
200
300
400
500
600
700
800
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Stapeldiagram
Hälsa
Grundskola Gymn.skola Högskola
Man Kvinna
Box & Whisker plot
MaxMax
75%
Median
25%
Min
75%
Md
25%
Min
Cirkeldiagram 17%Olika utbildningar
46%
37%
Statistisk inferens
Att dra slutsatser om egenskaperna hos en
population på basis av egenskaperna hos ett
urval
Mätningsfel
Population
Stickprov
Urvalsfel
Mätfelet
Standard error
Statistisk inferens
Med hjälp av mätfelet kan vi uppskatta sannolikheten för att våra resultat beror på slumpfaktorer i urvals-och mätprocedurer.
SSE
n
Nollhypotes (H0)Ett antagande om ingen skillnad eller inget samband
Alternativhypotes (H1)Ett antagande om att det finns skillnad eller samband
Signifikansnivå
sannolikheten att få medelvärdet som vi fått i vår resultat under förutsättning att nollhypotesen är sann: p < 0.05, p < 0.01, p < 0.001
Typ I-fel
Ett falskt positivt resultat
Typ II-fel
Ett falskt negativt resultat
Enkelsidig - dubbelsidig prövning
Analysområden
• Skillnader mellan grupper
• Skillnader inom samma grupp över tid
• Samband mellan variabler
Statistisk analys(analysverktyg)
Parametrisk statistikMedelvärden och standardavvikelser
Bakomliggande normalfördelningIntervall-, kvotskala (ev. ordinalskala)
Icke parametrisk statistikTypvärde, median, variationsvidd, kvartilavstånd
RangordningOkänd bakomliggande fördelning
Litet antal personerAlla typer av skalor
Statistiska analyserParametriska Icke-parametriska
Skillnader mellan grupper vid samma tidpunktOberoende / oparat t-test Mann Whitney UIndependent / unpaired t-test Willcoxon rank sum test
Willcoxon’s rangsummetest
Skillnader inom samma grupp över tidBeroende / parat t-test Wilcoxon’s teckenrangtestDependent / paired t-test Wilcoxon signed rank test
Samband mellan variablerPearson’s produktmomentkorrelation Spearman’s rangkorrelation
Chi 2 test
Group Statistics
51 157,92 37,37424 5,2 3344
32 125,53 40,17300 7,1 0165
GRUPP1,00
2,00
SESTREMN Mea n
Std.Deviat ion
Std. ErrorMea n
Independent Samples Test
,57 5 ,450 3,734 81 ,000 32, 3903 8,67550 15, 129 49,652
3,672 62, 403 ,001 32, 3903 8,82170 14, 758 50,022
Equal variancesassumedEqual variancesnot assumed
SESTREMF Sig.
Levene's Test forEquality ofVariances
t dfSig.
(2- tailed)Mean
DifferenceStd. Er rorDifference Lower Uppe r
95% ConfidenceInterval of the
Difference
t- test for Eq uality of Means
Independent samples t-test
Ranks
51 49,32 2515,5
32 30,33 970,50
83
GRUPP1,00
2,00
Total
SESTREMN Mean Rank
Sum ofRanks
Mann-Whitney Test
Test Statis ticsa
442,500
970,500
- 3,497
,00 0
Mann -Whitney U
Wilcoxon W
Z
Asymp. Sig. (2- tailed)
SESTREM
Grouping Variable: GRUPPa.
Median (SES) Grupp 1: 157
Grupp 2: 125
T-test
Paired Samples Statistics
145,2561 82 41,6164 4,5958148,1220 82 45,9859 5,0783
SESTREMSESETTÅR
Pair 1Mean N Std. Deviation Std. Error Mean
Paired Samples Test
-2,8659 32,5405 3,5935 -10,0158 4,2841 -,798 81 ,427SESTREM - SESEPair 1Mean Std. DeviatioStd. Error Mea Lower Upper
95% Confidence Inteof the Difference
Paired Differences
t df Sig. (2-tailed
Descriptive Statistics
83 145,4337 41,3935 53,00 200,00 115,0000 158,0000 177,000085 148,8588 46,0743 37,00 200,00 106,5000 165,0000 191,0000
SESTREMSESETTÅR
N Mean Std. Deviation Minimum Maximum 25th 50th (Median) 75thPercentiles
Ranks
27 a 39,41 1064,0045 b 34,76 1564,0010 c
82
Negative RanksPositive RanksTiesTotal
SESETTÅR - SESTREMN Mean Rank Sum of Ranks
SESETTÅR < SESTREMa.
SESETTÅR > SESTREMb.
SESTREM = SESETTÅRc.
Test Statistics b
-1,403 a
,161ZAsymp. Sig. (2-tailed)
SESETTÅR -SESTREM
Based on negative ranks.a.
Wilcoxon Signed Ranks Testb.
Willcoxon Signed Rank Test
Samband (korrelation) mellan variabler
• Parvisa observationer x - och y
• Samvariation, inte orsaksförhållande
• Samband kan vara positiva eller negativa
• Graden av linjärt samband beräknas med den så kallade korrelationskoefficienten, r, som kan variera mellan -1 och +1
r=1 r=0 r=0
r=- 0.97 r= -0.79r= 0.63
Correlations
1,000 -,665 **, ,000
83 82-,665 ** 1,000,000 ,
82 82
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
SESTREM
VASTREM
SESTREM VASTREM
Correlation is significant at the 0.01 level (2-tailed).**.
Correlations
Descriptive Statistics
145,4337 41,3935 833,0180 2,2083 82
SESTREMVASTREM
Mean Std. Deviation N
Correlations
1,000 -,713 **, ,000
83 82-,713 ** 1,000,000 ,
82 82
Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N
SESTREM
VASTREM
Spearman's rhoSESTREM VASTREM
Correlation is significant at the .01 level (2-tailed).**.
Statistiska analyser kvalitativa variabler
• För nominal- / kategoridata används analyser som är baserade på chi-två x2 fördelningen.
• Räknemässigt används samma analys vare sig man undersöker
1. Skillnad mellan grupper2. Samband mellan variablerFör 1 gäller två eller flera stickprov och en variabelFör 2 gäller ett stickprov och två variabler
Konfidensintervall• Punktskattning av en variabels medelvärde i
populationen är alltid osäker eftersom den gjorts utifrån enbart en del av populationen -stickprovet.
• Därför bildas ofta ett intervall inom vilket det sanna medlevärdet med viss sannolikhet ligger.
• Ett sådant intervall kallas konfidensintervall.• Konfidensintervall kan bildas för enstaka
medelvärde eller för medelvärdesskillnad.• Konfidensintervall anges med sannolikheterna
95%, 99% eller 99.9%.