basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · deskriptiv statistik, januar...

51
Basal statistik 30. januar 2007

Upload: hoangdung

Post on 23-Jun-2019

223 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Basal statistik

30. januar 2007

Page 2: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik

• Typer af data

• Tabeller

• Grafik

• Summary statistics

Page 3: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Lene Theil Skovgaard,

Biostatistisk Afdeling

Institut for Folkesundhedsvidenskab,

Københavns Universitet

e-mail: [email protected]

http://staff.pubhealth.ku.dk/~lts/basal07_1

Page 4: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 1

Eksempel pa kvantitative data

Page 5: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 2

Statistik

Handler om ud fra tal, data at udtale sig om aspekter afvirkeligheden (sundhedsvidenskabelige problemstillinger)

(Ikke “officiel” statistik, statistikproduktion)

Ud fra stikprøve:

1. Deskriptiv statistik:

beskrive niveau og variation i population

2. Statistisk inferens:

drage konklusioner om ukendte størrelser, parametre, knyttet

til populationen, f.eks. forskel i niveau for mænd og kvinder eller

stigning i niveau pr. ar.

Page 6: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 3

Nøgleord

• Datareduktion

• Datapræsentation

• Statistiske modeller

Værktøjer

• matematik, sandsynlighedsregning

• edb

• grafik

– og sund fornuft!

Page 7: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 4

Scatter plot af PImax mod alder

Page 8: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 5

Histogram

SAS ANALYST:

Graph/Histogram

pimax i Analysis

Page 9: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 6

Beskrivelse af kvantitative variable

• Histogram

• Location, centrum

– Gennemsnit: y = 1n (y1 + · · · + yn)

– Median: midterste observation, efter størrelsesorden

(50% fraktil)

• Variation

– Varians: s2 = 1n−1Σ(yi − y)2

spredning = standardafvigelse =√

varians

– Fraktiler (kumuleret fordelingsfunktion)

• Fraktildiagram

• Boxplot

Page 10: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 7

Page 11: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 8

Gennemsnit

• kan opfattes som

ligevægtspunkt

• pavirkes kraftigt af

yderlige observationer

Eksempel:

Indlæggelsestider:

5,5,5,7,10,16,106 dage

Gennemsnit: 154/7=22 dage.

Repræsentativt for hvad??

Pa den anden side, hvis omkostninger er

proportionale med indlæggelsestiden, sa

er det maske gennemsnittet, der er

interessant for hospitalsledelsen.

Page 12: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 9

Fraktiler for PImax-eksempel

Data i rækkefølge:

1 2 3 4 5 6 7 8

40 45 70 75 75 75 75 80

9 10 11 12 13 14 15 16

80 80 85 95 95 95 95 100

17 18 19 20 21 22 23 24 25

100 100 110 110 110 120 125 130 150

Median: Midterste observation, 50%-fraktil: 95

Kvartiler (25% og 75% fraktiler): 75, 110.

Page 13: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 10

“Should we scare

the opposition by

announcing

our mean height,

or lull them by

announcing our

median height?”

Page 14: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 11

Handregning

Beregning af gennemsnit:

y =1

n

i

yi

her: (80 + 85 + · · · + 95)/25 = 92.6

Beregning af varians:

s2 =1

n − 1

i

(yi − y)2

her: ((80 − 92.6)2 + (85 − 92.6)2 + · · · + (95 − 92.6)2)/24 = 621.1

Beregning af spredning:

s =√

s2

her:√

621.1 = 24.9

Page 15: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 12

Summary statistics i SAS

Statistics/Descriptive/Summary Statistics

pimax i Analysis

i Statistics afkrydses:

Mean, Standard Deviation, Minimum, Maximum, Median og

Number of Observations

samt Standard error

The MEANS Procedure

Analysis Variable : pimax

Mean Std Dev Minimum Maximum Median N Std Error

----------------------------------------------------------------------------------------

92.6000000 24.9215436 40.0000000 150.0000000 95.0000000 25 4.9843087

----------------------------------------------------------------------------------------

Page 16: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 13

Fortolkning af spredningen, s

Hovedparten af observationerne ligger inden for

y ± ca.2 × s

dvs. sandsynligheden for at en tilfældig udtrukket person fra

populationen har en værdi i dette interval er stor...

For PImax finder vi

92.6 ± 2 × 24.9 = (42.8, 142.4)

Hvis data er normalfordelt, vil dette interval indeholde ca. 95% af

fremtidige observationer. Hvis ikke....

For at benytte ovenstaende, skal der i hvert fald helst være

rimelig symmetri...

Page 17: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 14

For kvantitative variable har hver enkelt værdi sandsynlighed 0 for at

indtræffe (fordi der i princippet er ∞ mange mulige udfald).

Vi taler i stedet om sandsynlighedstætheder,

saledes at sandsynligheden for et interval udregnes som arealet under

kurven.

Omrade, der dækker de centrale 95% af observationerne, ma ga fra

2 12% fraktilen til 97 1

2% fraktilen, her....

Men hvordan finder man 212% af kun 25 observationer??

Page 18: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 15

Normalfordelingstætheder

benævnes ofte N(µ,σ2)

middelværdi = mean,

ofte benævnt µ, α el.lign.

spredning, ofte benævnt σ

Page 19: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 16

Histogram med overlejret

normalfordeling

SAS ANALYST:

Graph/Histogram

pimax i Analysis

klik Fit og afkryds

Normal Parameters

Page 20: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 17

Skæve fordelinger

Histogram of IgM

IgM

Fre

quen

cy

0 1 2 3 4 5

050

100

150

gennemsnit y spredning s=SD

0.80g/l 0.47g/l

(y+2s, y+2s) = (−0.14g/l, 1.74g/l)

Urimeligt interval,

indeholder f.eks.

negative værdier

Page 21: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 18

Fraktiler for IgM-data

Quantile Estimate

100% Max 4.5

99% 2.5

95% 1.7

90% 1.4

75% Q3 1.0

50% Median 0.7

25% Q1 0.5

10% 0.4

5% 0.3

1% 0.1

0% Min 0.1

Obs P_2_5 P_5 P_95 P_97_5

1 0.2 0.3 1.7 2

Kumulativ fordeling:

Intervallet (0.2, 2.0) synes mere

repræsentativt

Page 22: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 19

Hvordan kan vi se, om normalfordelingen er en god beskrivelse?

Simulation af 50 observationer

fra samme normalfordeling, gen-

taget 16 gange:

Nogle af dem ser

’ikke ret normalfordelte’ ud!

Ganske store afvigelser kan

tolereres i visse sammenhænge,

specielt nar de ikke er for syste-

matiske.

Page 23: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 20

Test af normalitet for PImax

blandt meget andet output fra

Statistics/Descriptive/Distributions nar der afkrydses i

Fit/Normal Parameters:

The UNIVARIATE Procedure

Fitted Distribution for pimax

Parameters for Normal Distribution

Parameter Symbol Estimate

Mean Mu 92.6

Std Dev Sigma 24.92154

Goodness-of-Fit Tests for Normal Distribution

Test ---Statistic---- -----p Value-----

Kolmogorov-Smirnov D 0.12002682 Pr > D >0.150

Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250

Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250

Quantiles for Normal Distribution

-------Quantile------

Percent Observed Estimated

1.0 40.0000 34.6238

5.0 45.0000 51.6077

10.0 70.0000 60.6618

25.0 75.0000 75.7907

50.0 95.0000 92.6000

75.0 110.0000 109.4093

90.0 125.0000 124.5382

95.0 130.0000 133.5923

99.0 150.0000 150.5762

Page 24: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 21

Fraktildiagram

Graphs/Probability Plot:

Hvis data er normalfordelt,

skal fraktildiagrammet ligne en

ret linie:

De observerede fraktiler skal pas-

se med de teoretiske

(panær en skala)

Page 25: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 22

Test af normalitet for IgM

Fitted Distribution for igm

Parameters for Normal Distribution

Parameter Symbol Estimate

Mean Mu 0.80302

Std Dev Sigma 0.469498

Goodness-of-Fit Tests for Normal Distribution

Test ---Statistic---- -----p Value-----

Kolmogorov-Smirnov D 0.17035149 Pr > D <0.010

Cramer-von Mises W-Sq 1.72717601 Pr > W-Sq <0.005

Anderson-Darling A-Sq 9.83760415 Pr > A-Sq <0.005

Quantiles for Normal Distribution

------Quantile------

Percent Observed Estimated

1.0 0.10000 -0.28920

5.0 0.30000 0.03076

10.0 0.40000 0.20133

25.0 0.50000 0.48635

50.0 0.70000 0.80302

75.0 1.00000 1.11969

90.0 1.40000 1.40471

95.0 1.70000 1.57528

99.0 2.50000 1.89524

Page 26: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 23

Fraktildiagram for IgM

ses at passe meget darligt med en

ret linie

Page 27: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 24

Normalomrade:

Omrade, der omslutter 95% af normale observationer:

• nedre grænse: 2 12% fraktil

• øvre grænse: 97 12% fraktil

Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ2),

kan disse fraktiler direkte udtrykkes som

2 12% fraktil: µ − 1.96σ ≈ y − 1.96s

97 12% fraktil: µ + 1.96σ ≈ y + 1.96s

og normalomradet udregnes derfor som

y ± ca.2 × s = (y − ca.2 × s, y + ca.2 × s)

Page 28: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 25

Hvorfor benyttes normalfordelingen sa ofte?

• Det er ofte en

rimelig approksimation

– Evt. efter transformation

med logaritme, kvadratrod, invers,...

• Central grænseværdisætning:

– Summen af et stort antal variable kommer efterhanden til at

ligne en normalfordeling

(sum af normalfordelinger er igen en normalfordeling).

• Rimelig let at arbejde med, fordi standard programmel er

udviklet for normalfordelingen.

Page 29: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 26

Page 30: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 27

Transformation med logaritme (log10

)

gennemsnit spredning

−0.158 0.238

Antilog: 10−0.158 = 0.695

−0.158 − 2 × 0.238 = −0.63

Antilog: 10−0.63 = 0.23

−0.158 + 2 × 0.238 = 0.32

Antilog: 100.32 = 2.08

Histogram of log10(IgM)

log10(IgM)

Fre

qu

en

cy

–1.0 –0.5 0.0 0.5

02

04

06

08

01

00

Bedre grænser: (0.23, 2.08)

Page 31: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 28

Central grænseværdisætning.

Spredning pa gennemsnit:

SEM,

standard error of the mean

Fordeling af gennemsnit, y ??

Page 32: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 29

Hvordan kan vi sige noget om fordelingen af y?

• Jackknife: Udelad en observation ad gangen

Udregn gennemsnit af resten, zi = y(−i) = ny−yi

n−1

Fordeling af disse ’leave-one-out’ gennemsnit....??

• Bootstrap: Resampling med tilbagelæggelse

Udregn gennemsnit af hvert nyt sample

Fordeling af Bootstrap gennemsnit....!!

• Ved at benytte en fordelingsantagelse for selve y’erne

Hvis yi’erne er normalfordelte, vil y ogsa være det, og

spredningen i denne fordeling vil være SEM = SD√

n

Page 33: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 30

Bootstrap distribution of y, 1000 samples

"bootstrap gennemsnit"

92.61624

"bootstrap spredning"

4.911366

"bootstrap sem"

4.911366

Histogram of bootstrap.pimax.snit

bootstrap.pimax.snit

Fre

quen

cy

80 90 100 110

050

010

0015

00

"fraktiler for bootstrap gennemsnit"

1% 2.5% 5% 50% 95% 97.5% 99%

81.2 83.0 84.6 92.6 100.6 102.2 104.0

Page 34: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 31

Konfidensinterval

• Hvad tror vi pa, at den sande middelværdi kan være?

• Et interval, der ’fanger’ den sande middelværdi med en passende

høj (95%) sandsynlighed kaldes et 95% konfidensinterval

• 95% kaldes dækningsgraden eller coverage

y ± ca.2 × SEM

Dette er ofte en god approksimation, selv nar data ikke er særligt

pænt normalfordelt

(pa grund af CLT, den centrale grænseværdisætning)

For PImax:

92.6 ± 2 × 4.98 = (82.64, 102.56)

Page 35: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 32

• Spredning=standard deviation, SD

siger noget om variationen i vores sample,

og formentlig i populationen

benyttes ved beskrivelser af data

• Standard error (of the mean), SEM

siger noget om usikkerheden pa gennemsnittet

SEM =SD√

n

standard error (of mean, of estimate) = 1√

n× standard deviation

benyttes ved sammenligninger, sammenhænge etc.

Page 36: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 33

Boxplot for PImax-eksempel

Graph/Box Plot

i Display skiftes til Schematic

God ved sammenligning

af fordelinger

Page 37: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 34

Hvis fordelingen er tydeligt skæv

eller pa anden made afviger tydeligt fra normalfordelingen, bør man

ikke angive gennemsnit og spredning, men snarere:

• fraktiler:

– median

– inter-quartile range, IQR:

intervallet mellem 25% og 75% fraktil

• range

Om muligt bør fordelingen illustreres grafisk!

Alternativ: Transformer til normalitet.

For sma materialer angives

• median og range

Page 38: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 35

Hvis variablen Y er normalfor-

delt med middelværdi µ og va-

rians σ2, skriver vi

y ∼ N(µ, σ2)

Standardiseret/normeret

variabel:

z =y − µ

s∼ t(df) ≈ N(0, 1)

nar df = n − 1 er stor

Page 39: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 36

Page 40: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 37

Eksempel: Ud fra et stort materiale har vi fundet en gennemsnitlig

Se-albumin pa 34.46 (g/l) og en empirisk varians pa 5.842 (g/l)2

Hvis vi udfra dette antager at Se-albumin er normalfordelt med

middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er sa

sandsynligheden for at en tilfældigt udvalgt person har en værdi over

42.0 g/l?

Hvor mange standardafvigelser er 42.0 fra 34.46?

42 − 34.46

5.84= 1.29

Tabelopslag i standardnormalfordeling (B1) eller computer:

P = 0.0985 ≈ 10%

Page 41: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 38

Typer af data

• Kategoriske

kun distinkte værdier mulige

– død ja/nej

– fysisk aktivitet i 4 kategorier

• Kvantitative (numeriske)

– Diskrete (tælledata)

∗ antal børn i en famile

∗ antal metastaser

– Kontinuerte (maledata)

• Censurerede (e.g. levetider)

Page 42: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 39

Kategoriske data

To kategorier (dikotom/binær):

• Mand/kvinde

• dør/overlever

• Gift/ugift

• Ryger/ikke ryger

Flere end to:

• Nominal: Gift/ugift/fraskilt/enke(mand)

• Ordinal: minimal/moderat/alvorlig/uudholdelig smerte

Page 43: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 40

Diskrete kvantitative/numeriske data

Tælletal

• Antal børn i en familie

• Antal metastaser/celler/bakteriekolonier

Flydende grænser mellem diskrete numeriske og ordinale kategoriske

data.

OBS: Ofte meningsløst at behandle ordinale data som om de var

numeriske. Gennemsnitlig socialklasse eller cancerstadium??

Page 44: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 41

Kontinuerte data

• Højde

• Vægt

• Se-kolesterol

• Blodtryk

Maling pa en sammenhængende skala.

I praksis afrundede tal.

Variable der antager “mange værdier”.

Ofte ’noget med’ normalfordelingen

Page 45: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 42

Censurerede data

Typisk overlevelsesdata

For nogen data vides kun om de er større end en vis værdi. For andre

kendes værdien.

“Patienten var i live ved sidste follow-up / pr. 1.jan. 1997”

NB: der er ogsa trunkerede data hvor man slet ikke har data hvis

de er mindre/større end en vis værdi:

Tid til diagnose blandt patienter med symptomstart i 1995, fx.

Page 46: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 43

Outcome Forklarende variable = Kovariater

Respons Dikotom Kategorisk Kontinuert Kategoriske

og kontinuerte

Dikotom 2*2-tabeller χ2-test Logistisk regression

Kategorisk Kontingenstabeller/χ2-test Generaliseret logistisk regression

Ordinale svært, f.eks. proportional odds modeller

Kontinuert Mann-Whitney Kruskal-Wallis Robust multipel

Wilcoxon signed rank Friedman regression

Normalfordelt T-test Variansanalyse Kovariansanalyse

parret/uparret ensidet/tosidet Multipel regression

Censureret Log-rank test Cox regression

Korrelerede Varianskomponent- Modeller for

normalfordelte modeller gentagne malinger

Page 47: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 44

Beskrivelse af kategoriske data

• Stolpediagrammer (barplots)

• Tabeller

– Absolutte hyppigheder/frekvenser (antal)

– Relative hyppigheder (procenter)

Page 48: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 45

Page 49: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 46

Tabeller

Kejsersnit og skostørrelse: Absolutte frekvenser (antal)

Shoe size

Sectio <4 4 4 12 5 5 1

2 6+ Total

Yes 5 7 6 7 8 10 43

No 17 28 36 41 46 140 308

Total 22 35 42 48 54 150 351

Page 50: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 47

Tabeller - i procent

Kejsersnit og skostørrelse: Relative frekvenser (i %)

Shoe size

Sectio <4 4 4 1

25 5 1

26+ Total

Yes 22.7 20.0 14.3 14.6 14.8 6.7 12.3

No 77.3 80.0 85.7 85.4 85.2 93.3 87.7

Total 100 100 100 100 100 100 100

Fordel: direkte sammenlignelighed

Ulempe: mister de faktiske antal

Page 51: Basal statistik 30. januar 2007 - modul1.dk statistisk teori.pdf · Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden

Deskriptiv statistik, januar 2007 48

Procenter, ’den anden vej’

Kejsersnit og skostørrelse: Relative frekvenser (i %)

Shoe size

Sectio <4 4 4 1

25 5 1

26+ Total

Yes 11.6 16.3 14.0 16.3 18.6 23.3 100

No 5.5 9.1 11.7 13.3 14.9 45.5 100

Total 6.3 10.0 12.0 13.7 15.4 42.7 100

Dette siger noget om fodstørrelse

– og ikke sa meget om hyppighed af kejsersnit