1 introduction aux données biologiques et médicales

57
1 Introduction aux Données Biologiques et Médicales

Upload: roch-marchand

Post on 03-Apr-2015

116 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: 1 Introduction aux Données Biologiques et Médicales

1

Introduction aux Données Biologiques et Médicales

Page 2: 1 Introduction aux Données Biologiques et Médicales

2

Plan

1. Mesures biologiques et médicales

2. Données (variables) quantitatives

3. Données (variables) qualitatives

4. Données (variables) censurées

5. Description des données

Page 3: 1 Introduction aux Données Biologiques et Médicales

3

1. Données Biologiques et Médicales

• permettent d’étudier des phénomènes biologiques/médicaux– distinguer le “normal” du “pathologique”– mesurer/prévoir l’évolution d’une maladie

Page 4: 1 Introduction aux Données Biologiques et Médicales

4

• Ces mesures sont dites des « variables »– car elles varient d’un individu à l’autre– variable : « Any quantity that varies. Any

attribute, phenomenon, or event that can have different values » A dictionary of Epidemiology (JM Last, Oxford University Press, 1995)

Page 5: 1 Introduction aux Données Biologiques et Médicales

5

• Données/variables de plusieurs types :quantitatives qualitativescensurées

Page 6: 1 Introduction aux Données Biologiques et Médicales

6

2. Données (variables) quantitatives

mesurables sur une échelle … avec une unité

• de valeurs réelles : donnée continue– poids, taille, âge, PA, glycémie, ...

• de valeurs isolées : donnée discrète– dilutions, nombres d’enfants, de métastases,

âge au dernier anniversaire...

Page 7: 1 Introduction aux Données Biologiques et Médicales

7

• Notion de “continuité” relativerelative à l’échelle de mesure et à la précision de la mesure :

• Age– Échelle continue– Échelle discrète (ans) : 10, 15, 65

• Taille– Échelle continue– Échelle discrète (cm) : 115, 165, 187

Page 8: 1 Introduction aux Données Biologiques et Médicales

8

Données continues ou discrètes ?

• On peut grouper une donnée continue ou discrète en classes de valeurs : donnée ordinale– ex : âge < 20, 20-25, 25-30, 30– ex : nb cigarettes/j = 0, 1-10, 11-20, > 20– ex : PAS (mm Hg) < 140 ou 140

binarisation

• mais au prix d’une perte d’informationperte d’information

Page 9: 1 Introduction aux Données Biologiques et Médicales

9

non mesurables sur une échelle (notion de jugement), mais ...

• avec relation d’ordre : données ordinale (semi-quantitative)– intensité d’une douleur (0, +, ++, +++)– stades d ’un cancer : I, II, III, IV– consommation de tabac : absence, modéré,

important

3. Données (variables) qualitatives

Page 10: 1 Introduction aux Données Biologiques et Médicales

10

• sinon : données catégorique (nominale)– homme/femme– marié/célibataire– fumeur/non fumeur– localisations tumorales – groupes sanguins : A/B/AB/O

Page 11: 1 Introduction aux Données Biologiques et Médicales

11

• Attention : une donnée ordinale n’est pas une donnée quantitative discrète– ex :

– intensité d’une douleur (0, +, ++, +++)– Nombre d’enfants : 1, 2, 3, 4, 5+

Notion d’espacement inter-classes

Page 12: 1 Introduction aux Données Biologiques et Médicales

12

4. Données (variables) censurées• Abusivement appelée « données de survie »• Elles définissent le délai de survenue d’un

événement en « tout ou rien  »

“Survival analysis is the phrase used to describe the analysis of data that correspond to the time from a well-defined time origin until the occurrence of some particular event or end-point. ”Collett D. Modelling survival data in medical research, Chapman & Hall, 1994

Page 13: 1 Introduction aux Données Biologiques et Médicales

13

• Une date origine– ex : date de diagnostic

homogénéité nécessaire sur l’ensemble des patients

Page 14: 1 Introduction aux Données Biologiques et Médicales

14

• Un événement binaire (en “ tout ou rien ”)– ex : décès, rechute …

événement parfaitement défini et reproductibilité inter-centres

délai : entre la date origine et la survenue de l’événement

le plus précis possible suivi ad hoc des patients

Page 15: 1 Introduction aux Données Biologiques et Médicales

15

• Date de point : date à laquelle on fait le point – Tout sujet chez qui l’événement d’intérêt n’a

pas été observé à la date de point est censuré à cette date

– Un sujet perdu de vue à la date de point sera censuré à la date de dernière nouvelle

Page 16: 1 Introduction aux Données Biologiques et Médicales

16

Sujet 1

Sujet 2

Sujet 3

Sujet 4

Sujet 5

01/01/01 01/01/02

Page 17: 1 Introduction aux Données Biologiques et Médicales

176 mois 1 an

Sujet 1

Sujet 2

Sujet 3

Sujet 4

Sujet 5

Diagnostic

Page 18: 1 Introduction aux Données Biologiques et Médicales

18

• Durée de survie de patients atteints d’un lymphome malin non Hodgkinien

– (Diagnostic décès)

• Durée d’attente d’une nouvelle transfusion de plaquettes chez des patients en aplasie post chimiothérapie en onco-hématologie

– (Transfusion de plaquettes nombre de plaquettes en deçà d’une valeur seuil)

Page 19: 1 Introduction aux Données Biologiques et Médicales

19

• Durée de survenue d’une aggravation d’une occlusion veineuse rétinienne

– (Hémodilution faisant suite à un diagnostic d’hémodilution passage d’une forme non ischémique de l’occlusion à une forme ischémique)

• Durée de survenue d’une récidives locales post reconstruction mammaire

– (Reconstruction mammaire récidive locale)

Page 20: 1 Introduction aux Données Biologiques et Médicales

20

5. Description des données

• Variables continues– mesures de position/centralité– mesures de la variabilité/dispersion

• Variables qualitatives– Distributions de fréquence

• Variables censurées– Courbes de survie

Page 21: 1 Introduction aux Données Biologiques et Médicales

21

5.1 Histogramme

• Données quantitatives continues

• Suite de rectangles dont la surface est proportionnelle aux fréquences dans des intervalles de valeurs (classes)

s h

l

lhs ..relfreqsouns

Page 22: 1 Introduction aux Données Biologiques et Médicales

22

• Si toutes les classes ont même largeur (l), la hauteur des rectangles est directement proportionnelle à l’effectif de la classe (h = n)

s h

l

nklhs

Page 23: 1 Introduction aux Données Biologiques et Médicales

23Distribution de la créatinine plasmatique dans le PR

0

20

40

60

80

100

120

140

Nom

bre

0 100 200 300 400 500 600 700Créatinine J PBR

Histogramme 45,000 95,000 120

95,000 145,000 71

145,000 195,000 24

195,000 245,000 11

245,000 295,000 5

295,000 345,000 3

345,000 395,000 4

395,000 445,000 0

445,000 495,000 0

495,000 545,000 2

545,000 595,000 2

Total 242

De(>) à(<=) Nombre

Distribution en fréquence pour Créatinine J PBR

Page 24: 1 Introduction aux Données Biologiques et Médicales

24

45,000 95,000 120 ,496 49,587

95,000 145,000 71 ,293 29,339

145,000 195,000 24 ,099 9,917

195,000 245,000 11 ,045 4,545

245,000 295,000 5 ,021 2,066

295,000 345,000 3 ,012 1,240

345,000 395,000 4 ,017 1,653

395,000 445,000 0 0,000 0,000

445,000 495,000 0 0,000 0,000

495,000 545,000 2 ,008 ,826

545,000 595,000 2 ,008 ,826

Total 242 1,000 100,000

De(>) à(<=) Nombre Fréq. Rel. Pourcentage

Distribution en fréquence pour Créatinine J PBR

0

,1

,2

,3

,4

,5

,6

Fré

q. R

el.

0 100 200 300 400 500 600 700Créatinine J PBR

Histogramme

Page 25: 1 Introduction aux Données Biologiques et Médicales

25

• Si toutes les classes n’ont pas la même largeur (l), seule la surface des rectangles est directement proportionnelle à l’effectif de la classe (h = n/l)

s h

l

nklhs

Page 26: 1 Introduction aux Données Biologiques et Médicales

26

S = h x l h = S/l = n/lClasses l h0-4 5 28/5=5.65-9 5 46/5=9.210-15 6 58/6=9.716 1 2017 1 3118-19 2 64/2=3220-24 5 149/5=29.825-59 35 316/35=9.060-79 20 103/20=5.1

a

b

Page 27: 1 Introduction aux Données Biologiques et Médicales

27

• L’”histogramme” a (incorrect) suggère la classe 25-59 comme étant la plus concernée par les accidents de la route alors que l’histogramme b (correct) indique que ce sont les classes 17, 18-19, 20-24. En effet, la fréquence des accidents de la route par année d’âge est plus importante dans ces dernières classes!

Page 28: 1 Introduction aux Données Biologiques et Médicales

28

5.2 Caractéristiques des distributions

• Distributions synthétisées par des quantités – de tendance centrale

Mode/classe modale

Médiane

Moyenne– de dispersion

Etendue

Intervalle inter-quartiles

Variance, écart-type

Page 29: 1 Introduction aux Données Biologiques et Médicales

29

Mode(s)

Définition

valeur(s) la (les) plus fréquente(s)– sommet(s) de la distribution– le plus facile à calculer– dépend du regroupement (arbitraire) en classes– parfois non unicité

Page 30: 1 Introduction aux Données Biologiques et Médicales

30

45 98 150 203 256 309 361 414 467 519 572

Créatinine (µmol/l)

0

20

40

60

80

N

45 98 150 203 256 309 361 414 467 519 572

Créatinine (µmol/l)

0

40

80

120

N

Mode : classe [71 - 97] Mode : classe [45 - 97]

Mode : regroupement en classes

Page 31: 1 Introduction aux Données Biologiques et Médicales

31

2.1 3.3 4.6 5.8 7.0 8.3 9.5 10.8 12.0 13.3 14.5

Glycémie (mmol/l)

0

50

100

150

200

250

N

Mode : non unicité

Page 32: 1 Introduction aux Données Biologiques et Médicales

32

Médiane (50ème percentile)

Définition

valeur centrale de la distribution – partage la distribution en 2 parties égales– peu sensible aux valeurs extrêmes– difficile à manipuler mathématiquement

Page 33: 1 Introduction aux Données Biologiques et Médicales

33

Exemple : âge de 5 étudiants (n = 5)

{19, 20, 22, 20, 21}

âge effectif effectif cumulé

19 1 1

2020 22 33

21 1 4

22 1 5

médiane = 200

1

2

3

17 18 19 20 21 22 23 24

Age

Fré

qu

ence

Page 34: 1 Introduction aux Données Biologiques et Médicales

34

Exemple : âge de 5 étudiants (n = 5)

âge effectif effectif cumulé

19 1 1

2020 22 33

21 1 4

42 1 5

médiane = 20

Page 35: 1 Introduction aux Données Biologiques et Médicales

35

Moyenne (expérimentale)

Définition

moyenne arithmétique des observations

– centre de gravité

– utilise toute l’information

– sensible aux valeurs extrêmes

– manipulation mathématique

n

iix

nx

1

1

Page 36: 1 Introduction aux Données Biologiques et Médicales

36

Exemple : âge des 5 étudiants (n = 5)

{19, 20, 20, 21, 22}

• valeur non observée

• sensible aux valeurs extrêmes

4.205

1022221202019

5

111

n

iix

nx

0

1

2

3

17 18 19 20 21 22 23 24

Age

Fréq

uenc

e

Page 37: 1 Introduction aux Données Biologiques et Médicales

37

• n = 5

{19, 20, 20, 21, 42}

• n = 5

{19, 20, 20, 21, 15}

4,245

1224221202019

5

111

n

iix

nx

195

951521202019

5

111

n

iix

nx

Page 38: 1 Introduction aux Données Biologiques et Médicales

38

Positions relatives mode, médiane, moyenne

• Si distribution unimodale, symétrique– les 3 coïncident

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

ddp

Mode = Médiane = Moyenne

18 22 23 25 27

Page 39: 1 Introduction aux Données Biologiques et Médicales

39

• Si distribution dissymétrique

à droite à gauchemode < médiane < moyenne moyenne < médiane < mode

2 4 6 8 10

Notes

Histogramme

0

2

4

6

8

10

12

14

16

18

20

1 2 3 4 5 6 7 8 9

PSA (ng/l)

%

Mode

Médiane

Moyenne

Mode

MédianeMoyenne

Page 40: 1 Introduction aux Données Biologiques et Médicales

40

Etendue

Définition

différence entre les valeurs extrêmes (minimale, maximale) observées

étendue = valeur maximale - valeur minimale

– dépend entièrement de 2 observations– n’est pas manipulable mathématiquement

Page 41: 1 Introduction aux Données Biologiques et Médicales

41

0

20

40

60

80

100

120

140

160

180

200

Nom

bre

0 100 200 300 400 500 600 700 800 900 1000Créatinine J PBR

Histogramme

Valeur min = 45µmol/l

Valeur max = 939 µmol/l

Etendue = 894 µmol/l

Valeur min = 45µmol/l

Valeur max = 572 µmol/l

Etendue = 527 µmol/l

0

20

40

60

80

100

120

140

Nom

bre

0 100 200 300 400 500 600 700 800 900Créatinine J PBR

Histogramme

Page 42: 1 Introduction aux Données Biologiques et Médicales

42

Variance

Estimation

– estimée à partir des carrés des écarts à la moyenne (écart quadratique moyen)

n

ii xx

ns

1

221

1

Page 43: 1 Introduction aux Données Biologiques et Médicales

43

n

i

n

ii

i

n

ii

n

x

xn

s

xxn

s

1

2

122

1

22

1

1

1

1

Page 44: 1 Introduction aux Données Biologiques et Médicales

44

Exemple : âge de 5 étudiants

n = 5 {19, 20, 20, 21, 22} 1022221202019

1

n

iix

3,15

1022086

4

1

1

1 2

1

2

122

n

i

n

ii

i n

x

xn

s

208622212020191

222222

n

iix

Page 45: 1 Introduction aux Données Biologiques et Médicales

45

Ecart-type

Estimation : racine carrée positive de la variance

• mesure l’écart à la moyenne– s’exprime avec la même unité que la variable

n

ii xx

nss

1

221

1

Page 46: 1 Introduction aux Données Biologiques et Médicales

46

19 20 21 22 24 25 26 27 28 30 31

Sample

0.00

0.05

0.10

0.15

0.20

Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8Std Dev.: 2.0

68%

95%

- 1DS- 2DS + 1DS + 2DS

Page 47: 1 Introduction aux Données Biologiques et Médicales

4736.0 36.6 37.2 37.8 38.4

Température

0

5

10

15

Min : 36.6 1er Qu. : 36.9 Moyenne : 37.3 Médiane : 37.1 3em Qu. : 37.7 Max : 38.6écart-type:0.54481

5.3 Box-and-Whisker plot

36.6

37.1

37.6

38.1

38.6

Tem

ratu

re

Min

25ème percentile ou Q1

Médiane

75ème percentile ou Q1

Max

IQR = Q3 - Q1 = 0.8

Page 48: 1 Introduction aux Données Biologiques et Médicales

48

20

25

30

Sam

ple

Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8Std Dev.: 2.0

IQR = 26.3 - 23.7 = 2.6

Box-and-Whisker plot : distribution symétriqueA

g e

Page 49: 1 Introduction aux Données Biologiques et Médicales

49

5.4 Distributions de fréquence

• Figure (ou distribution de fréquence) qui donne le nombre (le %) d’individus selon les valeurs de la mesure

• Moyen le plus simple de caractériser les variables qualitatives

• Fréquences relatives ou cumulées

Page 50: 1 Introduction aux Données Biologiques et Médicales

50

Motif d’admission en réanimation

Motif Fréquence Fréquence % %relative cumulée relatif

cumulé

Respiratoire 25 25 36.2% 36.2%Neurologique 14 39 20.3% 56.5%Hémodynamique 12 51 17.4% 73.9%Métabolique 10 61 14.5% 88.4%Traumatologique 5 66 7.2% 95.6%Divers 3 69 4.3% 100%

Total 69 69 100% 100%

Page 51: 1 Introduction aux Données Biologiques et Médicales

51

Distribution de fréquence : effectifsDiagramme en bâtons

Motif : n

Respiratoire : 25Neurologique : 14Hémodynamique : 12Métabolique : 10Traumatologique : 5Divers : 3

n total = 69

0

5

10

15

20

25

30

n

Page 52: 1 Introduction aux Données Biologiques et Médicales

52

Motif (%)

Respiratoire (36%)Neurologique (20%)Hémodynamique (17%)Métabolique (14%)Traumatologique (7%)Divers (4%)

Distribution de fréquence : %Diagramme en bâtons

0%5%

10%15%20%25%30%35%40%

%

Page 53: 1 Introduction aux Données Biologiques et Médicales

53

Diagramme en secteurs

Respiratoire37%

Hémodynamique17%

Métabolique14%

Traumatologique7%

Divers4%

Neurologique21%

Page 54: 1 Introduction aux Données Biologiques et Médicales

54

5.5 Courbe de survie

• Estimation de la fonction de “ survie ” = fonction de non-survenue de l’événement considéré au cours du temps (“ survival curve ”)

• Approche classique : estimateur de Kaplan-Meier (1958) (“ the product-limit estimate ”)

• Fonction en escalier

Page 55: 1 Introduction aux Données Biologiques et Médicales

55

0.0

0.2

0.4

0.6

0.8

1.0

0 12 24 36 48 60 72 84 96 108 120 132 144 156

Temps (mois)

Prob

abili

té d

e su

rvie

Courbe de survie globale à partir du début de la première ligne de chimiothérapie chez des patients atteints de cancer colorectal (86 patients - 76 décès)

Patients à risqueM0 M12 M24 M36 M48 M60 M7286 69 42 26 17 10 5

Page 56: 1 Introduction aux Données Biologiques et Médicales

56

Paramètres de survie

• Estimation de statistiques descriptives :– médiane de “ survie ”– taux de survie à une date donnée

Page 57: 1 Introduction aux Données Biologiques et Médicales

57

0.0

0.2

0.4

0.6

0.8

1.0

0 12 24 36 48 60 72 84 96 108 120 132 144 156

Temps (mois)

Prob

abili

té d

e su

rvie

Médiane de survie = 24 mois

Taux de survie à 3 ans = 37,5%