biomedecine quantitative – introduction à … · a. introduction i. exemple de la saignée. ......

18
BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative 1/18 15/02/2016 Laure APRILE L3 CR : Amine BOUACHBA Biomédecine Quantitative Dr B.GIUSIANO 18 pages Introduction à l’analyse quantitative (1) A. Introduction I. Exemple de la saignée. La saignée permet de guérir un grand nombre de maladies, c’est le traitement princeps de la pharmacopée. On l’utilise depuis plusieurs siècles (depuis l’antiquité grecque) ce qui fait penser qu’il s’agit, à priori d’un traitement efficace. D’après l’encyclopédie de Diderot et d’Alembert (1751 #siècledeslumières) : la saignée est une ouverture faite à un vaisseau sanguin, pour en tirer le fluide qui y est contenu. C'est un des plus grands et des plus prompts moyens de guérison que la Médecine connaisse. Il s’agit en réalité d’une « plaisanterie » (dixit le prof). On fut persuadé de l’efficacité de la saignée pendant plusieurs siècles par référence aux théories évoquées pour expliquer les maladies. L’idée selon laquelle les maladies sont dues à de mauvaises « Humeurs » était répandue à l’époque, la saignée, permettait selon certains, de se débarrasser de ces mauvaises humeurs. Les humeurs res- tantes dans le sang sont ensuite diluées grâce à l’ingestion d’eau. Pierre Le Charles Alexandre Louis, fut le premier en 1835 à mettre en doute les effets de la saignée. En effet ses études ont démontrées que plus on faisait de saignées, plus on les faisait tôt, moins le patient survivait. De nombreux autres traitements sans grand support scientifique comme la saignée sont de nos jours encore uti- lisés par les médecins. Plan A. Introduction I. Exemple de la saignée II. Premier essai clinique contrôlé B. Population et échantillon. I. Méthodes statistiques II. Variabilité III. Distribution IV. Notion de paramètre V. Echantillon VI. Population C. Statistiques descriptives : types de variables, paramètres. I. Variables II. Caractérisation des données qualitatives et ordinales unidimensionelles. III. Caractérisation des données qualitatives à deux dimensions. IV. Caractérisation des données quantitatives à une dimension V. Paramètres

Upload: buicong

Post on 15-Sep-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

1/18

15/02/2016

Laure APRILE L3

CR : Amine BOUACHBA

Biomédecine Quantitative

Dr B.GIUSIANO

18 pages

Introduction à l’analyse quantitative (1)

A. Introduction

I. Exemple de la saignée.

La saignée permet de guérir un grand nombre de maladies, c’est le traitement princeps de la pharmacopée. On

l’utilise depuis plusieurs siècles (depuis l’antiquité grecque) ce qui fait penser qu’il s’agit, à priori d’un

traitement efficace.

D’après l’encyclopédie de Diderot et d’Alembert (1751 #siècledeslumières) : la saignée est une ouverture faite à

un vaisseau sanguin, pour en tirer le fluide qui y est contenu. C'est un des plus grands et des plus prompts

moyens de guérison que la Médecine connaisse. Il s’agit en réalité d’une « plaisanterie » (dixit le prof).

On fut persuadé de l’efficacité de la saignée pendant plusieurs siècles par référence aux théories évoquées pour

expliquer les maladies. L’idée selon laquelle les maladies sont dues à de mauvaises « Humeurs » était répandue

à l’époque, la saignée, permettait selon certains, de se débarrasser de ces mauvaises humeurs. Les humeurs res-

tantes dans le sang sont ensuite diluées grâce à l’ingestion d’eau.

Pierre Le Charles Alexandre Louis, fut le premier en 1835 à mettre en doute les effets de la saignée. En effet

ses études ont démontrées que plus on faisait de saignées, plus on les faisait tôt, moins le patient survivait.

De nombreux autres traitements sans grand support scientifique comme la saignée sont de nos jours encore uti-

lisés par les médecins.

Plan

A. Introduction

I. Exemple de la saignée

II. Premier essai clinique contrôlé

B. Population et échantillon.

I. Méthodes statistiques

II. Variabilité

III. Distribution

IV. Notion de paramètre

V. Echantillon

VI. Population

C. Statistiques descriptives : types de variables, paramètres.

I. Variables

II. Caractérisation des données qualitatives et ordinales unidimensionelles.

III. Caractérisation des données qualitatives à deux dimensions.

IV. Caractérisation des données quantitatives à une dimension

V. Paramètres

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

2/18

Comment donner un support scientifique aux connaissances médicales permettant de traiter des maladies et

de soigner des malades ?

II. Le premier essai clinique contrôlé

Le premier essai clinique date du 18ème siècle

En 1740-1744 : Le commandant George Anson remporte plusieurs batailles sur les mers contre la flotte

espagnole. Il remporta ainsi 1 313 843 pièces d’or et 35 682 onces d’argent pur (oui je sais c’est passionnant….) et

ne perdit que 4 hommes au combat. Mais plus de 1000 hommes sont morts du scorbut en mer.

En 1746, James LIND suivit le cas de 12 marins malades pendant 14 jours. Il s’aperçut que les remèdes utilisés

contre le scorbut sont en réalité peu efficaces.

Il constitua 6 paires de marins et donna à chaque paire un traitement différent. (1L de cidre, 25 gouttes d’élixir

de vitriol, 2 cuillères de vinaigre, un quart de litre d’eau de mer, de la pâte médicinale et un traitement

nouveau : 2 oranges+1 citron)

Il observa une guérison spectaculaire et complète de la paire ayant reçu le traitement à base d’orange et de

citron. (Scorbut=carence importante en Vitamine C)

Le premier essai clinique est né (Youpi….)

Dans la médecine actuelle, nous avons fait beaucoup de progrès. Ceux-ci datent des années 50 et sont dus en

grande partie à la réalisation d’études sur l’efficacité des médicaments.

Henri LABORI a été l’un des premiers à prôner l’étude en double aveugle dans laquelle ni le patient, ni le

médecin ne sait quel traitement est donné au patient. Dans ces études, les résultats sont plus clairs car on

supprime l’effet placebo (pouvant être créé par le médecin lui-même).

Démarche scientifique : permet de faire la différence entre la médecine occidentale et les autres médecines

(douce, naturelle...).

Raisonnement scientifique : C’est la capacité de douter. La science progresse lentement et uniquement en

osant confronter les résultats à la critique (C’est le but des publications scientifiques). La science est l’opposé

de la croyance.

B. Population et échantillon

I. La méthode statistique.

La méthode statistique a pour but de dégager certaines propriétés d’un ensemble de mesures ou d’observations

et par la suite d’en déduire des règles générales et de décrire cet ensemble, appelé population.

Dans les méthodes statistiques il y a des méthodes descriptives (je décris ce que je vois) ou inférentielles

(déduire des règles générales à partir de ce que l’on a vu).

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

3/18

II. Variabilité.

III. Distribution

Ex : La distribution des tailles.

La variabilité est la règle dans

les sciences de la vie : c’est pour

cela que l’on a besoin des

statistiques

Ex : histogramme de la

répartition des poids de

naissance de nouveaux-nés (NN)

Un grand nombre de NN ont un

poids situé aux alentours de

3100-3500g. Il y en a beaucoup

moins en dessous et au-dessus

de ces valeurs.

Cela donne une certaine forme à

l’histogramme

On mesure la taille de 10

personnes.

Chaque cube représentant une

personne est disposé au niveau

d’une échelle graduée en fonction

de la taille de l’individu.

L’ensemble ainsi formé

représente la distribution des

tailles de l’échantillon de 10

personnes.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

4/18

IV. Notion de paramètre

Du fait de la variabilité, on ne peut pas donner la valeur d’une seule mesure pour résumer la population. Il faut

des indices qui puissent résumer valablement les observations. On résume donc les observations par plusieurs,

chiffres, plusieurs nombres appelés les paramètres de la distribution.

Ex : Pour le poids de naissance, les deux paramètres qui sont suffisants pour résumer la distribution sont :la

moyenne et la variance (ou l’écart type qui est la racine carré de la variance)

V. Echantillon

Le plus souvent la population ne peut pas être observée dans sa totalité pour des raisons pratiques (population

trop importante) et financières. Dans certains cas, l’étude de la population dans sa globalité est impossible car

cela conduirait à la destruction de l’individu. (Ex : étude du réglage d’une machine à fabriquer des gélules. Pour

savoir si la machine met la bonne quantité de principe actif dans chaque gélule, il faut prendre un certain

nombre de gélules produites et les casser afin de doser leur contenu).

On tire donc de la population un échantillon qui doit être représentatif de la population, c’est-à-dire que les

caractéristiques étudiées doivent être en même proportions dans l’échantillon et dans la population.

On réalise la même

expérience avec 400

personnes.

La construction est plus

imposante et une forme

plus nette se dessine.

Si on prend encore plus de personnes, une

courbe se dessine : Il s’agit de la courbe

normale de Gauss. Celle-ci se rencontre très

fréquemment dans la nature.

Sur le plan mathématique, cette courbe s’étend

de -∞ à +∞.

Pour n’importe quelle taille, la probabilité

pour qu’elle soit sous la courbe est égale à 1.

En statistique, on s’éloigne de la réalité pour

pouvoir se baser sur des propriétés

mathématiques solides.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

5/18

C’est cet échantillon que l’on va observer, que l’on va mesurer et à partir duquel on va calculer les paramètres

et ainsi extrapoler les résultats à la population selon des méthodes statistiques.

Comment faire pour avoir un échantillon représentatif de la population ?

Un bon échantillon doit être une image réduite de la population. Il doit être représentatif de la population vis-à-

vis du caractère étudié. Toutes les caractéristiques des individus n’ont pas la même importance selon ce que

l’on étudie. (Par exemple, la couleur des cheveux est inutile à prendre en compte pour étudier l’efficacité d’un

traitement de l’infarctus du myocarde).

Le meilleur moyen pour avoir un échantillon représentatif est de réalisé un tirage au hasard à partir d’une

population. On calcule les paramètres de l’échantillon et on les extrapole à la population initiale.

Si l’échantillon n’est pas représentatif de la population étudiée, on parle d’échantillon biaisé.

Le choix de l’échantillon et le recueil des données constitue la phase fondamentale, la plus longue, de l’étude.

Si la question posée n’est pas assez claire ou précise, le recueil des données est mauvais et l’étude est inutile.

Les biais classiques sont :

-Le biais de recrutement : l'inclusion d'un sujet dans l'étude est liée à un ou plusieurs des facteurs étudiés et ne

repose pas sur le hasard

-Effet « travailleur sain » : on le retrouve principalement dans des échantillons constitués à partir de travail-

leurs dont l’état de santé n'est pas celui de la population générale. (Ex : étudiants, salariés d’entreprise…il serait

plus intéressant d’étudier les salariés en arrêt maladie dont la maladie peut être due à leur métier)

-Effet « volontaire » : les échantillons constitués sur la base du volontariat posent des problèmes liés aux moti-

vations personnelles pouvant être induites par un état de santé particulier ou par une exposition à des facteurs de

risque dépendants du phénomène étudié.

-Biais d’admission (paradoxe de Berkson) : ce biais peut se retrouver dans les études où les échantillons

d'individus proviennent de services hospitaliers ayant, par exemple, un recrutement très spécifique. De ce fait

l’échantillon ne sera pas représentatif de la population cible.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

6/18

-Non réponse-Autosélection: l'inclusion d'un individu dans l'échantillon dépend d'une décision de sa part qui

peut être liée au phénomène étudié. Par exemple si on fait appel à de nombreux individus et qu’une grande par-

tie refuse il faut se demander si ce refus est lié au facteur étudié.

-Biais de ‘prévalence-incidence » (biais de Neyman) : il correspond à la situation ou des décès précoces n'au-

ront pas été pris en compte du fait du laps de temps entre l'exposition et son effet éventuel ou encore lorsque

des cas n'ont pas été découverts. (Biais essentiellement retrouvés dans les études sur les conditions de travail).

Il y a des nombreux biais auxquels il faut faire attention. Lors de la lecture d’un article il faut se

demander si l’échantillon n’est pas incongru.

« Appeler le statisticien quand l’expérience est faite c’est lui demander de faire un examen post mortem, il peut

juste dire de quoi est morte l’étude ».

Il faut s’intéresser à toute la méthode statistique qui démarre de l’idée même de cette étude, pour s’assurer que

la question a été bien posée, que les sujets ont bien été recrutés, s’assurer que l’étude est bien conduite et sans

biais… Le statisticien ne doit pas servir uniquement à faire les calculs, il doit suivre l’ensemble de l’étude.

Ex : Un cardiologue marseillais a voulu démontré que la tension artérielle des enfants pouvait prédire leur

susceptibilité à devenir hypertendu à l’âge adulte. Pendant 5 ans la tension artérielle d’enfants à été relevée

par des médecins scolaires et de nombreuses données ont pu être recueillis. Cependant cette étude n’a pas pu

être menée à bien car la question initiale avait été mal posée. De nombreux problèmes interfèrent avec l’étude :

Premièrement, pour avoir des résultats concrets et des preuves il faut attendre que ces enfants aient atteints

l’âge adulte.

Ensuite le cardiologue a voulu réaliser des courbes de Tension normales mais là également ce fut impossible

car la médecine scolaire ne voit pas les enfants tous les ans, parce que la valeur de la tension dépend de

nombreux facteurs (couché/debout, avant/après la récréation…), autant de facteurs qui n’avaient pas été pris

en compte lors du recueil des données.

VI. Population

1) Quelle population ?

Il faut faire attention de quelle population on parle afin de pouvoir définir un échantillon représentatif.

• Étude portant sur la consommation de tabac chez les français.

– La population est l'ensemble des français et la caractéristique est la consommation de tabac.

Mais ceci n’est pas assez précis. Il manque une notion de temps (de quelle date à quelle date ?). Il faut préciser

ce qui est sous-entendu dans le terme « français » : parle-t-on d’individus pris au hasard dans la métropole ?

Inclus-t-on l’outre-mer ? Ou seulement une ou quelques régions ? Prenons nous en compte les enfants ? Les

personnes âgées ? Ou seulement une tranche d’âge précise ?

• Étude portant sur la composition en mercure des ampoules électriques produites dans l'usine X.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

7/18

– La population est constituée des ampoules électriques produites à l'usine X et la caractéristique étudiée est la

concentration en Hg.

Là également il manque la notion de temps : par exemple les ampoules fabriquées avant le renouvellement des

machines de l’usine doivent-elles être prise en compte ?

Il faut bien définir la population étudiée car cela constitue une partie des critères d’inclusion et d’exclusion.

• Une compagnie pharmaceutique veut vérifier un nouveau vaccin contre une certaine maladie. On admi-

nistre ce produit à 50 patients atteints de la maladie.

– La population est formée de tous les gens atteints de la maladie, l'échantillon est formé des 50 patients à qui

on a administré le médicament et la caractéristique étudiée est la réponse au médicament.

Il faut, dans cette étude, utiliser un échantillon contrôle : échantillon de même effectif mais dont les patients ne

sont pas vaccinés.

2) Echantillonnage.

La meilleure façon de faire un échantillon est de tirer au hasard (tirage au sort, tables de nombres aléatoires..).

Il ne faut surtout pas choisir un échantillon par commodité mais cela se produit parfois sans que l’on s’en rende

compte (ex : patients d’un service).

Lorsque l’on étudie une mesure très liée au sexe, ou à la température moyenne, ou à la région… et que l’on ne

veut pas éliminer ce facteur on peut faire un tirage au sort stratifié. Ceci permet d’avoir tout de même un

échantillon représentatif de la population.

Stratification : on subdivise la population en sous-groupes, en strates et on tire au sort dans chacune de ces

strates.

Chaque strate peut être représentée en fonction de son importance dans la population (dans les mêmes

proportions).

Il ne faut jamais oublier que l’échantillon n’est pas la population !!

Du fait de la variabilité des mesures dans le monde vivant, l’échantillonnage est soumis à des fluctuations.

Deux échantillons de même effectif, tirés de la même population auront tout de même des paramètres diffé-

rents : on parle de fluctuation d’échantillonnage. Du fait des fluctuations d’échantillonnage, les conclusions

que l’on peut tirer à partir d’un échantillon sont sujettes à erreur car ils ne représentent pas exactement la popu-

lation.

Le calcul d’un paramètre sur un échantillon ne permet que d’estimer le paramètre de la population avec

un certain degré d’imprécision.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

8/18

On tire 10000 échantillons de 20 sujets et on compte le nombre de malades dans chaque échantillon. On

observe le plus fréquemment entre 6 et 7 malades par échantillons.

Mais certains échantillons en contiennent 15 alors que d’autres n’en ont pas.

C’est cela la fluctuation d’échantillonnage. Lorsque l’on tire un grand nombre d’échantillon d’une population,

tous ne sont pas comparables exactement mais les valeurs sont malgré tout regroupées autour d’une moyenne

ou d’une proportion qui correspond finalement à la moyenne ou la proportion de la population.

On a en général une courbe normale centrée sur la moyenne (valeurs quantitatives) ou la proportion.

La moyenne de l’échantillon est considérée comme un bon estimateur de la moyenne de la population.

3) Intervalles de fluctuation et de confiance.

Quand on tire un échantillon on peut extrapoler à la population mais avec un risque d’erreur. Ce risque on peut

s’en servir pour créer un intervalle.

Même exemple que ci-dessus.

Le pourcentage de malades dans un échantillon de 20 sujets est compris entre 15% et 50%... Mais seulement

pour 95% des 10000 échantillons

• C’est l’intervalle de fluctuation : il s’agit de l’intervalle d’imprécision du paramètre obtenu à partir de

l’échantillon.

Nombre de malades observés sur

10 000 échantillons de 20 sujets ti-

rés d’une population où le pour-

centage vrai de malades est 30%.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

9/18

A partir d’un échantillon, on ne doit pas donner une valeur unique pour un pourcentage ou pour une moyenne,

mais un intervalle

• C’est l’intervalle de confiance

Lorsque l’on a un paramètre d’un échantillon, même si on dit que la moyenne de cet échantillon est une bonne

estimation de la moyenne de la population, il faut aussi donner l’intervalle de confiance pour connaitre le degré

de précision de l’estimation de cette moyenne.

4) Probabilités et Distribution normale

Quand on a une distribution que l’on reconnait, que l’on a étudié mathématiquement, cela permet de faire des

prédictions à partir des propriétés mathématiques de cette distribution.

Par exemple dans la distribution normale, on peut

calculer assez facilement l’aire sous la courbe

entre deux bornes.

Ainsi, dans cet exemple, 68% des cas tombent entre

3,5 et 4, 95% des cas entre 3,25 et 4,25 et 99%

tombent entre 3,0 et 4,5.

Cela va nous aider à choisir un intervalle de

confiance en fonction du risque de se tromper que

l’on choisit de prendre (risque de 32%, 5% ou 1%).

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

10/18

5) Estimation et intervalle de confiance.

Exemple : Les résultats d’une étude réalisée sur un échantillon représentatif de nourrissons masculins français

âgés de 3 mois, ont donné une estimation de la taille moyenne de 60,2 cm avec un intervalle de confiance à

95% de [59,2 ; 61,2]

=>Il y aurait donc 95 chances sur 100 que la taille moyenne des nourrissons masculins français de 3 mois soit

comprise entre 59,2 et 61,2 cm.

Ce n’est pas la meilleure façon de formuler les résultats mais il s’agit de la forme la plus simple et le plus com-

préhensible pour l’interlocuteur.

Si on tire 100 échantillons de même effectifs sur chacun des quels on calcule l’intervalle de confiance de la

moyenne, dans au moins 95% des cas, l’intervalle comprendra la vraie moyenne et dans seulement 5% des cas

l’intervalle ne la contiendra pas.

Problème : selon les mesures utilisées, selon leurs magnitudes, selon la valeur de la moyenne… les bornes vont

changer. Il y a une infinité de bornes et donc de calculs à faire. Il faudra à chaque fois, pour réaliser l’intervalle

de confiance, faire des calculs complexes à l’aide d’intégrales afin de calculer l’aire sous la courbe.

Une caractéristique de la loi normale est très intéressante pour éviter cela.

Toute variable distribuée normalement, peut être transformée en variable centrée réduite en enlevant à

toutes les valeurs, la valeur de la moyenne et en divisant les résultats obtenus par l’écart type.

La moyenne de cette variable centrée réduite est alors égale à 0 et son écart type est de 1

L’intérêt est que l’on va pouvoir utiliser une table de la loi centrée réduite où tous les calculs d’aire et de

bornes ont déjà été effectués (A vos polys de P1…)

Variable centrée réduite

C. Statistiques descriptives : types de variables, paramètres.

Le but des statistiques descriptives consiste à décrire un ensemble d’observation à l’aide de quelques éléments

caractéristiques.

En général cela entraine une perte d’information.

Les méthodes descriptives dépendent de la nature des variables.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

11/18

I. Variables

Une variable est une caractéristique ou un facteur susceptible de prendre une valeur différente pour

chaque individu étudié.

On distingue les variables :

-Qualitatives

-Quantitatives

-Temporelles (évolution d’une variable dans le temps)

La typologie des variables est quasi infinie.

1) Variables qualitatives

Elles ne sont pas mesurables. Il s’agit de l’appartenance d’un individu à une classe parmi d’autres, avec des

classes exclusives qui correspondent aux différentes modalités du caractère étudié. On dénombre les effectifs

appartenant à chacune de ces classes.

Attention à bien définir les modalités d’une variable qualitative pour bien classer les individus.

Ex : couleur des yeux (mais attention à bien définir dans ce cas le nombre de couleurs que l’on considère)…,

sexe, efficacité d’un traitement (mauvaise, moyenne ou bonne…), groupe sanguin….

On distingue 3 types de variables qualitatives :

Nominales : variables sans ordre particulier entre les modalités.

Ordinales : Variables où il existe un ordre entre les modalités (ex : mauvais, moyen ou bon résultat d’un

traitement).

Binaires : Variables avec seulement deux modalités (généralement oui/non), plus difficile à gérer et

nécessite donc des méthodes particulières.

2) Variables quantitatives.

Elles sont caractérisées par des valeurs numériques (on peut avec les valeurs réaliser des opérations

mathématiques)

On distingue :

Les variables quantitatives continues : Elles peuvent prendre n’importe quelle valeur numérique dans

l’intervalle d’observation et appartiennent à l’ensemble des réels (Elles peuvent avoir une infinité de

chiffres après la virgule). Mathématiquement on dit que la valeur d’une variable continue a une

probabilité nulle d’apparaitre du fait de l’infinité des possibilités.

Cependant elles restent très utilisées en médecine mais leur précision est tout de même limitée par

l’instrument de mesure.

Ex : Poids 56,3 kg, Taille 1,72 m, Cholestérol 2,22 g/L

Les variables quantitatives discrètes : Ce sont des variables numériques discontinues. En général ce

sont des valeurs entières qui correspondent à un dénombrement.

Ex : rechute d’une maladie = 3 par an, Rappel de vaccin =4 injections, Dentition=32 dents…

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

12/18

Les variables temporelles : Ce sont des variables quantitatives particulières utilisant les unités de temps

et nécessitent donc des méthodes différentes. Elles sont souvent utilisées dans les études de survie.

(Peuvent être considérées à part. C’est pour cela qu’elles n’apparaissent pas dans le schéma ci-dessous)

Schéma important à retenir (Dixit le prof)

II. Caractérisation des données qualitatives et ordinales unidimensionelles.

Pour décrire les données d’une étude, on peut utiliser :

-Des tableaux d’effectifs, la fréquence absolue

-Les fréquences relatives

-Les fréquences cumulées

-Les diagrammes « camembert »

-Les diagrammes en bâtons et mode

1) Fréquence absolue et Tableaux d’effectifs

Une fréquence absolue c’est l’effectif, c’est le nombre d’individus par classe, par modalité.

Ce dénombrement donne lieu à une représentation des données sous forme de tableau.

Ex : Description de la variable qualitative « groupe sanguin » dans l’échantillon étudié.

Sur les classes ainsi formées, les seules opérations pouvant être effectuées sont :

-réaliser des classes disjointes à partir d’une seule classe

-Regrouper certaines classes

La seule relation qui puisse être utilisée sur ces données est la relation d’appartenance à une même classe.

Ex : regroupement des individus en fonction du groupe ABO sans tenir compte du Rhésus.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

13/18

2) Fréquences relatives

Pour chaque classe, c’est le rapport de son effectif au nombre total d’individus de la série des mesures.

Les fréquences relatives peuvent être exprimées en pourcentage (comme dans le tableau ci-dessous). Pour cela

multiplier par 100 et arrondir à l’unité.

La somme des fréquences relatives doit être égale à 1 (sinon cela veut dire qu’une classe est manquante ou

que les classes ne sont pas exclusives : chaque individu ne doit être comptabilisé dans une seule classe)

3) Diagramme « Camembert »

On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est

proportionnelle à l’effectif.

Le diagramme « camembert » est bien adapté à la représentation des données qualitatives « pures ou

nominales ». Il n’est pas très intéressant pour les valeurs ordinales.

Fi=fréquence

ni=effectif de la classe

N=effectif total

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

14/18

4) Diagramme en Bâtons

Pour les valeurs qualitatives

ordinales, le diagramme en

Bâtons est plus intéressant que

le camembert car on peut

ordonner les modalités sur

l’axe des abscisses.

On peut y représenter des

fréquences absolues,

relatives ou cumulées.

III. Caractérisation des données qualitatives à deux dimensions.

La dernière colonne et la dernière ligne sont appelées les « marginales » : il s’agit des totaux de chaque

variable.

IV. Caractérisation des données quantitatives à une dimension

Pour les variables discrètes, il est possible de représenter les données par un diagramme en bâtons

comme dans le cas des données ordinales.

Dans tous les cas, on peut diviser l’intervalle de variation de la variable en un certain nombre de classe

et l’on dénombre toutes les mesures à l’intérieur de chaque classe. On peut ainsi construire un

histogramme. Cela permet également de transformer cette variable quantitative en variable qualitative

si nécessaire. (ex : classe d’âge : de 0 à 5 ans, de 5 à 10 ans…)

Lorsque l’on a deux dimensions on

peut faire un tableau de contingence.

Les modalités de deux variables

qualitatives permettent de constituer

des classes exclusives auxquelles est

affectée chaque observation

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

15/18

On peut faire varier la taille des classes.

L’aspect de l’histogramme garde une

forme globale identique mais plus ou

moins lisse et harmonieuse.

V. Paramètres

On distingue deux types de paramètres :

Paramètres de POSITION (Médiane, quartiles, déciles, percentiles, Mode,

Moyenne, Fréquences relatives)

Paramètres de DISPERSION (Minimum, Maximum, étendue, intervalle

interquartiles, variance, écart type, coefficient de variation)

1) Paramètres de Position

Ils donnent une idée de la position des valeurs les plus fréquentes par rapport à l’axe des abscisses.

Moyenne

Pour construire un histogramme, on porte

sur l’axe des abscisses les extrémités de

chaque classe et on construit pour chacune

d’elle un rectangle dont la surface est

proportionnelle au nombre d’individu

contenu dans la classe (ce qui le

différencie d’un diagramme en bâton)

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

16/18

Médiane

C’est la valeur qui partage la série des individus en 2 groupes d’effectifs égaux.

Elle est moins influencée que la moyenne arithmétique par les valeurs extrêmes de la variable.

La moitié des sujets présentent une valeur inférieure à la médiane et l’autre moitié présente une valeur

supérieure.

La médiane correspond au 2ème quartile.

Quartiles

Ils séparent l’échantillon en quart (j’aurais pas deviné toute

seule…)

Il y a 25% des individus entre deux quartiles.

Le 1er quartile sépare 25% des valeurs les plus faibles et

75% des valeurs les plus élevées.

Le 3ème quartile sépare 75% des valeurs les plus faibles et

25% des valeurs les plus élevées.

2) Paramètres de Dispersion

La dispersion représente l’étalement des valeurs.

Les Extrêmes (Min et Max)

Ils sont très sensibles aux valeurs extrêmes mais permettent dans de nombreux cas de détecter les erreurs au

moment de la validation des données. (Ex : enfant de 2g)

Etendue

Etendue= Valeur Maximale – Valeur Minimale

Espace interquartile

Qi= Q3 - Q1

Elle s’exprime dans les mêmes unités que les

valeurs observées.

C’est un indicateur de tendance centrale servant à

résumer une série de données d’une variable

quantitative.

Elle est intéressante quand la distribution des

données est symétrique de part et d’autre de cette

moyenne.

Si ce n’est pas le cas la médiane est plus

intéressant.

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

17/18

Cet espace contient 50% des valeurs de la série.

Ecart Type

L’intérêt de l’écart type (par rapport à la variance) est qu’il a la même grandeur que la moyenne ce qui permet

de dire Moyenne+/- écart type.

L’écart type dans le cadre de la distribution normale est un des deux paramètres importants car il donne une

idée de l’aplatissement de la courbe normale.

La projection du point d’inflexion de la courbe

normale sur l’axe des abscisses donne la mesure

de l’écart type.

De la même façon il est intéressant de savoir que

l’aire sous la courbe entre moyenne - 2 écarts

types et moyenne+2 écarts types est égale à

95,45% (retrouvé dans les tables de la variable

centrée réduite).

CONCLUSION : Une distribution peut être résumée par un paramètre de position et un paramètre de

dispersion.

A méditer…

• « En France, en moyenne, chaque personne possède un testicule. » (Anonyme)

• « Un enfant sur sept étant Chinois, nous nous sommes arrêtés à six. » (Marie-Lyse Aston)

• « Il y a trois sortes de mensonges : le mensonge simple, le fieffé mensonge, et les statistiques »

(Benjamin Disraeli)

J’ai eu l’immense honneur (mais surtout le malheur) de prendre ce magnifique 1er ronéo de maths et du

semestre…. (Pauvre de moi…)

J’ai fait mon maximum pour que tout cela paraisse clair mais ce n’était pas facile…

Place à la dernière dédicace de toute ma vie !! (#dernier ronéo)

Un immense merci à Doria et Kimi (et ses jolis talons clap clap clap) pour avoir eu le courage suicidaire de

m’accompagner dans cette torture et d’avoir égaillé les paroles du prof avec leur petite discussions plus que

philosophiques (#Stroumph)<3 <3

L’écart type estimé d’une population à partir d’un échantillon est la racine carrée de

la variance estimée.

L’écart type d’une population est la racine carrée de sa variance

BIOMEDECINE QUANTITATIVE – Introduction à l’analyse quantitative

18/18

Bisou également à Clémence, Sonia, Eugénie, Maylis, Sanaba, Ryan…. (Comme d’hab ne m’en voulait pas si

j’oublie des noms mais après 7h à taper cette m**** j’en ai un peu marre)

Un petit coucou à mes co-stagiaires de Pédiatrie.

Encore un grand bravo au comité de relecture (Vous êtes complètement fous d’avoir fait ça les gars :p)

Sur ce je tire ma révérence de ronéotypeuse. Bon semestre à tous !!

CR : On aura des QCM dans cette matière, le tout est de savoir s’il y aura des points négatifs (ce qui change

quand même pas mal les choses). Généralement c’est une question qu’on pose au Pr responsable de la matière,

qui est, pour les maths, le Pr Giorgi.

Il n’interviendra pas avant le 13 Avril, si quelqu’un se motive pour lui envoyer un mail ça serait cool ! Sinon on

attend patiemment la réponse en cours.

« La politique est l’art d’empêcher les gens de se mêler de ce qui les regarde »

Paul Valéry