notes de cours analyse donnees qualitatives avec annexe

Upload: ismail-meskini

Post on 04-Jun-2018

229 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    1/39

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    2/39

    2 2 Distributions pour donnes catgorielles

    1.3 Distinction entre variables continues et discrtes

    La distinction seffectue principalement laide du nombre de valeurs pouvant tre prises

    par la variable. En effet, dans la pratique, les moyens de mesures utilisent une discrtisationlie la prcision des instruments. Des variables discrtes prenant un grand nombre devaleurs peuvent tre considres comme continues.

    Dans la suite de ce cours, nous considrerons les variables rponses discrtes suivantes : Variables nominales. Variables ordinales. Variables discrtes de type intervalle avec peu de valeurs. Variables continues groupes par catgories.

    1.4 Distinction entre quantitatif et qualitatif

    Les variables nominales sont qualitatives (les catgories diffrent en qualit mais pasen quantit). Les variables de type intervalle sont quantitatives(diffrents niveaux corres-pondent diffrentes quantits de la caractristique dintrt). Les variables ordinales sont"entre les deux". On peut les voir comme des variables qualitatives (utiliser des mthodespour variables nominales) mais on les associe plus souvent au type intervalle. En effet, ellessont en gnral lies une variable continue sous-jacente quil est impossible de mesurer.Leur bonne gestion demande une bonne connaissance du problme (expertise), mais on peututiliser une grande varit de mthodes pour les analyser.

    2 Distributions pour donnes catgorielles

    2.1 Distribution binomiale

    De nombreuses applications considrent le cas o on observe un nombre fix ndobserva-tions binaires (succs-chec), soit y1, y2,...,yni.i.d. tqP(Yi= 1) = et P(Yi= 0) = 1 .Cest la loi de Bernoulli.

    Essais identiques : la probabilit de succs est la mme pour chaque essai. Essais indpendants : les variables {Yi}sont indpendantes.La variable Y =

    ni=1 Yi est distribue selon une loi Binomiale bin(n, )tq :

    p(y) =

    n

    y

    y(1 )ny, y= 0, 1, 2,...,n.

    avec :

    n

    y

    = n!y!(ny)! .De plus :

    E(Yi) = et var(Yi) = (1 ) .

    Et doncE(Y) =n et var(Y) =n (1 ) .

    Dans la pratique, il nest pas toujours garantit que des observations binaires successivessoient indpendantes. On utilise dans ce cas dautres distributions. Cest le cas lorsque lonfait des tirages de Bernoulli dans une population finie : On utilise alors la loi hypergom-

    trique.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    3/39

    2.2 Distribution multinomiale 3

    2.2 Distribution multinomiale

    Cest le cas ou la rponse Y peut avoir plus de deux valeurs. Soit yij = 1 si le rsultat

    de lessai i appartient la catgorie j, et yij = 0 sinon. Alors yi = (yi1, yi2,...,yic) est unessai multinomial avec

    nj=1 yij = 1. Soit nj =

    ni=1 yij. Le vecteur (n1, n2,...,nc) a une

    distribution multinomiale.

    Soitj =P(Yij = 1) .La loi multinomiale est :

    p (n1, n2,...,nc1) =

    n!

    n1!n2!...nc!

    n11

    n22 ...

    ncc .

    La distribution binomiale est un cas particulier avec c = 2.De plus :

    E(nj) =nj, var(nj) =nj(1 j), cov(nj, nk) =njk.

    2.3 Distribution de Poisson

    Cest le cas o la variable dintrt nest pas le rsultat dune somme finie de tests (ex :nombre de morts sur les routes en une semaine en Italie). Il ny a pas de limiten la valeurdey). La loi de probabilit de Poisson est :

    p(y) = ey

    y! , y= 0, 1, 2,...

    De plus, E(Y) = var(Y) = . Cette loi est utilise pour compter des vnements surve-nant alatoirement dans le temps ou dans lespace. Cest aussi une approximation de la loi

    binomiale pourn grand et petit, avec = n.Exemple :Si chacun des 50 millions de conducteurs en Italie a la probabilit 0.000002

    de mourir dans un accident de la route cette semaine, alors le nombre de morts Ya la finde la semaine est distribu selon uneBin(50000000, 0.000002), ou approximativement selonune loi de Poisson avec = n = 50000000 0.000002 = 100.

    Remarque :La moyenne est gale la variance. Cela implique que la variation est plusgrande lorsque la moyenne est grande.

    2.4 Sur-dispersion

    Dans la pratique, le comptage dvnements prsente souvent une variabilit plus grandeque celle prdite par les lois binomiales ou de Poisson. Ce phnomne est appel surdis-persion.

    En effet, nous avons suppos dans lexemple prcdent que chaque personne avait lamme probabilit de mourir dans un accident de la route pendant la semaine. En ralit,cette probabilit varie selon de multiples facteurs tels que : nbre de km parcourus, port dela ceinture de scurit, localisation gographique, etc.

    Cela induit des variations plus grandes que celles prdites par le modle de Poisson, quiest souvent trop simple pour reprsenter ce type de variables. On utilise souvent la place

    le modle ngatif-binomial, qui permet la variance dtre suprieure la moyenne.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    4/39

    4 3 Description de tables de contingence

    Si lon suppose des distributions binomiales ou multinomiales, le phnomne de sur-dispersion peut survenir lorsque la "vraie" distribution est en fait un mlange de diffrentes

    distributions binomiales dont les paramtres sont lis un phnomne non mesur.

    2.5 Lien entre modle Poissonien et multinomial

    En Italie cette semaine : Soit y1= nombre de personnes mortes en voitures, y2= nombrede personnes mortes en avion, et y3 = nombre de personnes mortes en train. Un modlede Poisson pour (Y1, Y2, Y3) considre ces variables comme indpendantes de paramtres(1, 2, 3).La loi jointe des{Yi}est le produit des densits. Le total n =

    Yia une loi de

    Poisson de paramtre

    i.

    Le modle Poissonien suppose que n est alatoire et non fix. Si lon suppose un modlePoissonien et que lon conditionne par rapport n, {Yi} na plus une loi de Poisson car

    chaque Yi< n.On a :

    P

    (Y1= n1, Y2= n2,...,Yc= nc)|

    Yi= n

    = P(Y1= n1, Y2= n2,...,Yc= nc)

    P(

    Yi= n)

    =

    i

    [exp(i)nii /ni!]

    exp(

    j) (

    j)n /n!

    = n!i

    ni!

    i

    nii ,

    avec i= i/

    j .Il sagit de la distribution multinomiale (n, {i}) .

    3 Description de tables de contingence

    3.1 Structure probabiliste pour tables de contingence

    3.1.1 Tables de contingence et distributions

    Soit X et Y deux variables rponses categorielles, X et Ypossdant respectivementI etJcatgories. Chaque individu est associ une des I Jcombinaisons de (X, Y). Ladistribution de (X, Y) est reprsente par une table Ientres pour la catgorie X, et Jentres pour la catgorieY, chaque cellule reprsentant une des(I J)combinaisons. Cette

    table sappelle une table de contingence (Karl pearson 1904) ou une table de classificationcroise ou table I J.

    La table 1 donne un exemple de table de contingence, extraite dun rapport analysantla relation entre la prise rgulire daspirine et loccurrence dun infarctus du myocardechez les physiciens. Ltude de 5 ans a analys de manire alatoire (randomized study)11034 physiciens prenant soit de laspirine, soit un placebo (sans savoir lequel des deux),en cherchant vrifier lhypothse selon laquelle la prise daspirine rduirait loccurrencedinfarctus.

    Notons ij la probabilit que P(X=i, Y =j ). La distribution ij est la distribution

    jointe de X et Y. Les distributions marginales sont les totaux par ligne et colonne

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    5/39

    3.1 Structure probabiliste pour tables de contingence 5

    Myocardial Infarction

    Fatal attack nonfatal attack no Attack

    Placebo 18 171 10.845

    Aspirin 5 99 10.933

    Tab. 1 Classification croise de lusage daspirine et de la prsence dun infarctus dumyocarde. Source : Preliminary report : Findings from the aspirin component of the ongoingPhysicians Health Study. New Engl. J. Med. 318 : 262-264 1988.

    des valeurs de ij. On note i+ la distribution marginale en ligne et +j la distributionmarginale en colonne, le + indiquant sur quel indice porte la somme :

    P(X=i) =i+=j

    ij et P(Y =j) =+j =i

    ij.

    Avec

    i i+ =

    j+j =

    i

    jij = 1. La distribution marginale apporte une infor-

    mation sur une seule variable.

    En gnral : Y =Rponse, etX=variable explicative.

    Pour une catgorie fixe de X, Ya une certaine distribution. On cherche tudier sesvariations en fonction des variations de X. On note j|ila probabilit pour un individu fixdappartenir la catgorie j (Y =j)sachant que X=i :

    j|i= P(Y =j | X=i) = iji+.

    On appelle distribution conditionnelle de y sachant X = i le vecteur de probabilit(1|i,...,J|i).

    En pratique bien entendu la distribution jointe, les distributions marginales et condi-tionnelles doivent tre estimes partir des ralisations des variables (X, Y). Notons n lenombre total dobservations etNij le nombre dobservations pour lesquelles X=ietY =j.Les ralisations de Nij, notes par nij, peuvent tre mises dans un tableau avec I lignes etJcolonnes. Ce tableau est appel un tableau de contingence I J,de dimension 2 ou deux entres. La distribution conjointe est estime dune faon naturelle par les frquences :

    pij =Nij

    n .

    La distribution marginalede Xsestime par les frquences marginales :

    pi+=J

    j=1

    pij 1 i I.

    Et il en est de mme pour la loi marginale de Y. On utilisera frquemment les notationssuivantes :

    ni+=J

    j=1

    nij n+j =I

    i=1

    nij

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    6/39

    6 3 Description de tables de contingence

    qui permettent dcrire

    pi+=

    ni+

    n et p+j =

    n+j

    n .

    A partir du tableau de contingence, nous pouvons estimer facilement la distribution condi-tionnelle de Y, tant donn X=i de la manire suivante :

    pj|i= nijni+

    .

    Les notions et dfinitions prsentes ci dessus se gnralisent facilement au cas duntableau de contingence plusieurs entres, et serviront dans lexpos dtaill des tests din-dpendances. En effet, de lusage des tables de contingence dcoule la mise au point decritres statistiques permettant de juger de limportance de la liaison entre deux variables.

    Colonne

    Ligne j Total

    i nij

    pij = nijN

    ni+pi+=

    ni+N

    Total n+j

    p+j = n+jN N

    (1.0)

    Tab.2 Notations pour les tables de contingence.

    Colonne

    Ligne 1 2 Total

    1 11

    1|1 12

    2|1 1+

    (1.0)

    2 21

    1|2 22

    2|2 2+

    (1.0)

    Total +1 +2 1.0

    Tab.3 Notations pour les probabilits jointes, conditionnelles et marginales.

    3.1.2 Sensibilit et spcificit

    Dans le cas dune tude diagnostic, ces termes font rfrence un diagnostic correct. Sensibilit = Le sujet est malade et le diagnostic est positif.

    Spcificit = Le sujet est sain et le diagnostic est ngatif.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    7/39

    3.1 Structure probabiliste pour tables de contingence 7

    Cancer du poumon Diagnostic

    Positif Negatif Total

    Oui 0.82 0.18 1.0

    Non 0.01 0.99 1.0

    Tab. 4 Distributions conditionnelles estimes pour le diagnostic du cancer du poumon.Source : Data from W. Lawrence et al., J. Natl. Cancer Inst. 90 : 1792-1800 1998.

    Pour une table2 2du format de lexemple, la sensibilit est 1|1tandis que la spcificitest2|2.

    Dans lexemple de la table 4 : Sensibilit estime = 0.82, Spcificit estime = 0.99.

    3.1.3 Indpendance de variable catgorielles

    La distribution conditionnelle de Y sachant Xscrit en fonction de la distributionjointe :

    j|i= ij/i+ pour touti,j.

    On dit que deux variables catgorielles sont indpendantes si la distribution jointe est leproduit des distributions marginales.

    ij =i++j i= 1,...,I and j = 1,...,J.

    Pour une table de contingence, cela signifie que la rponse en colonne est identiquequelque soit la ligne considre. Lorsque X etYsont indpendantes :

    j|i= ij/i+= (i++j) /i+= +j pouri = 1,...,I.

    Chacune des distributions conditionnelles de Y est identique la distribution marginale.On peut donc dire que 2 variables sont indpendantes lorsque

    j|1= ... = j|I, for j = 1, ...J

    ;

    i.e. la probabilit de la rponse (colonne) est identique pour chaque ligne. On dit aussi quily a homogeneit des distributions conditionnelles.

    3.1.4 Distributions de Poisson, binomiales et multinomiales

    Les distributions introduites prcdemment peuvent stendre au cas des effectifs dans

    une table de contingence. En effet, un modle Poissonien considre les effectifs Yij commedes variables indpendantes Poisson(ij). La probabilit jointe dobserver les effectifs nij estdonc le produit des probabilits P(Yij =nij)pour chaque cellule du tableau :

    i

    j

    exp(ij) nijij /nij !

    Lorsque la taille totale nde lchantillon est fixe, mais pas les effectifs des totaux deslignes et colonnes, alors cest le modle multinomial qui sapplique, les effectifs desIJcellulestant les valeurs prises. La probabilit jointe dobserver les effectifs nij est donc :

    [n!/(n11!...nIJ!)]ij

    nijij .

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    8/39

    8 3 Description de tables de contingence

    Souvent, les valeurs de la rponseY sont observes sparment pour chaque valeur deX.Dans ce cas l, le total des lignes est fix (par simplicit, on utilise la notation ni= ni+). On

    suppose alors que les ni observations de Y pour X =i sont indpendantes de probabilits(1|i,...,J|i). Les effectifs nij pour j = 1...J vrifient donc

    jnij = ni et sont rpartisselon la distribution multinomiale :

    ni!j

    nij!

    j

    nijj|i

    . (1)

    Si les tirages sont indpendants selon les diffrents niveaux de la variable X, alors laprobabilit jointe des effectifs du tableau total est le produit des multinomiales (1). Il sagitdu schma multinomial indpendant.

    Il arrive que les totaux en lignes et en colonnes soient fixs naturellement par lexprience.

    On est alors dans le cas moins frquent du schma hypergomtrique.

    3.1.5 Exemple des ceintures de scurit

    Des chercheurs du Massachussets ont analys des conducteurs impliqus dans un accidentde la route, en tudiant la relation entre le port de la ceinture (oui,non) et les dgats delaccident (mort,survie). Chaque accident venir sera donc enregistr et not dans une tablede contingence (cf table 5).

    Dgats de laccident

    Usage de la ceinture Mort Survie

    OuiNon

    Tab.5 Usage de la ceinture de scurit et dgts de laccident.

    La taille de lchantillon est donc alatoire : On peut traiter les effectifs comme desvariables de Poisson indpendantes de paramtres (11, 12, 21, 22).

    Supposons maintenant que les chercheurs tirent alatoirement 200 accidents parmi lesarchives de la police. La taille n de lchantillon est alors fixe. Il est possible de modliser

    les effectifs des 4 cellules par une loi multinomiale (200, (11, 12, 21, 22)).

    Supposons maintenant que les registres daccidents soient spars selon quil y ait eumort dhomme ou non. Les chercheurs peuvent donc tirer alatoirement 100 accidents ayantentrains la mort, et 100 autres non. En procdant ainsi, on fixe le total des colonnes 100,et on peut donc considrer que les effectifs de chaque colonne sont issus de lois binomialesindpendantes.

    Encore une autre approche, plus traditionnelle, consiste prendre 200 sujets et denassigner alatoirement 100 dentre eux au port de la ceinture, les 100 autres nen portantpas. On force ensuite les 200 sujets avoir un accident ... Le total des lignes est ainsi fix,

    et les effectifs de chaque ligne seront donc indpendants issus dun schma binomial.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    9/39

    9

    Rq : le design de lexprience dpend de ce que lon tudie, et du type dersultats que lon veut obtenir.

    3.1.6 Les diffrents types dtudes

    Cancer du Poumon

    Fumeur Cas Tmoins

    Oui 688 650

    Non 21 59

    Total 709 709

    Tab. 6 Classification croise entre le fait dtre fumeur, et la prsence dun cancer dupoumon.

    A la table 6 sont prsents les rsultats dune tude des liens entre le cancer du poumonet le fait dtre fumeur (def ici : fumer au moins une cigarette par jour lanne prcdentla question). Dans 20 hpitaux anglais ont t identifis 709 patients atteints dun cancerdes poumons : Ce sont les cas tudis. Pour chacun dentre eux, 709 patients nayant pas decancer ont aussi t interrogs sur leur comportement vis vis de la cigarette. Ce sont lestmoins.

    En gnral, la variable "prsence du cancer" est la variable rponse, et le fait de fumer lavariable explicative. Dans ce cas prcis, la distribution marginale de la var cancer est fixe,et cest le fait davoir t fumeur qui est la variable rponse. Ce type dtude sappelle unetude cas-tmoin.

    Exemple dobjectif :Comparer les fumeurs et les non-fumeurs en termes de proportionde cancer. Ce type dtude nous donne au contraire la distribution de fumeurs selon la va-riable cancer. Pour ceux ayant un cancer la proportion de fumeurs est688/709 = 0.970, maisseulement de 650/709 = 0.917 pour les tmoins. Ce type dtude ne permet pas destimerla probabilit de cancer selon le nombre de cigarettes fumes.

    Autre type dtude : Les sujets sont slectionns alatoirement dans la populationdes jeunes de 20 ans, puis on mesure le taux de cancers du poumon 60 ans aprs pour lesfumeurs et les non-fumeurs. Ce type dtude est prospectif et il en existe deux sortes :

    Essais cliniques : Les sujets sont assigns alatoirement la catgorie fumeur/non-fumeur.

    Cohortes :Les sujets font eux mmes le choix de fumer ou non.

    4 Comparaisons de deux proportions

    Cas o la rponse est binaire (succes/chec) et deux groupes sont tudis (Table 2x2).

    Les groupes sont en ligne, les catgories de Y en colonnes.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    10/39

    10 4 Comparaisons de deux proportions

    4.1 Difference de proportions

    Pour la ligne i, 1|i est la proba conditionnelle P(Y = 1), avec 2|i = 1 1|i. On notei= 1|i. La comparaison la plus basique est la diffrence 12qui vaut 0 lorsque les lignesont une distribution conditionnelle identique. Il est quivalent de comparer les proportionsde succs que les proportions dchecs.

    4.2 Risque relatif

    Si on tudie leffet dun traitement mdical sur la survie des patients, la diffrence entre0.010 et 0.001 peut avoir plus de signification quune diffrence entre 0.410 et 0.401. Lerisque relatif est dfini par :

    1/2.

    Lindpendance est atteinte lorsque le risque relatif est proche de 1. Ici : 0.010/0.001 = 10et0.410/0.401 = 1.02.

    4.3 Rapport de ctes (odds ratio)

    Pour une proba de succs , la cteest dfinie par

    =/(1 ).

    Quand > 1, un succs est plus probable quun chec. Considrons les tables 2x2. Pour lalignei, la cte est i= i/(1 i). Le rapport des ctes est dfini par :

    =12

    =1/(1 1)

    2/(1 2). (2)

    Dans le cas de distribution jointes pour (X, Y), la dfinition quivalente est :

    =11/1221/22

    =11221221

    .

    4.4 Proprits du rapport de ctes

    On a >0 avec = 1correspondant lindpendance de X etY. Lorsque 1 < 2).

    Remarque : Si = 4, la cte (odds) de succs est 4 fois plus grande pour la ligne 1que pour la ligne 2. Cela ne veut pas dire que 1= 4 2, qui correspond linterprtationdun "risque relatif" gal 4.

    Il est souvent plus pratique dtudier log . Lindpendance correspond log = 0, etle log odd ratios est symtrique par rapport cette valeur. Deux valeurs pour identiquesde log mais de signes opposs ont la mme force dassociation (exemple log 4 = 1.39 et

    log0.25 =1.39).Lodd ratio ne chnage pas lorsque lon change lorientation de la table. Il

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    11/39

    4.4 Proprits du rapport de ctes 11

    nest donc pas ncessaire didentifier la variable rponse pour calculer lodds ratio, mme sila dfinition 2 utilise i= P(Y = 1|X=i) .Ainsi on a :

    = 11221221

    =P(Y = 1|X= 1) /P(Y = 2|X= 1)

    P(Y = 1|X= 2) /P(Y = 2|X= 2)

    = P(X= 1|Y = 1) /P(X= 2|Y = 1)

    P(X= 1|Y = 2) /P(X= 2|Y = 2).

    Pour une table de contingence contenant des frquences, lestimation de lodd-ratio est :

    =n11n22n12n21

    .

    4.4.1 Exemple Aspirine et infarctus :

    Reprenons la table 1 et fusionnons les infarctus ayant entran la mort et ceux qui nelont pas entran. Parmi les 11034 physiciens prenant le placebo, 189 ont eu un infarctus,soit une proportion de189/11034 = 0.0171. Parmi ceux prenant de laspirine, la proportionest de 104/11037 = 0.0094. La diffrence des proportions est de 0.0171 0.0094 = 0.0077,et le risque relatif est0.0171/0.0094 = 1.82.La proportion dinfarctus chez ceux prenant unplacebo est 1.82 fois la proportion chez ceux prenant de laspirine. Lestimation des oddsratio est (189 10933)/(10845 104) = 1.83. La cte (odds) dun infarctus pour ceuxprenant un placebo est 1.83 fois la cte pour ceux prenant de laspirine.

    4.4.2 Etudes cas-tmoins et Odds Ratios :

    Dans ce cas, il nest en gnral pas possible destimer P(Y =j |X=i) , mais il estsouvent possible destimer lOR. En effet, illustrons le en examinant nouveau la table 6. Ilsagit de deux chantillons binomiaux deX=fumeur pour des niveaux fixs deY =prsencedun cancer du poumon. On peut estimer la probabilit quun sujet soit un fumeur, sachantquil ait un cancer du poumon. Soit 688/709 pour les cas, et 650/709 pour les tmoins. Onne peut pas estimer la probabilit davoir un cancer sachant le fait de fumer, ce qui seraitpourtant plus intressant. On ne peut donc pas estimer la diffrence de proportion, ni lerapport des probabilits de prsence dun cancer. La diffrence des proportions et le risquerelatif sont limits la comparaison des probabilits dtre un fumeur. On peut par contrecalculer le rapport de ctes (odds-ratio) :

    (688/709)/(21/709)(650/709)/(59/709)

    =688 59650 21

    = 3.

    On peut donc dire que lestimation de la probabilit de prsence dun cancer pour les fumeursest 3 fois plus leve que pour les non-fumeurs.

    LOdds Ratio comme mesure dassociation :LOR sinterprte comme une mesuredassociation. Sil est suprieur 1 la relation est croissante, et dcroissante sil est infrieur 1. Lorsquil est gal 1 il ny a pas dassociation. La valeur de lodds ratio indique ladirection ainsi que la force de lassociation.

    LOdds Ratio comme mesure du risque relatif (RR) :

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    12/39

    12 5 Extension aux tables I J

    odds ratio=relative risks1 21

    1

    Lorsque la prvalence de lvnement expliquer est faible (1et 2sont petites), loddsratio fournit une approximation du risque relatif. Cest le cas de lexemple "aspirine etinfarctus" o le risque relatif (1.82) et lodds-ration (1.83) sont trs proches.

    4.5 Association partielle dans une table 2 2

    Dans les tudes exprimentales (observational studies), des variables extrieures peuventavoir un impact sur la relation entre X et Y. Il faut donc contrler ces facteurs de confu-sion (confoundig factors) pour tre sr que leffet observ nest pas un effet indirect de lacovariable. On peut contrler les effets des covariables en assignant de faon alatoire les

    sujets lexposition des diffrentes modalits de la variable X,mais cela nest pas toujourspossible.

    Exemple : Si lon tudie les effets de la fume passive dans un couple (i.e. un non-fumeur qui vit au quotidien avec un fumeur) sur la prsence dun cancer du poumon, unetude peut sintresser comparer les personnes non-fumeur maries un(e) fumeur avecles personnes non-fumeur maries un(e) non-fumeur. Il est possible que les conjoints denon-fumeurs soient plus jeunes en moyenne que les conjoints de fumeurs, et les jeunes ontmoins de cancer. Une proportion plus faible cancer chez les poux de non-fumeurs peutsimplement reprsenter le fait quils sont en moyenne plus jeunes, et non pas les effets de lafume passive.

    Il faut donc contrler les covariables succeptibles davoir une influence (ici par exemple :age ou CSP).

    4.6 Tables partielles

    On peut contrler les effets dune covariable Z en tudiant la relation XY pour desniveaux fixs deZ. On construit des tables 2 2en extrayant des "tranches" de la table 3entresX Y Zpour des niveaux fixs deZ.Ce sont des tables partielles. On peut combinerces tables partielles dans une unique table appele table marginale XY en sommant lesfrquences quelque soit la valeur de Z. Ces tables ignorent Zet ne la contrlent pas. Elles

    ne contiennent aucune information sur Z.Les associations contenues dans un table partielle sont appelles associations condi-

    tionnelleset peuvent tre diffrentes de celles contenues dans une table marginale. Il peuttre dangereux danalyser uniquement les associations dans les tables partielles.

    5 Extension aux tables I J

    Dans le cas dune table2 2,une unique valeur (odds-ratios) peut rsumer lassociationentre les variables, mais cela nest gnralement pas possible pour les tables IJ sansperdre de linformation.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    13/39

    5.1 Odds ratios pour tablesI J 13

    Fig.1 Odds ratios locaux.

    5.1 Odds ratios pour tables I J

    Si lon considre toutes les associations possibles, il y a redondance de linformation. Onconsidre gnralement les(I 1)(J 1)odds-rations locaux suivants :

    ij = iji+1,j+1i,j+1i+1,j

    I= 1,...,I 1 J= 1,...,J 1.

    Les cellules utilises dans ce cas l sont adjacentes. Dans la table 1 lodds ratio local estimest de 2.08 pour les deux premires colonnes et de 1.74 pour les deux dernires. Ce quisignifie que dans chaque cas le cas le plus grave est plus probable pour le groupe prenant leplacebo (fatal contre non-fatal, et non-fatal contre "pas dinfarctus"). Le produit des deuxodds-ratios locaux est 3.63, qui est lodds ratio entre la premire colonne et la dernire.

    On peut dfinir dautres odds-ratios locaux :

    ij =ijIJiJIj

    I= 1,...,I 1 J= 1,...,J 1.

    Une illustration de ces deux possibilits est donne la figure 1.

    5.2 Coefficient dassociation entre variables ordinales

    Si les variablesXetYsont ordinales, il existe des coefficients dassociation particuliers.Supposons que les numros des lignes et des colonnes correspondent lordre "naturel", cest

    dire que si i < i

    , la modalit i vaut "moins" que la modalit i

    . Le coefficient introduit

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    14/39

    14 6 Infrence dans les tables de contingence

    dans ce paragraphe mesure si de "grandes" valeurs deXont tendance tre raliss pour de"grandes" valeurs deY.Cest donc une mesure de monoticit pour des variables qualitatives

    ordinales.Le coefficient le plus souvent utilis pour mesurer des dpendances monotones entre leslignes et les colonnes dun tableau de contingence est lede Goodman et Kruskall. Prenonsdeux couples (X1, X2) et (Y1, Y2) indpendants et ayant la mme distribution que (X, Y) .On appelleCla probabilit que les deux couples soient en accord positif, et D la probabilitquils soient en accord ngatif. On dfinit

    C=P(X1> X2 etY1> Y2) + P(X2> X1 etY2> Y1)

    etD= P(X1< X2 etY1 > Y2) + P(X2 > X1 etY2< Y1) .

    Le coefficient est donn par=

    C D

    C+ D.

    Ce coefficient est compris entre -1 et 1 et si X et Y sont indpendantes, alors = 0.Plusest grand, plus il y a un lien entre les 2 variables qualitatives. Si est ngatif, alors laliaison est negative.

    5.3 Coefficient kappa de Cohen

    La dernire mesure dassociation traite est le kappa de Cohen. Ce coefficient sappliqueuniquement dans un contexte bien particulier, ce qui met cette section un peu lcart.

    Supposons que plusieurs juges ou observateurs doivent classer Nobjets. Ce classement sefait, au moins partiellement, sur la base de critres subjectifs. Ce qui implique que lesjuges pourront classer les objets diffremment. Le coefficient mesure maintenant le degrdaccord entre les juges. Il est dfini dune faon gnrale par :

    = pApE

    1 pE

    o pA est la probabilit que les observateurs mettent le mme jugement, et pE est laprobabilit que les juges soient daccord au cas o ils jugeraient au hasard. Le coefficientest compris entre 0 et 1. En cas daccord parfait entre les juges, gal 1. Sils jugent defaon alatoire, est gal 0. Plus il y a de catgories, plus il est difficile datteindre un

    accord parfait. Par exemple, un gal 0.5 est plutot bon si la variable Ya 5 catgories.

    6 Infrence dans les tables de contingence

    6.1 Intervalle de confiance pour les paramtres dassociation

    6.1.1 Estimation par intervalle des odds-ratios

    Lodds ratio estim = n11n22n12n21 dune table2 2vaut 0 ousi un des nij = 0,et indfini

    si deux dentre eux sont gaux 0. La probabilit que cela arrive nest pas nulle, etE()et

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    15/39

    6.1 Intervalle de confiance pour les paramtres dassociation 15

    V ar()ne sont donc pas dfinies. On peut remplacer par

    =(n

    11+ 0.5)(n

    22+ 0.5)

    (n12+ 0.5)(n21+ 0.5),

    qui est moins biais que et qui converge asymptotiquement vers une loi normale centreen. Pour construire un intervalle de confiance pour , on utilise plutotlog ()et on montreque :

    log()

    =

    1

    n11+

    1

    n12+

    1

    n21+

    1

    n22

    1/2.

    En utilisant lapproximation asymptotique par la loi normale, on a alors

    log() z/2

    log()

    qui est intervale de confiance pour log().

    6.1.2 Estimation par intervalles des diffrences de proportions

    On peut considrer ici que les chantillons yi de chacun des groupes compars sontindpendants de loi binomiale (ni, i).On a i=

    yini

    desprancei et de variance i(1i)

    ni.

    On a 1 et 2 indpendants, et donc :

    E(1 2) =1 2,

    et

    (1 2) =

    1(1 1)

    n1+

    2(1 2)

    n2

    1/2.

    Pour estimer lcart type, on remplace1et2par leurs estimations, et on obtient lintervallede confiance suivant pour1 2 :

    (1 2) z/2 (1 2) .

    6.1.3 Estimation par intervalles pour le risque relatif (RR)

    Le risque relatif estim est r = 12 . On utilise ici aussi le log(r) qui converge plus vitevers la loi normale. On a

    (log(r)) =

    1 1

    n1+

    1 2n2

    1/2.

    On peut donc produire un intervalle de confiance pour log12

    :

    log(r) z/2 (log(r)) .

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    16/39

    16 6 Infrence dans les tables de contingence

    6.2 Tests dindpendance pour tables de contingence

    Dans cette section, nous allons tester lindpendance de deux variables qualitatives X(Jmodalits) etY (Imodalits), ce qui revient tester lhypothse nulle suivante :

    H0: ij =i..j 1 i I, 1 j J

    o tester

    H0: j|i= j. 1 i I, 1 j J.

    Lhypothse dindpendance de X et Yest donc quivalente lhypothse que les distri-butions conditionnelles soient identiques aux distributions marginales. Dans le langage nonmathmatique, on dit que lon teste lindpendance entre les lignes et les colonnes.

    6.2.1 Test du khi-deux

    La statistique de test habituellement utilise pour tester cette H0 est bien videmmentla statistique du khi-carr introduite en 1900 par Pearson, et dfinie par :

    X2P =Ii=1

    Jj=1

    (nij ij)2

    ij,

    o lesnij sont les diffrents lments du tableau de contingence et ij = ni.n.j

    n .La valeur deijest parfois considre comme la valeur attendue de Nijsous lhypothse dindpendance.La loi asymptotique de X2P sous H0 et pour n , est bien connue comme tant une loidu khi-carr avec df= (I 1) (J 1)degrs de libert. Nous rejetons donc H0 si la valeurdeX2Pest plus grande que

    21(df), le quantile (1 )dune distribution

    2 (df) .

    Le test du 2 est un test statistique qui aide simplement prendre une dcision quant la probabilit que les variables soient indpendantes lune de lautre ou non dans la popu-lation. La valeur du 2 nest pas elle-mme un bon indice de la taille ou de limportance delassociation entre les traits mesurs.

    6.2.2 Test du rapport de vraisemblance

    Le second test calcul partir des tables de contingence est celui du rapport de Vrai-semblance. Sa statistique de test est :

    G2 = 2Ii=1

    Jj=1

    nij(log nij log ij) .

    Sous lhypothse dindpendance, la statistique calcule suit elle aussi une loi de 2 avecle mme nombre de degr de libert que prcdemment. Plus les valeurs de X2P etG

    2 sontleves, plus il y a vidence dune dpendance. On ne peut par contre rien dire sur la force

    de cette dpendance.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    17/39

    17

    6.2.3 Approfondir un test du chi-deux

    Les statistiques X2P et G2 ne renseignent pas sur la force de lassociation. Il faut donc

    analyser plus finement cette association. On peut par exemple tudier les rsidus de Pearsondfinis par :

    eij =nij ij

    ij.

    Les rsidus reprsentent la contribution de chaque cellule de la table la statistique X2Pcar on a

    i

    je

    2ij =X

    2P. Plus la contribution est importante, plus cette cellule repsente

    un loignement par rapport lhypothse dindpendance. De plus, sous H0 les {eij} sontasymptotiquement gaussiens centrs. On peut aussi utiliser les rsidus de Pearson standar-diss dfinis par :

    nij ij

    [ij(1 pi+) (1 p+j)]1/2

    .

    Un rsidu standardis suprieur 2 ou 3 indique une cellule pour laquelle H0 nest pasvrifie.

    6.2.4 Limitations du test du chi-deux

    Ce test ncessite de grands chantillons, et doit tre complt par des analyses sur lesrsidus et sur les odds-ratios pour comprendre la teneur de lassociation. En outre, ce testne tient pas compte de lordre ventuel des modalits de XouY .Les statistiques X2P etG

    2

    ne changent pas quand on modifie lordre des colonnes ou des lignes. Si une des variablesest ordinale alors il faut utiliser dautres types de statistiques.

    Il est important de noter quil existe un test exact pour les tables 22 et les petitschantillons qui est nomm test exact de Fisher.

    7 Le modle linaire gnralis

    Le modle linaire gnralis constitue un cadre gnral permettant denglober unegrande quantit des modles disponibles. Cette famille de modles permet dtudier la liai-son entre une variable dpendante ou rponse Yet un ensemble de variables explicativesou prdicteurs X1,...,XK. Elle englobe le modle linaire gnral (rgression multiple,analyse de la variance et analyse de la covariance), le modle log-linaire et des techniques

    de modlisation telles que la rgression logistique ou la rgression de Poisson. Les modleslinaires gnraliss sont forms de trois composantes : La variable de rponse Y, composante alatoire laquelle est associe une loi de

    probabilit. Les variables explicatives X1,...,XKutilises comme prdicteurs dans le modle, d-

    finissent sous forme dune combinaison linaire la composante dterministe. Le lien dcrivant la relation fonctionnelle entre la combinaison linaire des variables

    X1,...,XKet lesprance mathmatique de la variable de rponse Y .

    Notons (Y1,...,Yn) un chantillon alatoire de taille n de la variable de rponse Y, lesvariables alatoires Y1,...,Yn tant supposes indpendantes. Dans certaines applications

    chaque variableYiest binaire ; on supposera alors que la composante alatoire est distribue

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    18/39

    18 7 Le modle linaire gnralis

    selon une loi binomiale. Dans dautres applications chaque rponse est un effectif distribuselon une loi de Poisson. Si chaque observation provient dune variable continue, on peut

    supposer une distribution normale de la composante alatoire. Les effectifs dune table decontingence sont en gnral modliss par une loi de Poisson.Concernant la composante dterministe, exprime sous forme linaire 0+ 1X1+ ... +

    KXK, elle prcise quels sont les prdicteurs servant dcrire la moyenne de Y que lonnote. Certaines des variablesXj peuvent se dduire de variables initiales utilises dans lemodle. Par exemple on pourra utiliser X3= X1 X2de faon tudier linteraction entreX1 etX2.

    La troisime composante dun modle linaire gnralis est le lien entre la composantealatoire et la composante dterministe. Elle spcifie comment lesprance mathmatique deY, note , est lie au prdicteur linaire construit partir des variables explicatives. Onpeut modliser une fonction monotone g ()de lesprance. On a alors :

    g () =0+ 1X1+ ... + KXK.

    La fonction g est appele fonction de lien. La fonction de lien g () = log() permet parexemple de modliser le logarithme de lesprance et donne lieu aux modles log-linaires.

    La fonction de lien g () = log 1 modlise le logarithme du rapport des chances. Elleest appele logit et est adapte au cas oest compris entre 0 et 1. Cest ce que lon appellela rgression logistique.

    Le choix du modle linaire gnralis dpend de la nature des donnes que lon souhaitetudier. Le tableau 7 rsume ces diffrents cas.

    Composante Lien Nature des variables de la Modle

    alatoire g () composante dterministe

    Normale Identit Quantitatives Rgression

    Normale Identit Qualitatives Analyse de la variance

    Normale Identit Mixtes Analyse de la covariance

    Binomiale Logit Mixtes Rgression logistique

    Poisson Log Mixtes Modles log-linaires

    Multinomiale Logit gnralis Mixtes Modles rponses multinomiales

    Tab.7 Types de modles couverts par le modle linaire gnralis.

    Lavantage des modles linaires gnraliss est de fournir un cadre thorique adaptaussi bien la modlisation de variables quantitatives que qualitatives. Lunification desdiffrents types de modles a permis de disposer de toute une batterie de techniques statis-tiques rigoureuses permettant daider le statisticien dans son choix de modle. On disposenotamment de plusieurs tests statistiques permettant de tester ladquation du modle auxdonnes.

    Deux statistiques sont utiles pour juger de cette adquation : La dviance normalise

    La statistique du khi-deux de Pearson.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    19/39

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    20/39

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    21/39

    8.2 Rgression logistique binomiale 21

    Fig. 2 Prsence ou absence dune maladie coronarienne (variable CHD de lexercice enannexe).

    Fig.3 Relation entre taille et ge chez les enfants.

    lorsque la variable dpendante est qualitative elle nadmet pas dchelle de mesure na-turelle et on modlise par consquent sa probabilit de prendre tel ou tel attribut. Dans legraphique 5, on a regroup les donnes concernant lge en catgories et calcul dans chacunede ces catgories le pourcentage de personnes souffrant dune maladie coronarienne :

    On constate que lon a une relation sigmodale, i.e. en forme de S, entre la proportionde maladie coronarienne et lge. On en dduit que pour modliser la probabilit de maladiecoronarienne en fonction de lge il faudra utiliser une relation sigmodale. En effet, uneprobabilit tant par dfinition comprise entre 0 et 1 le modle linaire nest bien entendupas appropri (puisquil ne limite pas les valeurs de notre probabilit au domaine comprisentre 0 et 1) et la relation est forcment non-linaire :

    8.2 Rgression logistique binomiale

    Lorsque lon est en prsence dune variable rponse binaire Y( valeur 0 ou 1) et dune

    variable explicative X, on note (x) = P(Y = 1 | X=x) = 1 P(Y = 0| X=x) . Le

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    22/39

    22 8 La rgression logistique

    Fig.4 Relation entre taille et ge chez les enfants : hypothse de Normalit.

    Fig.5 Pourcentage de personnes souffrant dune maladie coronarienne par catgorie dge.

    modle de rgression logistique consiste poser

    (x) = exp(0+ 1x)

    1 + exp (0+ 1x).

    De manire quivalente, on suppose que le log du rapport des ctes (odds ratios dans lalittrature anglaise), aussi appel logit, respecte la relation linaire suivante :

    logit [ (x)] = log (x)

    1 (x) =0+ 1x.

    Le modle logistique scrit donc :

    E(Y |x, 0, 1) =P(Y = 1| X=x, 0, 1) = exp(0+ 1x)

    1 + exp (0+ 1x).

    Plusieurs prdicteurs peuvent tre pris en compte. On notera dans ce cas xila valeur (ou lamodalit) prise par le prdicteur Xi.

    Remarque :Un choix intuitif pour modliser une probabilit est dutiliser une fonctionde rpartition (en S). Lorsque cette fonction est celle de la loi logistique (de la forme exp(x)1+exp(x))on obtient le modle de rgression logistique. Si lon utilise la fonction de rpartition de la

    loi normale, on obtient le modle probit(cf figure 8).

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    23/39

    8.3 Rgression logistique multinomiale ou polytomique 23

    Fig. 6 Pourcentage de personnes souffrant dune maladie coronarienne par catgorie dge :

    relation linaire.

    Fig. 7 Pourcentage de personnes souffrant dune maladie coronarienne par catgorie dge :relation sigmodale.

    8.3 Rgression logistique multinomiale ou polytomique

    LorsqueY reprsente une rponse qualitative J catgories (avec J>2), on utilisera largression logistique multinomiale, appele aussi rgression logistique polytomique. Celle ci

    consiste effectuer J-1 rgressions logistiques binomiales correspondant aux combinaisonsde la catgorie de rfrence avec les J-1 autres catgories. Dans le cas dune variableY 4catgories, en prenant comme catgorie de rfrence celle correspondant la catgorie n 4,on effectuera donc 3 rgressions logistiques binomiales diffrentes :

    log

    P(Y = 1 | X=x)

    P(Y = 4 | X=x)

    = log

    1(x)

    4(x)

    = 01+ 11x.

    log

    P(Y = 2 | X=x)

    P(Y = 4 | X=x)

    = log

    2(x)

    4(x)

    = 02+ 12x.

    logP(Y = 3 | X=x)

    P(Y = 4 | X=x)= log3(x)

    4(x)= 03+ 13x.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    24/39

    24 8 La rgression logistique

    Fig.8 Fonction de densit et de rpartition pour les lois normale et logistique.

    Lorsquil y a Kprdicteurs, on note x = (x1,...,xK) une valeur de X = (X1,...,XK) . Lemodle logistique a alors pour expression :

    (x) = exp(0+ 1x1+ ... + KxK)

    1 + exp (0+ 1x1+ ... + KxK)

    Estimer un modle de rgression revient estimer les coefficients de ce modle.

    8.4 Estimation et tests dans le modle logistique

    8.4.1 Estimation du modleOn utilise gnralement la mthode du maximum de vraisemblance. Lorsque les obser-

    vations yi, i= 1,...,n sont supposes indpendantes, la vraisemblance scrit :

    L (0, 1) =ni=1

    [P(Y = 1| x, 0, 1)]yi [1 P(Y = 1 | x, 0, 1)]

    1yi .

    Remarque :Lorsque lon est en prsence de mesures rptes pour chaque individu, lhypo-thse dindpendance des donnes nest pas plausible. Il faut alors utiliser dautres mthodestenant compte de la corrlation des donnes (modle marginal avec GEE, modle logistiqueconditionnel, modle mixte).

    8.4.2 Tests de significativit des coefficients

    Pour tester la significativit dun ou plusieurs coefficients, par ex. Ho : k = 0 versusHa : k = 0, on utilisera soit le test de Wald W, soit le test du rapport de vraisemblanceLR. Dans le cas o lon veut tester la significativit dun seul coefficient ces statistiquesscrivent :

    W =k

    k

    N(0, 1) ,LR= 2log

    LH0LHa2 (1) ,

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    25/39

    8.5 Logit et odds ratios 25

    tandis que si lon veut tester la significativit de plusieurs coefficients, par ex. H o: 1=2 = ... = M = 0,alors elles scrivent :

    W = (

    )12 (M) ,

    LR= 2log

    LH0LHa

    2 (M) ,

    oLH0 est la vraisemblance value sous la contrainte Ho et LHa la vraisemblance noncontrainte. La statistique de Wald fait intervenir les expressions matricielles suivantes :

    =

    XV X1

    , V =

    p1(1 p1) 0...

    . . . ...

    0 pn(1 pn)

    etX=

    1 x11 x1p...

    ... ...

    1 xn1 xnp

    .

    8.5 Logit et odds ratios

    Prenons le cas dun modle comportant une seule variable explicative dichotomique, cadune covariable x prenant 2 valeurs 0 et 1 (ex : sexe). On rappelle que si p1 = P(Y = 1| x = 1)etp0= P(Y = 1 | x = 0) ,alors lodds ratio est dfini par :

    OR =

    p11p1p01p0

    .

    Le modle logistique prcise que

    log it [P(Y = 1| x)] =0+ 1x.

    On a donc

    OR = explog it[P(Y=1|x=1)]

    explog it[P(Y=1|x=0)] =

    e0+1

    e0=e1.

    De sorte que dans un modle logistique, lexponentielle du coefficient dune variable expli-cative sinterprte comme son odds ratio.

    8.6 Interprtation des coefficients

    Nous avons vu que dans le cas dun modle comportant une seule variable explicativedichotomique lexponentielle du coefficient de cette variable sinterprtait comme un OddsRatio. Voyons ce qui se passe lorsque la variable explicative admet plusieurs catgories, i.e.elle est polytomique, ou quelle est continue, ou encore que le modle incorpore dautresco-variables ainsi que des interactions.

    8.6.1 Le cas dun modle additif, i.e. sans interactions

    Un modle est additif lorsque les co-variables x1, x2, . . . , xp entrent dans le modle demanire additive sans faire intervenir le produit dune variable avec une autre. Dans le casde la rgression logistique, le modle est additif sur lchelle logit , mais multiplicatiflorsquon considre la probabilit. Considrons le modle :

    log it [P(Y = 1 | x1,...,xp)] =0+ 1x1+ 2x2+ ... + pxp.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    26/39

    26 8 La rgression logistique

    O0 est la constante du modle. Pour illustrer, considrons le modle suivant :

    log it [P(Y = 1 | age, sexe)] =0+ 1age + 2sexe.

    o les variables explicatives sont lge et le sexe. Il sagit dun modle additif car il ny a pasdinteraction (de produit) entre les variables ge et sexe. Autrement dit, dans ce modle onpostule que leffet de lge et du sexe sont indpendants (sur lchelle logit). Graphiquement,cette hypothse implique que la droite reprsentant leffet de lge est simplement translatesur une distance 2 lorsquon passe dun genre lautre (cf figure9). Dans cet exemple, levieillissement a le mme effet chez les hommes et chez les femmes, mais le niveau absolu durisque est diffrent (les deux droites ne sont pas superposes). Autrement dit, un accrois-sement unitaire de lge augmentera le logit du mme montant quel que soit le genre, et lOdds Ratio associ la variable ge sera le mme pour les hommes et les femmes.

    Fig. 9 Relation entre le logit et lge chez les femmes et les hommes dans un modleadditif.

    8.6.2 La constante du modle

    La constante du modle sinterprte comme leffet de la catgorie de rfrence.Autrement dit, 0 permet de calculer la probabilit de y lorsque toutes les co-variablesx1, x2, . . . , xpsont nulles. Revenons notre exemple dun modle contenant lge et le sexe

    comme variables explicatives Nous avons arbitrairement choisi de coder les valeurs de lavariable sexe = 0 pour les femmes et sexe = 1 pour les hommes, de sorte que 0 sin-terprte comme le logit de la probabilit dune femme dge 0. En effet, la probabilitP(Y = 1 | age, sexe), e.g. dtre malade en fonction de son ge et sexe, scrit :

    P(Y = 1| age, sexe) = e0+1age+2sexe

    1 + e0+1age+2sexe

    De sorte que pour une femme dge 0 on obtient :

    P(Y = 1 | age = 0, sexe= 0) = e0

    1 + e0,

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    27/39

    8.6 Interprtation des coefficients 27

    sa probabilit ne dpendant que de 0.Pour un homme dge 0, en revanche, la probabilitdpend aussi de 1

    P(Y = 1 | age = 0, sexe= 1) = e

    0+1

    1 + e0+1 .

    8.6.3 Coefficient dune variable explicative dichotomique

    Lorsque la variable explicative est dichotomique lexponentielle du coefficient de cettevariable sinterprte comme lOdds Ratio (OR) associ au passage de la catgorie de rfrence0 la catgorie 1. Ainsi, dans notre exemple, lorsque la variable sexe passe de 0 1, on a

    OR = explog it[P(y=1|age,sexe=1)]

    explog it[P(y=1|age,sexe=0)] =

    e0+1age+2

    e0+1age =e2.

    Il sagit dun Odds Ratio ajust puisque modle comporte en plus de la variable dexposition

    sexe la variable explicative ge. Remarquons que lOdds Ratio ajust est en gnral diffrentde celui non ajust, mme si son calcul ne fait pas intervenir directement la variable ge,car lestimation de 2 dpend de celle de 1.

    8.6.4 Coefficient dune variable explicative polytomique

    Lorsque la variable explicative est polytomique, i.e. elle admet plus de deux catgories, onchoisi lune des catgories comme rfrence et lon calcule des Odds Ratios pour les autrescatgories par rapport cette rfrence. Considrons par exemple la variable ducationcomportant 3 niveaux : 1 pour niveau fin de scolarit , 2 pour apprentissage et 3 pour tudes suprieures . Pour reprsenter une telle variable lon considrera un modle avec,

    en plus de la constante, deux variables indicatrice ou dummy prenant la valeur 1 silindividu possde lattribut et 0 sinon : D1= 1si apprentissage, et 0 sinon. D2= 1si tudes suprieures, et 0 sinon.Le logit scritlog it [P(Y = 1| education)] =0+ 1D1+ 2D2.LOdds Ratio associ

    au passage de la catgorie 1 fin de scolarit la catgorie 2 apprentissage est :

    OR =explog it[P(y=1|education=2)]

    explog it[P(y=1|education=1)] =

    e0+1

    e0=e1 .

    Tandis que celui associ associ au passage de la catgorie 1 fin de scolarit la catgorie3 tudes suprieures est :

    OR =explog it[P(y=1|education=3)]

    explog it[P(y=1|education=1)] =

    e0+21

    e0=e2.

    8.6.5 Coefficient dune variable explicative continue

    Lorsque la variable explicative est continue on calcule un Odds Ratio associ un accrois-sement unitaire. Par exemple, considrons la variable ge mesure en annes et supposonsque la personne soit dge x. Le vieillissement dune anne est associ un Odds Ratiodonn par lexpression :

    OR =explog it[P(y=1|age=x+1)]

    explog it[P(y=1|age=x)]

    =e0+1(x+1)

    e

    0+1x =e1.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    28/39

    28 8 La rgression logistique

    8.7 Slection du modle logistique

    Le choix dun modle logistique est une opration complexe qui doit seffectuer pas

    pas. Lorsque lon est dans un cadre de la rgression logistique multinomiale, le nombre decoefficients contrler est trs important, et le choix du "bon" modle doit se faire dautantplus soigneusement. Afin de slectionner un modle, il faut procder par ordre et comparerceux ci deux deux, en considrant des suites de modles dit embots. Un modle M1 estembot dans un autre modle M2 lorsque toutes les variables prises en compte dans M1se retrouvent aussi dans M2. On peut aussi dire que le modle M1 est "plus petit" que lemodle M2, ou quil est moins complexe (c.a.d. avec moins de variables).

    8.8 Critres de qualit du modle

    Plusieurs indicateurs permettent dobtenir des renseignements sur le poids des variables

    explicatives et sur la qualit du modle choisi. De manire globale, la qualit dun modleest mesure par la vraisemblance : plus celle ci est grande, plus le modle est adapt auxdonnes. Dans le cadre de la rgression logistique, il est dusage dutiliser la place laquantit appele dviance, souvent note :

    =2Log (L) ,

    o L est la vraisemblance (Likelihood en anglais). Cette dfinition est diffrente de celledonne prcdemment, mais pour retrouver le terme D il suffit de retrancher la dviancedu modle satur.

    Sous lhypothse que deux modles sont embots, la diffrence entre la dviance dun

    modle M1 et celle dun modle M2 "plus petit" est donc une valeur positive, qui suit uneloi du2 dont le degr de libert est la diffrence entre le nombre de paramtres des modlesconsidrs. Lorsque le gain en terme de dviance (c.a.d. le gain en explication des donnesobtenu avec le modle le plus complet par rapport au modle le "plus petit") est faible, lap-value est leve. En effet, plus la p-value est leve, plus la diffrence des dviances estsusceptible de suivre une loi de 2, et plus les modles sont proches. On acceptera doncdes modles qui apportent un gain non ngligeable en terme de dviance, relativement aunombre de paramtres utiliss, cest dire des modles dont la p-value est faible.

    La dernire mesure de qualit de modle que nous utiliserons est le critre AIC pour"Akaike Information Criterion". Celui ci est dfini de la manire suivante :

    AIC=2log(L) + 2k,

    o L est la Vraisemblance du modle, et k le nombre de paramtre de celui ci. Ce critrepermet de construire un classement de modles statistiques tenant compte du principe deparcimonie. Les meilleurs ajustements correspondent aux plus faibles valeurs.

    8.9 Critres de slection de variables

    La premire tape lorsque lon souhaite slectionner un modle pertinent, est de reprerles variables explicatives qui ont une forte influence sur la variable tudier (ici la clas-sification des sons). Plusieurs possibilits existent pour effectuer cette tape, et nous en

    avons dj prsent quelques unes dans ltude des tables de contingence. Nous allons voir

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    29/39

    8.10 Tests de significativit des variables explicatives 29

    qutudier le gain en Deviance peut se ramener dans certains cas aux tests du maximum devraisemblance appliqus aux tables de contingences.

    Un autre critre communment utilis est celui du test de Wald. Lorsque lon estimeun modle logistique additif incluant toutes les variables explicatives, on peut mesurer unequantit gale au carr du rapport du coefficient estim sur lerreur commise. Cette quantitsuit un 2(1) lorsque le coefficient considr est gal 0. Lusage de ce test est donc deslectionner les variables susceptibles dtre exclues du modle final, correspondant des p-values leves, cest dire les variables avec une statistique de Wald faible (et donc une erreurde mesure importante). Ce test est utiliser en combinaison avec le critre des Deviancescar il peut induire des erreurs dapprciations.

    8.10 Tests de significativit des variables explicatives

    Il est possible de comparer le poids des diffrentes variables susceptibles dentrer dans lemodle. Cela peut tre fait par le biais des tables de contingences et des tests dindpendancede type 2,mais il est aussi possible dutiliser plusieurs rgressions logistiques pour chaquevariable susceptible dintervenir dans le modle. Il suffit ensuite les comparer au modle nefaisant intervenir que les constantes.

    Les valeurs obtenues en faisant ce test correspondent exactement au test dindpendancebas sur la vraisemblance prsent plus haut. Ces tests, en association avec le test dindpen-dance du 2, constituent une mesure fiable de linfluence des variables sur la classification.Une autre faon de reprer les variables pouvant tre exclues du modle final est de regarderla statistique de Wald associe aux coefficients estims pour ces variables pour le modlecomplet (incluant toutes les variables candidates)

    Le coefficient de Wald est obtenu en calculant le carr du rapport coefficient/erreurstandardise, et suit une loi de khi-deux 1 degr de libert lorsque le coefficient associ estnul. De grandes p-value correspondent donc aux coefficients que lon peut considrer commenuls et susceptibles dtre exclus du modle final.

    8.11 Recherche dinteractions

    Afin de dtecter les interactions susceptibles davoir de linfluence, il est dusage decomparer la dviance du modle avec interaction avec la dviance du modle additif associ.Dans la mesure o il sagit de modles embots, la diffrence des dviances suit l encoreune loi du2.De manire plus gnrale, la diffrence des dviances permet de tester lapportexplicatif dune suite de modle embots. Un modle ne modifiant que trs peu la dviance

    napportera que peu dinformation mais aura pour consquence dajouter des variables, cequi peut nuire la qualit destimation des paramtres. On choisira donc un modle le plusparcimonieux possible, faisant un compromis entre la part dinformation explique et lacomplexit.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    30/39

    30 Bibliographie

    Rfrences

    [1] Alan Agresti. Categorical data analysis. 2nd ed. Wiley Series in Probability and Mathe-matical Statistics., Chichester, 2002.

    [2] Andr Carlier, Gilles Celeux, Alice Gueguen, Abdallah Mkhadri, Jean-Pierre Nakache,Jean-Franois Petiot, and Jean-Christophe Turlot. Analyse discriminante sur variablesqualitatives. Prface de Jean-Jacques Daudin. Polytechnica, Paris, 1994.

    [3] D.D. Hosmer and S. Lemeshow. Applied logistic regression. John Wiley & son, 1989.

    ANALYSE DE DONNES CATGORIELLES

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    31/39

    Code et sorties de lexercice 3 du TP3 (exemple du cours)Ce j eu de donnes est anal ys dans Hosmer D. W. & Lemeshow S. ( 2000) : Appl i edl ogi st i c r egr essi on, 2nd edi t i on, J ohn Wi l ey & Sons, New Yor k

    /************************//* exercice3 sance3 *//************************/

    opt i ons pagesi ze=38 l i nes i ze=78 nodate; t i t l e; f oot not e ' TP3: Exer ci ce3' ;

    /* Sample data set: heart */

    /* Tri de la table heart suivant les valeurs 0 ou 1 de CHD */ proc

    by CHD;sort data=mal i b. heart out =Hear t ByCHD;

    run

    ;

    /* Affichage de la table heart: 1 page par modalit de CHD */

    procvar AGE AGRP;

    print data=Hear t ByCHD noobs;

    by CHD;run

    ;

    /* On supprime HeartByCHD dans la Work */proc delete data=Hear t ByCHD; run

    ;

    /* Graphique de CHD en fonction de AGE */proc

    t i t l e ' Gr aphe de CHD en f onct i on de AGE' ;gplot data=mal i b. hear t ;

    symbol col or =br own val ue=dot ;pl ot CHD*AGE;l abel CHD=' CHD_Y'

    AGE=' AGE_X' ;run;quit

    ;

    /* Reprsentation des modalits de CHD par classe d'ges */gopt i ons r eset =al l border cback=whi t e col ors=( bl ue darkbl ue) ct ext =bl ack;

    t i t l e c=bl ack f =swi ssb h=1.2 j =cent er ' Repr esent at i on de CHD par cl assed' ' ages' ;

    axi s1 l abel =( h=1 c=bl ack f=swi ssb ' Frequences' ) ;axi s2 l abel =( h=1 c=bl ack f=swi ssb ' Cl asses d' ' ages' ) ;

    procvbar AGRP / subgr oup=CHD raxi s=axi s1 maxi s=axi s2 caxi s=bl ack cout l i ne=whi t ecf r ame=l i gr ;

    gchart data=mal i b. hear t ;

    run;quit

    ;

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    32/39

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    33/39

    t i t l e ' ' ;

    /* Cration de formats personnaliss. Utile pour discrtiser une variable

    continue ou recoder une variable discrte */procval ue f AGRP 1=' 20- 29'

    format;

    2=' 30- 34' 3=' 35- 39' 4=' 40- 44' 5=' 45- 49' 6=' 50- 54' 7=' 55- 59' 8=' 60- 69' ;

    val ue f CHD 0=' Absent ' 1=' Pr esent ' ;run

    ;

    t i t l e;proc

    cl ass AGRP CHD;tabulate data=mal i b. hear t f or mat =8.1;

    f or mat AGRP f AGRP. CHD f CHD. ;

    l abel AGRP=' AgeGr oup' ;t abl e AGRP ALL, N*( ALL CHD) / box=' Fr equency Tabl e of AgeGr oup by CHD' RTS=12;keyl abel ALL=' Total ' N=' Fr equency' ;run

    ;

    Frequency Table ofAgeGroup by CHD

    Frequency

    Total CHD

    Absent Present

    AgeGroup 10 10 .

    20-29

    30-34 15 13 2

    35-39 12 9 3

    40-44 15 10 5

    45-49 13 7 6

    50-54 8 3 5

    55-59 17 4 13

    60-69 10 2 8

    Total 100 58 42

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    34/39

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    35/39

    procprint data=St atUni v; run

    ;

    /* L'instruction attrib sert dfinir les attributs d'une variable: tiquette

    + format + informat *//* format=n.d affiche un nombre sur n colonnes avec d dcimales */data

    set St at uni v;St at Uni v;

    at t r i b AGRP l abel =' Cl asse d' ' ages' f or mat =2.;at t r i b CHDmean l abel =' CHD moyen' f or mat =3.1;at t r i b AGEmean l abel =' Age moyen' f or mat =4.1;keep AGRP AGEmean CHDmean;wher e AGRP ne .;run

    ;

    procprint data=Stat Uni v noobs l abel ; run

    ;

    /* Le graphe suivant fait apparatre une courbe en forme de S (ou sigmode)*/

    /* ce qui est caractristique d'une fonction exp(ax)/(1+exp(ax)) du modlelogistique */

    gopt i ons r eset =al l border cback=whi t e ct ext=bl ack;

    proc

    t i t l e ' Gr aphe de Pr ob( CHD=1/ Age=x) ' ;gplot data=St atUni v;

    symbol i nt er pol =spl i nes /*join*/ val ue=dot ;l abel CHDmean=' Pr ( CHD=1) '

    AGEmean=' AGE' ;pl ot CHDmean*AGEmean / vaxi s=0 t o 1 by 0.2;run;quit

    ;

    proc delete data=St atUni v; run

    ;

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    36/39

    t i t l e ' Const r uct i on du modl e l ogi st i que' ;

    proc

    model CHD=AGE;logistic data=mal i b. hear t ;

    output out=sor t i es predprobs=i ndi vi dual ;run;quit

    ;

    Construction du modle logistique

    The LOGISTIC Procedure

    Informations sur le modle

    Data Set MALIB.HEART

    Response Variable CHD

    Number of Response Levels 2Model binary logit

    Optimization Technique Fisher's scoring

    Number of Observations Read 100

    Number of Observations Used 100

    Profil de rponse

    Valeurordonne

    CHD Frquencetotale

    1 0 58

    2 1 42

    Probability modeled is CHD=0.

    tat de convergence du modle

    Convergence criterion (GCONV=1E-8) satisfied.

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    37/39

    Statistiques d'ajustement du modle

    Critre Coordonne l'or igineuniquement

    Coordonne l'origineet

    covariables

    AIC 138.058 105.951

    SC 140.664 111.162

    -2 Log L 136.058 101.951

    Test de l'hypothse nulle globale : BETA=0

    Test Khi 2 DF Pr > Khi 2

    Likelihood Ratio 34.1070 1

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    38/39

    Assoc iat ion des probabil its prdi tes et desrponses observes

    Percent Discordant 17.0 Gamma 0.654

    Percent Tied 2.0 Tau-a 0.316

    Pairs 2436 c 0.821

    /* Evaluation de la qualit prdictive du modle en croisant les from-into */proc

    t i t l e ' Eval uat i on de l a qual i t du modl e' ;freq data=sor t i es;

    t abl e _f r om_*_i nt o_ / nopercent nor ow nocol chi sq;run

    ;

    Evaluation de la qualit du modle

    La procdure FREQ

    FREQUENCE Table de _FROM_ par _INTO_

    _FROM_(Format ted Valueof the Observed Response)

    _INTO_(Formatted Valueof the Predicted

    Response)

    Total

    0 1

    0 47 11 58

    1 15 27 42

    Total 62 38 100

    Statistiques pour table de _FROM_ par _INTO_

    Statistique DF Valeur Proba.

    Khi-2 1 21.2366

  • 8/13/2019 Notes de Cours Analyse Donnees Qualitatives Avec Annexe

    39/39

    Statistique DF Valeur Proba.

    Coefficient Phi 0.4608

    Coefficient de contingence 0.4185

    V de Cramer 0.4608

    Test exact de Fisher

    Cellule (1,1) Frquence (F) 47

    Pr = F unilatrale droite 4.501E-06

    Table de probabilit (P) 3.962E-06

    Pr