méthode d'analyse de liaison génétique pour des familles

NATHALIE SAVARD

Methode d’analyse de liaison genetique pour des

familles dans lesquelles il y a de l’heterogeneite

non-allelique intra-familiale

Memoire presentea la Faculte des etudes superieures de l’Universite Lavaldans le cadre du programme de maıtrise en statistiquepour l’obtention du grade de Maıtre es sciences (M.Sc.)

FACULTE DES SCIENCES ET DE GENIEUNIVERSITE LAVAL

QUEBEC

2005

c©Nathalie Savard, 2005

Resume

Dans cet ouvrage, une methode d’analyse de liaison genetique qui tient compte de

l’heterogeneite non-allelique est developpee. Nous proposons une modification a l’ana-

lyse a un locus par le modele de Smith qui tient compte de l’heterogeneite inter-familiale

afin de s’adapter a la presence d’heterogeneite intra-familiale. Notre approche consiste

d’abord a decomposer des familles tri-generationnelles en branches individuelles, soit

en familles bi-generationnelles. Par cette decomposition, l’heterogeneite intra-familiale

est «transformee» en heterogeneite inter-familiale. Les familles bi-generationnelles sont

ensuite analysees a l’aide d’un locus et du modele de Smith.

La puissance de la methode proposee est comparee a celle de plusieurs autres ana-

lyses, notamment a celle de l’analyse des familles tri-generationnelles lorsqu’il y a

heterogeneite intra-familiale. On verifie egalement si le decoupage des familles fait gon-

fler la proportion d’erreurs de type I.

Abstract

This study presents a linkage analysis method for cases of recombination heterogeneity

when it is located in bilineal pedigrees. We propose a modification of the single-locus

analysis by Smith’s admixture model – which is concerned with inter-familial hetero-

geneity – so it becomes more appropriate for cases of intra-familial heterogeneity. Our

approach first consists in decomposing large pedigrees into nuclear pedigrees so that

the intra-familial heterogeneity of the large pedigrees is transformed into inter-familial

heterogeneity between the nuclear pedigrees. Then, the nuclear pedigrees are considered

both with a single-locus analysis and Smith’s admixture model.

The power of the proposed method is compared to the power of other methods, inclu-

ding the power of the specific case where there is intra-familialheterogeneity in large

pedigrees. We also verify if the decomposition of the pedigrees results in a bigger pro-

portion of type I errors.

Avant-propos

Je tiens tout d’abord a remercier ma codirectrice, Mme Chantal Merette, directrice

du Laboratoire de biostatistique et de psychiatrie genetique du Centre de recherche

de l’Universite Laval a Robert-Giffard. C’est elle qui m’a initiee a la statistique en

psychiatrie genetique et c’est grace a elle que je peux enfin faire ce dont j’ai envie :

travailler dans le domaine scientifique tout en ayant l’impression d’aider des gens. Mme

Merette m’a soutenue tout au long de ce projet, est demeuree disponible et m’a meme

encouragee lorsque j’ai effectue un sejour en Nouvelle-Zelande. Aussi, elle m’a accueillie

dans son equipe en me fournissant un espace de travail dans lequel regnait une at-

mosphere agreable. Je remercie M. Louis-Paul Rivest, professeur au Departement de

mathematiques et de statistique de l’Universite Laval, d’avoir accepte de codiriger ce

projet dans un domaine si different de la statistique. M. Rivest a contribue en emettant

ses points de vue et ses commentaires constructifs lors de la redaction de cet ouvrage.

J’aimerais egalement remercier mes amis, qui n’y sont pas non plus pour rien. Benoıt

Pouliot m’a fourni des conseils judicieux de programmation avec le logiciel Perl, Patrick

Gagnon a contribue a agrementer d’une foule d’anecdotes une session en Nouvelle-

Zelande et mon amie la plus coloree, Marianne Fournier, m’a donne envie de continuer

en me permettant de passer des moments de divertissement inoubliables. Merci a vous

tous.

Je desire bien sur, remercier ma famille pour leur soutien et leurs encouragements.

Si on ne m’avait pas laissee jouer avec une calculatrice il y a de ca 20 ans, je ne serais

jamais devenue statisticienne. Par dessus tout, je remercie mon copain, Jean-Hubert

Smith, de m’avoir si patiemment conseillee et epaulee tout au long de ce projet.

Finalement, le soutien financier de la part d’Hydro-Quebec, du bureau international

de l’Universite Laval, de ma famille ainsi que des fonds de recherche de M.Rivest et de

Mme Merette ont ete apprecies.

Table des matieres

Resume ii

Abstract iii

Avant-Propos iv

Table des matieres v

Liste des tableaux vi

Table des figures vii

INTRODUCTION 1

CHAPITRE I. INTRODUCTION A LA BIOLOGIE GENETIQUE 3

1.1 Quelques notions de biologie moleculaire . . . . . . . . . . . . . . . . . 3

1.1.1 Les cellules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1.2 Les genes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.3 Loi mendelienne de segregation . . . . . . . . . . . . . . . . . . 5

1.1.4 Loi mendelienne d’assortiment independant . . . . . . . . . . . 8

1.1.5 Modes de transmission . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.6 Principe d’equilibre d’Hardy–Weinberg . . . . . . . . . . . . . . 11

1.2 Introduction aux probabilites . . . . . . . . . . . . . . . . . . . . . . . 12

1.2.1 Theoreme de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2.2 Notion d’independance en statistique . . . . . . . . . . . . . . . 14

1.2.3 Explications des resultats de Mendel . . . . . . . . . . . . . . . 14

1.3 Notation utilisee en genetique . . . . . . . . . . . . . . . . . . . . . . . 15

1.3.1 Presentation d’un pedigree . . . . . . . . . . . . . . . . . . . . . 15

1.3.2 Notion de phase . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

CHAPITRE II. CONCEPTS DE GENETIQUE 20

2.1 Fraction de recombinaison . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.1 Calcul de la fraction de recombinaison . . . . . . . . . . . . . . 20

2.1.2 Lien entre fraction de recombinaison et liaison . . . . . . . . . . 22

vi

2.2 Notation pour cet ouvrage . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3 Notion de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.4 Le lod-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.5 Heterogeneite genetique . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.5.1 Test d’heterogeneite entre les familles . . . . . . . . . . . . . . . 36

2.5.2 Heterogeneite intra-familiale : proposition de methode d’analyse 38

CHAPITRE III. SIMULATIONS DE PEDIGREES 43

3.1 Algorithme utilise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.2 Fichier de structure des simulations . . . . . . . . . . . . . . . . . . . . 50

3.3 Description des donnees simulees . . . . . . . . . . . . . . . . . . . . . 52

CHAPITRE IV. ANALYSE SOUS HETEROGENEITE 63

4.1 Plan des analyses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.2 Evaluation de la puissance . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.2.1 Moyennes des lod-scores . . . . . . . . . . . . . . . . . . . . . . 70

4.2.2 Comparaisons des methodes d’analyse . . . . . . . . . . . . . . 72

4.3 Erreur de type I du modele sans heterogeneite . . . . . . . . . . . . . . 79

CHAPITRE V. UNE FONCTION DISCRIMINANTE 83

5.1 Presentation des scenarios . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.2 Presentation des lod-scores . . . . . . . . . . . . . . . . . . . . . . . . 86

5.3 Lod-scores selon la sensibilite et la specificite . . . . . . . . . . . . . . . 89

CONCLUSION 92

BIBLIOGRAPHIE 94

Bibliographie 94

A Fichiers associes au programme SLINK 96

A.1 Partie I. Fichiers d’entree . . . . . . . . . . . . . . . . . . . . . . . . . . 96

A.2 Partie II. Fichier de sortie . . . . . . . . . . . . . . . . . . . . . . . . . 98

B Fichiers associes au programme MLINK 100

B.1 Partie I. Fichiers d’entree . . . . . . . . . . . . . . . . . . . . . . . . . . 100

B.2 Partie II. Fichier de sortie . . . . . . . . . . . . . . . . . . . . . . . . . 101

Liste des tableaux

1.1 Genotypes et phenotypes pour le locus du groupe sanguin. . . . . . . . 10

1.2 Penetrances completes et incompletes. . . . . . . . . . . . . . . . . . . 11

1.3 Denombrement de genotypes pour la deuxieme experience de Mendel. . 13

1.4 Explications relatives a la phase inconnue. . . . . . . . . . . . . . . . . 18

3.1 Lod-scores obtenus lors des simulations sous l’hypothese alternative. . . 53

3.2 Lod-scores obtenus pour l’analyse d’une partie de famille tri-generation-

nelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.3 Probabilites obtenues pour differentes valeurs de r et de x. . . . . . . . 56

3.4 Lod-scores associes a differentes valeurs de r et de x. . . . . . . . . . . 56

3.5 Calcul des frequences esperees pour les lod-scores de la simulation. . . . 60

3.6 Frequences esperees pour les lod-scores de la simulation. . . . . . . . . 61

3.7 Lod-scores observes pour les 100 groupes de 10 familles. . . . . . . . . . 61

4.1 Nomenclature. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.2 Moyennes et ecarts-types obtenus pour les lod-scores, les valeurs de θ et

les valeurs α. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.3 Estimations de l’erreur de type I. . . . . . . . . . . . . . . . . . . . . . 79

4.4 Test de Mc Nemar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.5 Proportions attendues et obtenues de rejet de H0 : il n’y a pas de liaison. 82

5.1 Definition de la sensibilite et de la specificite. . . . . . . . . . . . . . . . 84

5.2 Presentation des scenarios. . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.3 Moyennes et ecarts-types obtenus pour les lod-scores resultants des ana-

lyses sous un modele d’heterogeneite. . . . . . . . . . . . . . . . . . . . 87

A.1 Fichier simped.pre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

A.2 Fichier simdata.dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

A.3 Fichier slinkin.dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

A.4 Fichier pedfile.dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

B.1 Fichier pedfile.dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

B.2 Premiere partie du fichier outfile.dat. . . . . . . . . . . . . . . . . . . . 101

B.3 Deuxieme partie du fichier outfile.dat. . . . . . . . . . . . . . . . . . . . 102

B.4 Troisieme partie du fichier outfile.dat. . . . . . . . . . . . . . . . . . . . 103

Table des figures

1.1 Premiere experience realisee par Mendel. . . . . . . . . . . . . . . . . . 6

1.2 Differents genotypes possibles pour les descendants de memes parents. . 7

1.3 Deuxieme experience realisee par Mendel. . . . . . . . . . . . . . . . . . 9

1.4 Exemple de pedigree. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.5 Genotype a phase connue et genotype a phase inconnue. . . . . . . . . 18

2.1 Exemple servant au calcul de la fraction de recombinaison. . . . . . . . 21

2.2 Genotypes bivaries possibles pour l’individu 1. . . . . . . . . . . . . . . 25

2.3 Genotypes bivaries possibles pour l’individu 1. . . . . . . . . . . . . . . 26

2.4 Recombinants parmi les descendants de l’individu 4. . . . . . . . . . . . 26

2.5 Vraisemblance en fonction de theta. . . . . . . . . . . . . . . . . . . . . 29

2.6 Maximisation du log du ratio de vraisemblances afin de trouver le lod-score. 30

2.7 Cas d’heterogeneite genetique intra-familiale. . . . . . . . . . . . . . . . 33

2.8 Deductions des recombinaisons pour une famille heterogene. . . . . . . 35

2.9 Decomposition d’une famille tri-generationnelle. . . . . . . . . . . . . . 41

3.1 Famille a partir de laquelle l’exemple de simulations est realise. . . . . . 44

3.2 Resultats obtenus pour la simulation des genotypes des individus 1 a 6. 49

3.3 Fichier utilise pour les simulations. . . . . . . . . . . . . . . . . . . . . 51

3.4 Famille simulee. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.5 Partie du fichier utilisee pour expliquer les resultats des simulations. . . 54

3.6 Alleles des marqueurs pour deux familles. . . . . . . . . . . . . . . . . . 57

3.7 Diagramme de la probabilite que x enfants soient informatifs. . . . . . 59

3.8 Histogramme des lod-scores obtenus. . . . . . . . . . . . . . . . . . . . 62

4.1 Cas d’heterogeneite genetique intra-familiale. . . . . . . . . . . . . . . . 66

4.2 Schema des analyses et simulations realisees. . . . . . . . . . . . . . . . 69

4.3 Distributions des valeurs Z·,r(θ) et Z·,·,r(θ) . . . . . . . . . . . . . . . . 72

4.4 Familles bi-generationnelles ou l’individu 4 a une phase connue et inconnue. 73

4.5 Pedigree de trois generations heterogene et homogene. . . . . . . . . . . 74

4.6 Distributions des valeurs Z·,r(θ) et Z?·,r(θ) . . . . . . . . . . . . . . . . . 74

4.7 Distributions des valeurs Z?·,·,rhet

(θ) et Z?·,rhet

(θ) . . . . . . . . . . . . . . 75

4.8 Distributions des valeurs Z?·,·,rhet

(θ) et Z?·,·,r(θ). . . . . . . . . . . . . . . 76

4.9 Distributions des lod-scores Z·,r(θ) , Z·,·,r(θ) , Z?·,r(θ) , Z?

·,rhet(θ) , Z?

·,·,r(θ)

et Z?·,·,rhet

(θ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

ix

5.1 Choix des individus atteints par la fonction discriminante. . . . . . . . 86

5.2 Choix differents de la fonction discriminante pour un meme scenario. . 86

5.3 Lod-scores pour les grandes familles et une covariable analysees sous un

modele Ad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.4 Lod-scores pour les petites familles et une covariable analysees sous un

modele Ad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

INTRODUCTION

Dans le domaine de la sante, plusieurs etudes familiales, d’adoption et de jumeaux

ont ete realisees. Grace a ces etudes, on sait aujourd’hui que plusieurs maladies sont

hereditaires. Pour ces maladies, on cherche le gene de vulnerabilite. Une methode de

localisation de genes efficace et connue est l’analyse de liaison : il s’agit d’une analyse

statistique effectuee a partir de grandes familles dont plusieurs membres sont atteints

d’une maladie d’interet qui consiste a parcourir le genome afin de detecter la liaison.

La fraction de recombinaison est le parametre qui mesure la liaison. Lorsque la fraction

de recombinaison est grande, c’est-a-dire lorsqu’elle s’approche de 1/2 , nous concluons

que le gene de la maladie n’est pas a proximite du marqueur deja localise. Lorsque la

fraction de recombinaison est petite, les deux genes semblent plus souvent etre transmis

ensemble que separement. Dans ce cas, on conclut qu’il y a liaison entre les deux genes,

donc que le gene a localiser est situe pres du gene d’emplacement connu. L’analyse de

liaison est efficace : elle a permis, entre autre, de localiser les genes responsables de la

fibrose kystique et de la neurofibromatose (Lathrop et Weeks, 1995).

Les genes responsables d’autres maladies comme l’hypertension, la sclerose en plaques,

l’arthrite, la depression et le psoriasis (Schork et al., 1993) n’ont malheureusement

pas encore ete cibles et cela peut etre du au fait qu’il s’agit de maladies complexes.

Ces maladies ne sont pas monogeniques : il n’y a pas necessairement une seule mala-

die pour un seul gene, et cela peut donner lieu a plusieurs situations differentes. Par

exemple, deux genes peuvent interagir ensemble et causer la maladie (epistasie). Au-

trement, d’une famille a l’autre, il se peut que le gene qui est responsable de la maladie

ne soit pas le meme : il s’agit d’heterogeneite genetique. Parfois, l’heterogeneite peut

se presenter a l’interieur d’une meme famille et ainsi, certains membres peuvent etre

atteints de la maladie de type A et d’autres, de celle de type B. Aussi, il est possible

que la definition du phenotype soit incertaine. Il peut meme y avoir de la pleıotropie,

c’est-a-dire qu’il se peut qu’un gene s’exprime de plusieurs facons en apparence non

reliees dans le phenotype d’un seul individu. Toutes ces situations envisageables lors de

l’etude d’une maladie complexe rendent l’analyse de liaison beaucoup plus ardue. La

situation precise a laquelle on s’attarde ici est celle ou il y a de l’heterogeneite genetique

a l’interieur des familles.

INTRODUCTION 2

Pour realiser cet ouvrage, j’ai eu l’occasion de travailler avec l’equipe du Centre de Re-

cherche de l’Universite Laval a Robert-Giffard. Nous nous sommes interesses a la psy-

chiatrie genetique et, plus particulierement, a la schizophrenie et a la maladie bioplaire,

qui sont des maladies complexes. L’echantillon recueilli par les membres du Centre de

Recherche au cours des 15 dernieres anees compte, a ce jour, 48 familles etendues du

Quebec provenant plus particulierement de Chicoutimi et de Beauce, dans lesquelles il

y a environ 1000 sujets pour qui on a recueilli un echantilon d’ADN. Comme les familles

du Centre de Recherche sont etendues, on suspecte la presence d’heterogeneite intra-

familiale. Bien que l’efficacite de l’analyse de liaison soit connue dans des cas simples, on

ne sait pas ce qui pourrait arriver dans un cas d’heterogeneite genetique intra-familiale

puisque, dans la litterature, moins d’attention a ete portee a l’etude de l’heterogene-

ite intra-familiale qu’a l’etude de l’heterogeneite inter-familiale. C’est pourquoi, dans

cet ouvrage, il sera question de methodes d’analyses qui traitent l’heterogeneite geneti-

que a l’interieur des familles. Une methode de traitement l’heterogeneite intra-familiale

pouvant s’appliquer a n’importe quelle maladie heriditaire complexe est proposee. Il

s’agit en gros de diviser les familles en familles nucleaires et d’appliquer une demarche

connue qui traite l’heterogeneite inter-familiale sur les petites familles. Par simulations

de familles dans lesquelles il y a de l’heterogeneite, nous obtenons une augmentation de

63% de l’evidence de liaison lorsqu’on applique la methode de decoupage des familles

par rapport a l’analyse de liaison usuelle.

Le premier chapitre presente une introduction a la biologie genetique afin de claire-

ment poser le probleme. Le second chapitre, pour sa part, introduit des concepts de

genetique et met en evidence le probleme d’heterogeneite intra-familiale a l’aide de

calculs de lod-scores. Dans le troisieme chapitre, la methode de simulations est ex-

pliquee et est accompagnee d’un exemple. Aussi, les donnees simulees sont decrites.

Le quatrieme chapitre est constitue des resultats de comparaisons de puissance pour

les diverses methodes d’analyse utilisees et on discute de l’erreur de type I. Le dernier

chapitre est une extension des analyses d’heterogeneite dans le cas ou on utilise une

covariable.

CHAPITRE I

INTRODUCTION A LA BIOLOGIE GENETIQUE

Le scientifique Gregor Mendel a realise des experiences sur la genetique qui sont au-

jourd’hui tres connues. On pourrait toutefois se demander la raison de la popularite de

ces experiences.

Le present chapitre a pour objectif d’expliquer les notions de biologie genetique ne-

cessaires a la comprehension du reste de cet ouvrage. Dans un premier temps, une

breve introduction a la biologie moleculaire est presentee. A la section suivante, une

explication des probabilites est donnee et la derniere section porte sur la notation uti-

lisee en genetique. A la fin de ce chapitre, les experiences de Mendel et les raisons de la

popularite de celles-ci ne seront plus un secret pour le lecteur.

Le lecteur deja a l’aise avec les notions qui touchent ces domaines peut passer di-

rectement au chapitre II, tandis que le lecteur interesse a en savoir plus peut se referer

aux ouvrages de Campbell (1995) et de Thompson (1986).

1.1 Quelques notions de biologie moleculaire

Cette section presente une introduction au notions du vaste monde de la biologie qui sont

utiles pour comprendre les analyses realisees plus loin. En premier lieu, les differentes

cellules ainsi que leur contenu sont decrites. Ensuite, deux des celebres experiences de

Mendel sont presentees, les differents modes de transmission genetiques sont expliques

et une loi gouvernant le bassin genetique des populations est citee.

1.1.1 Les cellules

En 1839, le physiologiste Theodor Schwann avancait que les cellules sont les briques

des batiments que sont les organismes. On sait aujourd’hui que chacune des cellules

I. INTRODUCTION A LA BIOLOGIE GENETIQUE 4

contient plusieurs mecanismes qui lui permettent entre autre de survivre et de se re-

produire. On sait egalement que l’etre humain est constitue de deux sortes de cellules,

soient les cellules somatiques et les cellules de reproduction ou gametes.

Cellules somatiques

La cellule est principalement constituee d’une membrane qui l’entoure, de differents

equipements internes qui sont essentiels a son maintien en vie ainsi que d’un noyau

qu’on appelle le nucleon. C’est le nucleon qui contient les chromosomes de l’organisme.

Les chromosomes, a leur tour, contiennent l’information genetique : ils sont constitues

de chaınes d’acide desoxyribonucleique (ADN) enroulees autour de proteines.

Chez l’humain, le nucleon des cellules somatiques contient 46 chromosomes. Ces chro-

mosomes sont des cellules diploıdes : elles sont representees par paires. Pour chacune

des 23 paires de chromosomes, une molecule provient de la mere et une autre provient

du pere. Des 46 chromosomes des cellules somatiques, 44 chromosomes sont des paires

d’autosomes (des chromosomes non-sexuels) et les deux chromosomes restants consti-

tuent une paire de chromosomes sexuels (XX ou XY).

Cellules de reproduction ou gametes

Contrairement aux cellules somatiques, le nucleon d’une cellule de reproduction pos-

sede 23 chromosomes. Ces cellules sont haploıdes ; il y a un seul jeu de chromosomes

dans chacune d’elles. Comme les cellules de reproduction sont constituees de la moitie

du nombre de chromosomes presents dans les cellules somatiques, on peut deduire que

les 23 chromosomes des gametes sont le resultat de l’addition de 22 autosomes et d’un

chromosome sexuel (X ou Y).

Le zygote est forme par l’union des gametes lors de la fecondation ou syngamie. Il est

diploıde : il est compose des 23 chromosomes du pere et des 23 chromosomes de la mere.

Le lecteur doit noter que dans cet ouvrage, on ne s’interessera qu’a la segregation auto-


somale, soit le processus par lequel le code genetique du descendant est forme a partir

de celui de ses parents dans le cas des chromosomes non-sexuels.

1.1.2 Les genes

Dans le cas des cellules somatiques comme dans le cas des gametes, le gene est un seg-

ment precis de la molecule d’ADN ou du chromosome. Donc, chacun des chromosomes

porte des milliers de genes. L’emplacement exact du gene sur le chromosome est ap-

pele locus. Chacun des genes a pour fonction de programmer des cellules afin qu’elles

puissent synthetiser differentes proteines. Lorsqu’un gene est active, les cellules synthe-

tisent des proteines sous l’action desquelles s’expriment les caracteres hereditaires de

l’individu. Si on comprend quand et pourquoi un gene est active, on a une idee de sa

fonction.

Les variations entre les caracteres hereditaires qu’on retrouve entre les individus sont

expliques par les differentes formes que peuvent prendre un meme gene qu’on nomme

allele. Ce sont les differentes combinaisons des alleles sur un meme locus d’une paire de

chromosomes qui vont correspondre a un ou des caracteres physiques ou physiologiques

precis chez un individu.

1.1.3 Loi mendelienne de segregation

Des 1866, le scientifique et botaniste Gregor Mendel a decouvert la segregation dans le

cadre d’une experience sur des plants de pois. La figure 1.1 est une representation des

observations de Mendel. En croisant des pois a graine ronde a des pois a graine ridee, il

a observe que les premiers descendants (generation F1) etaient uniquement des pois a

graines rondes. Les pois a graines rondes semblaient avoir donne leur forme a tous leurs

premiers descendants, tandis que les pois a graines ridees semblaient ne pas avoir trans-

mis leur trait specifique. C’est a la deuxieme generation de descendants (generation F2)

que Mendel a constate qu’un quart des pois avaient des graines ridees. Les individus a

graines rondes de la generation F1 n’avaient pas perdu la caracteristique ridee, mais ils

ne l’avaient pas affichee.


Fig. 1.1 – Premiere experience realisee par Mendel. Les pois de la generation P sont

ronds et rides, les pois de la generation F1 sont tous ronds et trois quarts des pois de

la generation F2 sont ronds.

Grace a un calcul s’appuyant sur la theorie des probabilites, Mendel a constate que

l’heredite depend d’une certaine contribution de chacun des parents. Grace a ses re-

cherches, on sait aujourd’hui que les deux chromosomes d’un caractere specifique du

descendant sont le resultat d’un choix aleatoire d’une copie d’un des deux chromosomes

de chacun des parents pour ce meme caractere. Le processus par lequel le code genetique

du descendant est forme dans les gametes a partir de celui de ses parents se nomme la

segregation.

On observe a la figure 1.1 que les loci (emplacements) homologues peuvent porter le

meme allele. En effet, aux loci qui determinent la texture, les pois SS et ss possedent

deux fois la meme representation du gene. Ce sont des pois de lignee pure qu’on dit

homozygotes pour la texture. Deux alleles differents peuvent aussi etre observes aux

deux loci homologues ; dans ce cas, on dit que les pois sont hybrides et qu’ils sont des

organismes heterozygotes pour le caractere texture.

Ici, un seul caractere est a l’etude : il s’agit de la texture. Comme les parents possedent


chacun deux alleles, il y a quatre types de genotypes pour les descendants. Ceux-ci

sont constitues d’un allele provenant de chaque parent. Les differents genotypes pour

les descendants d’un couple de parents heterozygotes sont montres sur la figure 1.2.

Le genotype d’un individu est la paire d’alleles qu’il possede, peu importe l’ordre dans

lequel ils sont places.

Fig. 1.2 – Differents genotypes possibles pour les descendants de memes parents. Les

parents sont heterozygotes et ont des alleles differents. Les quatre descendants ont un

genotype different.

Comme chaque combinaison d’un des alleles du pere et d’un des alleles de la mere est

equiprobable, la probabilite qu’un descendant soit d’un type donne est 1/4. Tous les

genotypes possibles pour les descendants dans l’experience sur les pois ont ete illustres

a la generation F2 de la figure 1.1. On constate qu’il y a quatre possibilites de combi-

naisons, mais que comme certains genes sont les memes pour les deux parents, il n’y a

que les trois genotypes SS, Ss et ss qui sont differenciables.

Les pois, tout comme les humains, sont diploıdes. Cela signifie que les genes sont presents

par paires et que la segregation se fait de la maniere decrite precedemment. Donc, chez

les pois, deux genes sont responsables de la texture, deux autres genes sont responsables

de la couleur rouge, rose ou blanche des fleurs, deux autres genes sont responsables de

la couleur des graines, etc. Chez l’humain, deux genes sont responsables de la couleur

des yeux, deux genes sont responsables du groupe sanguin, etc.

Certains autres organismes possedent les genes seuls, par groupes de trois ou meme

par groupes de quatre. Par exemple, l’espece Musa x paradisiaca, soit la banane com-


munement cultivee possede ses genes en groupes de trois : elle est triploıde. La segregation

de ces organismes est plus complexe.

Comme il a ete mentionne, les variations des caracteres hereditaires s’expliquent par

les formes differentes (alleles) que peuvent avoir les genes. Les alleles (S et s) des pois

ronds et des pois rides representent deux variantes possibles de l’ADN situe sur ce locus

du gene de la texture des pois, sur l’un des chromosomes d’un pois.

1.1.4 Loi mendelienne d’assortiment independant

Mendel s’est aussi interesse aux croisements de varietes parentales presentant deux

caracteres differents qu’on appelle croisements dihybrides. En croisant deux varietes de

pois, soit un parent a graines jaunes rondes et un parent a graines vertes ridees (JJRR

croise avec jjrr), il a constate que l’allele au locus de la couleur n’est pas toujours associe

a un allele precis au locus de la texture. En fait, l’ensemble d’alleles a differents loci

qui vient d’un meme parent, appele haplotype, n’est pas toujours le meme : un parent

de genotype JjRr peut donner les alleles J et R a un descendant et les alleles J et r a

un autre. On sait aujourd’hui que les caracteres de la couleur et de la texture des pois

subissent une transmission independante 98 fois sur 100.

La figure 1.3 est une representation du type d’experience qui a ete realisee par Mendel.

Si le couple de la generation F1 avait ete constitue d’individus heterozygotes n’ayant

aucun gene en commun (c’est a dire j1j2r1r2 avec j3j4r3r4), il y aurait eu autant de

descendants differents pour l’ensemble des deux caracteres qu’il y a de possibilites de

choisir un ensemble constitue d’un allele par parent par caractere, donc 16. Comme

dans l’experience presentee chaque parent possede deux fois les memes genes, il y a 9

genotypes bivaries possibles qui sont respectivement :JJRR, JJRr, JJrr, JjRR, JjRr,

Jjrr, jjRR, jjRr et jjrr.

1.1.5 Modes de transmission

Plusieurs modes de transmission genetique sont possibles : le mode dominant, le mode

recessif et le mode codominant. Ainsi, on dit de certains alleles qu’ils sont dominants,

recessifs ou codominants par rapport a d’autres et c’est selon le mode de transmission


Fig. 1.3 – Deuxieme experience realisee par Mendel. A la generation P, un pois a graine

verte ronde est croise avec un pois a graine verte ridee. Le premier descendant est vert et

rond (generation F1). Il est croise avec un autre pois vert rond. Quatre des descendants

de ce croisement, a la generation F2, sont verts ronds, deux sont verts rides, deux sont

jaunes ronds et un seul est jaune ride.


de ses alleles que le genotype pourra s’exprimer. L’expression du genotype est nommee

le phenotype.

Le tableau 1.1 donne une idee des relations entre les differents genotypes et phenotypes

possibles au locus du groupe sanguin. Ses marges sont constituees des alleles du genotype

et le centre constitue les phenotypes resultants de chaque couple d’alleles. On dit que

les alleles A et B sont dominants par rapport a O, c’est-a-dire que si A (ou B) est

en presence de O au genotype, seulement l’allele A (l’allele B) s’exprimera dans le

phenotype. Donc, la colonne des phenotypes associee a l’allele O contient seulement le

deuxieme l’allele du couple et il en est de meme pour la ligne associee a l’allele O.

Tab. 1.1 – Genotypes et phenotypes pour le locus du groupe sanguin. Les alleles du

genotype se trouvent dans les marges et les phenotypes associes a chaque couple d’alleles

sont inscrits au centre du tableau.pere

alleles A B O

A A AB A

mere B AB B B

O A B O

L’allele O est recessif par rapport a A et a B, alors O n’est pas represente dans le

phenotype quand il est en couple avec A ou B au genotype. Donc, les phenotypes as-

socies aux individus qui possedent les alleles AO et BO sont A et B.

Deux alleles, lorsqu’ils sont codominants, s’expriment dans le phenotype. Le mode de

transmission codominant est celui des alleles A et B. Donc, lorsque l’allele A et l’allele

B se trouvent au locus du groupe sanguin d’un individu, le phenotype est AB.

Considerons une toute autre maladie de deux alleles differents, disons A et a. Si les

alleles A et a sont les alleles malade et sain respectivement et si

x : phenotype,

x = 2 si l’individu est atteint,

x = 1 si l’individu est non-atteint,

g : genotype,

alors la penetrance est la probabilite que le phenotype soit atteint conditionnellement au

genotype P(X|G = g). La penetrance fait le lien entre ce qu’on observe (le phenotype au


locus de la maladie) et les alleles que l’individu possede (son genotype a ce meme locus).

Pour certaines maladies, on dit que la penetrance est complete, comme pour les modeles

presentes sur les deux premieres lignes du tableau 1.2. On constate que la penetrance

du phenotype atteint P(X = 2|G = g) = 1 si le genotype est g = AA ou g = Aa pour

le modele dominant et si g = aa pour le modele recessif. La penetrance peut aussi etre

incomplete : deux exemples de modeles sont presentes au bas dans le tableau 1.2, ou

on peut lire, par exemple, que la probabilite qu’un individu soit de phenotype atteint

etant donne que son genotype est AA est 0, 9 sous le troisieme modele.

Tab. 1.2 – Penetrances pour les genotypes possibles au locus d’une maladie de deux

alleles differents, pour deux modes de transmission de la maladie (modeles). Aux lignes

1 et 2, les penetrances sont completes et aux lignes 3 et 4, elles sont incompletes.Penetrances P(X = 2|G = g).

genotype g

modele AA Aa aa

dominant 1 1 0

recessif 0 0 1

dominant 0,9 0,9 0

recessif 0 0 0,9

1.1.6 Principe d’equilibre d’Hardy–Weinberg

Ce principe a ete independamment decrit par le physicien Wilhelm Weinberg (1862-

1937) et le mathematicien Godfrey Hardy (1877-1947).

Principe 1.1.1. Si une population est de taille infinie, c’est-a-dire suffisamment grande

pour etre gouvernee par les lois de Mendel, sous hypotheses d’accouplements aleatoires

et d’absence d’autres forces telles la migration, la mutation et de la selection au gene en

question, alors la population est dite en equilibre d’Hardy–Weinberg : la frequence des

genotypes dans la population depend seulement des frequences des genotypes eux-memes

Puu = p2u pour les homozygotes AuAu ;

Puv = 2pupv pour les heterozygotes AuAv .

Pour les genes autosomaux c’est-a-dire les genes formes a partir de chromosomes non-

sexuels, le principe d’Hardy–Weinerg implique que peu importe la distribution des


frequences des alleles dans la population de la generation associee aux parents, l’equilibre

est obtenu apres une generation d’accouplements aleatoires. En d’autres mots, les

genotypes de la generation des enfants dependent seulement de la frequence des alleles

et ne dependent pas de la frequence des genotypes de la generation parentale. Donc,

pour l’exemple des groupes sanguins, P(A,A) = p2A et P(A,B) = 2pApB.

Il faut noter que les accouplements aleatoires impliquent l’equilibre d’Hardy–Weinberg,

mais que l’equilibre d’Hardy–Weinberg n’implique pas necessairement qu’il y a eu ac-

couplements aleatoires.

1.2 Introduction aux probabilites

Pour les deux experiences realisees par Mendel qui ont ete decrites sur les figures 1.1 et

1.3 des pages 6 et 9, les alleles S, J et R etaient dominants par rapport aux alleles s, j et

r. Le ratio de phenotypes dominants et recessifs pour la premiere experience est de 3 :1,

c’est-a-dire qu’il y a 3 phenotypes dominants pour la texture et un phenotype recessif.

Pour la deuxieme experience, le ratio est de 9 :3 :3 :1 : il y a 9 phenotypes dominants pour

les deux caracteres, 3 phenotypes dominants pour la texture seulement, 3 phenotypes

dominants pour la couleur seulement ainsi qu’un phenotype recessif pour les deux ca-

racteres. Afin de comprendre ces resultats, une base en probabilites s’avere necessaire.

Donc, dans cette section, une introduction aux probabilites est presentee. Premierement,

le theoreme de Bayes est presente et explique. Ensuite, la notion d’independance est

introduite, afin de comprendre comment Mendel a pu affirmer que la segregation de

plusieurs caracteres est independante.

1.2.1 Theoreme de Bayes

Thomas Bayes (1702-1761) a travaille sur les probabilites conditionnelles. Grace a ses

efforts, on sait maintenant que la probabilite conditionnelle d’un evenement A etant

donne un evenement B est egale a la probabilite conditionnelle de l’evenement B etant

donne l’evenement A multipliee par la probabilite de l’evenement A et divisee par la

probabilite de l’evenement B :

P(A|B) = P(B|A) ·P(A)

P(B).

Ces probabilites sont definies de facon plus generale dans le celebre theoreme 1.2.1, le

theoreme de Bayes.


Theoreme 1.2.1. Si An est un element d’un ensemble Ai qui constitue une partition

de l’espace echantillonnal, alors

P(An|B) =P(B|An) · P(An)

∑

i{P(B|Ai) · P(Ai)}.

Donc, si on cherche la probabilite qu’un pois de la deuxieme experience de Mendel (figure

1.3, page 9) soit rond sachant qu’il est vert, on definit tout d’abord les evenements :

A1 : le pois est rond ;

A2 : le pois n’est pas rond ;

B : le pois est vert.

Ensuite, on etablit les probabilites de base a l’aide du tableau 1.3 et de la figure 1.3.

P(B) =12

16=

3

4(1.2.1)

P(A1) =12

16=

3

4(1.2.2)

P(A2) =4

16=

1

4(1.2.3)

P(B|A1) =9

12=

3

4(1.2.4)

P(B|A2) =3

4. (1.2.5)

Tab. 1.3 – Denombrement de genotypes et de phenotypes associes : on trouve ici le

nombre de facons d’observer chaque genotype ainsi que le nombre de facons d’observer

chaque phenotype pour la couleur et la texture des pois.Denombrement des genotypes et phenotypes possibles

pour la deuxieme experience de Mendel

Genotype JJRR JJRr JJrr JjRR JjRr Jjrr jjRR jjRr jjrr

Couleur vert vert vert vert vert vert jaune jaune jaune

Texture rond rond ride rond rond ride rond rond ride

Possibilites 1 2 1 2 4 2 1 2 1

On peut donc, a l’aide des probabilites de base, calculer la probabilite cherchee :


P(A1|B) =P(B|A1) · P(A1)

{P(B|A1) · P(A1) + P(B|A2) · P(A2)}

=34· 3

4

{34· 3

4+ 3

4· 1

4}

(1.2.6)

=3

4.

1.2.2 Notion d’independance en statistique

Avant d’aller plus loin, il est important de presenter la notion d’independance telle que

decrite en statistique.

Theoreme 1.2.2. Deux evenements sont independants statistiquement si

P(A|B) = P(A)

et, dans ce cas,

P(A ∩ B) = P(A) · P(B).

Ceci nous mene a la definition plus generale de l’independance donnee au theoreme

1.2.3.

Theoreme 1.2.3. Les evenements A1, A2, ... sont independants si pour toute selection

de n evenements Ai1, ..., Ain

P(Ai1, ..., Ain) = P (Ai1) · ... · P (Ain) ∀n ≥ 2, n ∈ N.

1.2.3 Explications des resultats de Mendel

Il est maintenant possible de montrer comment les resultats de la deuxieme experience

de Mendel permettent de croire que la selection de caracteres differents est indepen-

dante.

A l’aide du theoreme de Bayes, les probabilites suivantes ont ete calculees :

P(B), P(A1), P(B|A1), P(A1|B)

aux lignes (1.2.1), (1.2.2), (1.2.4) et (1.2.6) de la page 13.


Par le theoreme 1.2.3, on sait que deux evenements A1 et B sont independants statis-

tiquement si P(A1|B) = P(A1) et P(B|A1) = P(B). Or, on peut observer que :

P(A1|B) = P(A1) =3

4

P(B|A1) = P(B) =3

4.

Il est aussi possible de constater que

P(A1 ∩ B) = P(A1) · P(B)

=9

16

en denombrant le nombre de possibilites d’obtenir des pois verts a texture ronde dans

l’image 1.3 : la segregation de caracteres differents est bel et bien independante.

1.3 Notation utilisee en genetique

Un pedigree est un diagramme des relations existant a l’interieur d’une famille. Ce type

de diagramme facilite la visualisation des relations entre les individus, specialement dans

le cas de familles etendues. On utilise parfois les pedigrees pour determiner le mode de

transmission d’une maladie genetique. Dans cette section, un pedigree est presente et la

notation necessaire a la comprehension de celui-ci est expliquee. Par la suite, la notion

de phase connue et de phase inconnue est decrite.

1.3.1 Presentation d’un pedigree

A l’interieur d’un pedigree, des symboles sont utilises pour representer les individus et

des lignes afin d’indiquer les relations genetiques. Le symbole associe aux individus de

sexe masculin est un carre tandis que les individus de sexe feminin sont representes par

un cercle. Dans ce texte, lorsque le sexe d’un individu est inconnu, il est represente par

un losange (certains auteurs utilisent un triangle). Les mariages entre deux personnes

sont symbolises par une ligne horizontale entre eux. Les lignes verticales indiquent la des-

cendance d’un couple et lorsqu’elles sont divisees en plusieurs ramifications, c’est qu’il

y a plusieurs enfants dans la fratrie en question. Il arrive que le symbole representant


un individu soit barre : cela signifie que cette personne est decedee. Dans l’exemple

donne a la figure 1.4, les parents 1 et 2 ont quatre enfants : un garcon (3), un enfant de

sexe inconnu (5) et deux filles (6 et 7). Les individus 3 et 4 forment un couple et ont,

a leur tour, deux enfants, une fille et un garcon (9 et 10). Les individus 7 et 8 ont trois

descendants, tous de sexe masculin (11,12 et 13).

Fig. 1.4 – Interpretation d’un pedigree. Les individus atteints sont representes par

un symbole noir. Le symbole associe aux individus de sexe masculin est le carre et le

symbole associe aux individus de sexe feminin est le cercle. La descendance des couples

est imagee par un trait vertical.

Le remplissage des symboles donne de l’information sur l’etat de sante des personnes.

Un symbole vide est dessine lorsque la personne est «en sante», c’est-a-dire lorsqu’elle

n’affiche pas le phenotype de la maladie etudiee. Un symbole plein est signe que la

personne exprime le phenotype correspondant a la maladie a l’etude. Dans l’exemple

1.4, les individus 1, 2, 3, 6, 7, 10 et 12 expriment le phenotype de la maladie a l’etude

tandis que les individus 4, 5, 8, 9, 11 et 13 n’affichent pas un phenotype correspondant

a la maladie etudiee. Parfois, dans les pedigrees, les genotypes sont inscrits a cote des

symboles qui representent les individus.

1.3.2 Notion de phase

Lorsqu’on considere plusieurs loci, comme il a ete fait dans la deuxieme experience de

Mendel, il peut etre possible de trouver de quel parent proviennent chacun des deux

haplotypes d’un individu. La notion de phase refere aux provenances des haplotypes :

lorsqu’on sait de quel parent proviennent chacun des haplotypes, on dit qu’on est en


presence d’un individu dont le genotype est a phase connue. Contrairement lorsqu’on

ne sait pas de quel parent proviennent les haplotypes, on a affaire a un individu dont

le genotype est a phase inconnue.

L’image de gauche dans la figure 1.5 est tiree de l’ouvrage de Ott (1999). Elle represente

le pedigree d’une famille dans laquelle on s’interesse a deux loci ; le locus ou se situent

deux des alleles A et a et celui ou se situent deux des alleles B et b. On constate

que les individus 1 et 2 sont tous deux doublement homozygotes : l’individu 1 possede

deux alleles A ainsi que deux alleles B et l’individu 2 possede deux alleles a ainsi que

deux alleles b. Donc, l’individu 1 donne necessairement une copie des alleles A et B

a son descendant, car il s’agit des seuls alleles qu’il possede a ces loci. De la meme

facon, l’individu 2 ne peut donner que les alleles a et b. Nous pouvons affirmer avec

certitude que l’haplotype AB provient de la mere et que l’haplotype ab provient du

pere. Dans cette situation, l’individu 3 est doublement heterozygote de phase connue :

c’est parce qu’on connaıt sa phase qu’on separe les haplotypes du pedigree a l’aide d’un

trait vertical.

Un raisonnement semblable s’applique dans le cas des individus 5 et 6 afin de constater

que leurs phases sont connues. En effet, la mere des deux individus ne possede que les

alleles a et b, donc elle donne l’haplotype ab a tous ses descendants. Il devient alors clair

que les haplotypes Ab et AB proviennent de l’individu 3. Le lecteur peut constater qu’il

est possible qu’un individu a phase connue ne donne pas a ses descendants un des deux

haplotypes tel qu’il l’a recu de ses parents, mais bien une combinaison quelconque d’un

des alleles a chacun de ses loci. En d’autres mots, par le phenomene d’enjambement,

l’individu 3 peut donner les haplotypes AB et ab, mais il peut aussi donner Ab et aB.

L’image de droite de la figure 1.5 est quelque peu differente de celle de gauche. Les in-

dividus 1 et 2 sont doublement heterozygotes puisqu’aux deux loci, ils possedent deux

alleles differents : l’allele A et l’allele a au locus 1 ainsi que l’allele B et l’allele b au

locus 2. De plus, ils sont heterozygotes pour les memes alleles, car l’individu 1 possede

les memes alleles que l’individu 2 a chaque locus. L’individu 3 pourrait avoir recu n’im-

porte quel ensemble de deux des haplotypes presentes dans les marges du tableau 1.4.

Comme il possede les alleles A, a, B et b, on sait que la situation est une de celles

qui sont associees aux cellules inscrites en gras. Puisqu’on ne sait pas quel cas precis

s’est produit, on dit que l’individu 3 est de phase inconnue. La phase des individus

5 et 6 demeure toutefois connue, puisqu’on sait que les alleles Ab et AB sont trans-

mis par l’individu 3 etant donne qu’il est le seul des parents a posseder les alleles A et B.


Fig. 1.5 – Pedigree contenant les individus 3, 5 et 6 qui ont un genotype a phase connue

(a gauche) et pedigree contenant l’individu 3 qui a un genotype a phase inconnue (a

droite).

Tab. 1.4 – En marge, on trouve l’ensemble des haplotypes possiblement recus de la

part de la mere et du pere de l’individu 3 de droite dans la figure 1.5. Les cellules du

centre du tableau representent toutes les possibilites de genotypes de l’individu 3.pere

A a A a

B b b B

a Aa aa Aa aa

b Bb bb bb Bb

A AA aA AA aA

mere B BB bB bB BB

a Aa aa Aa aa

B BB bB bB BB

A AA aA AA aA

b Bb bb bb Bb


Dans le cadre de ce chapitre, le lecteur a eu l’occasion de se familiariser avec les notions

de base relatives a la biologie telles que les cellules, les genes, les principales lois de

Mendel et le principe d’equilibre d’Hardy-Weinberg. Il a aussi ete introduit aux pro-

babilites lors de la presentation du theoreme de Bayes et de l’explication de la notion

d’independance en statistique. Finalement, le lecteur comprend les differents symboles

pouvant se trouver dans un pedigree et doit se sentir pret a approfondir certaines no-

tions de genetique.

CHAPITRE II

CONCEPTS DE GENETIQUE

Comme nous avons defini les termes lies a la biologie qui seront utilises dans cet ou-

vrage, il est maintenant possible d’aborder des sujets generaux de genetique.

Dans ce chapitre, la fraction de recombinaison d’un pedigree est presentee. Par la suite,

a la section 2.2, on precise la notation utilisee dans les formules utilisees pour le reste

de cet ouvrage. Egalement, une mesure de plausibilite des donnees, la vraisemblance

familiale, est expliquee et illustree a la section 2.3. Les sections 2.4 et 2.5 precisent

respectivement ce que sont le lod-score et l’heterogeneite genetique.

Au terme de ce chapitre, le lecteur devrait avoir plus de facilite a comprendre les pe-

digrees et a saisir les raisons qui nous motivent a entreprendre une etude de simulations.

2.1 Fraction de recombinaison

Dans cette section, la fraction de recombinaison est definie. Par la suite, un calcul de

cette fraction est donne en exemple et on explique le lien entre la fraction de recombi-

naison et la liaison.

2.1.1 Calcul de la fraction de recombinaison

Mendel pensait que differents caracteres subissaient une transmission (ou segregation)

independante. Aujourd’hui, on sait que ce sont plus particulierement les chromosomes

qui subissent la transmission, et non les genes eux-memes. Donc, la transmission des

loci adjacents sur un meme chromosome n’est pas necessairement independante.

II. CONCEPTS DE GENETIQUE 21

Pour s’en convaincre, nous allons nous interesser aux transmissions des alleles du pere

presente a la figure 2.1. Dans ce pedigree, on deduit le genotype au locus de la maladie

Fig. 2.1 – Exemple servant au calcul de la fraction de recombinaison. Dans ce pedigree,

le genotype au locus de la maladie de l’individu 1 est inscrit entre parentheses parcequ’il

est deduit a partir de son phenotype atteint : il peut s’agir de AA ou bien de aA. Seul

l’individu 13 est recombinant selon son pere, l’individu 4.

de l’individu 1. C’est pourquoi il est inscrit entre parentheses. On constate que l’indi-

vidu 4 a recu les haplotypes 4A et 2a de ses parents. Il a donne a son deuxieme garcon

l’haplotype 2A : il ne s’agit pas d’un haplotype identique a un des deux haplotypes

qu’il a recu de ses parents, mais d’une recombinaison d’un nouvel haplotype a partir

des alleles qu’il possede. Comme l’haplotype 2A du garcon n’est pas un des ensembles

d’alleles donne par un seul des grands-parents, on dit que l’enfant 13 est recombinant

selon le pere. Pour sa part, le premier garcon de l’individu 4 a plutot recu l’haplotype 2a.

Cet haplotype est similaire a celui qui a ete donne de l’individu 2 a l’individu 4. L’enfant

a recu un haplotype provenant d’un seul de ses grands-parents du cote paternel, soit

de sa grand-mere. Comme l’haplotype est le meme du pere a son fils, on dit qu’il n’y a

pas de recombinaison des alleles du cote paternel. L’enfant 12 est dit non-recombinant

selon le pere. Les enfants 14, 15 et 16 sont egalement non-recombinants selon le pere.

Definition 2.1.1. On dit qu’il y a occurence d’une recombinaison pour un individu par

rapport a son pere ou sa mere lorsque l’haplotype recu du parent est constitue de genes


provenant des deux grands-parents, c’est-a-dire lorsque l’haplotype de l’enfant n’est pas

identique a un des haplotypes du parent.

Les recombinaisons qui se produisent a l’interieur d’un pedigree sont comptees et rap-

portees en terme de fraction de recombinaison.

Definition 2.1.2. La fraction de recombinaison d’un pedigree est la proportion d’ha-

plotypes recombinants potentiellement produite par un parent doublement heterozygote ;

elle peut egalement etre definie comme etant la probabilite d’occurence d’une recombi-

naison par meiose dans le pedigree. On note cette fraction par le symbole θ. Le domaine

de θ est 0 ≤ θ ≤ 1/2.

La recombinaison est peu probable lorsque les loci sont voisins, tandis que si les loci

sont eloignes, la recombinaison a lieu avec une probabilite de 1/2 et la loi de Mendel de

l’independance de segregation des differents caracteres tient. La valeur θ est donc une

mesure de distance utile sur des petits intervalles : dans le cas ou les loci sont eloignes, θ

vaut 1/2 et dans le cas ou les loci sont proches voisins, θ s’approche de 0. La fraction de

recombinaison associee a l’image 2.1 est θ = 1/5 puisqu’un seul des enfants, l’individu

13, est recombinant selon le pere.

Un marqueur est un locus dont la position est connue. Les prochaines sections servent

a comprendre comment tester si la transmission des alleles du locus d’un marqueur qui

sont representes par des chiffres est independante de la transmission des alleles du locus

de la maladie qui sont representes par des lettres.

2.1.2 Lien entre fraction de recombinaison et liaison

Les recombinaisons entre deux loci se produisent a un taux relie a la distance entre

eux sur un meme chromosome. Il y a occurence de moins de recombinaisons pour

des loci proches que pour des loci eloignes. Lorsqu’il y a un lien entre des alleles a

differents loci d’un gene, on dit qu’il y a liaison genetique et dans ce cas, la fraction de

recombinaison est faible. Deux genes sont dits completement lies (ils sont proches) si

un parent doublement heterozygote produit uniquement des gametes non-recombinants

tandis que deux genes sont dits non-lies (ils sont eloignes) si un parent de meme genotype

produit des gametes recombinants et des gametes non-recombinants en proportions

egales. Dans le premier cas, θ vaut 0 et dans le deuxieme cas, θ vaut 1/2 .


Le but de l’analyse de liaison est d’estimer la fraction de recombinaison et de tester si

elle est inferieure a 1/2 ou, autrement dit, si un ecart observe de θ par rapport a 1/2

est significatif. Les hypotheses reliees a ce test sont :

H0 : il n’y a pas de liaison ;

vs

H1 : il y a liaison.

Elles se traduisent plus formellement par :

H0 : θ =1/2 ;

vs

H1 : θ <1/2 .

C’est par la maximisation de la vraisemblance que les estimations de la fraction de

recombinaison seront trouvees afin de pouvoir effectuer ce test d’hypotheses.

2.2 Notation pour cet ouvrage

Avant d’aller plus loin, il est primordial d’adopter une notation. La notation suivante

sera utilisee dans le reste de cet ouvrage.

fs : frequence de l’allele s dans la population ;

i : indice representant un individu, i = 1, . . . , I, il y a donc I individus

dans une famille ;

A : ensemble des genotypes bivaries pour tous les individus i ;

J : ensemble des individus i qui sont fondateurs du pedigree, c’est-a-dire

les individus sans parents et les conjoints ;

Kf,m : ensemble des individus i qui sont enfants des individus f et m ;

xi : phenotype de l’individu i, soit l’observation de son etat atteint ou

non-atteint au locus de la maladie qui peut prendre les valeurs suivantes :

xi =

2 si l’individu i est atteint,

1 si l’individu i est non-atteint,

0 si le phenotype de l’individu i est inconnu ;

p : nombre d’alleles a determiner pour le genotype bivarie d’un individu ;

gi : genotypes bivaries pour l’individu i, c’est-a-dire les groupes de deux

alleles au locus du marqueur et de deux alleles au locus de la maladie

que peut posseder l’individu i ;


x = (x1, ..., xI) : vecteur de longueur I de phenotypes observes

au locus de la maladie.

Remarquons ici que le phenotype, a son sens large, est constitue de ce qu’on peut

observer. C’est pourquoi, lorsqu’on fait allusion au phenotype d’un individu, il faut

comprendre que ce phenotype inclut l’observation des genotypes au locus du marqueur.

Seuls les genotypes au locus de la maladie ne sont pas observables.

g = (⇀g1, ...,

⇀gI) : la matrice I · p de genotypes constituee des p alleles de

l’ensemble des I individus d’une famille.

2.3 Notion de vraisemblance

La vraisemblance familiale est une mesure de la plausibilite des donnees observees. Sa

valeur depend de la valeur de la fraction de recombinaison θ qui a ete definie a la section

2.1. La vraisemblance se definit comme suit :

L(θ) =∑

g1∈A

· · ·∑

gI∈A

P(x1, . . . , xI |g1, . . . , gI) · P(g1, . . . , gI)

=∑

g1∈A

· · ·∑

gI∈A

I∏

i=1

P(xi|gi)∏

i∈J

P(gi)∏

i∈Kf,m

P(gi|gf , gm) (2.3.1)

ou

P(xi|gi) : probabilite que l’individu i soit de phenotype xi

etant donne qu’il est de genotype gi ;

P(gi), i ∈ J : probabilite que l’individu fondateur i soit de geno-

type gi ;

P(gi|gf , gm), i ∈ K : probabilite que l’enfant i soit de genotype gi etant

donne les genotypes gm et gf de ses parents.

Afin de mieux comprendre cette formule, on calcule la vraisemblance pour la famille

presentee sur la figure 2.1 (page 21). Dans ce pedigree, les alleles au locus de la maladie

sont deduits a partir du phenotype : l’individu 1 represente a le phenotype atteint et

les alleles 3 et 4 au locus du marqueur. Donc, au locus de la maladie il pourrait avoir


le genotype Aa ou AA. On remarque que :

− au total, il y a 9 individus indices i = {1, 2, 4, 6, 12, 13, 14, 15, 16}.

− l’ensemble A est constitue de tous les genotypes qui sont une combinaison

du tirage de deux alleles pour le locus du marqueur dans {1, 2, 3, 4} et du

tirage de deux alleles pour le locus de la maladie dans {A, a} ;

− il y a deux individus sans parents et un conjoint dans cette famille, donc

J contient 3 elements : J = {1, 2, 6} ;

− il y a 6 enfants, K = {4, 12, 13, 14, 15, 16} ;

− les sujets 2 et 6 n’ont qu’une seule possibilite de genotype bivarie dont la

probabilite est non-nulle (c’est-a-dire 1a/2a et 1a/1a respectivement) ;

− l’individu 1, lui, a trois genotypes bivaries possibles dont la probabilite

est non-nulle : g1 = {3A/4a, 4A/3a, 3A/4A}.

Fig. 2.2 – Les trois genotypes bivaries possibles pour l’individu 1.

Les probabilites non-nulles associees aux genotypes de l’individu 1 sont :

P(g1) =

{

fAfa

f2A + 2fAfa

,fAfa

f2A + 2fAfa

,f2

A

f2A + 2fAfa

}

ou fA= frequence de l’allele A dans la population.

Aussi :

− si l’individu 1 est de genotype 3A/4a, alors son fils est recombinant ;

− s’il est de genotype 4A/3a, alors son fils est non-recombinant ;

− s’il est de genotype 3A/4A, alors on ne sait pas si son fils est recombinant.

La figure 2.3 illustre les cas de genotypes bivaries possibles pour l’individu 1. On peut

y deduire l’etat recombinant ou non-recombinant de son fils, l’individu 4.


Fig. 2.3 – Genotypes bivaries possibles pour l’individu 1 : s’il est de genotype 3A/4a

(gauche), alors son fils est recombinant, s’il est de genotype 4A/3a (centre), alors son

fils est non-recombinant et s’il est de genotype 3A/4A (droite), alors on ne sait pas si

son fils est recombinant.

Peu importe quel genotype bivarie possede l’individu 1, l’individu 4 est en phase

2a/4A. Les individus 12 et 16 recoivent de l’individu 4 l’haplotype 2a : ils sont non-

recombinants. Pour leur part, les individus 14 et 15 recoivent l’haplotype 4A : ils sont,

eux aussi, non-recombinants. L’individu 13 est recombinant, puisqu’il recoit l’haplotype

2A. Donc un seul des cinq petits-fils de l’individu 1 est recombinant.

Fig. 2.4 – Recombinants parmi les descendants de l’individu 4. Les individus 12 et

16 (gauche) sont non-recombinants, les individus 14 et 15 (centre) sont eux aussi non-

recombinants et l’individu 13 est recombinant (droite).

Pour le calcul de la vraisemblance, on suppose que la maladie representee est une ma-

ladie a penetrance complete.


L(θ) =∑

g1∈A

· · ·∑

gI∈A

{

I∏

i=1

P(xi|gi)}{

∏

i∈J

P(gi)}{

∏

i∈K

P(gi|gf , gm)}

=∑

g1∈A

· · ·∑

gI∈A

{

I∏

i=1

P(xi|gi)}{

P(g1)P(g2)P(g6)}{

∏

i∈K

P(gi|gf , gm)}

=∑

g1∈A

· · ·∑

gI∈A

{

I∏

i=1

P(xi|gi)}{

P(g1)P(g2)P(g6)}

{

P(g4|g1, g2)P(g12|g4, g6)P(g13|g4, g6) · · ·P(g16|g4, g6)}

Les seules valeurs des gi pour lesquelles les probabilites P(xi|gi) sont non-nulles sont :

g1 = (3A | 4

a) ou (3a |

4A) ou (

3A |

4A)

g2 = (1a | 2

a) g13 = (1a |

2A)

g4 = (4A | 2

a) g14 = (1a |

4A)

g6 = (1a | 1

a) g15 = (1a |

4A)

g12 = (1a | 2

a) g16 = (1a | 2

a).

Donc, on considerera, par exemple, seulement le genotype g2 = (1a | 2

a) comme genotype

possible pour l’individu 2 puisque, de toute facon, tout autre genotype g2 (qu’il s’agisse

de (1A |

2A), (

1A | 2

a) ou (1a |

2A)) entraine que

P(x2 = «non-atteint, alleles du marqueur 1 et 2»|g2) = 0

et le terme «

∏

i P(xi|gi)» de la vraisemblance vaut 0. Pour chacune des valeurs gi

considerees, P(xi|gi) = 1. On peut donc recrire la vraisemblance :

L(θ) =∑

g1∈{(3

A|4a), (3a|4

A), (3

A|4

A)}

{

P(g1)P(g2)P(g6)}{

P(g4|g1, g2)P(g12|g4, g6) · · ·P(g16|g4, g6)}

={

∑

g1∈{(3

A|4a), (3a|4

A), (3

A|4

A)}

P(g1)P(g4|g1, g2)}{

P(g2)P(g6)P(g12|g4, g6) · · ·P(g16|g4, g6)}

,

puisque le terme{

P(g2)P(g6)P(g12|g4, g6) · · ·P(g16|g4, g6)}

vaut la meme chose peu im-

porte si g1 = (3A | 4

a) ou (3a |

4A) ou (

3A |

4A).

Les probabilites P(g2 = (1a | 2

a)) et P(g6 = (1a | 1

a)) valent 1. En effet, par exemple, on a

observe le phenotype «non-atteint, alleles du marqueur 1 et 2» pour l’individu 2, donc


son genotype est g2 = (1a | 2

a) avec probabilite 1. La vraisemblance devient alors :

L(θ) ={

∑

g1∈{(3

A|4a), (3a|4

A), (3

A|4

A)}

P(g1)P(g4|g1, g2)}{

P(g12|g4, g6) · · ·P(g16|g4, g6)}

={

∑

g1∈{(3

A|4a), (3a|4

A), (3

A|4

A)}

P(g1)P(g4|g1, g2)}

θ(1 − θ)4

={

P(

g1 = (3A | 4

a))

P(

g4 = (4A | 2

a)|g1, g2

)

+ P(

g1 = (3a |

4A))

P(

g4 = (4A | 2

a)|g1, g2

)

+P(

g1 = (3A |

4A))

P(

g4 = (4A | 2

a)|g1, g2

)

}

θ(1 − θ)4.

Les deux phases possibles du genotype g1 qui est constitue des alleles 3, 4, A et a sont

g1 = (3A | 4

a) et g1 = (3a |

4A). Elles ont ete considerees equiprobables

P(

g1 = (3A | 4

a))

= P(

g1 = (3a |

4A))

=fAfa

f2A + 2fAfa

.

Aussi, comme on n’a pas d’information pour la liaison pour l’individu 4 lorsque g1 = (3A

|4A), on obtient que P

(

g4 = (4A | 2

a)|g1, g2

)

vaut 1. Donc la vraisemblance pour la famille

est

L(θ) ={ fAfa

f2A + 2fAfa

θ +fAfa

f2A + 2fAfa

(1 − θ) +f2

A

f2A + 2fAfa

1}

θ(1 − θ)4

={ fAfa

f2A + 2fAfa

+f2

A

f2A + 2fAfa

}

θ(1 − θ)4.

On peut voir qu’avoir considere les deux phases pour 3, 4, A et a equiprobables revient

a dire qu’on admet ne pas avoir d’information pour la liaison de l’individu 4, puisque

la somme des probabilites P(

g4 = (4A | 2

a)|g1, g2

)

pour les deux phases du genotype de

l’individu 1 donne θ +(1− θ) = 1. La valeur de la vraisemblance trouvee est en quelque

sorte constituee d’une ponderation pour le genotype de l’individu 1 ainsi que la pro-

babilite des recombinaisons pour les individus de la derniere generation. Le facteur

de ponderation n’a pas une grande importance puisque premierement, il s’agit d’une

constante qui sera annulee dans de futurs calculs et deuxiemement, peu importe le

genotype de l’individu 1, l’ensemble des descendants est compose d’un recombinant et

de quatre non-recombinants.

La vraisemblance en fonction de la fraction de recombinaison est presentee sur la figure

2.5. Elle atteint son maximum au point (θ, L(θ)) = (0, 2; 0, 04).


0,01

0,30

0,20,10

valeurs de theta

0,05

0,5

0,04

0,03

0,4

0,02

Vraisemblance

Fig. 2.5 – Vraisemblance en fonction de theta pour le pedigree presente a la figure 2.1.

2.4 Le lod-score

Tout comme la vraisemblance, le lod-score est une mesure de la plausibilite des donnees

observees. Sa valeur depend de la fraction de recombinaison θ vue a la section 2.1. Le

lod-score va de pair avec le ratio de vraisemblances : le ratio de vraisemblances est egal

a la vraisemblance en tetha divisee par la vraisemblance sous hypothese de non-liaison,

soit au point θ = 1/2. Le ratio de vraisemblances est note L?(θ).

L?(θ) =

{

L(θ)

L(1/2)

}

.

Le ratio de vraisemblances est une indication de l’importance de la vraisemblance sous

hypothese de liaison par rapport a la vraisemblance sous l’hypothese de non-liaison. Le

ratio est superieur a 1 lorsque la liaison est plus vraisemblable que la non-liaison et est

inferieur a 1 lorsque la liaison est moins vraisemblable. Lorsque θ prend la valeur exacte

de 1/2, L?(1/2) = 1. Le ratio de vraisemblances pour la famille donnee en exemple dans

l’image 2.1 (page 21) est :

L?(θ) =

{

L(θ)

L(1/2)

}

=θ(1 − θ)4

(12)5

.


Le lod-score est le logarithme en base 10 du ratio de vraisemblances par rapport a theta.

Il s’ecrit :

Z(θ) = log10 {L?(θ)}.

Une valeur positive du lod-score indique qu’il y a liaison dans les donnees puisqu’une

valeur positive du lod-score Z(θ) apparaıt seulement lorsque le ratio de vraisemblances

L?(θ) est superieur a 1. Contrairement, une valeur negative du lod-score indique qu’il

n’y a pas de liaison et par sa construction, le lod-score au point θ =1/2 est Z(1/2) = 0.

On peut calculer le lod-score pour l’exemple precedent comme suit :

Z(θ) = log10 {L(θ)/L(1/2)}

= log10

{

θ(1 − θ)4

(12)5

}

.

L’estimation θ de la fraction de recombinaison θ est obtenue par maximisation de la

vraisemblance en choisissant la valeur θ qui maximise le lod-score Z(θ). La figure 2.6

donne une idee du comportement du logarithme du ratio de vraisemblances en fonction

de la fraction de recombinaison. Le lod-score maximum vaut 0, 42 et est atteint a θ =

0, 2.

0,10

0,42

valeurs de theta

0,50,40,30,2

Maximisation de logarithme du ratio de vraisemblances

Fig. 2.6 – Maximisation du logarithme du ratio de vraisemblances afin de trouver le

lod-score.


Tests de ratios de vraisemblances

Avant de comprendre comment tester les hypotheses de liaison, il est necessaire de

s’interesser a la theorie sur les ratios de vraisemblances. Casella et Berger (2002) nous

fournissent la definition suivante en page 375.

Definition 2.4.1. Un test de ratios de vraisemblances est un test qui a une region

critique qui prend la forme {x : λ(x) ≤ c}, ou c est un nombre qui satisfait 0 ≤ c ≤ 1.

La statistique du test de ratios de vraisemblance pour les hypotheses H0 : θ ∈ Θ0 versus

H1 : θ ∈ Θc0 est

λ(x) =

supΘ0

L(θ|x)

supΘ

L(θ|x)

et asymptotiquement, sous H0,

−2 · ln λ(x) ∼ χ2p,

ou p est egal a la difference entre les dimensions de Θ et Θ0.

Pour tester deux hypotheses

H0 : θ = 1/2

vs

H1 : θ = θ1, ou θ1 < 1/2 ,

on doit chercher ce que vaut

λ(x) =L(1/2|x)

supΘ

L(θ|x)

dans le but de calculer −2 · ln λ(x). Mais comme par les proprietes des logarithmes on

trouve que

−2 · ln λ(x) = −2 · loge

{

L(1/2|x)

supΘ

L(θ|x)

}

= −2 ·[

loge 10]

[

log10

{

L(1/2|x)

supΘ

L(θ|x)

}]

,

on obtient

−2 · ln λ(x) = 4, 6052 · log10

{supΘ

L(θ|x)

L(1/2|x)

}

= 4, 6052 · Z(θ).


Donc on peut calculer 4, 6052 · Z(θ) a la place de −2 · ln λ(x) a partir des donnees, car

sa distribution asymptotique sous l’hypothese nulle est

4, 6052 · Z(θ) ∼ χ21.

Le seuil et la puissance d’un tel test sont

α = P(Z(θ) ≥ Z0|H0) et β = P(Z(θ) < Z0|H1).

Valeur critique

Morton propose de rejeter H0 si Z(θ) > Z0 ou Z0 = 3. La valeur du seuil critique Z0 = 3

est associee a un seuil α = 0, 0001, puisque le test est realise de facon unilaterale.

Toutefois, pour des structures de familles plus complexes dans lesquelles il y a des

informations manquantes, il se peut que la vraie distribution de 4, 6052 · Z(θ) devie de

la distribution χ21. Dans un tel cas, le niveau de significativite αN peut etre different du

niveau α actuel. On peut tout de meme trouver une borne superieure pour le seuil α,

donnee par Ott (1999) a la section 3,4, soit

α = P

[

Z(θ) ≥ Z0|H0

]

≤ 10−Z0. (2.4.1)

Le seuil critique Z0 = 3 propose par Morton correspond donc a une valeur de α ≤

10−3 = 0, 001.

La raison pour laquelle une si petite valeur de α est utilisee est donnee par Ott (1999) :

si on utilise α = 0, 05 et qu’on est en presence de non-liaison, alors on detecte de la

liaison 5 fois sur 100. Admettons egalement que nous sommes en presence d’un test

utopique dont la puissance est de 100%, c’est-a-dire d’un test qui detecte tous les cas

de liaison. Etant donne qu’il y a 5% de chances a priori que les loci soient situes sur

le meme chromosome, donc que la liaison soit possible, notre test detecte autant de

liaisons non existantes que de vraies liaisons. Dans un cas ou la puissance est moins

elevee, la situation est encore pire. Une solution est d’utiliser une valeur α des plus

petites couramment utilisees.

Une autre facon d’interpreter le faible niveau de significativite est en s’interessant a

la probabilite a posteriori de liaison. Bien que la probabilite a priori que deux loci se

trouvent sur un meme chromosome soit 0, 05, les chances que deux loci soient espaces

d’une distance mesurable est P(H1) = 0, 02 (Elston et al., 1975). La probabilite a

posteriori de liaison est

P (H1|F ) = P (F |H1)P (H1)P (F |H1)P (H1)+P (F |H0)P (H0)

= 0, 02R/(0, 02R + 0, 98),


ou R = P (F |H1)/P (F |H0) est le ratio de vraisemblances. La valeur critique Z0 = 3

correspond a R = 1000 parce que 10Z = L(θ1)L(θ0)

= R. Ce Z0 = 3 est donc associe a une

probabilite a posteriori de liaison de 95%.

2.5 Heterogeneite genetique

Interessons-nous au pedigree de la figure 2.7. Dans celui-ci, les alleles de vulnerabilite a

la maladie des enfants 7, 9 et 10 ne proviennent pas de l’individu 3 : ils proviennent de

l’individu 5 qui est porteur d’un genotype malade, sans toutefois l’avoir affiche dans son

phenotype. Les enfants 7, 9 et 10 sont affectes par une maladie d’origine differente de

celle de leur pere. Une famille dans laquelle il y a deux origines de maladies est appelee

famille bilineale.

Definition 2.5.1. Un pedigree bilineal tel que decrit par Hodge (1992) est un pedigree

dans lequel des membres de deux cotes distincts sont soit affectes par ce qui semble etre

la meme maladie, soit porteurs du gene malade.

Fig. 2.7 – Cas d’heterogeneite genetique intra-familiale : deux origines de la maladie

affectent les individus de ce pedigree.

Les familles bilineales ont ete etudiees entre autre par Hodge (1992) ainsi que Durner,

Greenberg et Hodge (1992) a savoir si on devait les laisser tomber des analyses etant

donne qu’elles sont plus complexes. Globalement, dans les deux articles, on suggere de


les conserver.

Lorsqu’un pedigree bilineal semblable a celui presente en 2.7 doit etre echantillonne, on

n’echantillonne pas la partie gauche de la famille. En effet, le procede d’echantillonnage

est le suivant : on commence par interroger les individus de la troisieme generation

(individus 12 a 16) a savoir si leurs ancetres sont malades ; on poursuit en interrogeant

les individus 3 et 4 et on termine par l’echantillonnage de l’individu atteint 1. On tente

donc d’identifier les individus ayant recu la maladie d’un meme ancetre, et de pour-

suivre l’echantillonnage en «remontant» vers cet ancetre. Dans la figure 2.7, l’ancetre

commun semble etre le numero 1 si l’on ne connaıt pas l’histoire familiale de l’individu

5.

On obtient donc le pedigree presente a la figure 2.8 : les alleles de la maladie etudiee

sont representes par A et a, et les alleles de la maladie qui provient de l’individu 5 sont

representes par B et b. Le phenotype malade pour la maladie etudiee est represente par

le noircissement du symbole qui represente un individu tandis que le phenotype malade

de la maladie provenant de l’ancetre de gauche est represente par un remplissage plus

pale accompagne d’une etoile blanche. Lors du test des hypotheses de liaison pour ce

pedigree, on croit que θ = 4/10 puisque nous pensons que l’individu 3 a transmis les

alleles 1A a ses descendants 7, 9 et 10, car ils sont malades. Le statut recombinant ou

non-recombinant deduit pour chacun des individus de la derniere generation est donne

sous la figure, sur la ligne «premiere idee». Pour leur part, les individus 3 et 4 sont

non-recombinants. Les deductions concernant les individus 7, 9 et 10 sont erronees.

La vraie fraction de recombinaison associee a cette famille est θ = 1/10, puisque seul

l’individu 13 est reellement recombinant. Le detail du statut de recombinaison des indi-

vidus se trouve sur la ligne «realite». En effet, il ne faut pas supposer que les individus

7, 9 et 10 ont recu l’allele A : ils ont recu l’allele B responsable d’une autre origine de

la maladie.

La maladie B de la partie gauche de la figure 2.7 n’etait pas necessairement situee sur le

meme locus que celui de la maladie A. La penetrance de la maladie B est possiblement

incomplete. Il se peut aussi que la penetrance de B soit complete, mais que son mode de

transmission ne soit pas dominant. Dans ces deux cas, un individu de genotype atteint

par la maladie B ne presente pas necessairement un phenotype atteint : c’est ce qui se

produit chez le sujet 5.

On est en presence d’heterogeneite genetique lorsque des individus affectes par la ma-

ladie a l’etude ne sont pas tous affectes au meme locus. C’est le cas ici : en plus qu’il


premiere idee R NR R R NR NR R NR NR NR

realite NR NR NR NR NR NR R NR NR NR

Fig. 2.8 – Deductions des recombinaisons pour une famille heterogene : on peut croire

a tort que les individus 7, 9 et 10 sont recombinants.

y ait deux origines de la maladie dans la meme famille, les deux maladies ne sont pas

situees sur le meme locus. Dans le contexe d’analyse de liaison, Ott (1999, page 215)

distingue deux types d’heterogeneite : l’heterogeneite allelique et l’heterogeneite non-

allelique qu’on appelle aussi l’heterogeneite de locus. Lorsque differents alleles au meme

locus sont responsables de la maladie, on est en presence d’heterogeneite allelique. Si la

maladie est plutot causee par differents loci, alors il y a heterogeneite non-allelique ou

de locus. Seule l’heterogeneite non-allelique peut etre detectee par l’analyse de liaison

et pour la suite de cet ouvrage, lorsqu’il sera question d’heterogeneite, il s’agira d’he-

terogeneite genetique non-allelique.

La difficulte que peut causer l’heterogeneite est que la maladie de certains peut etre

liee au marqueur, tandis que la maladie de certains autres peut etre non-liee et ni

l’experimentateur ni l’analyse de liaison peuvent distinguer les deux origines de la ma-

ladie. De plus, a la lecture du dernier exemple, le lecteur a eu l’occasion de constater

que l’heterogeneite peut avoir un impact important sur l’estimation de la fraction de

recombinaison, puisque dans la famille bilineale presentee, la valeur de θ pouvait sem-

bler etre 4/10, tandis que sans heterogeneite, θ valait 1/10.


Une facon d’analyser l’heterogeneite entre les familles est decrite a la prochaine sous-

section. Une proposition de methode d’analyse de familles a l’interieur desquelles il y a

de l’heterogeneite, c’est-a-dire des familles bilineales comme celle presentee en 2.8, est

vue par la suite.

2.5.1 Test d’heterogeneite entre les familles

Il y a heterogeneite genetique dans les donnees lorsque, par exemple, elles sont com-

posees d’un groupe de familles pour lequel la maladie est situee a un locus lie au mar-

queur etudie (familles liees) et d’un groupe pour lequel la transmission de la maladie

est due a un autre locus non-lie au marqueur etudie (familles non-liees). La fraction de

recombinaison vaut θ < 0, 5 pour les familles liees et θ = 0, 5 pour les familles non-liees.

Il n’est pas possible, en general, de distinguer les familles liees des familles non-liees. Il

y a donc un melange de distributions dans les familles.

Une facon de tester l’heterogeneite est basee sur les hypotheses suivantes, initialement

proposees par Smith (1961) :

H0 : homogeneite, absence de liaison ;

H1 : homogeneite, liaison entre le marqueur et la maladie ;

H2 : heterogeneite : deux types de familles,

liaison pour les familles de premier type et

non-liaison pour les familles de deuxieme type.

Si on determine que, dans un cas d’heterogeneite, α est la proportion des familles du

groupe ou il y a liaison genetique et que (1− α) est la proportion des familles ou il n’y

a pas de liaison, les hypotheses se traduisent par :

H0 : α = 1, θr = 1/2

H1 : α = 1, θr < 1/2

H2 : α < 1, θ1 < 1/2 .

La vraisemblance bivariee de la ie famille est donnee par

Li(α, θ1) = αLi(θ1) + (1 − α)Li(1/2).


Le ratio de vraisemblances est obtenu en divisant chaque vraisemblance par Li(1/2),

ce qui a pour effet d’ajuster la vraisemblance bivariee afin qu’elle soit egale a 1 quand

θ = 1/2. Le ratio de vraisemblance de la ie famille est donc :

L?i (α, θ1) = αL?

i (θ1) + (1 − α).

La log-vraisemblance pour toutes les familles est

log L(α, θ1) = log

{

∏

i

L?i (α, θ1)

}

=∑

i

log {L?i (α, θ1)} . (2.5.1)

L’evaluation de (2.5.1) est realisee par le programme HOMOG pour plusieurs couples

de valeurs (α, θ1) donnes. Le test de liaison dans le cas d’heterogeneite qui suppose un

melange de distributions est aussi appele «Admixture test » par Hodge (1992) et par

Ott (1983) ; nous noterons ce test Ad. Il est base sur le calcul de

Z(θ)het = Z(α, θ) = log10

{

L(α, θ1)

L(1, 1/2)

}

.

L’ecriture Z(θ)het permet de distinguer ce lod-score du lod-score obtenu a la section

2.4, puisqu’on ajoute simplement un indice «het» a la notation. Des valeurs Z(θ)het de

ce type seront rapportees pour des donnees simulees au chapitre 4. Asymptotiquement,

on obtient que

4, 6052 · Z(θ)het ∼ χ22.

Le lod-score sous heterogeneite a ete etudie par Risch (1989). En termes de puissance

a detecter la liaison, l’auteur affirme que l’utilisation du modele de Smith est avanta-

geuse par rapport a celle du modele d’homogeneite habituel pour des pedigrees de taille

moderee ou grande et des proportions de familles liees faibles (α < 40%). La propor-

tion d’erreurs de type I obtenue par le modele habituel d’homogeneite sur des familles

heterogenes est comparable a celle obtenue par le modele de Smith. Risch propose tou-

tefois un seuil critique de 3, 7 pour le test de liaison par le modele de Smith : ce seuil

correspond a la valeur α qui est associee au seuil de Z0 = 3 du modele habituel pour le

test de liaison.

Parfois on peut coLequipe de nnaıtre une covariable, un ou des symptomes par exemple,

qui aident a distinguer a priori les types de familles liees et non-liees. L’age de debut

pour le cancer du sein en est un exemple (Merette et al., 1992). On peut introduire cette

covariable dans le modele de Smith afin d’accroıtre la puissance du test. Si la covariable


permet de former clairement deux groupes de familles a priori sans ambiguite, alors il

suffit d’analyser chaque groupe separement.

2.5.2 Heterogeneite non-allelique intra-familiale : proposition

de methodes d’analyse

Il serait tout a fait raisonnable de penser que l’heterogeneite intra-familiale peut consti-

tuer un obstacle lors des tests de liaison pour des maladies a forte prevalence comme

la schizophrenie1 et le diabete infantile de type I (IDDM) 2. Dans la litterature, on

constate que moins d’attention a ete portee a l’etude de l’heterogeneite intra-familiale

qu’a l’etude de l’heterogeneite inter-familiale. Pourtant, le probleme d’heterogeneite

intra-familiale ne peut etre ignore. En effet, lorsque Durner et al. (1992) ont simule

differentes situations pour lesquelles il y a des familles qui ont un meme phenotype

atteint, mais que les genotypes de vulnerabilite prennent deux formes, ils ont examine

la proportion de familles dans lesquelles il y a heterogeneite intra-familiale (c’est-a-dire

que les deux formes de la maladie apparaissent dans la meme famille). Cette propor-

tion varie entre 1,3% et 53,1% et depend de facteurs tels que la frequence des genes de

chacune des formes de la maladie, la penetrance et le critere d’echantillonnage (plus on

exige un grand nombre d’atteints dans une famille, plus le pourcentage augmente).

Durner et al.(1992) et Goldin (1992) ont toutes deux simule des donnees ou deux loci

differents peuvent donner le phenotype atteint. Dans les deux etudes, les donnees sont

simulees avec une forte liaison entre un des deux loci de la maladie et le locus d’un

marqueur. De plus, les deux loci de la maladie sont independants et non-lies entre eux.

Les auteurs comparent deux methodes d’analyse pour ce type de donnees. Pour chaque

methode, un seul marqueur genetique est utilise et on tente de voir si un des loci de la

maladie (A ou B) se situe tout pres de ce marqueur. Voici ce qui differencie les deux

methodes.

1 D’apres l’agence de la sante publique du Canada, la prevalence de la schizophrenie dans la popu-

lation generale est estimee entre 0,002 et 0,02, selon les parametres de mesure. Toutefois, un taux de

prevalence de 0,01 est generalement accepte comme etant la meilleure estimation.2 Selon les resultats de l’enquete nationale sur la sante des populations (1996/1997), la prevalence

du diabete des types I et II est de 0,029.


Methode 1 : On suppose deux loci independants pour expliquer la maladie

a l’aide d’une matrice 3X3 de penetrance telle que

locus 1

AA Aa aa

BB 0, 9 0, 9 0, 9

2 Bb 0, 9 0, 9 0, 9

bb 0, 9 0, 9 0 ,

ou un sujet est atteint par la maladie s’il possede au moins

un A ou un B. C’est donc une analyse a deux loci (2L).

Methode 2 : On suppose un seul locus pour la maladie qu’on tente de relier au

marqueur en permettant que seulement une proportion α des

familles montre cette liaison. C’est donc une analyse a un locus

suivie du test de melange de distributions de Smith (1L+Ad).

Durner et Goldin concluent que, lorsqu’un echantillon contient a la fois de l’heteroge-

neite inter et intra-familiale, la puissance a detecter la liaison et la precision de l’esti-

mation de la fraction de recombinaison ne sont pas meilleures pour l’analyse 2L que

pour l’analyse 1L+Ad. Dans le cas d’un echantillon constitue de familles bilineales uni-

quement, c’est-a-dire des familles qui presentent de l’heterogeneite intra-familiale, par

contre, la puissance est un peu plus elevee pour l’analyse 2L. Toutefois, on doit donner

une approximation de la frequence des alleles aux deux genes A et B de la maladie au

programme d’analyse, et la puissance depend de la justesse de l’approximation donnee.

L’analyse 1L+Ad est plus robuste et plus simple que l’analyse a deux loci, puisqu’elle

contient moins de parametres. En fait, dans les deux etudes, les parametres exacts in-

cluant les 9 valeurs de la matrice des penetrances et les frequences alleliques des genes A

et B ont ete utilises pour analyser les donnees a l’aide de deux loci. Dans une situation

reelle, on ne connaıt pas ces vraies valeurs. La sensibilite a la mauvaise specification des

parametres n’a pas ete testee. Ainsi, pour sa simplicite et pour sa presqu’aussi bonne

performance que l’analyse 2L, les deux auteurs semblent preferer l’analyse a un locus

suivie de l’analyse par le modele de Smith.

Leal et Ott (1997) se sont interesses a un probleme semblable. La matrice de penetrance

qu’ils ont etudiee represente l’existence de deux loci de la maladie, A et B, qui agissent


en interaction pour donner la maladie.

locus 1

AA Aa aa

BB 0, 35 0, 35 0

2 Bb 0, 35 0 0

bb 0 0 0.

En effet, les deux loci pour la maladie agissent en epistasie (en interaction) dans la ma-

trice de penetrance, puisqu’on voit qu’il faut avoir au moins un allele de vulnerabilite

a chacun des loci A et B et au moins deux alleles de vulnerabilite a un des loci A ou B

pour avoir une probabilite de 0, 35 d’exprimer la maladie.

Dans ces conditions, Leal et Ott s’interessent a la facon la plus puissante de detecter de

la liaison entre un des deux loci de la maladie et un marqueur dont la position est connue.

Ils constatent que, selon les genotypes des parents, le mode de transmission de la maladie

paraıt parfois dominant, parfois recessif lors d’une analyse 1L. Ils proposent donc une

variation du modele d’heterogeneite genetique qui permet la presence de familles liees et

non-liees au marqueur etudie (c’est-a-dire le modele de Smith) en ajoutant un parametre

r. Ce parametre represente la proportion de familles ou la maladie semble transmise de

facon recessive, alors que dans une proportion (1 − r) des familles, la maladie semble

transmise de facon dominante. Sous ce modele, la vraisemblance s’ecrit :

rα1Lr(θ1) + (1 − r)α2Ld(θ2) + rα1Lr(1/2) + (1 − r)α2Ld(1/2),

ou Lr et Ld sont les vraisemblances pour le mode de transmission recessif et dominant

respectivement. Nous notons ce modele 1L+M. Les auteurs utilisent egalement l’analyse

traditionnelle 1L+Ad a des fins de comparaison. Leur conclusion est que la puissance

a detecter la liaison de l’analyse 1L+M est semblable a celle de l’analyse 1L+Ad dans

un cas d’epistasie comme le leur.

Notre but est d’etudier l’heterogeneite pour des loci de maladie qui sont independants.

Comme il semble clair, d’apres les etudes precedentes, que l’analyse 1L+Ad performe

aussi bien que l’analyse 2L en presence d’heterogeneite inter-familiale, nous proposons

une modification a l’analyse 1L+Ad afin qu’elle s’adapte encore mieux a la presence

d’heterogeneite intra-familiale. Notre approche consiste d’abord a decomposer des fa-

milles tri-generationnelles en branches individuelles, soit en familles bi-generationnel-

les. Ainsi, l’heterogeneite intra-familiale des familles tri-generationnelles est «trans-

formee» en heterogeneite inter-familiale dans l’ensemble des familles bi-generationnel-

les. Les familles bi-generationnelles sont alors analysees en tenant compte de la pos-

sibilite d’heterogeneite inter-familiale, c’est-a-dire a l’aide de l’analyse 1L+Ad. Cette


Fig. 2.9 – Decomposition d’une famille tri-generationnelleen trois familles bi-genera-

tionnelles.


approche qui consiste a decouper d’abord pour ensuite effectuer l’analyse 1L+Ad est

notee D+1L+Ad.

Une methode alternative qui tiendrait compte de l’heterogeneite intra-familiale serait

de considerer une analyse 2L avec deux marqueurs, afin de detecter simultanement la

liaison entre le locus A de la maladie et un des deux marqueurs, ainsi qu’entre le locus B

de la maladie et l’autre marqueur. Schork et al. (1993) ont montre que l’analyse 2L avec

deux marqueurs est plus puissante que l’analyse 1L+Ad. Bien que ce type d’analyse

a deux loci modelise mieux la realite, pour en faire une, il faut selectionner une paire

de marqueurs, c’est-a-dire faire un choix de 2 loci parmi les 500 loci genotypes pour

un parcours de genome par exemple. Cela represente 124 750 paires possibles de loci

pour les marqueurs. Aussi, l’analyse a deux loci peut etre fastidieuse, meme du cote

informatique. Pour ces raisons, les analyses 2L avec deux marqueurs sont tres rarement

effectuees en pratique.

Une decomposition d’une famille tri-generationnelle en trois familles bi-generationnelles

est presentee sur la figure 2.9. On constate que les individus 3 et 4 y sont presentes a

deux endroits differents : dans la famille nucleaire ou ils jouent le role d’enfant ainsi que

dans la famille nucleaire ou ils font partie du couple de parents. C’est en comparant le

resultat des analyses des familles decomposees avec le modele d’heterogeneite genetique

Ad de Smith au resultat que fournit une famille tri-generationnelle que nous pourrons

qualifier la methode proposee.

Apres avoir lu ce chapitre, le lecteur est familier avec les notions de fraction de re-

combinaision, de vraisemblance, du lod-score ainsi que d’heterogeneite genetique inter-

familiale et intra-familiale. Il a pu prendre connaissance d’une proposition d’analyse de

familles dans lesquelles il y a de l’heterogeneite genetique non-allelique et doit etre pret

a l’appliquer.

CHAPITRE III

SIMULATIONS DE PEDIGREES

Dans le contexte de l’analyse de liaison, deux formes d’heterogeneite genetique ont ete

presentees : l’heterogeneite non-allelique et l’heterogeneite allelique. Ici, on s’interesse a

l’effet sur la liaison de l’heterogeneite non-allelique lorsqu’elle est inter-familiale, c’est-

a-dire entre les familles bi-generationnelles.

Nous avons fait une proposition d’une methode d’analyse pour les familles dans les-

quelles il y a de l’heterogeneite non-allelique intra-familiale. Ce chapitre debute par une

la presentation de l’algorithme utilise pour simuler des pedigrees. Par la suite, a la sec-

tion 3.2, le fichier de structure des simulations est decrit. Le type de donnees obtenues

par simulation est commente a la derniere section, la section 3.3.

Apres avoir lu ces lignes concernant la simulation des pedigrees, le lecteur pourra com-

prendre les differents types d’analyses realisees avec les donnees simulees.

3.1 Algorithme utilise

Considerons une situation ou nous nous interessons a un locus de la maladie pour

lequel les phenotypes sont connus ainsi qu’a un marqueur lie a la maladie pour lequel

les genotypes ne sont pas observes. Dans un tel cas, on cherche a predire avec quelle

probabilite le lod-score entre le marqueur et la maladie excede une valeur c, c’est-a-dire

P(Z > c|donnees).

L’evaluation de cette probabilite pourrait etre faite par denombrement de l’ensemble

des genotypes possibles pour le pedigree etudie. Cependant, le nombre de vecteurs

de phenotypes differents au locus du marqueur est souvent tres grand et, selon les

situations, le denombrement peut s’averer tres complexe ou impossible. Une solution

envisageable est donc la saisie d’echantillons aleatoires de genotypes, etant donnes les

III. SIMULATIONS 44

phenotypes. Pour ce faire, nous utilisons SLINK, un logiciel developpe dans le but de

simuler des alleles a un locus d’un marqueur genetique conditionnellement a la structure

de la famille et aux phenotypes observes dans cette famille (ce logiciel est disponible

sur le site web de l’universite Rockefeller). Afin de decrire la procedure utilisee pour

generer un ensemble de genotypes etant donne les phenotypes de la maladie, le lecteur

peut revoir la notation adoptee a la section 2.2.

La matrice de genotypes g est generee selon l’egalite suivante trouvee dans Ott (1989) :

P(g|x) = P(⇀g1 |x) · P(

⇀g2 |

⇀g1,x) · P(

⇀g3 |

⇀g1,

⇀g2,x) · . . . · P(

⇀gI |

⇀g1,

⇀g2, . . . ,

⇀gI−1,x) ;

dans laquelle

P(⇀gi |

⇀gi−1,

⇀gi−2, . . . ,x) = la probabilite que l’individu i possede un genotype

⇀g

etant donne le genotype des individus qui le precedent

et l’ensemble de phenotypes observes dans la famille.

Donc, pour echantillonner les alleles pour le ie individu, la distribution conditionnelle

du genotype P(⇀gi |

⇀gi−1,

⇀gi−2, ...,x) doit etre evaluee. Ceci veut dire qu’on doit effectuer

un calcul de risque pour le genotype de i etant donne les genotypes des i− 1 individus

precedents et les phenotypes de tous les individus. Lorsqu’aucun individu precede, le

choix des alleles depend seulement du phenotype de la maladie et de la frequence d’oc-

curence de chaque allele dans la population.

Fig. 3.1 – Famille a partir de laquelle l’exemple de simulations est realise : le phenotype

des individus atteints est represente par une case noircie et vaut x = 2. Le phenotype

des individus non-atteints est represente par une case vide et vaut x = 1.

Un groupe de m replications de la matrice d’alleles g donne une idee de l’ensemble des

familles observables. A titre d’exemple, batissons une matrice aleatoire g pour la famille

III. SIMULATIONS 45

presentee a la figure 3.1. Le marqueur etudie est un marqueur de quatre alleles qu’on

retrouve en proportions egales dans la population :

f1 = f2 = f3 = f4 = 0, 25.

Le mode de transmission pour la maladie est le mode dominant a penetrance complete.

Cela signifie que les probabilites qui sont associees a ce modele sont :

P(phenotype = atteint | AA) = 1,

P(phenotype = atteint | Aa) = 1,

P(phenotype = atteint | aa) = 0.

Il s’agit donc d’un modele dans lequel les individus atteints de la maladie sont forcement

porteurs d’un des deux genotypes de vulnerabilite (AA ou Aa), alors que les individus

non-atteints sont forcement porteurs du genotype de non-vulnerabilite aa.

On a que :I = 16 sujets,

x = (x1, ..., x16) = (2, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1),

p = 4 alleles a determiner pour le genotype bivarie d’un individu :

2 alleles au locus du marqueur et 2 alleles au locus de la maladie,

f1 = f2 = f3 = f4 = 0, 25,

fA = 0, 01,

fa = 0, 99,

g = (⇀g1, ...,

⇀g16), la matrice 16 · 4 de genotypes pour toute la famille.

Nous allons effectuer les deux etapes suivantes pour chacun des individus de la famille :- choisir aleatoirement des alleles au locus de la maladie etant donne

le phenotype du sujet i et les alleles au locus de la maladie

des individus precedents ;

- choisir des alleles au locus du marqueur, etant donne les alleles

aux marqueurs des individus precedemment consideres.

Individu 1 : aucun individu precedent.

Le phenotype pour le locus de la maladie de l’individu 1 est connu : il s’agit du phenotype

atteint (x1 = 2). Donc, les genotypes possibles pour le locus de la maladie sont :

{(A, a), (A,A)},

puisque le mode de transmission de la maladie est dominant. On choisit (A,a) avec une

probabilite 2·fAfa

f2

A+2·fAfa

et (A,A) avec une probabilitef2

A

f2

A+2·fAfa

.

III. SIMULATIONS 46

Les 10 genotypes possibles pour l’individu 1 au locus du marqueur sont :

{(1, 1), (1, 2), (1, 3), (1, 4), (2, 2), (2, 3), (2, 4), (3, 3), (3, 4), (4, 4)}.

Il s’agit de l’ensemble des genotypes observables dans la population au locus d’un mar-

queur de quatre alleles, puisque l’individu 1 est fondateur du pedigree. Les probabilites

d’occurence de ces genotypes sont de f 2i = 1/16 dans les cas ou les alleles sont les memes

et de 2fifj = 1/8 dans les cas ou les deux alleles dont differents.

L’ensemble des valeurs possibles pour le genotype bivarie⇀g1 est constitue des 10 genotypes

possibles au locus du marqueur multiplie par 2 genotypes possibles au locus de la ma-

ladie, donc de 20 facons de combiner les genotypes du marqueur aux genotypes de la

maladie. Les genotypes et les probabilites associees a chacun de ceux-ci sont :

⇀g1 P(

⇀g1 =

⇀g1)

⇀g1 P(

⇀g1 =

⇀g1)

(1, 1, A, a) 2·fAfa

16·(f2

A+2·fAfa)

(1, 1, A,A)f2

A

16·(f2

A+2·fAfa)

(1, 2, A, a) 2·fAfa

8·(f2

A+2·fAfa)

(1, 2, A,A)f2

A

8·(f2

A+2·fAfa)

(1, 3, A, a) 2·fAfa

8·(f2

A+2·fAfa)

(1, 3, A,A)f2

A

8·(f2

A+2·fAfa)

(1, 4, A, a) 2·fAfa

8·(f2

A+2·fAfa)

(1, 4, A,A)f2

A

8·(f2

A+2·fAfa)

(2, 2, A, a) 2·fAfa

16·(f2

A+2·fAfa)

(2, 2, A,A)f2

A

16·(f2

A+2·fAfa)

(2, 3, A, a) 2·fAfa

8·(f2

A+2·fAfa)

(2, 3, A,A)f2

A

8·(f2

A+2·fAfa)

(2, 4, A, a) 2·fAfa

8·(f2

A+2·fAfa)

(2, 4, A,A)f2

A

8·(f2

A+2·fAfa)

(3, 3, A, a) 2·fAfa

16·(f2

A+2·fAfa)

(3, 3, A,A)f2

A

16·(f2

A+2·fAfa)

(3, 4, A, a) 2·fAfa

8·(f2

A+2·fAfa)

(3, 4, A,A)f2

A

8·(f2

A+2·fAfa)

(4, 4, A, a) 2·fAfa

16·(f2

A+2·fAfa)

(4, 4, A,A)f2

A

16·(f2

A+2·fAfa)

.

Ces genotypes n’incluent pas la phase, puisque comme les individus 1 et 2 n’ont pas de

parents dans le pedigree, il est impossible de savoir de qui ils ont recu leurs alleles. En

effet, pour les ancetres et les conjoints du pedigree, comme on ne connait pas la phase,

les probabilites d’occurence des genotypes bivaries sont :

P(⇀gi =

⇀gi) = P( geno. au locus de la maladie ) · P( geno. au locus du marqueur ).

Pour ce cas, le genotype au locus de la maladie est independant du genotype au locus

du marqueur.

Individu 2 : aucun individu precedent.

Le phenotype pour la maladie de l’individu 2 est non-atteint (x2 = 1) : le seul genotype

III. SIMULATIONS 47

qu’il peut posseder au locus de la maladie est {(a,a)}. Comme il est lui aussi fondateur

du pedigree, les genotypes qu’il peut posseder au locus du marqueur sont les memes

que ceux que pouvait posseder l’individu 1.

L’ensemble des valeurs possibles pour le genotype bivarie⇀g2 du sujet 2 et les probabilites

pour chacune de ces valeurs sont :⇀g2 P(

⇀g2 =

⇀g2)

⇀g2 P(

⇀g2 =

⇀g2)

(1, 1, a, a) 116

(2, 3, a, a) 18

(1, 2, a, a) 18

(2, 4, a, a) 18

(1, 3, a, a) 18

(3, 3, a, a) 116

(1, 4, a, a) 18

(3, 4, a, a) 18

(2, 2, a, a) 116

(4, 4, a, a) 116

.

Supposons que le resultat d’une pige aleatoire des genotypes est :⇀g1= (1, 2, A, a) et

⇀g2= (3, 4, a, a). Puisque ces individus sont fondateurs, on n’a pas d’information sur

leur phase, donc on ne sait pas si le sujet 1 par exemple a recu son allele A avec l’allele

1 ou bien avec l’allele 2.

Individus 3 et 4 : les individus 1 et 2 precedent.

Les individus 3 et 4 sont de phenotype atteint (x3 = 2 et x4 = 2) : ils ont forcement

recu l’allele A de leur pere, puisque

P(phenotype=atteint|genotype = aa) = 0.

L’allele au locus de la maladie recu de la mere est a et par consequent, le seul genotype

possible pour le locus de la maladie est {(A,a)}. Etant donne les genotypes des individus

1 et 2, les individus 3 et 4 peuvent recevoir les genotypes :

{(1,3), (1,4), (2,3), (2,4)}

au locus du marqueur. Pour le pere, la probabilite de transmettre l’allele 1 est :

P(transmettre l’allele 1| il a transmis l’allele A) =

P(transmettre l’allele 1|il est en phase 1a/2A ∩ il a transmis l’allele A)

· P(le pere est en phase 1a/2A| il a transmis l’allele A)

+ P(transmettre l’allele 1|il est en phase 1A/2a ∩ il a transmis l’allele A)

· P(le pere est en phase 1A/2a| il a transmis l’allele A).

Comme nous ne possedons pas d’information sur sa phase, chacune des phases est

equiprobable.

P(transmettre l’allele 1| il a transmis l’allele A) = θ 12

+ (1 − θ)12

= 12.

III. SIMULATIONS 48

Pour la mere, la probabilite de transmettre l’allele 3 au marqueur est :

P(transmettre l’allele 3| elle a transmis l’allele a) = 12.

Alors, comme la transmission des alleles du pere est independante de celle des alleles

de la mere et que chaque allele a une egale probabilite d’etre transmis, les quatre

differents genotypes au locus du marqueur que peuvent recevoir les individus 3 et 4

sont equiprobables.

Comme on a suppose que le resultat d’une pige aleatoire des genotypes pour les individus

1 et 2 est⇀g1= (1, 2, A, a) et

⇀g2= (3, 4, a, a) et qu’on sait que les individus 3 et 4 ont le

phenotype atteint, les genotypes bivaries possibles pour les individus 3 et 4 sont :

⇀g3 P(

⇀g3 =

⇀g3)

⇀g4 P(

⇀g4 =

⇀g4)

(1A | 3

a)14

(1A | 3

a)14

(1A | 4

a)14

(1A | 4

a)14

(2A | 3

a)14

(2A | 3

a)14

(2A | 4

a)14

(2A | 4

a)14.

Ici, les genotypes incluent la phase, puisque nous savons de quel parent provient chacun

des alleles. En effet, seules les alleles 1 et 2 peuvent etre transmis avec A.

Individus 5 et 6 : aucun individu precedent.

De la meme maniere que pour l’individu 2, les genotypes bivaries possibles g5 et g6 ainsi

que les probabilites associees sont :

⇀g5=

⇀g6 P(

⇀g5 =

⇀g5) = P(

⇀g6 =

⇀g6)

⇀g5=

⇀g6 P(

⇀g5 =

⇀g5) = P(

⇀g6 =

⇀g6)

(1, 1, a, a) 116

(2, 3, a, a) 18

(1, 2, a, a) 18

(2, 4, a, a) 18

(1, 3, a, a) 18

(3, 3, a, a) 116

(1, 4, a, a) 18

(3, 4, a, a) 18

(2, 2, a, a) 116

(4, 4, a, a) 116

,

puisque le phenotype pour la maladie est non-atteint (x5 = x6 = 1). Comme les parents

des individus 5 et 6 ne se trouvent pas dans le pedigree, les phases de 5 et 6 ne sont

pas incluses dans les genotypes.

Disons qu’on tire⇀g3= (

1A | 3

a),⇀g4= (

2A | 4

a),⇀g5= (1, 2, a, a), et

⇀g6= (3, 3, a, a) ; ce resultat

est illustre sur la figure 3.2.

III. SIMULATIONS 49

Fig. 3.2 – Resultats obtenus pour la simulation des genotypes des individus 1 a 6. Seule

la phase des individus 3 et 4 est connue.

Jusqu’a maintenant, on ne possedait pas d’information sur la phase des parents des in-

dividus a simuler, mais a partir d’ici, on connaıt la phase des parents 3 et 4. Lorsque la

phase d’un parent est connue, on est capable de distinguer si le genotype de ses enfants

est recombinant ou non. La proportion d’enfants recombinants depend de la liaison

entre le marqueur et la maladie : si les deux loci sont lies, la fraction de recombinaison

est inferieure a 1/2 et si les loci ne sont pas lies, la fraction de recombinaison est egale

a 1/2 . Puisque la phase des individus 3 et 4 est connue, la simulation des individus 7

a 16 depend de la valeur de la fraction de recombinaison θ.

Individus 7 a 11 : les individus 3, 5, 1 et 2 precedent.

Tous les enfants des sujets 3 et 5 sont de phenotype non-atteint (x7 = x8 = x9 = x10 =

x11 = 1). Les genotypes bivaries possibles pour ceux-ci sont :

⇀g7= . . . =

⇀g11= {(1

a | 1a), (1

a | 2a), (3

a | 1a), (3

a | 2a)}.

L’individu 3 a transmis l’allele a a tous ses enfants puisqu’ils sont non-atteints. Il est en

phase 1A/3a. Il transmettra donc l’allele 1 si une recombinaison se produit au cours de

la meiose et ce, avec probabilite θ. Autrement, il transmettra l’haplotype 3a s’il n’y a

pas de recombinaison au cours de la meiose, c’est-a-dire avec probabilite (1−θ). Comme

la mere a une chance sur deux de transmettre les alleles 1a et 2a, les probabilites d’ob-

server un enfant non-atteint de chacun des genotypes possibles sont :

III. SIMULATIONS 50

⇀g7= . . . =

⇀g11 P(

⇀g7 =

⇀g7) = · · · = P(

⇀g11 =

⇀g11)

(1a | 1

a)θ2

(1a | 2

a)θ2

(3a | 1

a)(1−θ)

2

(3a | 2

a)(1−θ)

2.

Les genotypes bivaries des individus 12 a 16 peuvent etre determines de la meme facon.

Un resultat particulier de la simulation que nous choisissons ici en exemple est :

g =

⇀g1⇀g2⇀g3⇀g4⇀g5⇀g6⇀g7⇀g8⇀g9⇀g10⇀g11⇀g12⇀g13⇀g14⇀g15⇀g16

=

1 2 A a

3 4 a a

1 3 A a

2 4 A a

1 2 a a

3 3 a a

1 1 a a

3 1 a a

3 2 a a

3 1 a a

3 2 a a

4 3 a a

2 3 A a

2 3 A a

2 3 A a

4 3 a a

etant donne que x =

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

x11

x12

x13

x14

x15

x16

=

2

1

2

2

1

1

1

1

1

1

1

1

2

2

2

1

.

Les genotypes bivaries des individus 1 a 16 (⇀g1 a

⇀g16) constituent une matrice g. La

simulation globale consiste a produire m matrices g.

3.2 Fichier de structure des simulations

Les simulations ont ete realisees a partir d’un groupe de dix familles tri-generationnelles.

Un apercu d’un groupe de familles est presente a la figure 3.3 : il s’agit de dix familles

de deux enfants qui ont a leur tour chacun cinq enfants.

De la meme facon qu’a la sous-section 3.1 qui debute a la page 43, on simule deux loci :

III. SIMULATIONS 51

Fig. 3.3 – Representation du fichier utilise pour les simulations. Les individus atteints

de la maladie sont les memes pour chacune des familles du groupe de dix familles

tri-generationnelles.

le locus de la maladie, pour lequel il y a deux alleles differents possibles et le locus du

marqueur, pour lequel il y a quatre alleles possibles. En fait, on veut simplement obtenir

la simulation d’un genotype au locus du marqueur mais, pour obtenir ce genotype, on

doit egalement simuler les alleles au locus de la maladie quand il y a ambiguıte. Par

exemple, il y a ambiguıte pour les alleles au locus de la maladie quand le phenotype est

atteint et que le genotype pour la maladie peut etre AA ou Aa. Les alleles au locus de

la maladie ne sont pas visibles dans le fichier du resultat de la simulation. Le fichier de

parametres pour la simulation contient les parametres relatifs aux frequences des alleles

de la maladie. Ces valeurs sont presentees a la section 3.1, sauf que, comme le nombre

d’individus est multiplie par 10, les dimensions de x et de g augmentent. Les valeurs

des phenotypes xi sont :

x = (x1, ..., x160) = (2, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1,

..., 2, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1).

Aussi :

g = (⇀g1, ...,

⇀g160), la matrice 160 · 4 de genotypes pour un ensemble de

10 familles.

Theta prend les valeurs :

θ =

{

0, 01 sous liaison

0, 5 sous non-liaison.

III. SIMULATIONS 52

Le modele est dominant et tous les individus qui ont le genotype de vulnerabilite a

la maladie (Aa et AA) sont atteints, c’est-a-dire que la penetrance de la maladie est

complete. Au total, m =100 replicats du fichier de 10 familles sont simules a l’aide des

programmes SIMULATE et SLINK detailles dans Ott et Terwilliger (1994) :

g1, ...,g100.

Un apercu des fichiers de parametres et du fichier de sortie de la simulation de SLINK

sont presentes a l’annexe A. La vraisemblance associee a chacune des 1000 familles de

16 individus a ete calculee et maximisee a l’aide du programme MLINK de Lathrop et

al. (1984). En annexe B se trouvent les fichiers d’entree et de sortie pour l’execution

de MLINK : les lod-scores sont calcules pour les valeurs de fraction de recombinaison

demandees dans le fichier model.dat.

3.3 Description des donnees simulees

Un exemple du fichier de sortie de SLINK est presente a la figure B.1, dans l’annexe

a la page 100, alors que la figure 3.4 illustre la premiere famille de cette simulation,

avec les genotypes qui en resultent. Il faut remarquer que le resultat d’une simulation

Fig. 3.4 – Famille simulee. Le resultat d’une simulation consiste a reveler les 16

genotypes au locus du marqueur genetique uniquement.

consiste a reveler les 16 genotypes au locus du marqueur genetique uniquement. Ces

genotypes sont conditionnels aux phenotypes qui ont ete fixes. Les genotypes au locus

III. SIMULATIONS 53

de la maladie ne sont jamais, bien sur, observables. Parmi les 1000 familles tri-genera-

tionnelles simulees (100 replicats de 10 familles), nous avons verifie qu’aucune d’entre

elles etait identique quant au vecteur de 16 genotypes simule. Malgre que la simulation

ait produit 1000 realisations de vecteur de 16 genotypes, nous avons obtenu, en tout,

49 lod-scores differents (ils sont presentes dans le tableau 3.1). Ceci s’explique par le

fait que plusieurs ensembles de genotypes differents menent au meme lod-score, surtout

lorsque les alleles au marqueur genetique sont supposes egalements frequents, comme

nous l’avons fait. Ainsi, une realisation correspondant aux genotypes 12 et 33 pour un

couple de parents s’interpreteront de la meme maniere dans le calcul de lod-score qu’une

realisation correspondant aux genotypes 23 et 44.

Tab. 3.1 – Lod-scores obtenus et frequences observees pour des simulations sous l’hy-

pothese alternative (θ = 0, 01) de 100 replicats de 10 familles chacun.Z(θ) proportion frequence Z(θ) proportion frequence

observee observee

1 0,0000 4,3 43 26 1,3585 0,1 1

2 0,2688 0,1 1 27 1,4704 4,8 48

3 0,2839 0,1 1 28 1,4748 0,2 2

4 0,2881 12,0 120 29 1,4833 3,9 39

5 0,2967 0,1 1 30 1,5340 0,1 1

6 0,3475 0,1 1 31 1,5541 0,2 2

7 0,4179 0,2 2 32 1,5962 0,8 8

8 0,5684 0,4 4 33 1,6111 0,1 1

9 0,5687 0,3 3 34 1,7627 0,4 4

10 0,5804 0,4 4 35 1,7714 7,4 74

11 0,5848 0,1 1 36 1,7800 1,1 11

12 0,5933 0,1 1 37 1,8166 3,0 30

13 0,8358 0,1 1 38 2,0594 0,1 1

14 0,8596 0,1 1 39 2,0681 2,2 22

15 0,8693 1,0 10 40 2,0767 0,9 9

16 0,8814 0,7 7 41 2,1360 0,5 5

17 0,9766 0,3 3 42 2,3648 2,0 20

18 0,1695 0,1 1 43 2,3733 0,7 7

19 0,1737 0,3 3 44 2,6527 1,1 11

20 0,1781 0,4 4 45 2,6614 2,3 23

21 1,1823 0,1 1 46 2,6700 0,4 4

22 1,1867 0,2 2 47 2,9581 1,1 11

23 1,2146 0,2 2 48 2,9667 10,4 104

24 1,2707 0,1 1 49 3,2548 33,9 339

25 1,2985 0,5 5

III. SIMULATIONS 54

Afin de decrire comment ont ete obtenus les resultats des analyses des donnees simulees,

nous nous interesserons a une des branches de la famille utilisee pour la simulation, c’est-

a-dire, a la famille constituee des individus 3, 5, 7, 8, 9, 10 et 11 de la figure 3.5 : nous

allons tenter d’expliquer les frequences d’occurence de chacun des lod-scores pour ce

sous-pedigree. Au total, six lod-scores differents ont ete observes pour cette famille : ils

sont presentes dans le tableau 3.2.

Fig. 3.5 – Partie du fichier utilisee pour expliquer les resultats des simulations : seuls

les individus a l’interieur de la zone pointillee sont consideres.

Tab. 3.2 – Lod-scores obtenus et frequences observees pour l’analyse des individus 3,

5, 7, 8, 9, 10 et 11 lors des simulations de 100 × 10 familles.Z(θ) frequence Z(θ) frequence

observee observee

1 0,0000 27,03 4 0,5890 1,50

2 0,1249 3,17 5 0,8856 1,40

3 0,2923 2,87 6 1,1823 63,10

En quatre etapes, nous obtenons les frequences esperees associees a ces six lod-scores.

Etape 1 : Trouver les probabilites d’observer chacune des differentes familles possibles

composees de deux parents et de cinq enfants dont le pere est atteint.

L’identification du nombre d’enfants recombinants depend de la phase du parent 3. Si

on sait que le parent 3 est en phase I et qu’on a x enfants informatifs, alors on peut

ecrire la probabilite d’obtenir r enfants recombinants sous la phase I etant donne que

la phase est I comme suit :

P(r enfants recombinants sous la phase I|phase I, x enfants informatifs)

=(

xr

)

θr(1 − θ)x−r,

III. SIMULATIONS 55

et la vraisemblance des donnees s’ecrit

P(donnees |x enfants informatifs) = P(r|phase I, x).

Si toutefois on ne connaıt pas la phase du sujet 3, alors la vraisemblance des donnees

est

P(donnees |x) = P(r|phase I)P(phase I) + P(x − r|phase II)P(phase II),

puisqu’il n’y a toujours que deux phases possibles pour le sujet 3 et que l’observation

de r recombinants conditionnelle a la phase I implique necessairement qu’il y a x − r

recombinants sous la phase II. Donc, dans ce cas,

P(donnees |x) =(

xr

)

θr(1 − θ)x−rP(phase I)

+(

xx−r

)

θx−r(1 − θ)xP(phase II).

On peut recrire l’expression comme suit, etant donne qu’on considere que P(phase I) =

P(phase II) = 1/2 :

P(donnees |x) =

(

x

r

)

1/2[

θr(1 − θ)x−r + θx−r(1 − θ)x]

. (3.3.1)

Etape 2 : Evaluer les probabilites a la vraie valeur de θ, soit a θ = 0, 01, pour obtenir

la probabilite d’observer des donnees de chaque type etant donne le nombre d’enfants

informatifs.

On utilise la formule (3.3.1) pour calculer les probabilites d’observer des ensembles de

donnees pour tous les nombres d’enfants recombinants sous la phase I (r) et les nombres

d’enfants informatifs (x) possibles. On obtient les resultats presentes dans le tableau

3.3.

Les lod-scores associes a des familles de r enfants recombinants sous la phase I et de x

enfants informatifs, si on observe de telles familles, sont presentes dans le tableau 3.4.

Etape 3 : Obtenir la probabilite d’avoir x enfants informatifs, c’est-a-dire P(X = x).

Pour trouver la probabilite d’avoir x enfants informatifs, il faut trouver la probabilite

que l’individu 3 soit homozygote au locus du marqueur. Lorsque c’est le cas, il n’y a

III. SIMULATIONS 56

Tab. 3.3 – Probabilites obtenues pour differentes valeurs de r et de x avec l’equation

(3.3.1).

x

0 1 2 3 4 5

0 1 0,5 0,4901 0,4852 0,4803 0,4755

1 - 0,5 0,0198 0,0149 0,0194 0,0240

2 - - 0,4901 0,0149 0,0006 0,0005

r 3 - - - 0,4852 0,0194 0,0005

4 - - - - 0,4803 0,0240

5 - - - - - 0,4755

Tab. 3.4 – Lod-scores associes aux familles de r enfants recombinants et de x enfants

informatifs. Il s’agit de log10P( donnees |x,θ)

P( donnees |x,1/2).

x

0 1 2 3 4 5

0 0 0 0,2923447 0,588966 0,8856308 1,182296

1 - 0 0 0 0 0,1249295

2 - - 0,2923447 0 0 0

r 3 - - - 0,588966 0 0

4 - - - - 0,8856308 0,1249295

5 - - - - - 1,182296

III. SIMULATIONS 57

pas d’information pour la liaison pour tous ses descendants. En effet, si un descendant

du pere de gauche de la figure 3.6 est non-atteint, alors c’est qu’il a recu les alleles 4a.

Or, l’haplotype 4a peut etre forme avec un ou l’autre des alleles 4 du pere. C’est pour

cela qu’on ne sait pas s’il y a recombinaison pour chacun des descendants d’un parent

homozygote.

Fig. 3.6 – Alleles des marqueurs pour deux familles contenant des individus atteints.

Par contre, si l’individu 3 est heterozygote, cela ne garantit pas qu’on aura de l’infor-

mation sur la recombinaison pour tous ses enfants. Pour comprendre ce fait, voyons le

pere de la famille de droite de la figure 3.6. Cet individu est heterozygote, mais pour

les memes alleles que sa conjointe. Le premier enfant a le genotype (1, 3) au locus du

marqueur et est atteint. On ne peut pas savoir si sa maladie a ete transmise avec l’allele

1 ou l’allele 3, donc on n’a pas d’information pour la liaison. Le second enfant est ho-

mozygote : on sait qu’un allele 1 provient du pere et que l’autre allele 1 provient de

la mere. Si le pere est en phase 1A/3a, on sait qu’il y a eu recombinaison : on a de

l’information pour la liaison. Donc, un parent heterozygote n’engendre pas seulement

des enfants dont on peut avoir de l’information pour la liaison.

Comme les accouplements aleatoires impliquent l’equilibre d’Hardy–Weinberg (decrit

a la page 11), la frequence des genotypes dans la population depend uniquement de

la frequence des genes eux-memes. Ceci signifie que la probabilite que l’individu 3 soit

homozygote au locus du marqueur est la meme que la probabilite de choisir deux alleles

identiques parmi quatre alleles equiprobables. Donc,

P(l’individu 3 soit homozygote) = 1/4

P(l’individu 3 soit heterozygote) = 3/4.

III. SIMULATIONS 58

A la figure 3.6, on a vu dans quels cas on n’a pas d’information pour la liaison d’un

enfant. On n’a pas d’information pour la liaison d’un enfant qui fait partie du pedigree

3.5 si :- le parent 3 est homozygote

ou

- le parent 3 est heterozygote, le parent 5 est egalement heterozygote et ses alleles

sont les memes que ceux du parent 3 et l’enfant est heterozygote.

On peut donc trouver la probabilite d’avoir de l’information pour x descendants en se

referant a la figure 3.7. Par exemple, l’evenement X = 5 pourrait survenir des deux

facons suivantes.1) Le pere est heterozygote (avec une probabilite de 3/4) et la mere n’a pas

d’alleles heterozygotes non-distinguables de ceux du pere (cela se produit avec

une probabilite de 7/8). On a alors obligatoirement de l’information pour

la liaison de tous les enfants.

2) Le pere est heterozygote (avec une probabilite de 3/4), la mere a des alleles

heterozygotes non-distinguables de ceux du pere (cela se produit avec une

probabilite de 1/8) et les enfants sont tous homozygotes, ce qui survient avec

une probabilite de(

55

)

(1/2)5(1 − 1/2)0.

Donc, la probabilite qu’il y ait 5 enfants dont on a de l’information est :

P(X = 5) =3

4·7

8+

(

5

5

)

·3

4·1

8·

1

25= 0, 6592.

On peut trouver, par un raisonnement semblable, que :

P(X = 4) =

(

5

4

)

·3

4·1

8·

1

25= 0, 0146

P(X = 3) =

(

5

3

)

·3

4·1

8·

1

25= 0, 0293

P(X = 2) =

(

5

2

)

·3

4·1

8·

1

25= 0, 0293

P(X = 1) =

(

5

1

)

·3

4·1

8·

1

25= 0, 0146

P(X = 0) =1

4+

(

5

0

)

·3

4·1

8·

1

25= 0, 2529.

III. SIMULATIONS 59

Fig. 3.7 – Diagramme en tiges et feuilles pour illustrer la probabilite que x enfants

soient informatifs pour la liaison. A cote de chacune des possibilites se trouve un couple

d’alleles inscrit a titre d’exemple.

III. SIMULATIONS 60

Etape 4 : Multiplier P(donnees |X = x enfants dont on a de l’info.) · P(X = x) pour

obtenir la probabilite d’observer un ensemble de donnees en particulier et x enfants dont

on a de l’information.

Les resultats de la multiplication des probabilites evaluees en θ = 0, 01 par la probabilite

d’avoir de l’information pour le nombre d’enfants correspondants ainsi que les calculs

realises aux deux premieres etapes se trouvent dans le tableau 3.5.

Tab. 3.5 – Calcul des frequences esperees pour chaque famille de r recombinants en

phase I et de x enfants informatifs.Nombre nombre lod-score Pθ=0,01 P(X = x) frequence

de rec. d’enfants Z(θ) (donnees |x) esperee

en phase I infor. associe (tableau 3.3) 100 · P(X = x)

r x (tableau 3.4) ·P(donnees |x)

5 5 1,1823 0,4755 0,6592 31,35

4 5 0,1249 0,0240 0,6592 1,585

3 5 0,0000 0,0005 0,6592 0,030

2 5 0,0000 0,0005 0,6592 0,030

1 5 0,1249 0,0240 0,6592 1,585

0 5 1,1823 0,4755 0,6592 31,35

4 4 0,8856 0,4802 0,0146 0,705

3 4 0,0000 0,0144 0,0146 0,030

2 4 0,0000 0,0006 0,0146 0,000

1 4 0,0000 0,0144 0,0146 0,030

0 4 0,8856 0,4802 0,0146 0,705

3 3 0,5890 0,4852 0,0293 1,420

2 3 0,0000 0,0149 0,0293 0,045

1 3 0,0000 0,0149 0,0293 0,045

0 3 0,5890 0,4852 0,0293 1,420

2 2 0,2923 0,4901 0,0293 1,435

1 2 0,0000 0,0198 0,0293 0,060

0 2 0,2923 0,4901 0,0293 1,435

1 1 0,0000 0,5000 0,0146 0,730

0 1 0,0000 0,5000 0,0146 0,730

0 0 0,0000 1,0000 0,2529 25,29

Les frequences esperees associees au meme lod-score sont sommees et sont presentees

dans le tableau 3.6 : on trouve que la somme des frequences des lignes associees a un

lod-score de 0 donne 27,02.

III. SIMULATIONS 61

Tab. 3.6 – Frequences esperees et frequences observees des lod-scores de la simulation.Z(θ) frequence frequence Z(θ) frequence frequence

observee esperee observee esperee

1 0,0000 27,03 27,02 4 0,5890 1,50 2,84

2 0,1249 3,17 2,60 5 0,8856 1,40 1,41

3 0,2923 2,87 2,87 6 1,1823 63,10 62,69

Il est interessant de remarquer que, bien qu’on decrive 21 combinaisons de valeurs x et

r, le nombre de differents lod-scores est 6. En fait, certaines familles bien distinctes par

rapport au nombre d’enfants dont on a de l’information et au nombre de recombinants

menent au meme lod-score : une famille ou x = 5 et r = 3 et une famille ou x = 4

et r = 1 ont 0 comme lod-score. En somme, les frequences esperees et les frequences

observees pour chacun des lod-scores sont tres semblables.

Tab. 3.7 – Lod-scores observes pour la simulation des 100 groupes de 10 familles.Classe de lod-score frequence

[7,5 ;10[ 1

[10 ;12,5[ 0

[12,5 ;15[ 3

[15 ;17,5[ 17

[17,5 ;20[ 16

[20 ;22,5[ 26

[22,5 ;25[ 26

[25 ;27,5[ 10

[27,5 ;30[ 1

Puisque nos analyses subsequentes s’interessent aux resultats par replicat de la simula-

tion et non par famille, nous detaillons aussi les lod-scores obtenus pour les 100 replicats

de la simulation dans le tableau 3.7. Seulement un lod-score egal a 18, 006501 a ete ob-

tenu plus d’une fois et il a ete obtenu en tout deux fois. L’histogramme correspondant

a ces donnees est presente a la figure 3.8.

Dans ce chapitre, le lecteur a eu l’occasion de comprendre comment les genotypes des

III. SIMULATIONS 62

Fig. 3.8 – Histogramme des lod-scores obtenus a partir de 100 ensembles de 10 familles.

familles tri-generationnelles sont simules. Il a pu prendre connaissance des lod-scores

obtenus a l’aide des donnees simulees et comprend que la frequence de chacun des lod-

scores obtenus pour une partie du fichier correspond a ce a quoi on s’attendait. On peut

maintenant voir quelles analyses il est possible de faire a partir des genotypes.

CHAPITRE IV

ANALYSE SOUS HETEROGENEITEINTRA-FAMILIALE

Dans le dernier chapitre, la methode de simulation des pedigrees a ete decrite et clarifiee

a l’aide d’un exemple. On peut maintenant effectuer differents types d’analyses a partir

des genotypes simules.

Le plan des analyses faites sur des donnees simulees dans le but de comparer la methode

proposee a des methodes deja utilisees est presente au tout debut de ce chapitre. Par

la suite, les sections 4.2 et 4.3 font voir les puissances ainsi que les erreurs de type I

obtenues pour l’analyse de differents types de donnees.

Au terme de ce chapitre, le lecteur saura qualifier la methode d’analyse de liaison

proposee pour tenir compte de l’heterogeneite non-allelique et pourra la situer par rap-

port a d’autres methodes.

4.1 Plan des analyses

Afin de tirer le maximum d’information des donnees simulees, quatre comparaisons des

resultats de differentes analyses sont faites.

Dans un premier temps, un total de m = 100 groupes de dix familles sont simules

sans heterogeneite. Les familles sont simulees sous liaison, c’est-a-dire a θ = 0, 01. La

vraisemblance de chacun des 100 groupes de 10 familles tri-generationnelles est evaluee.

Nous notons les lod-scores des 100 fichiers par :

Z·,1(θ), . . . , Z·,100(θ).

Un resume des valeurs des lod-scores obtenues est presente dans le tableau 3.7 a la page

61.

IV. ANALYSE SOUS HETEROGENEITE 64

Dans un deuxieme temps, chacune des familles tri-generationnelles est decomposee en

trois familles nucleaires comme il a ete explique a l’aide de la figure 2.9 presentee a la

page 41. Comme chaque famille tri-generationnelle donne trois familles bi-generation-

nelles, l’ensemble de lod-scores pour les 100 replications de 10 familles tri-generation-

nelles est associe a un ensemble de lod-scores pour les 100 replications de 30 familles

bi-generationnelles. On note ces lod-scores par :

Z·,·,1(θ), . . . , Z·,·,100(θ).

Ainsi, on distingue un lod-score calcule dans une grande famille a celui calcule dans un

groupe de trois petites familles par le deuxieme «.» (eg. Z·,r(θ) vs Z·,·,r(θ) respective-

ment). Donc, un lod-score est obtenu pour chaque groupe de 30 familles bi-generation-

nelles. Ce lod-score n’est pas egal a la somme des 30 lod-scores qu’on pourrait obtenir

pour chacune des petites familles. En effet, pour obtenir le lod-score du groupe de 30

familles, on maximise, en theta, la vraisemblance de l’ensemble des 30 familles, tandis

que si on devait obtenir les lod-scores des 30 petites familles separees, on maximiserait

la vraisemblance de chacune des petites familles, puis on sommerait les 30 lod-scores

obtenus.

Proposition de comparaisons I : Il est utile de comparer les lod-scores des grandes

familles a ceux des petites familles (Z·,r(θ) vs Z·,·,r(θ) ) : la quantification de la difference

observee des lod-scores donne une idee de l’effet de la decomposition des familles sur la

puissance a detecter la liaison. On s’attend bien sur a ce que l’analyse des petites familles

donne des lod-scores inferieurs a ceux des grandes familles puisqu’en decomposant, on

detruit les liens genetiques entre les membres des familles, ce qui a pour consequence

de reduire l’information genetique globale.

Le but de la methode proposee, rappelons-le, est d’analyser des donnees dans les cas

d’heterogeneite intra-familiale. Les familles que nous avons simulees sont homogenes.

Il est donc, dans un troisieme temps, necessaire d’introduire de l’heterogeneite intra-

familiale dans ces donnees. Voici comment on transforme les pedigrees : les memes

matrices de genotypes g que les familles tri-generationnelles homogenes sont utilisees

pour le locus du marqueur, mais certains des phenotypes sont modifies. Nous intro-

duisons en effet, apres la simulation des marqueurs genetiques, trois nouveaux sujets

atteints (7, 9 et 10) qui etaient consideres comme etant non-atteints lors de la simula-

tion des marqueurs conditionnelle aux phenotypes originaux (representes dans x). Le

vecteur de phenotypes correspondant a cette transformation est appele x′. Les vecteurs

sont detailles ci-dessous.


Phenotype fixe pour la simulation ; phenotype modifie apres simulation

du marqueur lie a la maladie pour

l’introduction de l’heterogeneite

intra-familiale

x =

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

x11

x12

x13

x14

x15

x16

=

2

1

2

2

1

1

1

1

1

1

1

1

2

2

2

1

et x′ =

2

1

2

2

1

1

2

1

2

2

1

1

2

2

2

1

.

En introduisant ces trois nouveaux individus atteints de la maladie, l’estimation de la

fraction de recombinaision devrait changer et, par consequent, celle des lod-scores de-

vrait varier. Reprenons la figure 4.1 deja illustree a la figure 2.8 (page 35). Cette figure

illustre l’identification des recombinants pour chacun des deux vecteurs de phenotypes,

l’original x et le modifie x′. Ainsi, apres modifications des phenotypes, on peut croire

a tort que θ = 4/10 tandis que selon les phenotypes originaux, l’estimation de cette

fraction de recombinaison est seulement θ = 1/10.

La vraisemblance des 100 replications de 10 grandes familles heterogenes est evaluee.

Afin de bien reconnaıtre les lod-scores calcules pour les familles heterogenes (c’est-a-dire

avec x′), on ajoute une etoile a la notation presentee precedemment. Les lod-scores sont

donc notes :

Z?·,1(θ), . . . , Z

?·,100(θ).

Proposition de comparaisons II : Il est interessant de comparer les lod-scores obtenus

lors de l’analyse des grandes familles homogenes a ceux obtenus pour les grandes fa-

milles heterogenes (Z·,r(θ) vs Z?·,r(θ) ). Cette comparaison permet de comprendre la

perte de puissance associee a l’analyse de familles ou il y a presence d’heterogeneite


Fig. 4.1 – Famille bilineale et phenotypes pour les vecteurs x et x′.

intra-familiale.

Tous les lod-scores presentes precedemment referent a des resultats d’analyses effectuees

en ignorant la presence d’heterogeneite inter-familiale. Lorsqu’on fera reference a des

lod-scores calcules de cette facon, on les nommera : «lod-scores calcules sous un modele

d’homogeneite». Nous presentons ci-dessous la notation referant aux lod-scores calcules

en tenant compte de la presence d’heterogeneite inter-familiale.

Les 100 replications de 10 grandes familles sont reanalysees, mais cette fois, avec le

modele Ad vu a la section 2.5.1 qui debute a la page 36, c’est-a-dire le modele de

Smith 3. Pour conserver la meme notation que celle presentee avec le modele Ad, les

lod-scores sont indices par un «het». Donc, on note les lod-scores pour l’analyse des

3A chaque fois qu’on refere au «modele d’heterogeneite», il s’agit du modele Ad de Smith.


grandes familles heterogenes obtenus a l’aide d’un modele d’heterogeneite comme suit.

Z?·,1het(θ), . . . , Z

?·,100het(θ).

Dans un quatrieme et dernier temps, les familles tri-generationnelles heterogenes sont

decomposees en familles bi-generationnelles en suivant la meme methode que celle

illustree sur la figure 2.9 a la page 41. L’heterogeneite qui se presente dans les donnees

n’est plus de l’heterogeneite intra-familiale : il s’agit maintenant d’heterogeneite inter-

familiale. On calcule les lod-scores des 100 groupes de 30 familles associes aux familles

tri-generationnelles sous un modele d’homogeneite :

Z?·,·,1(θ), . . . , Z

?·,·,100(θ).

Ainsi, par exemple, la valeur Z?·,1 represente le lod-score calcule pour les grandes familles

heterogenes de la replication 1, tandis que la valeur Z?·,·,1 represente le lod-score calcule

pour les 30 petites familles dans lesquelles il y a de l’heterogeneite inter-familiale de la

replication 1.

Les analyses sur les familles bi-generationnelles dans lesquelles on a introduit de l’he-

terogeneite sont refaites avec les memes donnees, mais cette fois utilisant le modele

Ad. Ainsi, les lod-scores representant l’analyse par le modele Ad de chaque replication

effectuee sur les 30 petites familles apres avoir introduit de l’heterogeneite sont :

Z?·,·,1het(θ), . . . , Z

?·,·,100het(θ).

Un tableau recapitulatif de la notation de chacun des types de lod-scores est presente

a la figure 4.1.

Deux dernieres comparaisons sont proposees pour comprendre l’heterogeneite.

Proposition de comparaisons III : La comparaison des lod-scores des grandes familles

heterogenes analysees sous un modele d’heterogeneite (analyse 1L+Ad : Z?·,rhet

(θ) )

aux lod-scores des groupes de petites familles heterogenes analysees sous un modele

d’heterogeneite (analyse D+1L+Ad : Z?·,·,rhet

(θ) ) par le test Ad permet de voir ce

qu’ajoute la decomposition au modele traditionnel d’heterogeneite.

Proposition de comparaisons IV : La comparaison des lod-scores des groupes de petites

familles heterogenes analysees sous un modele d’homogeneite (Z?·,·,r(θ) ) aux lod-scores


Tab. 4.1 – Nomenclature.Numero de Type de Nomenclature

methode donnees

d’analyse nb. gener. donnees modele

1 3 homogenes homogeneite Z·,r(θ)

2 2 homogenes homogeneite Z·,·,r(θ)

3 3 heterogenes homogeneite Z?·,r(θ)

4 3 heterogenes heterogeneite Z?·,rhet

(θ)

5 2 heterogenes homogeneite Z?·,·,r(θ)

6 2 heterogenes heterogeneite Z?·,·,rhet

(θ)

des groupes de petites familles heterogenes analysees sous un modele d’heterogeneite

(Z?·,·,rhet

(θ) ) permet de quantifier l’augmentation de puissance lorsqu’on tient compte

de l’heterogeneite inter-familiale.

La figure 4.2 est un schema des analyses et comparaisons sus-mentionnees. Le rectangle

du haut decrit les parametres de simulation, alors que les autres rectangles decrivent

les 6 differentes methodes d’analyse. Les ovales decrivent les 4 comparaisons d’analyse

qui feront l’objet d’une discussion a la prochaine section.


Fig. 4.2 – Schema des analyses et simulations realisees : a l’aide d’un ensemble de

donnees simulees, six types de lod-scores sont calcules et quatre comparaisons sont

proposees.


4.2 Evaluation de la puissance

Dans cette sous-section, nous effectuons les quatre comparaisons afin d’apprecier le gain

dans les resultats obtenus par la methode d’analyse de familles decomposees sous un

modele d’heterogeneite (D+1L+Ad).

Pour comparer la puissance associee a deux methodes d’analyse, nous comparons les

distributions des lod-scores obtenus par replication. Il y aura donc toujours 100 obser-

vations par methode d’analyse.

4.2.1 Moyennes des lod-scores

Les moyennes et les ecarts-types des lod-scores, des valeurs de θ et de α sont presentees

dans le tableau 4.2.


Tab. 4.2 – Moyennes et ecarts-types obtenus pour les lod-scores, les valeurs de θ et les

valeurs α des donnees donnees simulees 100 fois. Un numero pour chacune des methodes

d’analyse est inscrit a la premiere colonne.Methode d’analyse Lod-score θ α

numero nom moyen

(tabl. 4.1) (ecart-type)

1. Z·,r(θ) 20,87 0,015 1

(3,64) (0,010) -

2. Z·,·,r(θ) 16,60 0,014 1

(3,09) (0,010) -

3. Z?·,r(θ) 3,00 0,268 1

(1,01) (0,036) -

4. Z?·,rhet

(θ) 3,01 0,267 0,995

(1,00) (0,038) (0,045)

5. Z?·,·,r(θ) 3,10 0,196 1

(1,00) (0,030) -

6. Z?·,·,rhet

(θ) 4,90 0,010 0,525

(1,31) (0,003) (0,070)

La valeur α est la proportion de familles liees. Elle est fixee

a 1 pour les methodes d’analyse sous homogeneite alors qu’elle

est estimee pour les methodes d’analyse sous heterogeneite.


4.2.2 Comparaisons des methodes d’analyse

Comparaison I : methodes d’analyse 1 (Z·,r(θ) ) et 2 (Z·,·,r(θ) ).

La comparaison entre les valeurs des lod-scores des familles tri-generationnelles et les

lod-scores des familles bi-generationnelles homogenes permet de quantifier la perte d’in-

formation due a la decomposition des familles. Les deux distributions de lod-scores sont

comparees a la figure 4.3. On constate que la moyenne des lod-scores pour les petites

05

1015

2025

3035

Comparaison I

Z.r Z..r

lod−

scor

e

20.866

16.594

Fig. 4.3 – Distributions des valeurs Z·,r(θ) et Z·,·,r(θ) .

familles est inferieure a la moyenne des lod-scores des familles tri-generationnelles : les

moyennes obtenues pour les valeurs Z·,r(θ) et Z·,·,r(θ) sont 20,87 et 16,59 (tableau 4.2)

et la moyenne des differences est de D = 4, 272. A l’aide d’un test de Student pour

des donnees appariees, nous avons teste l’hypothese nulle que cette moyenne est egale

a 0. Nous avons obtenu un seuil bilateral inferieur a 0,0001, donc les deux lod-scores

semblent differents. Cette difference peut etre due a une perte d’information genetique

causee par la perte d’information partielle ou totale de la phase des individus 3 et 4

dans les branches decoupees.


En effet, les individus 3 et 4 de chacune des dix familles du fichier deviennent des

individus a phase inconnue apres la decomposition, alors que leur phase est connue

au depart : de l’information genetique sur l’etat recombinant ou non-recombinant des

enfants est donc perdue par la decomposition. Si on calculait les lod-scores pour les

familles bi-generationnelles presentees a la figure 4.4, on obtiendrait Z(θ) = 0, 42 en

θ = 0, 21 pour la famille dont la phase est connue et Z(θ) = 0, 12 en θ = 0, 21 pour la

famille dont la phase est inconnue.

Fig. 4.4 – Famille bi-generationnelle ou l’individu 4 a une phase connue (gauche) et

famille ou l’individu 4 a une phase inconnue (droite).

Comparaison II : methodes d’analyse 1 (Z·,r(θ) ) et 3 (Z?·,r(θ) ).

La comparaison entre les lod-scores obtenus lors de l’analyse de familles tri-generation-

nelles telles qu’elles et de familles tri-generationnelles dans lesquelles on a introduit de

l’heterogeneite permet de quantifier l’effet de la presence d’heterogeneite intra-familiale.

On peut anticiper que les lod-scores des familles heterogenes seront inferieurs aux lod-

scores des familles homogenes. Par exemple, le lod-score associe a la famille de gauche

dans la figure 4.5 vaut Z?f,r(θ) = 0, 11 en θ = 0, 385 tandis que le lod-score associe a la

famille de droite vaut Zf,r(θ) = 1, 81 en θ = 0, 085.

Les comparaisons des valeurs Z·,r(θ) et Z?·,r(θ) sont presentees a la figure 4.6. Les

distributions sont clairement distinctes et les Z·,r(θ) sont superieurs aux Z?·,r(θ). Les

moyennes obtenues pour Z·,r(θ) et Z?·,r(θ) sont 20,87 et 3 respectivement (tableau 4.2) et

la moyenne des differences est de D = 17, 863. A l’aide du test de Student, nous avons

teste l’hypothese nulle que cette moyenne est egale a 0. Nous avons obtenu un seuil

bilateral inferieur a 0,0001, donc les deux lod-scores semblent differents. L’introduction

d’heterogeneite intra-familiale fait donc diminuer de beaucoup la capacite des analyses

a detecter la liaison dans une famille ou la liaison est pourtant presente.


Fig. 4.5 – Pedigree de trois generations heterogene et homogene.

05

1015

2025

3035

Comparaison II

Z*.r Z.r

lod−

scor

e

3.002

20.866

Fig. 4.6 – Distributions des valeurs Z·,r(θ) et Z?·,r(θ) .


Comparaison III : methodes d’analyse 6 (Z?·,·,rhet

(θ) ) et 4 ( Z?·,rhet

(θ) ).

La comparaison entre les lod-scores obtenus pour l’analyse de familles bi-generation-

nelles dans lesquelles il y a de l’heterogeneite (methode 6 ; D+1L+Ad) et les lod-scores

de l’analyse de familles tri-generationnelles dans lesquelles il y a de l’heterogeneite avec

un modele permettant l’heterogeneite inter-familiale (methode 4 ; 1L+Ad) permet de

comprendre l’avantage de decomposer les familles en presence d’heterogeneite intra-

familiale. Les moyennes des valeurs Z?·,·,rhet

(θ) et Z?·,rhet

(θ) sont 4,9 et 3 (tableau 4.2 et

figure 4.7) et D vaut 1, 896. A l’aide du test de Student, nous avons teste l’hypothese

nulle que cette moyenne est egale a 0. Nous avons obtenu un seuil bilateral inferieur a

0,0001, donc il semble y avoir un avantage a decomposer les familles.

24

68

10

Comparaison III

Z*.r het Z*..r het

lod−

scor

e

3.005

4.901

Fig. 4.7 – Distributions des valeurs Z?·,·,rhet

(θ) et Z?·,rhet

(θ) .


Comparaison IV : methodes d’analyse 6 (Z?·,·,rhet

(θ) ) et 5 (Z?·,·,r(θ) ).

La comparaison des lod-scores des petites familles heterogenes analysees sous un modele

d’heterogeneite et sous un modele d’homogeneite permet de comprendre l’importance

d’utiliser le modele d’heterogeneite de Smith, une fois les familles decomposees. Les dis-

24

68

10

Comparaison IV

Z*..r Z*..r het

lod−

scor

e

3.1

4.901

Fig. 4.8 – Distributions des valeurs Z?·,·,rhet

(θ) et Z?·,·,r(θ).

tributions des Z?·,·,rhet

(θ) et Z?·,·,r(θ) sont comparees a la figure 4.8. Les valeurs Z?

·,·,rhet(θ)

semblent superieures aux valeurs Z?·,·,r(θ). Les moyennes des valeurs Z?

·,·,rhet(θ) et Z?

·,·,r(θ)

sont 4,9 et 3,1 et la moyenne des differences est D = 1, 801. A l’aide du test de Student,

nous avons teste l’hypothese nulle que cette moyenne est egale a 0. Nous avons ob-

tenu un seuil bilateral inferieur a 0,0001, donc les deux lod-scores semblent differents.

Cependant, les valeurs des lod-scores Z?·,·,rhet

(θ) ont un parametre α supplementaire

par rapport a la distribution de Z?·,·,r(θ) et ne sont donc pas directement comparables,

puisque sous H0, ils n’ont pas le meme degre de liberte de la distribution χ2 (pages

31 et 37). Pour pouvoir les comparer adequatement, on effectue un calcul de puissance

formel en utilisant leurs seuils critiques respectifs de 3 et 3,7. Pour Z?·,·,r(θ) , on obtient


P(rejeter l’hypothese de non-liaison | il y a liaison)

= P(Z > 3|θ < 1/2)

= 0, 54,

tandis que pour Z?·,·,rhet

(θ) on obtient

P(rejeter l’hypothese de non-liaison | il y a liaison)

= P(Z > 3, 7|θ < 1/2)

= 0, 83.

Donc, la puissance a detecter la liaison sur les petites familles est plus grande lorsqu’on

utilise un modele d’heterogeneite que lorsqu’on utilise un modele d’homogeneite.

Toutes les distributions sus-mentionnees sont presentees a la figure 4.9 pour une vue

d’ensemble. On peut constater que les lod-scores moyens pour les donnees ou de l’hete-

rogeneite a ete introduite (les lod-scores pour lesquels on trouve ? dans le symbole) sont

inferieurs aux lod-scores obtenus pour les donees analysees telles que simulees (les lod-

scores sans ?). On remarque egalement que les lod-scores des familles nucleaires Z·,·,r(θ)

semblent inferieurs aux Z·,r(θ) des familles tri-generationnelles alors que l’inverse est

observe dans les donnees heterogenes (les valeurs Z?·,·,rhet

(θ) des familles bi-generation-

nelles semblent superieures aux valeurs Z?·,rhet

(θ) , Z?·,·,r(θ) et Z?

·,r(θ) ).


Fig. 4.9 – Distributions des lod-scores Z·,r(θ) , Z·,·,r(θ) , Z?·,r(θ) , Z?

·,rhet(θ) , Z?

·,·,r(θ) et

Z?·,·,rhet

(θ).


4.3 Erreur de type I du modele sans heterogeneite

Meme si, d’apres les resultats obtenus a la section 4.2.2, la methode D+1L+Ad aug-

mente les chances de detecter la liaison lorsqu’elle est reellement presente, il importe

de veiller a ce que la decomposition des familles ne gonfle pas par la meme occasion

l’erreur de type I. L’erreur de type I associee aux hypotheses des analyses de liaison

est :

PH0(Rejet de H0) = Pnon−liaison(Trouver de la liaison)

= Pθ=1/2 (Zobs > Zcritique).

Les donnees simulees sous non-liaison sont simulees a θ = 1/2 de la meme facon que

les donnees simulees sous liaison. Etant donne que trouver une evidence de liaison dans

un cas de non-liaison est un evenement rare, pour estimer la probabilite d’occurence de

l’evenement, il est necessaire de simuler un grand nombre de replications. Ici, m = 10000

replications d’un ensemble de 10 familles tri-generationnelles ont ete simulees. Dans

un premier temps, le lod-score obtenu pour le total des 10 familles de chacune des

replications a ete saisi et la proportion d’entre eux qui ont excede un seuil critique a

ete note. Dans un deuxieme temps, les 10 familles composant une replication ont ete

decomposees pour produire 30 familles par replication et le lod-score a ete calcule par

la methode D+1L.

Tab. 4.3 – Estimations de l’erreur de type I : proportion des 10000 lod-scores Zobs qui

excedent la valeur Zcritique chez les familles tri-generationnelles et les groupes de trois

familles bi-generationnelles.Proportion

Zcritique Grosses Petites

3 0,0000 0,0000

2 0,0013 0,0015

1 0,0151 0,0138

0,75 0,0310 0,0289

0,50 0,0613 0,0578

0,25 0,1369 0,1285

Le tableau 4.3 resume le nombre d’erreurs de type I obtenues pour les seuils critiques

suivants : 3, 2, 1, 0,75, 0,50 et 0,25. On peut y lire, par exemple, que l’estimation de

la probabilite d’exceder un seuil critique de 2 est de 13/10000 dans les familles tri-

generationnelles et de 15/10000 dans les groupes de familles nucleaires. Les erreurs de


type I pour les seuils 1, 0,75, 0,50 et 0,25 semblent plus probables chez les familles

tri-generationnelles que chez les familles bi-generationnelles, tandis que pour le seuil

Zcritique = 2, les erreurs semblent legerement moins probables chez les familles tri-gene-

rationnelles.

Un test de McNemar a ete realise afin de tester les hypotheses :

H0 = il n’y a pas de difference d’erreur de type I entre l’analyse par

familles tri-generationnelles et l’analyse par familles bi-generationnelles ;

vs

H1 = decomposer les familles a pour effet d’augmenter l’erreur de type I

pour les donnees associees au seuil critique Zcritique = 2, puisqu’il s’agit du seul cas ou la

proportion de rejet de H0 est plus grande ou egale dans les familles bi-generationnelles

que dans les familles tri-generationnelles. Le test de McNemar est le plus approprie

ici, puisqu’il tient compte du fait que les resultats sont apparies par le numero de

replication. Pour ce test, on definit les variables A,B,C et D comme etant la proportion

de replications ou il y a concordance parce qu’on a rejete H0 a la fois dans les grosses et

les petites familles (A) ou parce que H0 n’a pas ete rejete ni dans les grosses, ni dans les

petites familles (D). Les variables B et C, elles, representent la discordance en faveur

des grosses familles (B) ou en faveur des petites (C).

Grosses familles

Rej H0 Acc H0

Petites Rej H0 A B

familles Acc H0 C D

C’est avec A, B, C et D qu’on calcule la statistique Q?.

Q? = (B − C)2/(B + C) ∼ χ2(1).

Les valeurs A, B, C et D ainsi que la statistique Q? et la p-valeur pour ce test sont

presentes dans le tableau 4.4. A la lumiere des resultats, on peut affirmer qu’il n’y a

pas de difference significative d’erreur de type I entre l’analyse par familles tri-genera-

tionnelles et l’analyse par familles bi-generationnelles lorsque le seuil critique est egal a

2.


Tab. 4.4 – Test de Mc Nemar pour l’hypothese H0 : il n’y a pas de difference d’erreur

de type I entre l’analyse par familles tri-generationnelles et l’analyse par familles bi-ge-

nerationnelles.Zcritique A B C D Q? Seuil observe

3 0 0 0 10000 <0 1

2 0 15 13 9972 0,1428571 0,7056

1 5 133 146 9716 <0 1

0,75 14 275 296 9415 <0 1

0,50 39 539 574 8848 <0 1

0,25 172 1113 1197 7518 <0 1

Les proportions observees de rejet de H0 peuvent egalement etre comparees aux pro-

portions attendues. C’est a l’aide de la distribution khi-deux et le la borne superieure

pour alpha tiree de Ott (1999) definie a l’equation (2.4.1) (page 32) que nous faisons

cette comparaison. Les proportions sont presentees dans le tableau 4.5. A l’aide de ce

tableau, on a la confirmation que la distribution χ2 et les distributions des lod-scores

sont assez semblables. On constate egalement que la proportion observee d’erreurs de

type I pour les grosses et les petites familles est inferieure a ce a quoi on s’attend pour

tous les seuils a l’exception de Zcritique = 2. C’est pourquoi, pour les proportions au

seuil critique 2, nous avons teste que la proportion de rejet attendue p est egale a la

proportion obtenue dans les grosses familles p0g, c’est-a-dire p = p0g

, contre l’hypothese

alternative que p < p0g. La statistique obtenue pour ce test vaut

z =p − p0g

√

p0gq0g

/n= −0.27717

et le seuil observe est 0,3908. La statistique obtenue pour le test de p = p0p, contre

l’hypothese alternative que p < p0pest

z =p − p0p

√

p0pq0p

/n= −0.77518

et le seuil observe est 0,2191. Donc, pour Zcritique = 2, la proportion attendue d’erreurs

de type I n’est pas significativement differente des proportions obtenues et pour les

autres seuils critiques, la proportion observee est inferieure a ce a quoi on s’attend.

Dans ce chapitre, le lecteur a constate qu’une importante perte de puissance a trou-

ver de la liaison se produit lorsqu’il y a introduction d’heterogeneite dans des familles


Tab. 4.5 – Comparaison des proportions attendues sous la distribution χ21 et des pro-

portions obtenues de rejet de H0 : il n’y a pas de liaison.Zcritique Valeurs Proportions Proportions

critiques attendues obtenues

loi χ21 borne grosses petites

p sup. α p0gp0p

3 13,8155 0,0001 0,0010 0,0000 0,0000

2 9,2103 0,0012 0,0100 0,0013 0,0015

1 4,6052 0,0159 0,1000 0,0151 0,0138

0,75 3,4539 0,0316 0,1778 0,0310 0,0289

0,50 2,3026 0,0646 0,3162 0,0613 0,0578

0,25 1,1513 0,1416 0,5623 0,1369 0,1285

tri-generationnelles. Dans un cas d’heterogeneite, il a pu quantifier le gain moyen de

puissance lorsqu’une analyse est realisee sur des familles bi-generationnelles a l’aide

d’un modele d’heterogeneite par rapport a l’analyse sur les familles tri-generationnelles

a l’aide d’un modele d’homogeneite. Egalement, il a vu que la proportion d’erreurs de

type I associee aux tests de liaison par familles bi-generationnelles n’est pas significa-

tivement superieure a la proportion d’erreurs de type I pour les tests sur les familles

tri-generationnelles. De plus, les proportions d’erreurs obtenues pour les familles bi-ge-

nerationnelles et tri-generationnelles n’ont jamais ete significativement differentes des

proportions attendues, peu importe le seuil critique.

CHAPITRE V

UNE COVARIABLE POUR DISTINGUER 2FORMES D’UNE MALADIE

On sait, pour l’avoir vu au chapitre 3, que la presence d’heterogeneite intra-familiale

a un impact important sur la puissance des analyses de liaison. Nous avons propose la

methode D+1L+Ad comme moyen d’adresser ce probleme.

Dans le present chapitre, nous supposerons que nous possedons une covariable qui s’as-

socie aux differentes formes de la maladie. Un exemple d’une telle covariable est fourni

par l’utilisation de l’age de debut de la maladie du cancer du sein qui aide a distinguer

la forme hative de la forme tardive de la maladie elaboree dans Merette et al. (1992).

L’approche proposee consiste a tenter de distinguer a priori les individus atteints de la

forme A de ceux atteints de la forme B de la maladie pour ensuite effectuer une simple

analyse 1L seulement avec les sujets atteints d’une des deux formes. Donc, la section

5.1 est constituee d’une presentation de scenarios de sensibilite et de specificite qui

nous interessent. Par la suite, a la section 5.2, on discute des lod-scores moyens obtenus

pour chaque scenario et ces valeurs sont resumees dans deux graphiques a la section 5.3.

5.1 Presentation des scenarios

Supposons que nous possedons une fonction discriminante qui nous aide a determiner,

a l’aide de la covariable, l’etat atteint ou non-atteint d’une forme en particulier A ou

B de la maladie des individus. Dans ce cas, on peut revoir le phenotype de chacun des

individus qui semblent atteints dans le pedigree et decider a l’aide de la fonction s’il est

reellement d’une forme en particulier. Bien entendu, une telle fonction n’attribue pas

toujours le bon phenotype a chacun des sujets, mais est-ce qu’elle peut tout de meme

apporter de l’information supplementaire pour etudier l’heterogeneite intra-familiale ?

Afin de repondre a cette question, nous avons analyse des donnees et nous nous sommes

interesses aux lod-scores des tests de liaison dans le cas de quelques combinaisons de

V. UNE COVARIABLE 84

sensibilite et de specificite de la fonction.

Un rappel des notions de sensibilite et de specificite pour une certaine maladie A qu’on

note «M A» est presente au tableau 5.1.

Tab. 5.1 – Scenario associe a une sensibilite de 4/6 et une specifite de 1/3 : l’image

associee a ce scenario est presentee a la figure 5.1.

Simulation de la M A

+ -

Detection vrais faux Sensibilite = P( obtenir un resultat

de la M A + positifs negatifs 6 positif chez un sujet malade)

par une 4 2 = VP / (VP+FP)

fonction faux vrais = 4/6

discrminante - positifs negatifs 3

2 1 Specificite = P( obtenir un resultat

negatif chez un sujet sain)

6 3 9 = VN / (VN+FN)

= 1/3

La famille qu’on utilise pour cet exemple se trouve a gauche dans la figure 5.1 : au

total, six individus sont affectes par la forme A de la maladie (1,3,4,13,14 et 15) et

trois individus sont affectes par la forme B (7,9 et 10). A droite se trouve le resultat

des predictions des phenotypes auquel pourrait mener une fonction discriminante qui

correspond au tableau 5.1. Seulement quatre des six individus reellement atteints de la

maladie A ont ete cibles comme atteints. Il s’agit des «vrais positifs». Les individus 7

et 9 ont ete faussement cibles comme etant atteints de la maladie A : ils sont les «faux

positifs». L’individu 8 est un «vrai negatif», puisqu’il n’est pas atteint par la maladie

A et qu’il a ete determine non-atteint par la fonction. Pour des raisons semblables, les

soeurs 14 et 15 constituent le groupe des «faux negatifs».

La table 5.2 presente les combinaisons de sensibilite et de specificite testees. Pour que

des individus de la troisieme generation puissent etre atteints de la forme A de la mala-

die, la fonction doit indiquer que l’individu 1 est atteint et qu’au moins un des individus

3 et 4 sont atteints. C’est pour cette raison que seules les combinaisons pour lesquelles

il y a au moins deux vrais positifs sont utilisees.


Tab. 5.2 – Scenarios possibles selon la sensibilite et la specificite associees aux

phenotypes attribues par la fonction discriminante.

Specificite

0 1/3 2/3 1

Sensibilite

M 1 M 1 M 1 M 1

6/6 + - + - + - + -

Det. + 6 3 + 6 2 + 6 1 + 6 0

de M 1 - 0 0 - 0 1 - 0 2 - 0 3

5/6 + - + - + - + -

Det. + 5 3 + 5 2 + 5 1 + 5 0

de M 1 - 1 0 - 1 1 - 1 2 - 1 3

4/6 + - + - + - + -

Det. + 4 3 + 4 2 + 4 1 + 4 0

de M 1 - 2 0 - 2 1 - 2 2 - 2 3

3/6 + - + - + - + -

Det. + 3 3 + 3 2 + 3 1 + 3 0

de M 1 - 3 0 - 3 1 - 3 2 - 3 3

2/6 + - + - + - + -

Det. + 2 3 + 2 2 + 2 1 + 2 0

de M 1 - 4 0 - 4 1 - 4 2 - 4 3


Fig. 5.1 – Famille tri-generationnelle telle que simulee (gauche). La meme famille, apres

que le choix des individus atteints par la fonction discriminante soit effectue pour le

scenario donne en exemple (droite).

5.2 Presentation des lod-scores

On s’interesse aux lod-scores pour chaque couple de sensibilite et de specificite (c’est-

a-dire pour chacun des scenarios). Comme nous ne possedons pas de fonction discrimi-

nante, nous faisons le choix des vrais positifs, des vrais negatifs, des faux positifs et des

faux negatifs. Lorsque plusieurs groupes d’individus affectes peuvent etre associes aux

memes valeurs de sensibilite et de specificite, on fait 3 choix differents de familles. La

figure 5.2 illustre 3 choix possibles d’individus affectes pour un scenario en particulier.

Fig. 5.2 – Scenario dont la sensibilite est 4/6 et la specificite est de 1/3 : choix de

trois groupes differents d’individus affectes qui pourraient etre faits par une fonction

discriminante.

Le processus de simulation et d’analyse est comme suit.


- On simule le marqueur de 300 replications de dix familles tri-generationnelles

identiques aux familles 3.3 (page 51).

Ce marqueur genetique est lie a la forme A de la maladie.

- On introduit de l’heterogeneite, c’est-a-dire qu’on indique que les individus 7, 9

et 10 sont atteints de la forme A alors qu’ils sont en fait atteints de la maladie de

forme B.

- On reclassifie l’ensemble des sujets atteints de chaque famille a l’aide de la fonc-

tion discriminante dans le but d’identifier les sujets atteints strictement de la

forme A.

- On analyse avec les phenotypes atteints et non-atteints de la forme A resultant

de la fonction discriminante. Ce processus est effectue a la fois dans les familles

tri-generationnelles et dans les familles bi-generationnelles.

Les lod-scores associes a chacun des scenarios de sensibilite et de specificite presentes

au tableau 5.2 sont le resultat d’analyses sous un modele d’heterogeneite. Ils sont cal-

cules pour les familles tri-generationnelles et pour les familles bi-generationnelles. Les

moyennes et les ecarts-types de ces lod-scores sont presentees au tableau 5.3. Les lod-

Tab. 5.3 – Moyennes et ecarts-types obtenus pour les lod-scores resultants des analyses

sous un modele d’heterogeneite. Les resultats sont presentes pour divers scenarios de

sensibilite et de specifite du choix des phenotypes par la fonction discriminante.

Specificite

familles tri-generationnelles familles bi-generationnelles

0 1/3 2/3 1 0 1/3 2/3 1

1 3,00 6,44 11,88 20,87 4,90 4,92 7,72 16,59

(1,01) (1,49) (2,17) (3,64) (1,31) (1,35) (1.64) (3,09)

5/6 0,76 2,73 6,31 11,78 0,16 0,16 2,37 7,63

(0,354) (0,682) (1,18) (2,13) (0,17) (0,16) (0,21) (1,61)

Sensibilite 4/6 0,01 0,67 2,71 6,31 0,00 0,00 0,16 4,82

(0,03) (0,24) (0,66) (1,43) (< 10−2) (< 10−2) (0,17) (1,31)

3/6 0,00 0,01 0,70 2,90 0,00 0,00 0,15 4,85

(< 10−2) (0,03) (0,32) (0,96) (< 10−2) (< 10−2) (0,18) (1,27)

2/6 - 0,196 1,81 1,87 - 0,00 0,17 1,34

- (0,10) (0,52) (2,78) - (< 10−2) (0,16) (2,02)

scores sont obtenus a partir de groupes de 10 grandes et de 30 petites familles. On peut

constater que le scenario de sensibilite 1 et de specificite 0 est en fait le cas ou on pense

que tous les atteints d’une forme de la maladie sont atteints de la forme A. Les resultats

de l’analyse sur ces donnees sont donc les memes que ceux de l’analyse qu’on avait ap-

pelee «analyse sur les donnees heterogenes avec un modele d’heterogeneite» dans le


chapitre precedent. Aussi, les donnees de sensibilite 1 et de specificite 1 correspondent

au cas de «l’analyse sur les donnees homogenes avec un modele d’heterogeneite» (tou-

tefois, il faut comprendre que meme si les resultats sont les memes, ici, on utilise une

covariable). C’est donc pourquoi nous ne sommes pas etonnes de constater que les

moyennes de lod-scores des cellules (sensibilite =1, specificite =0) et (sensibilite =1,

specificite =1) pour les familles tri-generationnelles et bi-generationnelles avaient deja

ete presentees. En effet, 3,00 est la moyenne des lod-scores pour la methode 4 (tableau

4.2 de la page 71) ; 20,87, de la methode 1 ; 4,90, de la methode 6 et 16,59, de la methode

2. Donc, les scenarios pour lesquels les lod-scores moyens qui se situent entre 3,00 et

20,87 pour les grandes familles et entre 4,90 et 16,59 pour les petites familles sont des

cas ou la fonction discriminante et la covariable nous aident a trouver de la liaison.

Notons qu’a la page 52, on simulait 100 fois le marqueur du groupe de 10 familles.

Ici, pour bien representer les differents choix des individus atteints et non-atteints de

chacun des scenarios, on simule 300 fois ce marqueur et on effectue, si possible, trois

differents choix d’individus atteints et non-atteints. De cette facon, la moyenne des lod-

scores d’un scenario est plus representative de la realite que si nous avions fait un choix

unique des individus atteints.


5.3 Lod-scores selon la sensibilite et la specificite

Afin de visualiser si certaines combinaisons de sensibilite et de specificite de la fonction

discriminante constituent une amelioration a des analyses de familles homogenes sous

homogeneite et l’analyse de familles completement heterogenes sous heterogeneite sans

covariable, des graphiques en trois dimensions sont presentes aux figures 5.3 et 5.4 : il

s’agit des lod-scores pour les familles tri-generationnelles et pour les familles bi-gene-

rationnelles respectivement. Pour mieux les situer, les lod-scores obtenus par l’analyse

Fig. 5.3 – Lod-scores obtenus par analyse sous un modele d’heterogeneite chez les

familles tri-generationnelles pour differents scenarios de sensibilite et de specificite du

choix des phenotypes fait par la fonction discriminante.

des familles completement homogenes et des familles completement heterogenes sont

symbolises par un cercle, tandis que tous les autres lod-scores sont symbolises par une

pyramide. Sur les deux graphiques, on constate que plus on seloigne d’une sensibilite

de 1 et d’une specificite de 1, plus les lod-scores diminuent. Cependant, dans le cas des

analyses sur les familles tri-generationnelles, les lod-scores moyens pour les scenarios

de sensibilite et de specificite (1, 2/3), (1, 1/3), (5/6, 1), (5/6, 2/3) et (4/6, 1) se situent


entre le lod-score moyen des familles completement homogenes et celui des familles

completement heterogenes. Pour ce qui est des analyses sur les familles bi-generation-

Fig. 5.4 – Lod-scores obtenus par analyse sous un modele d’heterogeneite chez les

familles bi-generationnelles pour differents scenarios de sensibilite et de specificite du

choix des phenotypes fait par la fonction discriminante.

nelles, les lod-scores moyens pour les scenarios de sensibilite et de specificite (1, 2/3),

(1, 1/3) et (5/6, 1) se situent entre le lod-score moyen des familles completement ho-

mogenes et celui des familles completement heterogenes.

Pour conclure, l’utilisation d’une covariable et d’une fonction discriminante pour distin-

guer les individus atteints de la maladie A des individus atteints d’une autre forme avant

de faire un test de liaison est interessante, a condition que la fonction soit bonne, c’est-

a-dire qu’elle doit avoir une assez grande sensibilite ainsi qu’une assez grande specificite.

Il est donc preferable d’utiliser une bonne fonction discriminante, si on a acces a une


covariable, que d’analyser des donnees dans lesquelles il y a heterogeneite. Les couples

de sensibilite et de specificite qui menent a des lod-scores superieurs aux lod-scores cal-

cules sur des familles heterogenes trouves ici sont (1, 2/3), (1, 1/3), (5/6, 1), (5/6, 2/3)

et (4/6, 1) pour l’analyse sur des familles tri-generationnelles et (1, 2/3), (1, 1/3) et

(5/6, 1) pour l’analyse sur des familles bi-generationnelles.

CONCLUSION

La methode d’analyse que nous avons proposee consiste en la decomposition de grandes

familles en familles nucleaires et l’analyse a un locus a l’aide du modele d’heterogeneite

de Smith. Nous avons compare la methode d’analyse de liaison proposee a plusieurs

types d’analyses, notamment a la methode usuelle, soit l’analyse de familles tri-genera-

tionnelles par un modele d’heterogeneite lorsqu’il y a heterogeneite intra-familiale. Les

informations que nous avons recueillies au sujet de la puissance presentees a la section

4.2 indiquent que la puissance de l’analyse par la methode de decomposition proposee

est superieure a la puissance de l’analyse par la methode usuelle. Pour les comparai-

sons de puissances, on discute a propos de divers facteurs, notamment : d’une perte

d’information genetique due a la perte de la phase des parents, de l’effet de la presence

d’heterogeneite dans les donnees, de l’effet de decomposition des familles, de l’utilisa-

tion d’un modele approprie pour les analyses et des differentes distributions theoriques

des deux modeles d’analyse. Lors de l’etude de l’erreur de type I a la section 4.3, on a

observe que les erreurs de type I ne sont pas plus probables pour les familles decoupees

que pour les familles tri-generationnelles.

En somme, il nous semble avoir justifie par l’etude de la puissance et de l’erreur de type

I que les tests de liaison pour l’analyse de pedigrees dans lesquels il y a de l’heterogeneite

devraient etre realises sur des familles decomposees en familles nucleaires a l’aide du

modele d’heterogeneite. De surcroıt, nous avons montre tout au long du dernier cha-

pitre que l’utilisation de la methode proposee et d’une covariable pour determiner les

phenotypes des individus peut aider a detecter la liaison lorsque la fonction discri-

minante est suffisamment bonne, c’est-a-dire lorsqu’elle a une grande sensibilite et une

grande specificite. Donc, pour sa puissance superieure aux autres analyses lorsque les fa-

milles sont heterogenes, pour l’erreur de type I qui n’est pas gonflee par la decomposition

des familles et pour la possibilite de s’aider a detecter la liaison si on possede une co-

variable et une bonne fonction discriminante, nous preferons la methode D+1L+Ad a

la methode usuelle 1L+Ad lorsqu’il y a heterogeneite intra-familiale.

Une piste de recherche future consisterait a realiser le test propose ainsi que le test

sur les familles telles qu’observees sur des pedigrees plus diversifies, c’est-a-dire des

CONCLUSION 93

pedigrees contenant des familles ayant un nombre d’enfants et un nombre d’individus

atteints qui ne soit pas fixe a l’avance.

BIBLIOGRAPHIE

[1] Bothamley, J. (1993). Dictionnary of theories. Visible Ink Press, Canton.

[2] Campbell, NA. (1995). Biologie. Editions du renouveau pedagogique, Saint-

Laurent.

[3] Casella G, Berger RL. (2002). Statistical inference. Duxbury, Pacific Grove.

[4] Durner M, Greenberg DA, Hodge SE. (1992). Inter- and intrafamilial heteroge-

neity : effective sampling strategies and comparison of analysis methods. American

Journal of Human Genetics, vol.51, pages 859-870.

[5] Elston RC, George VT, Severtson F. (1992). The Elston-Stewart algorithm for

continuous genotypes and environmental factors. Human Heredity, vol.42, pages

16-27.

[6] Elston RC, Lange K. (1975). The prior probability of autosomal linkage. Annals

of Human Genetics, vol.38, pages 341-350.

[7] Goldin LR. (1992). Detection of linkage under heterogeneity : comparison of the

two-locus vs. admixture models. Genetic Epidemiology, vol.9, pages 61-66.

[8] Hodge SE, Anderson CE, Neiswanger K, Sparkes RS, Rimoin DL.(1983). The

search for heterogeneity in insulin-dependent diabetes mellitus (IDDM) : linkage

studies, two-locus models, and genetic heterogeneity. Annals of Human Genetics,

vol.35, pages 1139-1155.

[9] Hodge SE. (1992). Do bilineal pedigrees represent a problem for linkage analysis ?

Genetic Epidemiology, vol.9, pages 191-206.

[10] Lathrop GM, Lalouel JM, Julier C, Ott J. (1984). Strategies for multilocus linkage

analysis in humans. Proc. Natl. Acad. Sci. USA, vol.81, pages 3443-3446.

[11] Lathrop GM, Weeks DE (1995). Polygenic disease : methods for mapping complex

disease traits. Trends Genetics, vol 11(12), pages 513-519.

[12] Leal SM, Ott J. (1997). Analysis of two-locus traits under heterogeneity for reces-

sive versus dominant inheritance. Genetic Epidemiology, vol.14, pages 1097-1100.

[13] Merette C, King MC, Ott J (1992). Heterogeneity analysis of breast cancer families

using age of onset as a covariate. The American Journal of Human Genetics, vol.50,

pages 515-519.

[14] Morton N. (1955). Sequential tests for the detection of linkage. American Journal


[15] Ott J. (1983). Linkage analysis and family classification under heterogeneity. An-

nals of Human Genetics, vol.47, pages 311-320.

[16] Ott J. (1989). Computer-simulation methods in human linkage analysis. Procee-

dings of the National Academy of Sciences of the United States of America, vol.86,

pages 4175-4178.

BIBLIOGRAPHIE 95

[17] Ott J, Terwilliger J D. (1994). Handbook of human genetics linkage. The Johns

Hopkins University Press, New York.

[18] Ott J. (1999). Analysis of human genetics linkage. The Johns Hopkins University

Press, New York.

[19] Rao CR. (1973). Linear statistical inference and its application. Wiley, New York.

[20] Risch N. (1989). Linkage detection tests under heterogeneity. Genetic Epidemio-

logy, vol.6, pages 473-480.

[21] Ross RG, Olincy A, Harris JG, Radant A, Hawkins M, Adler LE, Freedman

R. (1999). Evidence for bilineal inheritance of psychological indicators of risk

in childhood-onset schizophrenia. American Journal of Medical Genetics, vol.88,

pages 188-199.

[22] Rossen RD, Brewer EJ, Person DA, Templeton JW. (1980). Familial rheumatoid

arthritis. Journal of Clinical Investigation, vol.65, pages 629-642.

[23] Schork NJ, Boehnke M, Terwilliger JD, Ott J. (1993). Two-trait-locus linkage

analysis : a powerful strategy for mapping complex genetic traits. American Journal


[24] Smith CAB.(1961). Testing for heterogeneity of recombination fraction values in

Human Genetics. Annals of Human Genetics, vol.27, pages 175-182.

[25] Thompson EA. (1986). Pedigree analysis in human genetics. The Johns Hopkins

University Press, Baltimore.

Sites Web

[26] Web resources of genetic linkage analysis, http ://linkage.rockefeller.edu (mars

2004).

[27] The PERL CD bookshelf, http ://www.unix.org.ua/orelly/perl/ (juin 2004).

[28] The Rockefeller University : Heads of Laboratories,

http ://www.rockefeller.edu/research/abstract/php ?id=74 (juillet 2005).

Annexe A

Fichiers associes au programme

SLINK

A.1 Partie I. Fichiers d’entree

Il y a trois fichiers qu’on doit fournir a SLINK. Il s’agit de :- simped.pre, un fichier contenant la structure des familles, les phenotypes et les

codes de disponibilite ;

- simdata.dat, un fichier contenant les parametres du modele ;

- slinkin.dat, un fichier contenant les parametres pour la simulation.

Le fichier simped.pre est presente au tableau A.1. Dans l’entete de ce tableau se trouve

les descriptions de chacune des colonnes. Les alleles du genotype pour le marqueur sont

0 partout, puisqu’ils seront simules. Le code de disponibilite de tous les individus est

2, ce qui signifie que les alleles pour le marqueur seront simules et que les phenotypes

pour la maladie seront laisses tels qu’inscrits dans la colonne phenotype.

Le fichier simdata.dat utilise pour les simulations est presente au tableau A.2. Ce fichier

definit les parametres du modele en tant que tel. Il y a deux alleles possibles pour la

maladie et les frequences de ces alleles sont f1 = 0, 99 et f2 = 0, 01 (cette information

est inscrite sur les lignes «NO. OF ALLELES» et «GENE FREQUENCIES»). Les

penetrances correspondent a un modele dominant :

alleles (gi) 11 12 22

P(xi = 2|gi) 0 1 1.

Annexe A. Fichiers associes au programme SLINK 97

numero numero numero numero sexe de phenotype genotypes code de

de la d’individu du de la l’individu (1=non-atteint, au disponi-

famille pere mere (1=h, 2=f) 2=atteint) marqueur bilite

1 1 0 0 1 2 0 0 2

1 2 0 0 2 1 0 0 2

1 3 1 2 1 2 0 0 2

1 4 1 2 1 2 0 0 2

1 5 0 0 2 1 0 0 2

1 6 0 0 2 1 0 0 2

1 7 3 5 1 2 0 0 2

1 8 3 5 1 2 0 0 2

1 9 3 5 2 1 0 0 2

1 10 3 5 2 1 0 0 2

1 11 3 5 2 2 0 0 2

1 12 4 6 1 1 0 0 2

1 13 4 6 1 2 0 0 2

1 14 4 6 2 2 0 0 2

1 15 4 6 2 2 0 0 2

1 16 4 6 1 1 0 0 2

2 1 0 0 1 2 0 0 2

.

.....

.

.....

.

.....

.

.....

.

..

.

.....

.

.....

.

.....

.

.....

.

..

9 16 4 6 1 1 0 0 2

10 1 0 0 1 2 0 0 2

10 2 0 0 2 1 0 0 2

10 3 1 2 1 2 0 0 2

10 4 1 2 1 2 0 0 2

10 5 0 0 2 1 0 0 2

10 6 0 0 2 1 0 0 2

10 7 3 5 1 2 0 0 2

10 8 3 5 1 2 0 0 2

10 9 3 5 2 1 0 0 2

10 10 3 5 2 1 0 0 2

10 11 3 5 2 2 0 0 2

10 12 4 6 1 1 0 0 2

10 13 4 6 1 2 0 0 2

10 14 4 6 2 2 0 0 2

10 15 4 6 2 2 0 0 2

10 16 4 6 1 1 0 0 2

Tab. A.1 – Fichier simped.pre.


A la deuxieme ligne «NO. OF ALLELES», on voit qu’il y a quatre alleles possibles pour

le marqueur etudie. Les frequences des alleles du marqueur dans la population sont de

0, 25 ; elles sont indiquees a cote de «GENE FREQUENCIES». La vraie valeur de la

fraction de recombinaison est indiquee sur la ligne «RECOMBINATION VALUES».

La derniere ligne n’est pas utile pour SLINK, mais on verra qu’elle est importante

lorsqu’un fichier de type simdata.dat est donne en entree pour MLINK.

2 0 0 5 << NO. OF LOCI, RISK LOCUS, SEXLINKED (IF 1) PROGRAM

0 0.0 0.0 0 << MUT LOCUS, MUT MALE, MUT FEM, HAP FREQ (IF 1)

1 2

1 2 << AFFECTION, NO. OF ALLELES

0.99000 0.01000 << GENE FREQUENCIES

1 << NO. OF LIABILITY CLASSES

0 1 1 << PENETRANCES

3 4 << ALLELE NUMBERS, NO. OF ALLELES

0.25000 0.25000 0.25000 0.25000 << GENE FREQUENCIES

0 0 << SEX DIFFERENCE, INTERFERENCE (IF 1 OR 2)

0.0100 << RECOMBINATION VALUES

1 0.0250 0.45000 << REC VARIED, INCREMENT, FINISHING VALUE

Tab. A.2 – Fichier simdata.dat.

Un fichier slinkin.dat est presente dans le tableau A.3. Les trois premiers nombres sont

des graines aleatoires pour la simulation. Ensuite, on trouve le nombre de replicats m

desire. Le numero du locus pour lequel on veut simuler est presente en cinquieme : il

s’agit du numero de locus de la maladie. Ce numero est specifie en premiere position

sur la troisieme ligne du le fichier simdata.dat.

29999 29798 28435 100 1 0.000000

Tab. A.3 – Fichier slinkin.dat.

A.2 Partie II. Fichier de sortie


num num num num prem. proch. prochain sexe statut pheno. marqueurs code

de d’ind. du de la desc. desc. desc. (1=H, de

fam. pere mere pat. mat. 2=F) proband

1 1 0 0 3 0 0 1 1 2 3 4 2

1 2 0 0 3 0 0 2 0 1 1 4 2

1 3 1 2 7 4 4 1 0 2 4 4 2

1 4 1 2 12 0 0 1 0 2 4 4 2

1 5 0 0 7 0 0 2 0 1 3 4 2

1 6 0 0 12 0 0 2 0 1 3 4 2

1 7 3 5 0 8 8 1 0 1 4 4 2

1 8 3 5 0 9 9 1 0 1 3 4 2

1 9 3 5 0 10 10 2 0 1 4 4 2

1 10 3 5 0 11 11 2 0 1 3 4 2

1 11 3 5 0 0 0 2 0 1 3 4 2

1 12 4 6 0 13 13 1 0 1 4 4 2

1 13 4 6 0 14 14 1 0 2 3 4 2

1 14 4 6 0 15 15 2 0 2 4 4 2

1 15 4 6 0 16 16 2 0 2 3 4 2

1 16 4 6 0 0 0 1 0 1 3 4 2

2 1 0 0 3 0 0 1 1 2 4 2 2

.

.....

.

.....

.

.....

.

.....

.

.....

.

.....

.

..

.

.....

.

.....

.

.....

.

.....

.

.....

.

.....

.

..

999 16 4 6 0 0 0 1 0 1 2 3 2

1000 1 0 0 3 0 0 1 1 2 4 2 2

1000 2 0 0 3 0 0 2 0 1 1 2 2

1000 3 1 2 7 4 4 1 0 2 2 2 2

1000 4 1 2 12 0 0 1 0 2 1 2 2

1000 5 0 0 7 0 0 2 0 1 1 3 2

1000 6 0 0 12 0 0 2 0 1 3 4 2

1000 7 3 5 0 8 8 1 0 1 1 2 2

1000 8 3 5 0 9 9 1 0 1 2 3 2

1000 9 3 5 0 10 10 2 0 1 1 2 2

1000 10 3 5 0 11 11 2 0 1 1 2 2

1000 11 3 5 0 0 0 2 0 1 1 2 2

1000 12 4 6 0 13 13 1 0 1 1 4 2

1000 13 4 6 0 14 14 1 0 2 3 2 2

1000 14 4 6 0 15 15 2 0 2 4 2 2

1000 15 4 6 0 16 16 2 0 2 3 2 2

1000 16 4 6 0 0 0 1 0 1 1 4 2

Tab. A.4 – Fichier pedfile.dat.

Annexe B

Fichiers associes au programme

MLINK

B.1 Partie I. Fichiers d’entree

On doit fournir a MLINK les deux principaux fichiers suivants pour les analyses :- un pedfile.dat, contenant les donnees des familles a analyser ;

- un datafile.dat, contenant les parametres du modele de l’analyse.

Un fichier pedfile est presente dans le tableau B.1.

num num num num prem. proch. prochain sexe statut pheno. marqueurs code

de d’ind. du de la desc. desc. desc. (1=H, de

fam. pere mere pat. mat. 2=F) proband

1 1 0 0 3 0 0 1 1 2 3 4 2

1 2 0 0 3 0 0 2 0 1 1 4 2

1 3 1 2 7 4 4 1 0 2 4 4 2

1 4 1 2 12 0 0 1 0 2 4 4 2

1 5 0 0 7 0 0 2 0 1 3 4 2

1 6 0 0 12 0 0 2 0 1 3 4 2

1 7 3 5 0 8 8 1 0 1 4 4 2

1 8 3 5 0 9 9 1 0 1 3 4 2

1 9 3 5 0 10 10 2 0 1 4 4 2

1 10 3 5 0 11 11 2 0 1 3 4 2

1 11 3 5 0 0 0 2 0 1 3 4 2

1 12 4 6 0 13 13 1 0 1 4 4 2

1 13 4 6 0 14 14 1 0 2 3 4 2

1 14 4 6 0 15 15 2 0 2 4 4 2

1 15 4 6 0 16 16 2 0 2 3 4 2

1 16 4 6 0 0 0 1 0 1 3 4 2

Tab. B.1 – Fichier pedfile.dat.

Annexe B. Fichiers associes au programme MLINK 101

Le fichier datafile.dat est similaire a celui presente a l’annexe A sous le nom de sim-

data.dat. Au lieu de contenir les parametres du modele pour la simulation, le fichier

datafile contient les parametres qui seront utilises pour les analyses des donnees. Donc,

les valeurs des dernieres lignes du fichier0.0100 << RECOMBINATION VALUES

1 0.0250 0.45000 << REC VARIED, INCREMENT, FINISHING VALUE

seront utilisees pour determiner les valeurs θ pour lesquelles la vraisemblance sera cal-

culee. Les valeurs de θ demandees ici sont : 0,01, 0,035, 0,06, 0,085, 0,11, . . ., 0,435 et

0,46.

B.2 Partie II. Fichier de sortie

Les resultats se trouvent dans un fichier nomme outfile.dat qui ressemble a celui presente

au tableau B.4. On y trouve une section pour chacune des valeurs de la fraction de re-

combinaision qui est donnee dans le fichier datafile.dat, plus une section pour la fraction

de recombinaison θ = 1/2. Dans chaque section, la vraisemblance de chacun des pedi-

grees est evaluee.

Length of real variables = 8 bytes

LINKAGE (V5.1) WITH 2-POINT AUTOSOMAL DATA

ORDER OF LOCI : 1 2

———————————–

———————————–

THETAS 0.500

———————————–

PEDIGREE — LN LIKE — LOG 10 LIKE

———————————–

1 -30.301968 -13.159977

2 -29.608820 -12.858947

3 -34.460851 -14.966157

4 -30.995115 -13.461007

5 -28.915673 -12.557917

6 -33.074556 -14.364097

7 -37.233439 -16.170277

8 -30.995115 -13.461007

9 -33.074556 -14.364097

10 -37.233439 -16.170277

———————————–

TOTALS -325.893532 -141.533763

-2 LN(LIKE) = 6.51787064936434478e+02 LOD SCORE = 0.000000

———————————–

Tab. B.2 – Premiere partie du fichier outfile.dat.


..

.

———————————–

THETAS 0.010

———————————–


———————————–

1 -29.638567 -12.871866

2 -28.945420 -12.570836

3 -31.561602 -13.707030

4 -29.658665 -12.880595

5 -28.915673 -12.557917

6 -29.659072 -12.880771

7 -29.739071 -12.915514

8 -23.500746 -10.206244

9 -29.688819 -12.893690

10 -29.739071 -12.915514

———————————–

TOTALS -291.046706 -126.399978


———————————–

———————————–

THETAS 0.035

———————————–


———————————–

1 -29.687986 -12.893329

2 -28.994839 -12.592299

3 -30.588449 -13.284395

4 -29.759132 -12.924227

5 -28.915673 -12.557917

6 -29.786956 -12.936311

7 -30.044258 -13.048055

8 -23.805933 -10.338786

9 -29.866122 -12.970692

10 -30.044258 -13.048055

———————————–

TOTALS -291.493608 -126.594066


———————————–

———————————–

THETAS 0.060

———————————–


———————————–

1 -29.737185 -12.914695

2 -29.044038 -12.613665

3 -30.334886 -13.174273

4 -29.860378 -12.968197

5 -28.915673 -12.557917

6 -29.918197 -12.993308

7 -30.355939 -13.183417

8 -24.117614 -10.474147

9 -30.046562 -13.049056

10 -30.355939 -13.183417

———————————–

TOTALS -292.686411 -127.112093


———————————–

..

....

...

Tab. B.3 – Deuxieme partie du fichier outfile.dat.


..

.

.

.....

———————————–

THETAS 0.460

———————————–


———————————–

1 -30.295714 -13.157261

2 -29.602567 -12.856231

3 -33.845329 -14.698840

4 -30.987738 -13.457804

5 -28.915673 -12.557917

6 -32.689751 -14.196979

7 -36.457575 -15.833324

8 -30.219251 -13.124054

9 -33.009943 -14.336036

10 -36.457575 -15.833324

———————————–

TOTALS -322.481117 -140.051769


Tab. B.4 – Troisieme partie du fichier outfile.dat.

méthode d'analyse de liaison génétique pour des familles

Documents