méthode d'analyse de liaison génétique pour des familles
TRANSCRIPT
NATHALIE SAVARD
Methode d’analyse de liaison genetique pour des
familles dans lesquelles il y a de l’heterogeneite
non-allelique intra-familiale
Memoire presentea la Faculte des etudes superieures de l’Universite Lavaldans le cadre du programme de maıtrise en statistiquepour l’obtention du grade de Maıtre es sciences (M.Sc.)
FACULTE DES SCIENCES ET DE GENIEUNIVERSITE LAVAL
QUEBEC
2005
c©Nathalie Savard, 2005
Resume
Dans cet ouvrage, une methode d’analyse de liaison genetique qui tient compte de
l’heterogeneite non-allelique est developpee. Nous proposons une modification a l’ana-
lyse a un locus par le modele de Smith qui tient compte de l’heterogeneite inter-familiale
afin de s’adapter a la presence d’heterogeneite intra-familiale. Notre approche consiste
d’abord a decomposer des familles tri-generationnelles en branches individuelles, soit
en familles bi-generationnelles. Par cette decomposition, l’heterogeneite intra-familiale
est «transformee» en heterogeneite inter-familiale. Les familles bi-generationnelles sont
ensuite analysees a l’aide d’un locus et du modele de Smith.
La puissance de la methode proposee est comparee a celle de plusieurs autres ana-
lyses, notamment a celle de l’analyse des familles tri-generationnelles lorsqu’il y a
heterogeneite intra-familiale. On verifie egalement si le decoupage des familles fait gon-
fler la proportion d’erreurs de type I.
Abstract
This study presents a linkage analysis method for cases of recombination heterogeneity
when it is located in bilineal pedigrees. We propose a modification of the single-locus
analysis by Smith’s admixture model – which is concerned with inter-familial hetero-
geneity – so it becomes more appropriate for cases of intra-familial heterogeneity. Our
approach first consists in decomposing large pedigrees into nuclear pedigrees so that
the intra-familial heterogeneity of the large pedigrees is transformed into inter-familial
heterogeneity between the nuclear pedigrees. Then, the nuclear pedigrees are considered
both with a single-locus analysis and Smith’s admixture model.
The power of the proposed method is compared to the power of other methods, inclu-
ding the power of the specific case where there is intra-familialheterogeneity in large
pedigrees. We also verify if the decomposition of the pedigrees results in a bigger pro-
portion of type I errors.
Avant-propos
Je tiens tout d’abord a remercier ma codirectrice, Mme Chantal Merette, directrice
du Laboratoire de biostatistique et de psychiatrie genetique du Centre de recherche
de l’Universite Laval a Robert-Giffard. C’est elle qui m’a initiee a la statistique en
psychiatrie genetique et c’est grace a elle que je peux enfin faire ce dont j’ai envie :
travailler dans le domaine scientifique tout en ayant l’impression d’aider des gens. Mme
Merette m’a soutenue tout au long de ce projet, est demeuree disponible et m’a meme
encouragee lorsque j’ai effectue un sejour en Nouvelle-Zelande. Aussi, elle m’a accueillie
dans son equipe en me fournissant un espace de travail dans lequel regnait une at-
mosphere agreable. Je remercie M. Louis-Paul Rivest, professeur au Departement de
mathematiques et de statistique de l’Universite Laval, d’avoir accepte de codiriger ce
projet dans un domaine si different de la statistique. M. Rivest a contribue en emettant
ses points de vue et ses commentaires constructifs lors de la redaction de cet ouvrage.
J’aimerais egalement remercier mes amis, qui n’y sont pas non plus pour rien. Benoıt
Pouliot m’a fourni des conseils judicieux de programmation avec le logiciel Perl, Patrick
Gagnon a contribue a agrementer d’une foule d’anecdotes une session en Nouvelle-
Zelande et mon amie la plus coloree, Marianne Fournier, m’a donne envie de continuer
en me permettant de passer des moments de divertissement inoubliables. Merci a vous
tous.
Je desire bien sur, remercier ma famille pour leur soutien et leurs encouragements.
Si on ne m’avait pas laissee jouer avec une calculatrice il y a de ca 20 ans, je ne serais
jamais devenue statisticienne. Par dessus tout, je remercie mon copain, Jean-Hubert
Smith, de m’avoir si patiemment conseillee et epaulee tout au long de ce projet.
Finalement, le soutien financier de la part d’Hydro-Quebec, du bureau international
de l’Universite Laval, de ma famille ainsi que des fonds de recherche de M.Rivest et de
Mme Merette ont ete apprecies.
Table des matieres
Resume ii
Abstract iii
Avant-Propos iv
Table des matieres v
Liste des tableaux vi
Table des figures vii
INTRODUCTION 1
CHAPITRE I. INTRODUCTION A LA BIOLOGIE GENETIQUE 3
1.1 Quelques notions de biologie moleculaire . . . . . . . . . . . . . . . . . 3
1.1.1 Les cellules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Les genes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Loi mendelienne de segregation . . . . . . . . . . . . . . . . . . 5
1.1.4 Loi mendelienne d’assortiment independant . . . . . . . . . . . 8
1.1.5 Modes de transmission . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.6 Principe d’equilibre d’Hardy–Weinberg . . . . . . . . . . . . . . 11
1.2 Introduction aux probabilites . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Theoreme de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.2 Notion d’independance en statistique . . . . . . . . . . . . . . . 14
1.2.3 Explications des resultats de Mendel . . . . . . . . . . . . . . . 14
1.3 Notation utilisee en genetique . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1 Presentation d’un pedigree . . . . . . . . . . . . . . . . . . . . . 15
1.3.2 Notion de phase . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
CHAPITRE II. CONCEPTS DE GENETIQUE 20
2.1 Fraction de recombinaison . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Calcul de la fraction de recombinaison . . . . . . . . . . . . . . 20
2.1.2 Lien entre fraction de recombinaison et liaison . . . . . . . . . . 22
vi
2.2 Notation pour cet ouvrage . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Notion de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Le lod-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 Heterogeneite genetique . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.1 Test d’heterogeneite entre les familles . . . . . . . . . . . . . . . 36
2.5.2 Heterogeneite intra-familiale : proposition de methode d’analyse 38
CHAPITRE III. SIMULATIONS DE PEDIGREES 43
3.1 Algorithme utilise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Fichier de structure des simulations . . . . . . . . . . . . . . . . . . . . 50
3.3 Description des donnees simulees . . . . . . . . . . . . . . . . . . . . . 52
CHAPITRE IV. ANALYSE SOUS HETEROGENEITE 63
4.1 Plan des analyses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Evaluation de la puissance . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.1 Moyennes des lod-scores . . . . . . . . . . . . . . . . . . . . . . 70
4.2.2 Comparaisons des methodes d’analyse . . . . . . . . . . . . . . 72
4.3 Erreur de type I du modele sans heterogeneite . . . . . . . . . . . . . . 79
CHAPITRE V. UNE FONCTION DISCRIMINANTE 83
5.1 Presentation des scenarios . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2 Presentation des lod-scores . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 Lod-scores selon la sensibilite et la specificite . . . . . . . . . . . . . . . 89
CONCLUSION 92
BIBLIOGRAPHIE 94
Bibliographie 94
A Fichiers associes au programme SLINK 96
A.1 Partie I. Fichiers d’entree . . . . . . . . . . . . . . . . . . . . . . . . . . 96
A.2 Partie II. Fichier de sortie . . . . . . . . . . . . . . . . . . . . . . . . . 98
B Fichiers associes au programme MLINK 100
B.1 Partie I. Fichiers d’entree . . . . . . . . . . . . . . . . . . . . . . . . . . 100
B.2 Partie II. Fichier de sortie . . . . . . . . . . . . . . . . . . . . . . . . . 101
Liste des tableaux
1.1 Genotypes et phenotypes pour le locus du groupe sanguin. . . . . . . . 10
1.2 Penetrances completes et incompletes. . . . . . . . . . . . . . . . . . . 11
1.3 Denombrement de genotypes pour la deuxieme experience de Mendel. . 13
1.4 Explications relatives a la phase inconnue. . . . . . . . . . . . . . . . . 18
3.1 Lod-scores obtenus lors des simulations sous l’hypothese alternative. . . 53
3.2 Lod-scores obtenus pour l’analyse d’une partie de famille tri-generation-
nelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 Probabilites obtenues pour differentes valeurs de r et de x. . . . . . . . 56
3.4 Lod-scores associes a differentes valeurs de r et de x. . . . . . . . . . . 56
3.5 Calcul des frequences esperees pour les lod-scores de la simulation. . . . 60
3.6 Frequences esperees pour les lod-scores de la simulation. . . . . . . . . 61
3.7 Lod-scores observes pour les 100 groupes de 10 familles. . . . . . . . . . 61
4.1 Nomenclature. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Moyennes et ecarts-types obtenus pour les lod-scores, les valeurs de θ et
les valeurs α. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3 Estimations de l’erreur de type I. . . . . . . . . . . . . . . . . . . . . . 79
4.4 Test de Mc Nemar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.5 Proportions attendues et obtenues de rejet de H0 : il n’y a pas de liaison. 82
5.1 Definition de la sensibilite et de la specificite. . . . . . . . . . . . . . . . 84
5.2 Presentation des scenarios. . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.3 Moyennes et ecarts-types obtenus pour les lod-scores resultants des ana-
lyses sous un modele d’heterogeneite. . . . . . . . . . . . . . . . . . . . 87
A.1 Fichier simped.pre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
A.2 Fichier simdata.dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
A.3 Fichier slinkin.dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
A.4 Fichier pedfile.dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
B.1 Fichier pedfile.dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
B.2 Premiere partie du fichier outfile.dat. . . . . . . . . . . . . . . . . . . . 101
B.3 Deuxieme partie du fichier outfile.dat. . . . . . . . . . . . . . . . . . . . 102
B.4 Troisieme partie du fichier outfile.dat. . . . . . . . . . . . . . . . . . . . 103
Table des figures
1.1 Premiere experience realisee par Mendel. . . . . . . . . . . . . . . . . . 6
1.2 Differents genotypes possibles pour les descendants de memes parents. . 7
1.3 Deuxieme experience realisee par Mendel. . . . . . . . . . . . . . . . . . 9
1.4 Exemple de pedigree. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5 Genotype a phase connue et genotype a phase inconnue. . . . . . . . . 18
2.1 Exemple servant au calcul de la fraction de recombinaison. . . . . . . . 21
2.2 Genotypes bivaries possibles pour l’individu 1. . . . . . . . . . . . . . . 25
2.3 Genotypes bivaries possibles pour l’individu 1. . . . . . . . . . . . . . . 26
2.4 Recombinants parmi les descendants de l’individu 4. . . . . . . . . . . . 26
2.5 Vraisemblance en fonction de theta. . . . . . . . . . . . . . . . . . . . . 29
2.6 Maximisation du log du ratio de vraisemblances afin de trouver le lod-score. 30
2.7 Cas d’heterogeneite genetique intra-familiale. . . . . . . . . . . . . . . . 33
2.8 Deductions des recombinaisons pour une famille heterogene. . . . . . . 35
2.9 Decomposition d’une famille tri-generationnelle. . . . . . . . . . . . . . 41
3.1 Famille a partir de laquelle l’exemple de simulations est realise. . . . . . 44
3.2 Resultats obtenus pour la simulation des genotypes des individus 1 a 6. 49
3.3 Fichier utilise pour les simulations. . . . . . . . . . . . . . . . . . . . . 51
3.4 Famille simulee. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 Partie du fichier utilisee pour expliquer les resultats des simulations. . . 54
3.6 Alleles des marqueurs pour deux familles. . . . . . . . . . . . . . . . . . 57
3.7 Diagramme de la probabilite que x enfants soient informatifs. . . . . . 59
3.8 Histogramme des lod-scores obtenus. . . . . . . . . . . . . . . . . . . . 62
4.1 Cas d’heterogeneite genetique intra-familiale. . . . . . . . . . . . . . . . 66
4.2 Schema des analyses et simulations realisees. . . . . . . . . . . . . . . . 69
4.3 Distributions des valeurs Z·,r(θ) et Z·,·,r(θ) . . . . . . . . . . . . . . . . 72
4.4 Familles bi-generationnelles ou l’individu 4 a une phase connue et inconnue. 73
4.5 Pedigree de trois generations heterogene et homogene. . . . . . . . . . . 74
4.6 Distributions des valeurs Z·,r(θ) et Z?·,r(θ) . . . . . . . . . . . . . . . . . 74
4.7 Distributions des valeurs Z?·,·,rhet
(θ) et Z?·,rhet
(θ) . . . . . . . . . . . . . . 75
4.8 Distributions des valeurs Z?·,·,rhet
(θ) et Z?·,·,r(θ). . . . . . . . . . . . . . . 76
4.9 Distributions des lod-scores Z·,r(θ) , Z·,·,r(θ) , Z?·,r(θ) , Z?
·,rhet(θ) , Z?
·,·,r(θ)
et Z?·,·,rhet
(θ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
ix
5.1 Choix des individus atteints par la fonction discriminante. . . . . . . . 86
5.2 Choix differents de la fonction discriminante pour un meme scenario. . 86
5.3 Lod-scores pour les grandes familles et une covariable analysees sous un
modele Ad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.4 Lod-scores pour les petites familles et une covariable analysees sous un
modele Ad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
INTRODUCTION
Dans le domaine de la sante, plusieurs etudes familiales, d’adoption et de jumeaux
ont ete realisees. Grace a ces etudes, on sait aujourd’hui que plusieurs maladies sont
hereditaires. Pour ces maladies, on cherche le gene de vulnerabilite. Une methode de
localisation de genes efficace et connue est l’analyse de liaison : il s’agit d’une analyse
statistique effectuee a partir de grandes familles dont plusieurs membres sont atteints
d’une maladie d’interet qui consiste a parcourir le genome afin de detecter la liaison.
La fraction de recombinaison est le parametre qui mesure la liaison. Lorsque la fraction
de recombinaison est grande, c’est-a-dire lorsqu’elle s’approche de 1/2 , nous concluons
que le gene de la maladie n’est pas a proximite du marqueur deja localise. Lorsque la
fraction de recombinaison est petite, les deux genes semblent plus souvent etre transmis
ensemble que separement. Dans ce cas, on conclut qu’il y a liaison entre les deux genes,
donc que le gene a localiser est situe pres du gene d’emplacement connu. L’analyse de
liaison est efficace : elle a permis, entre autre, de localiser les genes responsables de la
fibrose kystique et de la neurofibromatose (Lathrop et Weeks, 1995).
Les genes responsables d’autres maladies comme l’hypertension, la sclerose en plaques,
l’arthrite, la depression et le psoriasis (Schork et al., 1993) n’ont malheureusement
pas encore ete cibles et cela peut etre du au fait qu’il s’agit de maladies complexes.
Ces maladies ne sont pas monogeniques : il n’y a pas necessairement une seule mala-
die pour un seul gene, et cela peut donner lieu a plusieurs situations differentes. Par
exemple, deux genes peuvent interagir ensemble et causer la maladie (epistasie). Au-
trement, d’une famille a l’autre, il se peut que le gene qui est responsable de la maladie
ne soit pas le meme : il s’agit d’heterogeneite genetique. Parfois, l’heterogeneite peut
se presenter a l’interieur d’une meme famille et ainsi, certains membres peuvent etre
atteints de la maladie de type A et d’autres, de celle de type B. Aussi, il est possible
que la definition du phenotype soit incertaine. Il peut meme y avoir de la pleıotropie,
c’est-a-dire qu’il se peut qu’un gene s’exprime de plusieurs facons en apparence non
reliees dans le phenotype d’un seul individu. Toutes ces situations envisageables lors de
l’etude d’une maladie complexe rendent l’analyse de liaison beaucoup plus ardue. La
situation precise a laquelle on s’attarde ici est celle ou il y a de l’heterogeneite genetique
a l’interieur des familles.
INTRODUCTION 2
Pour realiser cet ouvrage, j’ai eu l’occasion de travailler avec l’equipe du Centre de Re-
cherche de l’Universite Laval a Robert-Giffard. Nous nous sommes interesses a la psy-
chiatrie genetique et, plus particulierement, a la schizophrenie et a la maladie bioplaire,
qui sont des maladies complexes. L’echantillon recueilli par les membres du Centre de
Recherche au cours des 15 dernieres anees compte, a ce jour, 48 familles etendues du
Quebec provenant plus particulierement de Chicoutimi et de Beauce, dans lesquelles il
y a environ 1000 sujets pour qui on a recueilli un echantilon d’ADN. Comme les familles
du Centre de Recherche sont etendues, on suspecte la presence d’heterogeneite intra-
familiale. Bien que l’efficacite de l’analyse de liaison soit connue dans des cas simples, on
ne sait pas ce qui pourrait arriver dans un cas d’heterogeneite genetique intra-familiale
puisque, dans la litterature, moins d’attention a ete portee a l’etude de l’heterogene-
ite intra-familiale qu’a l’etude de l’heterogeneite inter-familiale. C’est pourquoi, dans
cet ouvrage, il sera question de methodes d’analyses qui traitent l’heterogeneite geneti-
que a l’interieur des familles. Une methode de traitement l’heterogeneite intra-familiale
pouvant s’appliquer a n’importe quelle maladie heriditaire complexe est proposee. Il
s’agit en gros de diviser les familles en familles nucleaires et d’appliquer une demarche
connue qui traite l’heterogeneite inter-familiale sur les petites familles. Par simulations
de familles dans lesquelles il y a de l’heterogeneite, nous obtenons une augmentation de
63% de l’evidence de liaison lorsqu’on applique la methode de decoupage des familles
par rapport a l’analyse de liaison usuelle.
Le premier chapitre presente une introduction a la biologie genetique afin de claire-
ment poser le probleme. Le second chapitre, pour sa part, introduit des concepts de
genetique et met en evidence le probleme d’heterogeneite intra-familiale a l’aide de
calculs de lod-scores. Dans le troisieme chapitre, la methode de simulations est ex-
pliquee et est accompagnee d’un exemple. Aussi, les donnees simulees sont decrites.
Le quatrieme chapitre est constitue des resultats de comparaisons de puissance pour
les diverses methodes d’analyse utilisees et on discute de l’erreur de type I. Le dernier
chapitre est une extension des analyses d’heterogeneite dans le cas ou on utilise une
covariable.
CHAPITRE I
INTRODUCTION A LA BIOLOGIE GENETIQUE
Le scientifique Gregor Mendel a realise des experiences sur la genetique qui sont au-
jourd’hui tres connues. On pourrait toutefois se demander la raison de la popularite de
ces experiences.
Le present chapitre a pour objectif d’expliquer les notions de biologie genetique ne-
cessaires a la comprehension du reste de cet ouvrage. Dans un premier temps, une
breve introduction a la biologie moleculaire est presentee. A la section suivante, une
explication des probabilites est donnee et la derniere section porte sur la notation uti-
lisee en genetique. A la fin de ce chapitre, les experiences de Mendel et les raisons de la
popularite de celles-ci ne seront plus un secret pour le lecteur.
Le lecteur deja a l’aise avec les notions qui touchent ces domaines peut passer di-
rectement au chapitre II, tandis que le lecteur interesse a en savoir plus peut se referer
aux ouvrages de Campbell (1995) et de Thompson (1986).
1.1 Quelques notions de biologie moleculaire
Cette section presente une introduction au notions du vaste monde de la biologie qui sont
utiles pour comprendre les analyses realisees plus loin. En premier lieu, les differentes
cellules ainsi que leur contenu sont decrites. Ensuite, deux des celebres experiences de
Mendel sont presentees, les differents modes de transmission genetiques sont expliques
et une loi gouvernant le bassin genetique des populations est citee.
1.1.1 Les cellules
En 1839, le physiologiste Theodor Schwann avancait que les cellules sont les briques
des batiments que sont les organismes. On sait aujourd’hui que chacune des cellules
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 4
contient plusieurs mecanismes qui lui permettent entre autre de survivre et de se re-
produire. On sait egalement que l’etre humain est constitue de deux sortes de cellules,
soient les cellules somatiques et les cellules de reproduction ou gametes.
Cellules somatiques
La cellule est principalement constituee d’une membrane qui l’entoure, de differents
equipements internes qui sont essentiels a son maintien en vie ainsi que d’un noyau
qu’on appelle le nucleon. C’est le nucleon qui contient les chromosomes de l’organisme.
Les chromosomes, a leur tour, contiennent l’information genetique : ils sont constitues
de chaınes d’acide desoxyribonucleique (ADN) enroulees autour de proteines.
Chez l’humain, le nucleon des cellules somatiques contient 46 chromosomes. Ces chro-
mosomes sont des cellules diploıdes : elles sont representees par paires. Pour chacune
des 23 paires de chromosomes, une molecule provient de la mere et une autre provient
du pere. Des 46 chromosomes des cellules somatiques, 44 chromosomes sont des paires
d’autosomes (des chromosomes non-sexuels) et les deux chromosomes restants consti-
tuent une paire de chromosomes sexuels (XX ou XY).
Cellules de reproduction ou gametes
Contrairement aux cellules somatiques, le nucleon d’une cellule de reproduction pos-
sede 23 chromosomes. Ces cellules sont haploıdes ; il y a un seul jeu de chromosomes
dans chacune d’elles. Comme les cellules de reproduction sont constituees de la moitie
du nombre de chromosomes presents dans les cellules somatiques, on peut deduire que
les 23 chromosomes des gametes sont le resultat de l’addition de 22 autosomes et d’un
chromosome sexuel (X ou Y).
Le zygote est forme par l’union des gametes lors de la fecondation ou syngamie. Il est
diploıde : il est compose des 23 chromosomes du pere et des 23 chromosomes de la mere.
Le lecteur doit noter que dans cet ouvrage, on ne s’interessera qu’a la segregation auto-
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 5
somale, soit le processus par lequel le code genetique du descendant est forme a partir
de celui de ses parents dans le cas des chromosomes non-sexuels.
1.1.2 Les genes
Dans le cas des cellules somatiques comme dans le cas des gametes, le gene est un seg-
ment precis de la molecule d’ADN ou du chromosome. Donc, chacun des chromosomes
porte des milliers de genes. L’emplacement exact du gene sur le chromosome est ap-
pele locus. Chacun des genes a pour fonction de programmer des cellules afin qu’elles
puissent synthetiser differentes proteines. Lorsqu’un gene est active, les cellules synthe-
tisent des proteines sous l’action desquelles s’expriment les caracteres hereditaires de
l’individu. Si on comprend quand et pourquoi un gene est active, on a une idee de sa
fonction.
Les variations entre les caracteres hereditaires qu’on retrouve entre les individus sont
expliques par les differentes formes que peuvent prendre un meme gene qu’on nomme
allele. Ce sont les differentes combinaisons des alleles sur un meme locus d’une paire de
chromosomes qui vont correspondre a un ou des caracteres physiques ou physiologiques
precis chez un individu.
1.1.3 Loi mendelienne de segregation
Des 1866, le scientifique et botaniste Gregor Mendel a decouvert la segregation dans le
cadre d’une experience sur des plants de pois. La figure 1.1 est une representation des
observations de Mendel. En croisant des pois a graine ronde a des pois a graine ridee, il
a observe que les premiers descendants (generation F1) etaient uniquement des pois a
graines rondes. Les pois a graines rondes semblaient avoir donne leur forme a tous leurs
premiers descendants, tandis que les pois a graines ridees semblaient ne pas avoir trans-
mis leur trait specifique. C’est a la deuxieme generation de descendants (generation F2)
que Mendel a constate qu’un quart des pois avaient des graines ridees. Les individus a
graines rondes de la generation F1 n’avaient pas perdu la caracteristique ridee, mais ils
ne l’avaient pas affichee.
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 6
Fig. 1.1 – Premiere experience realisee par Mendel. Les pois de la generation P sont
ronds et rides, les pois de la generation F1 sont tous ronds et trois quarts des pois de
la generation F2 sont ronds.
Grace a un calcul s’appuyant sur la theorie des probabilites, Mendel a constate que
l’heredite depend d’une certaine contribution de chacun des parents. Grace a ses re-
cherches, on sait aujourd’hui que les deux chromosomes d’un caractere specifique du
descendant sont le resultat d’un choix aleatoire d’une copie d’un des deux chromosomes
de chacun des parents pour ce meme caractere. Le processus par lequel le code genetique
du descendant est forme dans les gametes a partir de celui de ses parents se nomme la
segregation.
On observe a la figure 1.1 que les loci (emplacements) homologues peuvent porter le
meme allele. En effet, aux loci qui determinent la texture, les pois SS et ss possedent
deux fois la meme representation du gene. Ce sont des pois de lignee pure qu’on dit
homozygotes pour la texture. Deux alleles differents peuvent aussi etre observes aux
deux loci homologues ; dans ce cas, on dit que les pois sont hybrides et qu’ils sont des
organismes heterozygotes pour le caractere texture.
Ici, un seul caractere est a l’etude : il s’agit de la texture. Comme les parents possedent
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 7
chacun deux alleles, il y a quatre types de genotypes pour les descendants. Ceux-ci
sont constitues d’un allele provenant de chaque parent. Les differents genotypes pour
les descendants d’un couple de parents heterozygotes sont montres sur la figure 1.2.
Le genotype d’un individu est la paire d’alleles qu’il possede, peu importe l’ordre dans
lequel ils sont places.
Fig. 1.2 – Differents genotypes possibles pour les descendants de memes parents. Les
parents sont heterozygotes et ont des alleles differents. Les quatre descendants ont un
genotype different.
Comme chaque combinaison d’un des alleles du pere et d’un des alleles de la mere est
equiprobable, la probabilite qu’un descendant soit d’un type donne est 1/4. Tous les
genotypes possibles pour les descendants dans l’experience sur les pois ont ete illustres
a la generation F2 de la figure 1.1. On constate qu’il y a quatre possibilites de combi-
naisons, mais que comme certains genes sont les memes pour les deux parents, il n’y a
que les trois genotypes SS, Ss et ss qui sont differenciables.
Les pois, tout comme les humains, sont diploıdes. Cela signifie que les genes sont presents
par paires et que la segregation se fait de la maniere decrite precedemment. Donc, chez
les pois, deux genes sont responsables de la texture, deux autres genes sont responsables
de la couleur rouge, rose ou blanche des fleurs, deux autres genes sont responsables de
la couleur des graines, etc. Chez l’humain, deux genes sont responsables de la couleur
des yeux, deux genes sont responsables du groupe sanguin, etc.
Certains autres organismes possedent les genes seuls, par groupes de trois ou meme
par groupes de quatre. Par exemple, l’espece Musa x paradisiaca, soit la banane com-
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 8
munement cultivee possede ses genes en groupes de trois : elle est triploıde. La segregation
de ces organismes est plus complexe.
Comme il a ete mentionne, les variations des caracteres hereditaires s’expliquent par
les formes differentes (alleles) que peuvent avoir les genes. Les alleles (S et s) des pois
ronds et des pois rides representent deux variantes possibles de l’ADN situe sur ce locus
du gene de la texture des pois, sur l’un des chromosomes d’un pois.
1.1.4 Loi mendelienne d’assortiment independant
Mendel s’est aussi interesse aux croisements de varietes parentales presentant deux
caracteres differents qu’on appelle croisements dihybrides. En croisant deux varietes de
pois, soit un parent a graines jaunes rondes et un parent a graines vertes ridees (JJRR
croise avec jjrr), il a constate que l’allele au locus de la couleur n’est pas toujours associe
a un allele precis au locus de la texture. En fait, l’ensemble d’alleles a differents loci
qui vient d’un meme parent, appele haplotype, n’est pas toujours le meme : un parent
de genotype JjRr peut donner les alleles J et R a un descendant et les alleles J et r a
un autre. On sait aujourd’hui que les caracteres de la couleur et de la texture des pois
subissent une transmission independante 98 fois sur 100.
La figure 1.3 est une representation du type d’experience qui a ete realisee par Mendel.
Si le couple de la generation F1 avait ete constitue d’individus heterozygotes n’ayant
aucun gene en commun (c’est a dire j1j2r1r2 avec j3j4r3r4), il y aurait eu autant de
descendants differents pour l’ensemble des deux caracteres qu’il y a de possibilites de
choisir un ensemble constitue d’un allele par parent par caractere, donc 16. Comme
dans l’experience presentee chaque parent possede deux fois les memes genes, il y a 9
genotypes bivaries possibles qui sont respectivement :JJRR, JJRr, JJrr, JjRR, JjRr,
Jjrr, jjRR, jjRr et jjrr.
1.1.5 Modes de transmission
Plusieurs modes de transmission genetique sont possibles : le mode dominant, le mode
recessif et le mode codominant. Ainsi, on dit de certains alleles qu’ils sont dominants,
recessifs ou codominants par rapport a d’autres et c’est selon le mode de transmission
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 9
Fig. 1.3 – Deuxieme experience realisee par Mendel. A la generation P, un pois a graine
verte ronde est croise avec un pois a graine verte ridee. Le premier descendant est vert et
rond (generation F1). Il est croise avec un autre pois vert rond. Quatre des descendants
de ce croisement, a la generation F2, sont verts ronds, deux sont verts rides, deux sont
jaunes ronds et un seul est jaune ride.
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 10
de ses alleles que le genotype pourra s’exprimer. L’expression du genotype est nommee
le phenotype.
Le tableau 1.1 donne une idee des relations entre les differents genotypes et phenotypes
possibles au locus du groupe sanguin. Ses marges sont constituees des alleles du genotype
et le centre constitue les phenotypes resultants de chaque couple d’alleles. On dit que
les alleles A et B sont dominants par rapport a O, c’est-a-dire que si A (ou B) est
en presence de O au genotype, seulement l’allele A (l’allele B) s’exprimera dans le
phenotype. Donc, la colonne des phenotypes associee a l’allele O contient seulement le
deuxieme l’allele du couple et il en est de meme pour la ligne associee a l’allele O.
Tab. 1.1 – Genotypes et phenotypes pour le locus du groupe sanguin. Les alleles du
genotype se trouvent dans les marges et les phenotypes associes a chaque couple d’alleles
sont inscrits au centre du tableau.pere
alleles A B O
A A AB A
mere B AB B B
O A B O
L’allele O est recessif par rapport a A et a B, alors O n’est pas represente dans le
phenotype quand il est en couple avec A ou B au genotype. Donc, les phenotypes as-
socies aux individus qui possedent les alleles AO et BO sont A et B.
Deux alleles, lorsqu’ils sont codominants, s’expriment dans le phenotype. Le mode de
transmission codominant est celui des alleles A et B. Donc, lorsque l’allele A et l’allele
B se trouvent au locus du groupe sanguin d’un individu, le phenotype est AB.
Considerons une toute autre maladie de deux alleles differents, disons A et a. Si les
alleles A et a sont les alleles malade et sain respectivement et si
x : phenotype,
x = 2 si l’individu est atteint,
x = 1 si l’individu est non-atteint,
g : genotype,
alors la penetrance est la probabilite que le phenotype soit atteint conditionnellement au
genotype P(X|G = g). La penetrance fait le lien entre ce qu’on observe (le phenotype au
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 11
locus de la maladie) et les alleles que l’individu possede (son genotype a ce meme locus).
Pour certaines maladies, on dit que la penetrance est complete, comme pour les modeles
presentes sur les deux premieres lignes du tableau 1.2. On constate que la penetrance
du phenotype atteint P(X = 2|G = g) = 1 si le genotype est g = AA ou g = Aa pour
le modele dominant et si g = aa pour le modele recessif. La penetrance peut aussi etre
incomplete : deux exemples de modeles sont presentes au bas dans le tableau 1.2, ou
on peut lire, par exemple, que la probabilite qu’un individu soit de phenotype atteint
etant donne que son genotype est AA est 0, 9 sous le troisieme modele.
Tab. 1.2 – Penetrances pour les genotypes possibles au locus d’une maladie de deux
alleles differents, pour deux modes de transmission de la maladie (modeles). Aux lignes
1 et 2, les penetrances sont completes et aux lignes 3 et 4, elles sont incompletes.Penetrances P(X = 2|G = g).
genotype g
modele AA Aa aa
dominant 1 1 0
recessif 0 0 1
dominant 0,9 0,9 0
recessif 0 0 0,9
1.1.6 Principe d’equilibre d’Hardy–Weinberg
Ce principe a ete independamment decrit par le physicien Wilhelm Weinberg (1862-
1937) et le mathematicien Godfrey Hardy (1877-1947).
Principe 1.1.1. Si une population est de taille infinie, c’est-a-dire suffisamment grande
pour etre gouvernee par les lois de Mendel, sous hypotheses d’accouplements aleatoires
et d’absence d’autres forces telles la migration, la mutation et de la selection au gene en
question, alors la population est dite en equilibre d’Hardy–Weinberg : la frequence des
genotypes dans la population depend seulement des frequences des genotypes eux-memes
Puu = p2u pour les homozygotes AuAu ;
Puv = 2pupv pour les heterozygotes AuAv .
Pour les genes autosomaux c’est-a-dire les genes formes a partir de chromosomes non-
sexuels, le principe d’Hardy–Weinerg implique que peu importe la distribution des
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 12
frequences des alleles dans la population de la generation associee aux parents, l’equilibre
est obtenu apres une generation d’accouplements aleatoires. En d’autres mots, les
genotypes de la generation des enfants dependent seulement de la frequence des alleles
et ne dependent pas de la frequence des genotypes de la generation parentale. Donc,
pour l’exemple des groupes sanguins, P(A,A) = p2A et P(A,B) = 2pApB.
Il faut noter que les accouplements aleatoires impliquent l’equilibre d’Hardy–Weinberg,
mais que l’equilibre d’Hardy–Weinberg n’implique pas necessairement qu’il y a eu ac-
couplements aleatoires.
1.2 Introduction aux probabilites
Pour les deux experiences realisees par Mendel qui ont ete decrites sur les figures 1.1 et
1.3 des pages 6 et 9, les alleles S, J et R etaient dominants par rapport aux alleles s, j et
r. Le ratio de phenotypes dominants et recessifs pour la premiere experience est de 3 :1,
c’est-a-dire qu’il y a 3 phenotypes dominants pour la texture et un phenotype recessif.
Pour la deuxieme experience, le ratio est de 9 :3 :3 :1 : il y a 9 phenotypes dominants pour
les deux caracteres, 3 phenotypes dominants pour la texture seulement, 3 phenotypes
dominants pour la couleur seulement ainsi qu’un phenotype recessif pour les deux ca-
racteres. Afin de comprendre ces resultats, une base en probabilites s’avere necessaire.
Donc, dans cette section, une introduction aux probabilites est presentee. Premierement,
le theoreme de Bayes est presente et explique. Ensuite, la notion d’independance est
introduite, afin de comprendre comment Mendel a pu affirmer que la segregation de
plusieurs caracteres est independante.
1.2.1 Theoreme de Bayes
Thomas Bayes (1702-1761) a travaille sur les probabilites conditionnelles. Grace a ses
efforts, on sait maintenant que la probabilite conditionnelle d’un evenement A etant
donne un evenement B est egale a la probabilite conditionnelle de l’evenement B etant
donne l’evenement A multipliee par la probabilite de l’evenement A et divisee par la
probabilite de l’evenement B :
P(A|B) = P(B|A) ·P(A)
P(B).
Ces probabilites sont definies de facon plus generale dans le celebre theoreme 1.2.1, le
theoreme de Bayes.
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 13
Theoreme 1.2.1. Si An est un element d’un ensemble Ai qui constitue une partition
de l’espace echantillonnal, alors
P(An|B) =P(B|An) · P(An)
∑
i{P(B|Ai) · P(Ai)}.
Donc, si on cherche la probabilite qu’un pois de la deuxieme experience de Mendel (figure
1.3, page 9) soit rond sachant qu’il est vert, on definit tout d’abord les evenements :
A1 : le pois est rond ;
A2 : le pois n’est pas rond ;
B : le pois est vert.
Ensuite, on etablit les probabilites de base a l’aide du tableau 1.3 et de la figure 1.3.
P(B) =12
16=
3
4(1.2.1)
P(A1) =12
16=
3
4(1.2.2)
P(A2) =4
16=
1
4(1.2.3)
P(B|A1) =9
12=
3
4(1.2.4)
P(B|A2) =3
4. (1.2.5)
Tab. 1.3 – Denombrement de genotypes et de phenotypes associes : on trouve ici le
nombre de facons d’observer chaque genotype ainsi que le nombre de facons d’observer
chaque phenotype pour la couleur et la texture des pois.Denombrement des genotypes et phenotypes possibles
pour la deuxieme experience de Mendel
Genotype JJRR JJRr JJrr JjRR JjRr Jjrr jjRR jjRr jjrr
Couleur vert vert vert vert vert vert jaune jaune jaune
Texture rond rond ride rond rond ride rond rond ride
Possibilites 1 2 1 2 4 2 1 2 1
On peut donc, a l’aide des probabilites de base, calculer la probabilite cherchee :
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 14
P(A1|B) =P(B|A1) · P(A1)
{P(B|A1) · P(A1) + P(B|A2) · P(A2)}
=34· 3
4
{34· 3
4+ 3
4· 1
4}
(1.2.6)
=3
4.
1.2.2 Notion d’independance en statistique
Avant d’aller plus loin, il est important de presenter la notion d’independance telle que
decrite en statistique.
Theoreme 1.2.2. Deux evenements sont independants statistiquement si
P(A|B) = P(A)
et, dans ce cas,
P(A ∩ B) = P(A) · P(B).
Ceci nous mene a la definition plus generale de l’independance donnee au theoreme
1.2.3.
Theoreme 1.2.3. Les evenements A1, A2, ... sont independants si pour toute selection
de n evenements Ai1, ..., Ain
P(Ai1, ..., Ain) = P (Ai1) · ... · P (Ain) ∀n ≥ 2, n ∈ N.
1.2.3 Explications des resultats de Mendel
Il est maintenant possible de montrer comment les resultats de la deuxieme experience
de Mendel permettent de croire que la selection de caracteres differents est indepen-
dante.
A l’aide du theoreme de Bayes, les probabilites suivantes ont ete calculees :
P(B), P(A1), P(B|A1), P(A1|B)
aux lignes (1.2.1), (1.2.2), (1.2.4) et (1.2.6) de la page 13.
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 15
Par le theoreme 1.2.3, on sait que deux evenements A1 et B sont independants statis-
tiquement si P(A1|B) = P(A1) et P(B|A1) = P(B). Or, on peut observer que :
P(A1|B) = P(A1) =3
4
P(B|A1) = P(B) =3
4.
Il est aussi possible de constater que
P(A1 ∩ B) = P(A1) · P(B)
=9
16
en denombrant le nombre de possibilites d’obtenir des pois verts a texture ronde dans
l’image 1.3 : la segregation de caracteres differents est bel et bien independante.
1.3 Notation utilisee en genetique
Un pedigree est un diagramme des relations existant a l’interieur d’une famille. Ce type
de diagramme facilite la visualisation des relations entre les individus, specialement dans
le cas de familles etendues. On utilise parfois les pedigrees pour determiner le mode de
transmission d’une maladie genetique. Dans cette section, un pedigree est presente et la
notation necessaire a la comprehension de celui-ci est expliquee. Par la suite, la notion
de phase connue et de phase inconnue est decrite.
1.3.1 Presentation d’un pedigree
A l’interieur d’un pedigree, des symboles sont utilises pour representer les individus et
des lignes afin d’indiquer les relations genetiques. Le symbole associe aux individus de
sexe masculin est un carre tandis que les individus de sexe feminin sont representes par
un cercle. Dans ce texte, lorsque le sexe d’un individu est inconnu, il est represente par
un losange (certains auteurs utilisent un triangle). Les mariages entre deux personnes
sont symbolises par une ligne horizontale entre eux. Les lignes verticales indiquent la des-
cendance d’un couple et lorsqu’elles sont divisees en plusieurs ramifications, c’est qu’il
y a plusieurs enfants dans la fratrie en question. Il arrive que le symbole representant
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 16
un individu soit barre : cela signifie que cette personne est decedee. Dans l’exemple
donne a la figure 1.4, les parents 1 et 2 ont quatre enfants : un garcon (3), un enfant de
sexe inconnu (5) et deux filles (6 et 7). Les individus 3 et 4 forment un couple et ont,
a leur tour, deux enfants, une fille et un garcon (9 et 10). Les individus 7 et 8 ont trois
descendants, tous de sexe masculin (11,12 et 13).
Fig. 1.4 – Interpretation d’un pedigree. Les individus atteints sont representes par
un symbole noir. Le symbole associe aux individus de sexe masculin est le carre et le
symbole associe aux individus de sexe feminin est le cercle. La descendance des couples
est imagee par un trait vertical.
Le remplissage des symboles donne de l’information sur l’etat de sante des personnes.
Un symbole vide est dessine lorsque la personne est «en sante», c’est-a-dire lorsqu’elle
n’affiche pas le phenotype de la maladie etudiee. Un symbole plein est signe que la
personne exprime le phenotype correspondant a la maladie a l’etude. Dans l’exemple
1.4, les individus 1, 2, 3, 6, 7, 10 et 12 expriment le phenotype de la maladie a l’etude
tandis que les individus 4, 5, 8, 9, 11 et 13 n’affichent pas un phenotype correspondant
a la maladie etudiee. Parfois, dans les pedigrees, les genotypes sont inscrits a cote des
symboles qui representent les individus.
1.3.2 Notion de phase
Lorsqu’on considere plusieurs loci, comme il a ete fait dans la deuxieme experience de
Mendel, il peut etre possible de trouver de quel parent proviennent chacun des deux
haplotypes d’un individu. La notion de phase refere aux provenances des haplotypes :
lorsqu’on sait de quel parent proviennent chacun des haplotypes, on dit qu’on est en
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 17
presence d’un individu dont le genotype est a phase connue. Contrairement lorsqu’on
ne sait pas de quel parent proviennent les haplotypes, on a affaire a un individu dont
le genotype est a phase inconnue.
L’image de gauche dans la figure 1.5 est tiree de l’ouvrage de Ott (1999). Elle represente
le pedigree d’une famille dans laquelle on s’interesse a deux loci ; le locus ou se situent
deux des alleles A et a et celui ou se situent deux des alleles B et b. On constate
que les individus 1 et 2 sont tous deux doublement homozygotes : l’individu 1 possede
deux alleles A ainsi que deux alleles B et l’individu 2 possede deux alleles a ainsi que
deux alleles b. Donc, l’individu 1 donne necessairement une copie des alleles A et B
a son descendant, car il s’agit des seuls alleles qu’il possede a ces loci. De la meme
facon, l’individu 2 ne peut donner que les alleles a et b. Nous pouvons affirmer avec
certitude que l’haplotype AB provient de la mere et que l’haplotype ab provient du
pere. Dans cette situation, l’individu 3 est doublement heterozygote de phase connue :
c’est parce qu’on connaıt sa phase qu’on separe les haplotypes du pedigree a l’aide d’un
trait vertical.
Un raisonnement semblable s’applique dans le cas des individus 5 et 6 afin de constater
que leurs phases sont connues. En effet, la mere des deux individus ne possede que les
alleles a et b, donc elle donne l’haplotype ab a tous ses descendants. Il devient alors clair
que les haplotypes Ab et AB proviennent de l’individu 3. Le lecteur peut constater qu’il
est possible qu’un individu a phase connue ne donne pas a ses descendants un des deux
haplotypes tel qu’il l’a recu de ses parents, mais bien une combinaison quelconque d’un
des alleles a chacun de ses loci. En d’autres mots, par le phenomene d’enjambement,
l’individu 3 peut donner les haplotypes AB et ab, mais il peut aussi donner Ab et aB.
L’image de droite de la figure 1.5 est quelque peu differente de celle de gauche. Les in-
dividus 1 et 2 sont doublement heterozygotes puisqu’aux deux loci, ils possedent deux
alleles differents : l’allele A et l’allele a au locus 1 ainsi que l’allele B et l’allele b au
locus 2. De plus, ils sont heterozygotes pour les memes alleles, car l’individu 1 possede
les memes alleles que l’individu 2 a chaque locus. L’individu 3 pourrait avoir recu n’im-
porte quel ensemble de deux des haplotypes presentes dans les marges du tableau 1.4.
Comme il possede les alleles A, a, B et b, on sait que la situation est une de celles
qui sont associees aux cellules inscrites en gras. Puisqu’on ne sait pas quel cas precis
s’est produit, on dit que l’individu 3 est de phase inconnue. La phase des individus
5 et 6 demeure toutefois connue, puisqu’on sait que les alleles Ab et AB sont trans-
mis par l’individu 3 etant donne qu’il est le seul des parents a posseder les alleles A et B.
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 18
Fig. 1.5 – Pedigree contenant les individus 3, 5 et 6 qui ont un genotype a phase connue
(a gauche) et pedigree contenant l’individu 3 qui a un genotype a phase inconnue (a
droite).
Tab. 1.4 – En marge, on trouve l’ensemble des haplotypes possiblement recus de la
part de la mere et du pere de l’individu 3 de droite dans la figure 1.5. Les cellules du
centre du tableau representent toutes les possibilites de genotypes de l’individu 3.pere
A a A a
B b b B
a Aa aa Aa aa
b Bb bb bb Bb
A AA aA AA aA
mere B BB bB bB BB
a Aa aa Aa aa
B BB bB bB BB
A AA aA AA aA
b Bb bb bb Bb
I. INTRODUCTION A LA BIOLOGIE GENETIQUE 19
Dans le cadre de ce chapitre, le lecteur a eu l’occasion de se familiariser avec les notions
de base relatives a la biologie telles que les cellules, les genes, les principales lois de
Mendel et le principe d’equilibre d’Hardy-Weinberg. Il a aussi ete introduit aux pro-
babilites lors de la presentation du theoreme de Bayes et de l’explication de la notion
d’independance en statistique. Finalement, le lecteur comprend les differents symboles
pouvant se trouver dans un pedigree et doit se sentir pret a approfondir certaines no-
tions de genetique.
CHAPITRE II
CONCEPTS DE GENETIQUE
Comme nous avons defini les termes lies a la biologie qui seront utilises dans cet ou-
vrage, il est maintenant possible d’aborder des sujets generaux de genetique.
Dans ce chapitre, la fraction de recombinaison d’un pedigree est presentee. Par la suite,
a la section 2.2, on precise la notation utilisee dans les formules utilisees pour le reste
de cet ouvrage. Egalement, une mesure de plausibilite des donnees, la vraisemblance
familiale, est expliquee et illustree a la section 2.3. Les sections 2.4 et 2.5 precisent
respectivement ce que sont le lod-score et l’heterogeneite genetique.
Au terme de ce chapitre, le lecteur devrait avoir plus de facilite a comprendre les pe-
digrees et a saisir les raisons qui nous motivent a entreprendre une etude de simulations.
2.1 Fraction de recombinaison
Dans cette section, la fraction de recombinaison est definie. Par la suite, un calcul de
cette fraction est donne en exemple et on explique le lien entre la fraction de recombi-
naison et la liaison.
2.1.1 Calcul de la fraction de recombinaison
Mendel pensait que differents caracteres subissaient une transmission (ou segregation)
independante. Aujourd’hui, on sait que ce sont plus particulierement les chromosomes
qui subissent la transmission, et non les genes eux-memes. Donc, la transmission des
loci adjacents sur un meme chromosome n’est pas necessairement independante.
II. CONCEPTS DE GENETIQUE 21
Pour s’en convaincre, nous allons nous interesser aux transmissions des alleles du pere
presente a la figure 2.1. Dans ce pedigree, on deduit le genotype au locus de la maladie
Fig. 2.1 – Exemple servant au calcul de la fraction de recombinaison. Dans ce pedigree,
le genotype au locus de la maladie de l’individu 1 est inscrit entre parentheses parcequ’il
est deduit a partir de son phenotype atteint : il peut s’agir de AA ou bien de aA. Seul
l’individu 13 est recombinant selon son pere, l’individu 4.
de l’individu 1. C’est pourquoi il est inscrit entre parentheses. On constate que l’indi-
vidu 4 a recu les haplotypes 4A et 2a de ses parents. Il a donne a son deuxieme garcon
l’haplotype 2A : il ne s’agit pas d’un haplotype identique a un des deux haplotypes
qu’il a recu de ses parents, mais d’une recombinaison d’un nouvel haplotype a partir
des alleles qu’il possede. Comme l’haplotype 2A du garcon n’est pas un des ensembles
d’alleles donne par un seul des grands-parents, on dit que l’enfant 13 est recombinant
selon le pere. Pour sa part, le premier garcon de l’individu 4 a plutot recu l’haplotype 2a.
Cet haplotype est similaire a celui qui a ete donne de l’individu 2 a l’individu 4. L’enfant
a recu un haplotype provenant d’un seul de ses grands-parents du cote paternel, soit
de sa grand-mere. Comme l’haplotype est le meme du pere a son fils, on dit qu’il n’y a
pas de recombinaison des alleles du cote paternel. L’enfant 12 est dit non-recombinant
selon le pere. Les enfants 14, 15 et 16 sont egalement non-recombinants selon le pere.
Definition 2.1.1. On dit qu’il y a occurence d’une recombinaison pour un individu par
rapport a son pere ou sa mere lorsque l’haplotype recu du parent est constitue de genes
II. CONCEPTS DE GENETIQUE 22
provenant des deux grands-parents, c’est-a-dire lorsque l’haplotype de l’enfant n’est pas
identique a un des haplotypes du parent.
Les recombinaisons qui se produisent a l’interieur d’un pedigree sont comptees et rap-
portees en terme de fraction de recombinaison.
Definition 2.1.2. La fraction de recombinaison d’un pedigree est la proportion d’ha-
plotypes recombinants potentiellement produite par un parent doublement heterozygote ;
elle peut egalement etre definie comme etant la probabilite d’occurence d’une recombi-
naison par meiose dans le pedigree. On note cette fraction par le symbole θ. Le domaine
de θ est 0 ≤ θ ≤ 1/2.
La recombinaison est peu probable lorsque les loci sont voisins, tandis que si les loci
sont eloignes, la recombinaison a lieu avec une probabilite de 1/2 et la loi de Mendel de
l’independance de segregation des differents caracteres tient. La valeur θ est donc une
mesure de distance utile sur des petits intervalles : dans le cas ou les loci sont eloignes, θ
vaut 1/2 et dans le cas ou les loci sont proches voisins, θ s’approche de 0. La fraction de
recombinaison associee a l’image 2.1 est θ = 1/5 puisqu’un seul des enfants, l’individu
13, est recombinant selon le pere.
Un marqueur est un locus dont la position est connue. Les prochaines sections servent
a comprendre comment tester si la transmission des alleles du locus d’un marqueur qui
sont representes par des chiffres est independante de la transmission des alleles du locus
de la maladie qui sont representes par des lettres.
2.1.2 Lien entre fraction de recombinaison et liaison
Les recombinaisons entre deux loci se produisent a un taux relie a la distance entre
eux sur un meme chromosome. Il y a occurence de moins de recombinaisons pour
des loci proches que pour des loci eloignes. Lorsqu’il y a un lien entre des alleles a
differents loci d’un gene, on dit qu’il y a liaison genetique et dans ce cas, la fraction de
recombinaison est faible. Deux genes sont dits completement lies (ils sont proches) si
un parent doublement heterozygote produit uniquement des gametes non-recombinants
tandis que deux genes sont dits non-lies (ils sont eloignes) si un parent de meme genotype
produit des gametes recombinants et des gametes non-recombinants en proportions
egales. Dans le premier cas, θ vaut 0 et dans le deuxieme cas, θ vaut 1/2 .
II. CONCEPTS DE GENETIQUE 23
Le but de l’analyse de liaison est d’estimer la fraction de recombinaison et de tester si
elle est inferieure a 1/2 ou, autrement dit, si un ecart observe de θ par rapport a 1/2
est significatif. Les hypotheses reliees a ce test sont :
H0 : il n’y a pas de liaison ;
vs
H1 : il y a liaison.
Elles se traduisent plus formellement par :
H0 : θ =1/2 ;
vs
H1 : θ <1/2 .
C’est par la maximisation de la vraisemblance que les estimations de la fraction de
recombinaison seront trouvees afin de pouvoir effectuer ce test d’hypotheses.
2.2 Notation pour cet ouvrage
Avant d’aller plus loin, il est primordial d’adopter une notation. La notation suivante
sera utilisee dans le reste de cet ouvrage.
fs : frequence de l’allele s dans la population ;
i : indice representant un individu, i = 1, . . . , I, il y a donc I individus
dans une famille ;
A : ensemble des genotypes bivaries pour tous les individus i ;
J : ensemble des individus i qui sont fondateurs du pedigree, c’est-a-dire
les individus sans parents et les conjoints ;
Kf,m : ensemble des individus i qui sont enfants des individus f et m ;
xi : phenotype de l’individu i, soit l’observation de son etat atteint ou
non-atteint au locus de la maladie qui peut prendre les valeurs suivantes :
xi =
2 si l’individu i est atteint,
1 si l’individu i est non-atteint,
0 si le phenotype de l’individu i est inconnu ;
p : nombre d’alleles a determiner pour le genotype bivarie d’un individu ;
gi : genotypes bivaries pour l’individu i, c’est-a-dire les groupes de deux
alleles au locus du marqueur et de deux alleles au locus de la maladie
que peut posseder l’individu i ;
II. CONCEPTS DE GENETIQUE 24
x = (x1, ..., xI) : vecteur de longueur I de phenotypes observes
au locus de la maladie.
Remarquons ici que le phenotype, a son sens large, est constitue de ce qu’on peut
observer. C’est pourquoi, lorsqu’on fait allusion au phenotype d’un individu, il faut
comprendre que ce phenotype inclut l’observation des genotypes au locus du marqueur.
Seuls les genotypes au locus de la maladie ne sont pas observables.
g = (⇀g1, ...,
⇀gI) : la matrice I · p de genotypes constituee des p alleles de
l’ensemble des I individus d’une famille.
2.3 Notion de vraisemblance
La vraisemblance familiale est une mesure de la plausibilite des donnees observees. Sa
valeur depend de la valeur de la fraction de recombinaison θ qui a ete definie a la section
2.1. La vraisemblance se definit comme suit :
L(θ) =∑
g1∈A
· · ·∑
gI∈A
P(x1, . . . , xI |g1, . . . , gI) · P(g1, . . . , gI)
=∑
g1∈A
· · ·∑
gI∈A
I∏
i=1
P(xi|gi)∏
i∈J
P(gi)∏
i∈Kf,m
P(gi|gf , gm) (2.3.1)
ou
P(xi|gi) : probabilite que l’individu i soit de phenotype xi
etant donne qu’il est de genotype gi ;
P(gi), i ∈ J : probabilite que l’individu fondateur i soit de geno-
type gi ;
P(gi|gf , gm), i ∈ K : probabilite que l’enfant i soit de genotype gi etant
donne les genotypes gm et gf de ses parents.
Afin de mieux comprendre cette formule, on calcule la vraisemblance pour la famille
presentee sur la figure 2.1 (page 21). Dans ce pedigree, les alleles au locus de la maladie
sont deduits a partir du phenotype : l’individu 1 represente a le phenotype atteint et
les alleles 3 et 4 au locus du marqueur. Donc, au locus de la maladie il pourrait avoir
II. CONCEPTS DE GENETIQUE 25
le genotype Aa ou AA. On remarque que :
− au total, il y a 9 individus indices i = {1, 2, 4, 6, 12, 13, 14, 15, 16}.
− l’ensemble A est constitue de tous les genotypes qui sont une combinaison
du tirage de deux alleles pour le locus du marqueur dans {1, 2, 3, 4} et du
tirage de deux alleles pour le locus de la maladie dans {A, a} ;
− il y a deux individus sans parents et un conjoint dans cette famille, donc
J contient 3 elements : J = {1, 2, 6} ;
− il y a 6 enfants, K = {4, 12, 13, 14, 15, 16} ;
− les sujets 2 et 6 n’ont qu’une seule possibilite de genotype bivarie dont la
probabilite est non-nulle (c’est-a-dire 1a/2a et 1a/1a respectivement) ;
− l’individu 1, lui, a trois genotypes bivaries possibles dont la probabilite
est non-nulle : g1 = {3A/4a, 4A/3a, 3A/4A}.
Fig. 2.2 – Les trois genotypes bivaries possibles pour l’individu 1.
Les probabilites non-nulles associees aux genotypes de l’individu 1 sont :
P(g1) =
{
fAfa
f2A + 2fAfa
,fAfa
f2A + 2fAfa
,f2
A
f2A + 2fAfa
}
ou fA= frequence de l’allele A dans la population.
Aussi :
− si l’individu 1 est de genotype 3A/4a, alors son fils est recombinant ;
− s’il est de genotype 4A/3a, alors son fils est non-recombinant ;
− s’il est de genotype 3A/4A, alors on ne sait pas si son fils est recombinant.
La figure 2.3 illustre les cas de genotypes bivaries possibles pour l’individu 1. On peut
y deduire l’etat recombinant ou non-recombinant de son fils, l’individu 4.
II. CONCEPTS DE GENETIQUE 26
Fig. 2.3 – Genotypes bivaries possibles pour l’individu 1 : s’il est de genotype 3A/4a
(gauche), alors son fils est recombinant, s’il est de genotype 4A/3a (centre), alors son
fils est non-recombinant et s’il est de genotype 3A/4A (droite), alors on ne sait pas si
son fils est recombinant.
Peu importe quel genotype bivarie possede l’individu 1, l’individu 4 est en phase
2a/4A. Les individus 12 et 16 recoivent de l’individu 4 l’haplotype 2a : ils sont non-
recombinants. Pour leur part, les individus 14 et 15 recoivent l’haplotype 4A : ils sont,
eux aussi, non-recombinants. L’individu 13 est recombinant, puisqu’il recoit l’haplotype
2A. Donc un seul des cinq petits-fils de l’individu 1 est recombinant.
Fig. 2.4 – Recombinants parmi les descendants de l’individu 4. Les individus 12 et
16 (gauche) sont non-recombinants, les individus 14 et 15 (centre) sont eux aussi non-
recombinants et l’individu 13 est recombinant (droite).
Pour le calcul de la vraisemblance, on suppose que la maladie representee est une ma-
ladie a penetrance complete.
II. CONCEPTS DE GENETIQUE 27
L(θ) =∑
g1∈A
· · ·∑
gI∈A
{
I∏
i=1
P(xi|gi)}{
∏
i∈J
P(gi)}{
∏
i∈K
P(gi|gf , gm)}
=∑
g1∈A
· · ·∑
gI∈A
{
I∏
i=1
P(xi|gi)}{
P(g1)P(g2)P(g6)}{
∏
i∈K
P(gi|gf , gm)}
=∑
g1∈A
· · ·∑
gI∈A
{
I∏
i=1
P(xi|gi)}{
P(g1)P(g2)P(g6)}
{
P(g4|g1, g2)P(g12|g4, g6)P(g13|g4, g6) · · ·P(g16|g4, g6)}
Les seules valeurs des gi pour lesquelles les probabilites P(xi|gi) sont non-nulles sont :
g1 = (3A | 4
a) ou (3a |
4A) ou (
3A |
4A)
g2 = (1a | 2
a) g13 = (1a |
2A)
g4 = (4A | 2
a) g14 = (1a |
4A)
g6 = (1a | 1
a) g15 = (1a |
4A)
g12 = (1a | 2
a) g16 = (1a | 2
a).
Donc, on considerera, par exemple, seulement le genotype g2 = (1a | 2
a) comme genotype
possible pour l’individu 2 puisque, de toute facon, tout autre genotype g2 (qu’il s’agisse
de (1A |
2A), (
1A | 2
a) ou (1a |
2A)) entraine que
P(x2 = «non-atteint, alleles du marqueur 1 et 2»|g2) = 0
et le terme «
∏
i P(xi|gi)» de la vraisemblance vaut 0. Pour chacune des valeurs gi
considerees, P(xi|gi) = 1. On peut donc recrire la vraisemblance :
L(θ) =∑
g1∈{(3
A|4a), (3a|4
A), (3
A|4
A)}
{
P(g1)P(g2)P(g6)}{
P(g4|g1, g2)P(g12|g4, g6) · · ·P(g16|g4, g6)}
={
∑
g1∈{(3
A|4a), (3a|4
A), (3
A|4
A)}
P(g1)P(g4|g1, g2)}{
P(g2)P(g6)P(g12|g4, g6) · · ·P(g16|g4, g6)}
,
puisque le terme{
P(g2)P(g6)P(g12|g4, g6) · · ·P(g16|g4, g6)}
vaut la meme chose peu im-
porte si g1 = (3A | 4
a) ou (3a |
4A) ou (
3A |
4A).
Les probabilites P(g2 = (1a | 2
a)) et P(g6 = (1a | 1
a)) valent 1. En effet, par exemple, on a
observe le phenotype «non-atteint, alleles du marqueur 1 et 2» pour l’individu 2, donc
II. CONCEPTS DE GENETIQUE 28
son genotype est g2 = (1a | 2
a) avec probabilite 1. La vraisemblance devient alors :
L(θ) ={
∑
g1∈{(3
A|4a), (3a|4
A), (3
A|4
A)}
P(g1)P(g4|g1, g2)}{
P(g12|g4, g6) · · ·P(g16|g4, g6)}
={
∑
g1∈{(3
A|4a), (3a|4
A), (3
A|4
A)}
P(g1)P(g4|g1, g2)}
θ(1 − θ)4
={
P(
g1 = (3A | 4
a))
P(
g4 = (4A | 2
a)|g1, g2
)
+ P(
g1 = (3a |
4A))
P(
g4 = (4A | 2
a)|g1, g2
)
+P(
g1 = (3A |
4A))
P(
g4 = (4A | 2
a)|g1, g2
)
}
θ(1 − θ)4.
Les deux phases possibles du genotype g1 qui est constitue des alleles 3, 4, A et a sont
g1 = (3A | 4
a) et g1 = (3a |
4A). Elles ont ete considerees equiprobables
P(
g1 = (3A | 4
a))
= P(
g1 = (3a |
4A))
=fAfa
f2A + 2fAfa
.
Aussi, comme on n’a pas d’information pour la liaison pour l’individu 4 lorsque g1 = (3A
|4A), on obtient que P
(
g4 = (4A | 2
a)|g1, g2
)
vaut 1. Donc la vraisemblance pour la famille
est
L(θ) ={ fAfa
f2A + 2fAfa
θ +fAfa
f2A + 2fAfa
(1 − θ) +f2
A
f2A + 2fAfa
1}
θ(1 − θ)4
={ fAfa
f2A + 2fAfa
+f2
A
f2A + 2fAfa
}
θ(1 − θ)4.
On peut voir qu’avoir considere les deux phases pour 3, 4, A et a equiprobables revient
a dire qu’on admet ne pas avoir d’information pour la liaison de l’individu 4, puisque
la somme des probabilites P(
g4 = (4A | 2
a)|g1, g2
)
pour les deux phases du genotype de
l’individu 1 donne θ +(1− θ) = 1. La valeur de la vraisemblance trouvee est en quelque
sorte constituee d’une ponderation pour le genotype de l’individu 1 ainsi que la pro-
babilite des recombinaisons pour les individus de la derniere generation. Le facteur
de ponderation n’a pas une grande importance puisque premierement, il s’agit d’une
constante qui sera annulee dans de futurs calculs et deuxiemement, peu importe le
genotype de l’individu 1, l’ensemble des descendants est compose d’un recombinant et
de quatre non-recombinants.
La vraisemblance en fonction de la fraction de recombinaison est presentee sur la figure
2.5. Elle atteint son maximum au point (θ, L(θ)) = (0, 2; 0, 04).
II. CONCEPTS DE GENETIQUE 29
0,01
0,30
0,20,10
valeurs de theta
0,05
0,5
0,04
0,03
0,4
0,02
Vraisemblance
Fig. 2.5 – Vraisemblance en fonction de theta pour le pedigree presente a la figure 2.1.
2.4 Le lod-score
Tout comme la vraisemblance, le lod-score est une mesure de la plausibilite des donnees
observees. Sa valeur depend de la fraction de recombinaison θ vue a la section 2.1. Le
lod-score va de pair avec le ratio de vraisemblances : le ratio de vraisemblances est egal
a la vraisemblance en tetha divisee par la vraisemblance sous hypothese de non-liaison,
soit au point θ = 1/2. Le ratio de vraisemblances est note L?(θ).
L?(θ) =
{
L(θ)
L(1/2)
}
.
Le ratio de vraisemblances est une indication de l’importance de la vraisemblance sous
hypothese de liaison par rapport a la vraisemblance sous l’hypothese de non-liaison. Le
ratio est superieur a 1 lorsque la liaison est plus vraisemblable que la non-liaison et est
inferieur a 1 lorsque la liaison est moins vraisemblable. Lorsque θ prend la valeur exacte
de 1/2, L?(1/2) = 1. Le ratio de vraisemblances pour la famille donnee en exemple dans
l’image 2.1 (page 21) est :
L?(θ) =
{
L(θ)
L(1/2)
}
=θ(1 − θ)4
(12)5
.
II. CONCEPTS DE GENETIQUE 30
Le lod-score est le logarithme en base 10 du ratio de vraisemblances par rapport a theta.
Il s’ecrit :
Z(θ) = log10 {L?(θ)}.
Une valeur positive du lod-score indique qu’il y a liaison dans les donnees puisqu’une
valeur positive du lod-score Z(θ) apparaıt seulement lorsque le ratio de vraisemblances
L?(θ) est superieur a 1. Contrairement, une valeur negative du lod-score indique qu’il
n’y a pas de liaison et par sa construction, le lod-score au point θ =1/2 est Z(1/2) = 0.
On peut calculer le lod-score pour l’exemple precedent comme suit :
Z(θ) = log10 {L(θ)/L(1/2)}
= log10
{
θ(1 − θ)4
(12)5
}
.
L’estimation θ de la fraction de recombinaison θ est obtenue par maximisation de la
vraisemblance en choisissant la valeur θ qui maximise le lod-score Z(θ). La figure 2.6
donne une idee du comportement du logarithme du ratio de vraisemblances en fonction
de la fraction de recombinaison. Le lod-score maximum vaut 0, 42 et est atteint a θ =
0, 2.
0,10
0,42
valeurs de theta
0,50,40,30,2
Maximisation de logarithme du ratio de vraisemblances
Fig. 2.6 – Maximisation du logarithme du ratio de vraisemblances afin de trouver le
lod-score.
II. CONCEPTS DE GENETIQUE 31
Tests de ratios de vraisemblances
Avant de comprendre comment tester les hypotheses de liaison, il est necessaire de
s’interesser a la theorie sur les ratios de vraisemblances. Casella et Berger (2002) nous
fournissent la definition suivante en page 375.
Definition 2.4.1. Un test de ratios de vraisemblances est un test qui a une region
critique qui prend la forme {x : λ(x) ≤ c}, ou c est un nombre qui satisfait 0 ≤ c ≤ 1.
La statistique du test de ratios de vraisemblance pour les hypotheses H0 : θ ∈ Θ0 versus
H1 : θ ∈ Θc0 est
λ(x) =
supΘ0
L(θ|x)
supΘ
L(θ|x)
et asymptotiquement, sous H0,
−2 · ln λ(x) ∼ χ2p,
ou p est egal a la difference entre les dimensions de Θ et Θ0.
Pour tester deux hypotheses
H0 : θ = 1/2
vs
H1 : θ = θ1, ou θ1 < 1/2 ,
on doit chercher ce que vaut
λ(x) =L(1/2|x)
supΘ
L(θ|x)
dans le but de calculer −2 · ln λ(x). Mais comme par les proprietes des logarithmes on
trouve que
−2 · ln λ(x) = −2 · loge
{
L(1/2|x)
supΘ
L(θ|x)
}
= −2 ·[
loge 10]
[
log10
{
L(1/2|x)
supΘ
L(θ|x)
}]
,
on obtient
−2 · ln λ(x) = 4, 6052 · log10
{supΘ
L(θ|x)
L(1/2|x)
}
= 4, 6052 · Z(θ).
II. CONCEPTS DE GENETIQUE 32
Donc on peut calculer 4, 6052 · Z(θ) a la place de −2 · ln λ(x) a partir des donnees, car
sa distribution asymptotique sous l’hypothese nulle est
4, 6052 · Z(θ) ∼ χ21.
Le seuil et la puissance d’un tel test sont
α = P(Z(θ) ≥ Z0|H0) et β = P(Z(θ) < Z0|H1).
Valeur critique
Morton propose de rejeter H0 si Z(θ) > Z0 ou Z0 = 3. La valeur du seuil critique Z0 = 3
est associee a un seuil α = 0, 0001, puisque le test est realise de facon unilaterale.
Toutefois, pour des structures de familles plus complexes dans lesquelles il y a des
informations manquantes, il se peut que la vraie distribution de 4, 6052 · Z(θ) devie de
la distribution χ21. Dans un tel cas, le niveau de significativite αN peut etre different du
niveau α actuel. On peut tout de meme trouver une borne superieure pour le seuil α,
donnee par Ott (1999) a la section 3,4, soit
α = P
[
Z(θ) ≥ Z0|H0
]
≤ 10−Z0. (2.4.1)
Le seuil critique Z0 = 3 propose par Morton correspond donc a une valeur de α ≤
10−3 = 0, 001.
La raison pour laquelle une si petite valeur de α est utilisee est donnee par Ott (1999) :
si on utilise α = 0, 05 et qu’on est en presence de non-liaison, alors on detecte de la
liaison 5 fois sur 100. Admettons egalement que nous sommes en presence d’un test
utopique dont la puissance est de 100%, c’est-a-dire d’un test qui detecte tous les cas
de liaison. Etant donne qu’il y a 5% de chances a priori que les loci soient situes sur
le meme chromosome, donc que la liaison soit possible, notre test detecte autant de
liaisons non existantes que de vraies liaisons. Dans un cas ou la puissance est moins
elevee, la situation est encore pire. Une solution est d’utiliser une valeur α des plus
petites couramment utilisees.
Une autre facon d’interpreter le faible niveau de significativite est en s’interessant a
la probabilite a posteriori de liaison. Bien que la probabilite a priori que deux loci se
trouvent sur un meme chromosome soit 0, 05, les chances que deux loci soient espaces
d’une distance mesurable est P(H1) = 0, 02 (Elston et al., 1975). La probabilite a
posteriori de liaison est
P (H1|F ) = P (F |H1)P (H1)P (F |H1)P (H1)+P (F |H0)P (H0)
= 0, 02R/(0, 02R + 0, 98),
II. CONCEPTS DE GENETIQUE 33
ou R = P (F |H1)/P (F |H0) est le ratio de vraisemblances. La valeur critique Z0 = 3
correspond a R = 1000 parce que 10Z = L(θ1)L(θ0)
= R. Ce Z0 = 3 est donc associe a une
probabilite a posteriori de liaison de 95%.
2.5 Heterogeneite genetique
Interessons-nous au pedigree de la figure 2.7. Dans celui-ci, les alleles de vulnerabilite a
la maladie des enfants 7, 9 et 10 ne proviennent pas de l’individu 3 : ils proviennent de
l’individu 5 qui est porteur d’un genotype malade, sans toutefois l’avoir affiche dans son
phenotype. Les enfants 7, 9 et 10 sont affectes par une maladie d’origine differente de
celle de leur pere. Une famille dans laquelle il y a deux origines de maladies est appelee
famille bilineale.
Definition 2.5.1. Un pedigree bilineal tel que decrit par Hodge (1992) est un pedigree
dans lequel des membres de deux cotes distincts sont soit affectes par ce qui semble etre
la meme maladie, soit porteurs du gene malade.
Fig. 2.7 – Cas d’heterogeneite genetique intra-familiale : deux origines de la maladie
affectent les individus de ce pedigree.
Les familles bilineales ont ete etudiees entre autre par Hodge (1992) ainsi que Durner,
Greenberg et Hodge (1992) a savoir si on devait les laisser tomber des analyses etant
donne qu’elles sont plus complexes. Globalement, dans les deux articles, on suggere de
II. CONCEPTS DE GENETIQUE 34
les conserver.
Lorsqu’un pedigree bilineal semblable a celui presente en 2.7 doit etre echantillonne, on
n’echantillonne pas la partie gauche de la famille. En effet, le procede d’echantillonnage
est le suivant : on commence par interroger les individus de la troisieme generation
(individus 12 a 16) a savoir si leurs ancetres sont malades ; on poursuit en interrogeant
les individus 3 et 4 et on termine par l’echantillonnage de l’individu atteint 1. On tente
donc d’identifier les individus ayant recu la maladie d’un meme ancetre, et de pour-
suivre l’echantillonnage en «remontant» vers cet ancetre. Dans la figure 2.7, l’ancetre
commun semble etre le numero 1 si l’on ne connaıt pas l’histoire familiale de l’individu
5.
On obtient donc le pedigree presente a la figure 2.8 : les alleles de la maladie etudiee
sont representes par A et a, et les alleles de la maladie qui provient de l’individu 5 sont
representes par B et b. Le phenotype malade pour la maladie etudiee est represente par
le noircissement du symbole qui represente un individu tandis que le phenotype malade
de la maladie provenant de l’ancetre de gauche est represente par un remplissage plus
pale accompagne d’une etoile blanche. Lors du test des hypotheses de liaison pour ce
pedigree, on croit que θ = 4/10 puisque nous pensons que l’individu 3 a transmis les
alleles 1A a ses descendants 7, 9 et 10, car ils sont malades. Le statut recombinant ou
non-recombinant deduit pour chacun des individus de la derniere generation est donne
sous la figure, sur la ligne «premiere idee». Pour leur part, les individus 3 et 4 sont
non-recombinants. Les deductions concernant les individus 7, 9 et 10 sont erronees.
La vraie fraction de recombinaison associee a cette famille est θ = 1/10, puisque seul
l’individu 13 est reellement recombinant. Le detail du statut de recombinaison des indi-
vidus se trouve sur la ligne «realite». En effet, il ne faut pas supposer que les individus
7, 9 et 10 ont recu l’allele A : ils ont recu l’allele B responsable d’une autre origine de
la maladie.
La maladie B de la partie gauche de la figure 2.7 n’etait pas necessairement situee sur le
meme locus que celui de la maladie A. La penetrance de la maladie B est possiblement
incomplete. Il se peut aussi que la penetrance de B soit complete, mais que son mode de
transmission ne soit pas dominant. Dans ces deux cas, un individu de genotype atteint
par la maladie B ne presente pas necessairement un phenotype atteint : c’est ce qui se
produit chez le sujet 5.
On est en presence d’heterogeneite genetique lorsque des individus affectes par la ma-
ladie a l’etude ne sont pas tous affectes au meme locus. C’est le cas ici : en plus qu’il
II. CONCEPTS DE GENETIQUE 35
premiere idee R NR R R NR NR R NR NR NR
realite NR NR NR NR NR NR R NR NR NR
Fig. 2.8 – Deductions des recombinaisons pour une famille heterogene : on peut croire
a tort que les individus 7, 9 et 10 sont recombinants.
y ait deux origines de la maladie dans la meme famille, les deux maladies ne sont pas
situees sur le meme locus. Dans le contexe d’analyse de liaison, Ott (1999, page 215)
distingue deux types d’heterogeneite : l’heterogeneite allelique et l’heterogeneite non-
allelique qu’on appelle aussi l’heterogeneite de locus. Lorsque differents alleles au meme
locus sont responsables de la maladie, on est en presence d’heterogeneite allelique. Si la
maladie est plutot causee par differents loci, alors il y a heterogeneite non-allelique ou
de locus. Seule l’heterogeneite non-allelique peut etre detectee par l’analyse de liaison
et pour la suite de cet ouvrage, lorsqu’il sera question d’heterogeneite, il s’agira d’he-
terogeneite genetique non-allelique.
La difficulte que peut causer l’heterogeneite est que la maladie de certains peut etre
liee au marqueur, tandis que la maladie de certains autres peut etre non-liee et ni
l’experimentateur ni l’analyse de liaison peuvent distinguer les deux origines de la ma-
ladie. De plus, a la lecture du dernier exemple, le lecteur a eu l’occasion de constater
que l’heterogeneite peut avoir un impact important sur l’estimation de la fraction de
recombinaison, puisque dans la famille bilineale presentee, la valeur de θ pouvait sem-
bler etre 4/10, tandis que sans heterogeneite, θ valait 1/10.
II. CONCEPTS DE GENETIQUE 36
Une facon d’analyser l’heterogeneite entre les familles est decrite a la prochaine sous-
section. Une proposition de methode d’analyse de familles a l’interieur desquelles il y a
de l’heterogeneite, c’est-a-dire des familles bilineales comme celle presentee en 2.8, est
vue par la suite.
2.5.1 Test d’heterogeneite entre les familles
Il y a heterogeneite genetique dans les donnees lorsque, par exemple, elles sont com-
posees d’un groupe de familles pour lequel la maladie est situee a un locus lie au mar-
queur etudie (familles liees) et d’un groupe pour lequel la transmission de la maladie
est due a un autre locus non-lie au marqueur etudie (familles non-liees). La fraction de
recombinaison vaut θ < 0, 5 pour les familles liees et θ = 0, 5 pour les familles non-liees.
Il n’est pas possible, en general, de distinguer les familles liees des familles non-liees. Il
y a donc un melange de distributions dans les familles.
Une facon de tester l’heterogeneite est basee sur les hypotheses suivantes, initialement
proposees par Smith (1961) :
H0 : homogeneite, absence de liaison ;
H1 : homogeneite, liaison entre le marqueur et la maladie ;
H2 : heterogeneite : deux types de familles,
liaison pour les familles de premier type et
non-liaison pour les familles de deuxieme type.
Si on determine que, dans un cas d’heterogeneite, α est la proportion des familles du
groupe ou il y a liaison genetique et que (1− α) est la proportion des familles ou il n’y
a pas de liaison, les hypotheses se traduisent par :
H0 : α = 1, θr = 1/2
H1 : α = 1, θr < 1/2
H2 : α < 1, θ1 < 1/2 .
La vraisemblance bivariee de la ie famille est donnee par
Li(α, θ1) = αLi(θ1) + (1 − α)Li(1/2).
II. CONCEPTS DE GENETIQUE 37
Le ratio de vraisemblances est obtenu en divisant chaque vraisemblance par Li(1/2),
ce qui a pour effet d’ajuster la vraisemblance bivariee afin qu’elle soit egale a 1 quand
θ = 1/2. Le ratio de vraisemblance de la ie famille est donc :
L?i (α, θ1) = αL?
i (θ1) + (1 − α).
La log-vraisemblance pour toutes les familles est
log L(α, θ1) = log
{
∏
i
L?i (α, θ1)
}
=∑
i
log {L?i (α, θ1)} . (2.5.1)
L’evaluation de (2.5.1) est realisee par le programme HOMOG pour plusieurs couples
de valeurs (α, θ1) donnes. Le test de liaison dans le cas d’heterogeneite qui suppose un
melange de distributions est aussi appele «Admixture test » par Hodge (1992) et par
Ott (1983) ; nous noterons ce test Ad. Il est base sur le calcul de
Z(θ)het = Z(α, θ) = log10
{
L(α, θ1)
L(1, 1/2)
}
.
L’ecriture Z(θ)het permet de distinguer ce lod-score du lod-score obtenu a la section
2.4, puisqu’on ajoute simplement un indice «het» a la notation. Des valeurs Z(θ)het de
ce type seront rapportees pour des donnees simulees au chapitre 4. Asymptotiquement,
on obtient que
4, 6052 · Z(θ)het ∼ χ22.
Le lod-score sous heterogeneite a ete etudie par Risch (1989). En termes de puissance
a detecter la liaison, l’auteur affirme que l’utilisation du modele de Smith est avanta-
geuse par rapport a celle du modele d’homogeneite habituel pour des pedigrees de taille
moderee ou grande et des proportions de familles liees faibles (α < 40%). La propor-
tion d’erreurs de type I obtenue par le modele habituel d’homogeneite sur des familles
heterogenes est comparable a celle obtenue par le modele de Smith. Risch propose tou-
tefois un seuil critique de 3, 7 pour le test de liaison par le modele de Smith : ce seuil
correspond a la valeur α qui est associee au seuil de Z0 = 3 du modele habituel pour le
test de liaison.
Parfois on peut coLequipe de nnaıtre une covariable, un ou des symptomes par exemple,
qui aident a distinguer a priori les types de familles liees et non-liees. L’age de debut
pour le cancer du sein en est un exemple (Merette et al., 1992). On peut introduire cette
covariable dans le modele de Smith afin d’accroıtre la puissance du test. Si la covariable
II. CONCEPTS DE GENETIQUE 38
permet de former clairement deux groupes de familles a priori sans ambiguite, alors il
suffit d’analyser chaque groupe separement.
2.5.2 Heterogeneite non-allelique intra-familiale : proposition
de methodes d’analyse
Il serait tout a fait raisonnable de penser que l’heterogeneite intra-familiale peut consti-
tuer un obstacle lors des tests de liaison pour des maladies a forte prevalence comme
la schizophrenie1 et le diabete infantile de type I (IDDM) 2. Dans la litterature, on
constate que moins d’attention a ete portee a l’etude de l’heterogeneite intra-familiale
qu’a l’etude de l’heterogeneite inter-familiale. Pourtant, le probleme d’heterogeneite
intra-familiale ne peut etre ignore. En effet, lorsque Durner et al. (1992) ont simule
differentes situations pour lesquelles il y a des familles qui ont un meme phenotype
atteint, mais que les genotypes de vulnerabilite prennent deux formes, ils ont examine
la proportion de familles dans lesquelles il y a heterogeneite intra-familiale (c’est-a-dire
que les deux formes de la maladie apparaissent dans la meme famille). Cette propor-
tion varie entre 1,3% et 53,1% et depend de facteurs tels que la frequence des genes de
chacune des formes de la maladie, la penetrance et le critere d’echantillonnage (plus on
exige un grand nombre d’atteints dans une famille, plus le pourcentage augmente).
Durner et al.(1992) et Goldin (1992) ont toutes deux simule des donnees ou deux loci
differents peuvent donner le phenotype atteint. Dans les deux etudes, les donnees sont
simulees avec une forte liaison entre un des deux loci de la maladie et le locus d’un
marqueur. De plus, les deux loci de la maladie sont independants et non-lies entre eux.
Les auteurs comparent deux methodes d’analyse pour ce type de donnees. Pour chaque
methode, un seul marqueur genetique est utilise et on tente de voir si un des loci de la
maladie (A ou B) se situe tout pres de ce marqueur. Voici ce qui differencie les deux
methodes.
1 D’apres l’agence de la sante publique du Canada, la prevalence de la schizophrenie dans la popu-
lation generale est estimee entre 0,002 et 0,02, selon les parametres de mesure. Toutefois, un taux de
prevalence de 0,01 est generalement accepte comme etant la meilleure estimation.2 Selon les resultats de l’enquete nationale sur la sante des populations (1996/1997), la prevalence
du diabete des types I et II est de 0,029.
II. CONCEPTS DE GENETIQUE 39
Methode 1 : On suppose deux loci independants pour expliquer la maladie
a l’aide d’une matrice 3X3 de penetrance telle que
locus 1
AA Aa aa
BB 0, 9 0, 9 0, 9
2 Bb 0, 9 0, 9 0, 9
bb 0, 9 0, 9 0 ,
ou un sujet est atteint par la maladie s’il possede au moins
un A ou un B. C’est donc une analyse a deux loci (2L).
Methode 2 : On suppose un seul locus pour la maladie qu’on tente de relier au
marqueur en permettant que seulement une proportion α des
familles montre cette liaison. C’est donc une analyse a un locus
suivie du test de melange de distributions de Smith (1L+Ad).
Durner et Goldin concluent que, lorsqu’un echantillon contient a la fois de l’heteroge-
neite inter et intra-familiale, la puissance a detecter la liaison et la precision de l’esti-
mation de la fraction de recombinaison ne sont pas meilleures pour l’analyse 2L que
pour l’analyse 1L+Ad. Dans le cas d’un echantillon constitue de familles bilineales uni-
quement, c’est-a-dire des familles qui presentent de l’heterogeneite intra-familiale, par
contre, la puissance est un peu plus elevee pour l’analyse 2L. Toutefois, on doit donner
une approximation de la frequence des alleles aux deux genes A et B de la maladie au
programme d’analyse, et la puissance depend de la justesse de l’approximation donnee.
L’analyse 1L+Ad est plus robuste et plus simple que l’analyse a deux loci, puisqu’elle
contient moins de parametres. En fait, dans les deux etudes, les parametres exacts in-
cluant les 9 valeurs de la matrice des penetrances et les frequences alleliques des genes A
et B ont ete utilises pour analyser les donnees a l’aide de deux loci. Dans une situation
reelle, on ne connaıt pas ces vraies valeurs. La sensibilite a la mauvaise specification des
parametres n’a pas ete testee. Ainsi, pour sa simplicite et pour sa presqu’aussi bonne
performance que l’analyse 2L, les deux auteurs semblent preferer l’analyse a un locus
suivie de l’analyse par le modele de Smith.
Leal et Ott (1997) se sont interesses a un probleme semblable. La matrice de penetrance
qu’ils ont etudiee represente l’existence de deux loci de la maladie, A et B, qui agissent
II. CONCEPTS DE GENETIQUE 40
en interaction pour donner la maladie.
locus 1
AA Aa aa
BB 0, 35 0, 35 0
2 Bb 0, 35 0 0
bb 0 0 0.
En effet, les deux loci pour la maladie agissent en epistasie (en interaction) dans la ma-
trice de penetrance, puisqu’on voit qu’il faut avoir au moins un allele de vulnerabilite
a chacun des loci A et B et au moins deux alleles de vulnerabilite a un des loci A ou B
pour avoir une probabilite de 0, 35 d’exprimer la maladie.
Dans ces conditions, Leal et Ott s’interessent a la facon la plus puissante de detecter de
la liaison entre un des deux loci de la maladie et un marqueur dont la position est connue.
Ils constatent que, selon les genotypes des parents, le mode de transmission de la maladie
paraıt parfois dominant, parfois recessif lors d’une analyse 1L. Ils proposent donc une
variation du modele d’heterogeneite genetique qui permet la presence de familles liees et
non-liees au marqueur etudie (c’est-a-dire le modele de Smith) en ajoutant un parametre
r. Ce parametre represente la proportion de familles ou la maladie semble transmise de
facon recessive, alors que dans une proportion (1 − r) des familles, la maladie semble
transmise de facon dominante. Sous ce modele, la vraisemblance s’ecrit :
rα1Lr(θ1) + (1 − r)α2Ld(θ2) + rα1Lr(1/2) + (1 − r)α2Ld(1/2),
ou Lr et Ld sont les vraisemblances pour le mode de transmission recessif et dominant
respectivement. Nous notons ce modele 1L+M. Les auteurs utilisent egalement l’analyse
traditionnelle 1L+Ad a des fins de comparaison. Leur conclusion est que la puissance
a detecter la liaison de l’analyse 1L+M est semblable a celle de l’analyse 1L+Ad dans
un cas d’epistasie comme le leur.
Notre but est d’etudier l’heterogeneite pour des loci de maladie qui sont independants.
Comme il semble clair, d’apres les etudes precedentes, que l’analyse 1L+Ad performe
aussi bien que l’analyse 2L en presence d’heterogeneite inter-familiale, nous proposons
une modification a l’analyse 1L+Ad afin qu’elle s’adapte encore mieux a la presence
d’heterogeneite intra-familiale. Notre approche consiste d’abord a decomposer des fa-
milles tri-generationnelles en branches individuelles, soit en familles bi-generationnel-
les. Ainsi, l’heterogeneite intra-familiale des familles tri-generationnelles est «trans-
formee» en heterogeneite inter-familiale dans l’ensemble des familles bi-generationnel-
les. Les familles bi-generationnelles sont alors analysees en tenant compte de la pos-
sibilite d’heterogeneite inter-familiale, c’est-a-dire a l’aide de l’analyse 1L+Ad. Cette
II. CONCEPTS DE GENETIQUE 41
Fig. 2.9 – Decomposition d’une famille tri-generationnelleen trois familles bi-genera-
tionnelles.
II. CONCEPTS DE GENETIQUE 42
approche qui consiste a decouper d’abord pour ensuite effectuer l’analyse 1L+Ad est
notee D+1L+Ad.
Une methode alternative qui tiendrait compte de l’heterogeneite intra-familiale serait
de considerer une analyse 2L avec deux marqueurs, afin de detecter simultanement la
liaison entre le locus A de la maladie et un des deux marqueurs, ainsi qu’entre le locus B
de la maladie et l’autre marqueur. Schork et al. (1993) ont montre que l’analyse 2L avec
deux marqueurs est plus puissante que l’analyse 1L+Ad. Bien que ce type d’analyse
a deux loci modelise mieux la realite, pour en faire une, il faut selectionner une paire
de marqueurs, c’est-a-dire faire un choix de 2 loci parmi les 500 loci genotypes pour
un parcours de genome par exemple. Cela represente 124 750 paires possibles de loci
pour les marqueurs. Aussi, l’analyse a deux loci peut etre fastidieuse, meme du cote
informatique. Pour ces raisons, les analyses 2L avec deux marqueurs sont tres rarement
effectuees en pratique.
Une decomposition d’une famille tri-generationnelle en trois familles bi-generationnelles
est presentee sur la figure 2.9. On constate que les individus 3 et 4 y sont presentes a
deux endroits differents : dans la famille nucleaire ou ils jouent le role d’enfant ainsi que
dans la famille nucleaire ou ils font partie du couple de parents. C’est en comparant le
resultat des analyses des familles decomposees avec le modele d’heterogeneite genetique
Ad de Smith au resultat que fournit une famille tri-generationnelle que nous pourrons
qualifier la methode proposee.
Apres avoir lu ce chapitre, le lecteur est familier avec les notions de fraction de re-
combinaision, de vraisemblance, du lod-score ainsi que d’heterogeneite genetique inter-
familiale et intra-familiale. Il a pu prendre connaissance d’une proposition d’analyse de
familles dans lesquelles il y a de l’heterogeneite genetique non-allelique et doit etre pret
a l’appliquer.
CHAPITRE III
SIMULATIONS DE PEDIGREES
Dans le contexte de l’analyse de liaison, deux formes d’heterogeneite genetique ont ete
presentees : l’heterogeneite non-allelique et l’heterogeneite allelique. Ici, on s’interesse a
l’effet sur la liaison de l’heterogeneite non-allelique lorsqu’elle est inter-familiale, c’est-
a-dire entre les familles bi-generationnelles.
Nous avons fait une proposition d’une methode d’analyse pour les familles dans les-
quelles il y a de l’heterogeneite non-allelique intra-familiale. Ce chapitre debute par une
la presentation de l’algorithme utilise pour simuler des pedigrees. Par la suite, a la sec-
tion 3.2, le fichier de structure des simulations est decrit. Le type de donnees obtenues
par simulation est commente a la derniere section, la section 3.3.
Apres avoir lu ces lignes concernant la simulation des pedigrees, le lecteur pourra com-
prendre les differents types d’analyses realisees avec les donnees simulees.
3.1 Algorithme utilise
Considerons une situation ou nous nous interessons a un locus de la maladie pour
lequel les phenotypes sont connus ainsi qu’a un marqueur lie a la maladie pour lequel
les genotypes ne sont pas observes. Dans un tel cas, on cherche a predire avec quelle
probabilite le lod-score entre le marqueur et la maladie excede une valeur c, c’est-a-dire
P(Z > c|donnees).
L’evaluation de cette probabilite pourrait etre faite par denombrement de l’ensemble
des genotypes possibles pour le pedigree etudie. Cependant, le nombre de vecteurs
de phenotypes differents au locus du marqueur est souvent tres grand et, selon les
situations, le denombrement peut s’averer tres complexe ou impossible. Une solution
envisageable est donc la saisie d’echantillons aleatoires de genotypes, etant donnes les
III. SIMULATIONS 44
phenotypes. Pour ce faire, nous utilisons SLINK, un logiciel developpe dans le but de
simuler des alleles a un locus d’un marqueur genetique conditionnellement a la structure
de la famille et aux phenotypes observes dans cette famille (ce logiciel est disponible
sur le site web de l’universite Rockefeller). Afin de decrire la procedure utilisee pour
generer un ensemble de genotypes etant donne les phenotypes de la maladie, le lecteur
peut revoir la notation adoptee a la section 2.2.
La matrice de genotypes g est generee selon l’egalite suivante trouvee dans Ott (1989) :
P(g|x) = P(⇀g1 |x) · P(
⇀g2 |
⇀g1,x) · P(
⇀g3 |
⇀g1,
⇀g2,x) · . . . · P(
⇀gI |
⇀g1,
⇀g2, . . . ,
⇀gI−1,x) ;
dans laquelle
P(⇀gi |
⇀gi−1,
⇀gi−2, . . . ,x) = la probabilite que l’individu i possede un genotype
⇀g
etant donne le genotype des individus qui le precedent
et l’ensemble de phenotypes observes dans la famille.
Donc, pour echantillonner les alleles pour le ie individu, la distribution conditionnelle
du genotype P(⇀gi |
⇀gi−1,
⇀gi−2, ...,x) doit etre evaluee. Ceci veut dire qu’on doit effectuer
un calcul de risque pour le genotype de i etant donne les genotypes des i− 1 individus
precedents et les phenotypes de tous les individus. Lorsqu’aucun individu precede, le
choix des alleles depend seulement du phenotype de la maladie et de la frequence d’oc-
curence de chaque allele dans la population.
Fig. 3.1 – Famille a partir de laquelle l’exemple de simulations est realise : le phenotype
des individus atteints est represente par une case noircie et vaut x = 2. Le phenotype
des individus non-atteints est represente par une case vide et vaut x = 1.
Un groupe de m replications de la matrice d’alleles g donne une idee de l’ensemble des
familles observables. A titre d’exemple, batissons une matrice aleatoire g pour la famille
III. SIMULATIONS 45
presentee a la figure 3.1. Le marqueur etudie est un marqueur de quatre alleles qu’on
retrouve en proportions egales dans la population :
f1 = f2 = f3 = f4 = 0, 25.
Le mode de transmission pour la maladie est le mode dominant a penetrance complete.
Cela signifie que les probabilites qui sont associees a ce modele sont :
P(phenotype = atteint | AA) = 1,
P(phenotype = atteint | Aa) = 1,
P(phenotype = atteint | aa) = 0.
Il s’agit donc d’un modele dans lequel les individus atteints de la maladie sont forcement
porteurs d’un des deux genotypes de vulnerabilite (AA ou Aa), alors que les individus
non-atteints sont forcement porteurs du genotype de non-vulnerabilite aa.
On a que :I = 16 sujets,
x = (x1, ..., x16) = (2, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1),
p = 4 alleles a determiner pour le genotype bivarie d’un individu :
2 alleles au locus du marqueur et 2 alleles au locus de la maladie,
f1 = f2 = f3 = f4 = 0, 25,
fA = 0, 01,
fa = 0, 99,
g = (⇀g1, ...,
⇀g16), la matrice 16 · 4 de genotypes pour toute la famille.
Nous allons effectuer les deux etapes suivantes pour chacun des individus de la famille :- choisir aleatoirement des alleles au locus de la maladie etant donne
le phenotype du sujet i et les alleles au locus de la maladie
des individus precedents ;
- choisir des alleles au locus du marqueur, etant donne les alleles
aux marqueurs des individus precedemment consideres.
Individu 1 : aucun individu precedent.
Le phenotype pour le locus de la maladie de l’individu 1 est connu : il s’agit du phenotype
atteint (x1 = 2). Donc, les genotypes possibles pour le locus de la maladie sont :
{(A, a), (A,A)},
puisque le mode de transmission de la maladie est dominant. On choisit (A,a) avec une
probabilite 2·fAfa
f2
A+2·fAfa
et (A,A) avec une probabilitef2
A
f2
A+2·fAfa
.
III. SIMULATIONS 46
Les 10 genotypes possibles pour l’individu 1 au locus du marqueur sont :
{(1, 1), (1, 2), (1, 3), (1, 4), (2, 2), (2, 3), (2, 4), (3, 3), (3, 4), (4, 4)}.
Il s’agit de l’ensemble des genotypes observables dans la population au locus d’un mar-
queur de quatre alleles, puisque l’individu 1 est fondateur du pedigree. Les probabilites
d’occurence de ces genotypes sont de f 2i = 1/16 dans les cas ou les alleles sont les memes
et de 2fifj = 1/8 dans les cas ou les deux alleles dont differents.
L’ensemble des valeurs possibles pour le genotype bivarie⇀g1 est constitue des 10 genotypes
possibles au locus du marqueur multiplie par 2 genotypes possibles au locus de la ma-
ladie, donc de 20 facons de combiner les genotypes du marqueur aux genotypes de la
maladie. Les genotypes et les probabilites associees a chacun de ceux-ci sont :
⇀g1 P(
⇀g1 =
⇀g1)
⇀g1 P(
⇀g1 =
⇀g1)
(1, 1, A, a) 2·fAfa
16·(f2
A+2·fAfa)
(1, 1, A,A)f2
A
16·(f2
A+2·fAfa)
(1, 2, A, a) 2·fAfa
8·(f2
A+2·fAfa)
(1, 2, A,A)f2
A
8·(f2
A+2·fAfa)
(1, 3, A, a) 2·fAfa
8·(f2
A+2·fAfa)
(1, 3, A,A)f2
A
8·(f2
A+2·fAfa)
(1, 4, A, a) 2·fAfa
8·(f2
A+2·fAfa)
(1, 4, A,A)f2
A
8·(f2
A+2·fAfa)
(2, 2, A, a) 2·fAfa
16·(f2
A+2·fAfa)
(2, 2, A,A)f2
A
16·(f2
A+2·fAfa)
(2, 3, A, a) 2·fAfa
8·(f2
A+2·fAfa)
(2, 3, A,A)f2
A
8·(f2
A+2·fAfa)
(2, 4, A, a) 2·fAfa
8·(f2
A+2·fAfa)
(2, 4, A,A)f2
A
8·(f2
A+2·fAfa)
(3, 3, A, a) 2·fAfa
16·(f2
A+2·fAfa)
(3, 3, A,A)f2
A
16·(f2
A+2·fAfa)
(3, 4, A, a) 2·fAfa
8·(f2
A+2·fAfa)
(3, 4, A,A)f2
A
8·(f2
A+2·fAfa)
(4, 4, A, a) 2·fAfa
16·(f2
A+2·fAfa)
(4, 4, A,A)f2
A
16·(f2
A+2·fAfa)
.
Ces genotypes n’incluent pas la phase, puisque comme les individus 1 et 2 n’ont pas de
parents dans le pedigree, il est impossible de savoir de qui ils ont recu leurs alleles. En
effet, pour les ancetres et les conjoints du pedigree, comme on ne connait pas la phase,
les probabilites d’occurence des genotypes bivaries sont :
P(⇀gi =
⇀gi) = P( geno. au locus de la maladie ) · P( geno. au locus du marqueur ).
Pour ce cas, le genotype au locus de la maladie est independant du genotype au locus
du marqueur.
Individu 2 : aucun individu precedent.
Le phenotype pour la maladie de l’individu 2 est non-atteint (x2 = 1) : le seul genotype
III. SIMULATIONS 47
qu’il peut posseder au locus de la maladie est {(a,a)}. Comme il est lui aussi fondateur
du pedigree, les genotypes qu’il peut posseder au locus du marqueur sont les memes
que ceux que pouvait posseder l’individu 1.
L’ensemble des valeurs possibles pour le genotype bivarie⇀g2 du sujet 2 et les probabilites
pour chacune de ces valeurs sont :⇀g2 P(
⇀g2 =
⇀g2)
⇀g2 P(
⇀g2 =
⇀g2)
(1, 1, a, a) 116
(2, 3, a, a) 18
(1, 2, a, a) 18
(2, 4, a, a) 18
(1, 3, a, a) 18
(3, 3, a, a) 116
(1, 4, a, a) 18
(3, 4, a, a) 18
(2, 2, a, a) 116
(4, 4, a, a) 116
.
Supposons que le resultat d’une pige aleatoire des genotypes est :⇀g1= (1, 2, A, a) et
⇀g2= (3, 4, a, a). Puisque ces individus sont fondateurs, on n’a pas d’information sur
leur phase, donc on ne sait pas si le sujet 1 par exemple a recu son allele A avec l’allele
1 ou bien avec l’allele 2.
Individus 3 et 4 : les individus 1 et 2 precedent.
Les individus 3 et 4 sont de phenotype atteint (x3 = 2 et x4 = 2) : ils ont forcement
recu l’allele A de leur pere, puisque
P(phenotype=atteint|genotype = aa) = 0.
L’allele au locus de la maladie recu de la mere est a et par consequent, le seul genotype
possible pour le locus de la maladie est {(A,a)}. Etant donne les genotypes des individus
1 et 2, les individus 3 et 4 peuvent recevoir les genotypes :
{(1,3), (1,4), (2,3), (2,4)}
au locus du marqueur. Pour le pere, la probabilite de transmettre l’allele 1 est :
P(transmettre l’allele 1| il a transmis l’allele A) =
P(transmettre l’allele 1|il est en phase 1a/2A ∩ il a transmis l’allele A)
· P(le pere est en phase 1a/2A| il a transmis l’allele A)
+ P(transmettre l’allele 1|il est en phase 1A/2a ∩ il a transmis l’allele A)
· P(le pere est en phase 1A/2a| il a transmis l’allele A).
Comme nous ne possedons pas d’information sur sa phase, chacune des phases est
equiprobable.
P(transmettre l’allele 1| il a transmis l’allele A) = θ 12
+ (1 − θ)12
= 12.
III. SIMULATIONS 48
Pour la mere, la probabilite de transmettre l’allele 3 au marqueur est :
P(transmettre l’allele 3| elle a transmis l’allele a) = 12.
Alors, comme la transmission des alleles du pere est independante de celle des alleles
de la mere et que chaque allele a une egale probabilite d’etre transmis, les quatre
differents genotypes au locus du marqueur que peuvent recevoir les individus 3 et 4
sont equiprobables.
Comme on a suppose que le resultat d’une pige aleatoire des genotypes pour les individus
1 et 2 est⇀g1= (1, 2, A, a) et
⇀g2= (3, 4, a, a) et qu’on sait que les individus 3 et 4 ont le
phenotype atteint, les genotypes bivaries possibles pour les individus 3 et 4 sont :
⇀g3 P(
⇀g3 =
⇀g3)
⇀g4 P(
⇀g4 =
⇀g4)
(1A | 3
a)14
(1A | 3
a)14
(1A | 4
a)14
(1A | 4
a)14
(2A | 3
a)14
(2A | 3
a)14
(2A | 4
a)14
(2A | 4
a)14.
Ici, les genotypes incluent la phase, puisque nous savons de quel parent provient chacun
des alleles. En effet, seules les alleles 1 et 2 peuvent etre transmis avec A.
Individus 5 et 6 : aucun individu precedent.
De la meme maniere que pour l’individu 2, les genotypes bivaries possibles g5 et g6 ainsi
que les probabilites associees sont :
⇀g5=
⇀g6 P(
⇀g5 =
⇀g5) = P(
⇀g6 =
⇀g6)
⇀g5=
⇀g6 P(
⇀g5 =
⇀g5) = P(
⇀g6 =
⇀g6)
(1, 1, a, a) 116
(2, 3, a, a) 18
(1, 2, a, a) 18
(2, 4, a, a) 18
(1, 3, a, a) 18
(3, 3, a, a) 116
(1, 4, a, a) 18
(3, 4, a, a) 18
(2, 2, a, a) 116
(4, 4, a, a) 116
,
puisque le phenotype pour la maladie est non-atteint (x5 = x6 = 1). Comme les parents
des individus 5 et 6 ne se trouvent pas dans le pedigree, les phases de 5 et 6 ne sont
pas incluses dans les genotypes.
Disons qu’on tire⇀g3= (
1A | 3
a),⇀g4= (
2A | 4
a),⇀g5= (1, 2, a, a), et
⇀g6= (3, 3, a, a) ; ce resultat
est illustre sur la figure 3.2.
III. SIMULATIONS 49
Fig. 3.2 – Resultats obtenus pour la simulation des genotypes des individus 1 a 6. Seule
la phase des individus 3 et 4 est connue.
Jusqu’a maintenant, on ne possedait pas d’information sur la phase des parents des in-
dividus a simuler, mais a partir d’ici, on connaıt la phase des parents 3 et 4. Lorsque la
phase d’un parent est connue, on est capable de distinguer si le genotype de ses enfants
est recombinant ou non. La proportion d’enfants recombinants depend de la liaison
entre le marqueur et la maladie : si les deux loci sont lies, la fraction de recombinaison
est inferieure a 1/2 et si les loci ne sont pas lies, la fraction de recombinaison est egale
a 1/2 . Puisque la phase des individus 3 et 4 est connue, la simulation des individus 7
a 16 depend de la valeur de la fraction de recombinaison θ.
Individus 7 a 11 : les individus 3, 5, 1 et 2 precedent.
Tous les enfants des sujets 3 et 5 sont de phenotype non-atteint (x7 = x8 = x9 = x10 =
x11 = 1). Les genotypes bivaries possibles pour ceux-ci sont :
⇀g7= . . . =
⇀g11= {(1
a | 1a), (1
a | 2a), (3
a | 1a), (3
a | 2a)}.
L’individu 3 a transmis l’allele a a tous ses enfants puisqu’ils sont non-atteints. Il est en
phase 1A/3a. Il transmettra donc l’allele 1 si une recombinaison se produit au cours de
la meiose et ce, avec probabilite θ. Autrement, il transmettra l’haplotype 3a s’il n’y a
pas de recombinaison au cours de la meiose, c’est-a-dire avec probabilite (1−θ). Comme
la mere a une chance sur deux de transmettre les alleles 1a et 2a, les probabilites d’ob-
server un enfant non-atteint de chacun des genotypes possibles sont :
III. SIMULATIONS 50
⇀g7= . . . =
⇀g11 P(
⇀g7 =
⇀g7) = · · · = P(
⇀g11 =
⇀g11)
(1a | 1
a)θ2
(1a | 2
a)θ2
(3a | 1
a)(1−θ)
2
(3a | 2
a)(1−θ)
2.
Les genotypes bivaries des individus 12 a 16 peuvent etre determines de la meme facon.
Un resultat particulier de la simulation que nous choisissons ici en exemple est :
g =
⇀g1⇀g2⇀g3⇀g4⇀g5⇀g6⇀g7⇀g8⇀g9⇀g10⇀g11⇀g12⇀g13⇀g14⇀g15⇀g16
=
1 2 A a
3 4 a a
1 3 A a
2 4 A a
1 2 a a
3 3 a a
1 1 a a
3 1 a a
3 2 a a
3 1 a a
3 2 a a
4 3 a a
2 3 A a
2 3 A a
2 3 A a
4 3 a a
etant donne que x =
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
x14
x15
x16
=
2
1
2
2
1
1
1
1
1
1
1
1
2
2
2
1
.
Les genotypes bivaries des individus 1 a 16 (⇀g1 a
⇀g16) constituent une matrice g. La
simulation globale consiste a produire m matrices g.
3.2 Fichier de structure des simulations
Les simulations ont ete realisees a partir d’un groupe de dix familles tri-generationnelles.
Un apercu d’un groupe de familles est presente a la figure 3.3 : il s’agit de dix familles
de deux enfants qui ont a leur tour chacun cinq enfants.
De la meme facon qu’a la sous-section 3.1 qui debute a la page 43, on simule deux loci :
III. SIMULATIONS 51
Fig. 3.3 – Representation du fichier utilise pour les simulations. Les individus atteints
de la maladie sont les memes pour chacune des familles du groupe de dix familles
tri-generationnelles.
le locus de la maladie, pour lequel il y a deux alleles differents possibles et le locus du
marqueur, pour lequel il y a quatre alleles possibles. En fait, on veut simplement obtenir
la simulation d’un genotype au locus du marqueur mais, pour obtenir ce genotype, on
doit egalement simuler les alleles au locus de la maladie quand il y a ambiguıte. Par
exemple, il y a ambiguıte pour les alleles au locus de la maladie quand le phenotype est
atteint et que le genotype pour la maladie peut etre AA ou Aa. Les alleles au locus de
la maladie ne sont pas visibles dans le fichier du resultat de la simulation. Le fichier de
parametres pour la simulation contient les parametres relatifs aux frequences des alleles
de la maladie. Ces valeurs sont presentees a la section 3.1, sauf que, comme le nombre
d’individus est multiplie par 10, les dimensions de x et de g augmentent. Les valeurs
des phenotypes xi sont :
x = (x1, ..., x160) = (2, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1,
..., 2, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1).
Aussi :
g = (⇀g1, ...,
⇀g160), la matrice 160 · 4 de genotypes pour un ensemble de
10 familles.
Theta prend les valeurs :
θ =
{
0, 01 sous liaison
0, 5 sous non-liaison.
III. SIMULATIONS 52
Le modele est dominant et tous les individus qui ont le genotype de vulnerabilite a
la maladie (Aa et AA) sont atteints, c’est-a-dire que la penetrance de la maladie est
complete. Au total, m =100 replicats du fichier de 10 familles sont simules a l’aide des
programmes SIMULATE et SLINK detailles dans Ott et Terwilliger (1994) :
g1, ...,g100.
Un apercu des fichiers de parametres et du fichier de sortie de la simulation de SLINK
sont presentes a l’annexe A. La vraisemblance associee a chacune des 1000 familles de
16 individus a ete calculee et maximisee a l’aide du programme MLINK de Lathrop et
al. (1984). En annexe B se trouvent les fichiers d’entree et de sortie pour l’execution
de MLINK : les lod-scores sont calcules pour les valeurs de fraction de recombinaison
demandees dans le fichier model.dat.
3.3 Description des donnees simulees
Un exemple du fichier de sortie de SLINK est presente a la figure B.1, dans l’annexe
a la page 100, alors que la figure 3.4 illustre la premiere famille de cette simulation,
avec les genotypes qui en resultent. Il faut remarquer que le resultat d’une simulation
Fig. 3.4 – Famille simulee. Le resultat d’une simulation consiste a reveler les 16
genotypes au locus du marqueur genetique uniquement.
consiste a reveler les 16 genotypes au locus du marqueur genetique uniquement. Ces
genotypes sont conditionnels aux phenotypes qui ont ete fixes. Les genotypes au locus
III. SIMULATIONS 53
de la maladie ne sont jamais, bien sur, observables. Parmi les 1000 familles tri-genera-
tionnelles simulees (100 replicats de 10 familles), nous avons verifie qu’aucune d’entre
elles etait identique quant au vecteur de 16 genotypes simule. Malgre que la simulation
ait produit 1000 realisations de vecteur de 16 genotypes, nous avons obtenu, en tout,
49 lod-scores differents (ils sont presentes dans le tableau 3.1). Ceci s’explique par le
fait que plusieurs ensembles de genotypes differents menent au meme lod-score, surtout
lorsque les alleles au marqueur genetique sont supposes egalements frequents, comme
nous l’avons fait. Ainsi, une realisation correspondant aux genotypes 12 et 33 pour un
couple de parents s’interpreteront de la meme maniere dans le calcul de lod-score qu’une
realisation correspondant aux genotypes 23 et 44.
Tab. 3.1 – Lod-scores obtenus et frequences observees pour des simulations sous l’hy-
pothese alternative (θ = 0, 01) de 100 replicats de 10 familles chacun.Z(θ) proportion frequence Z(θ) proportion frequence
observee observee
1 0,0000 4,3 43 26 1,3585 0,1 1
2 0,2688 0,1 1 27 1,4704 4,8 48
3 0,2839 0,1 1 28 1,4748 0,2 2
4 0,2881 12,0 120 29 1,4833 3,9 39
5 0,2967 0,1 1 30 1,5340 0,1 1
6 0,3475 0,1 1 31 1,5541 0,2 2
7 0,4179 0,2 2 32 1,5962 0,8 8
8 0,5684 0,4 4 33 1,6111 0,1 1
9 0,5687 0,3 3 34 1,7627 0,4 4
10 0,5804 0,4 4 35 1,7714 7,4 74
11 0,5848 0,1 1 36 1,7800 1,1 11
12 0,5933 0,1 1 37 1,8166 3,0 30
13 0,8358 0,1 1 38 2,0594 0,1 1
14 0,8596 0,1 1 39 2,0681 2,2 22
15 0,8693 1,0 10 40 2,0767 0,9 9
16 0,8814 0,7 7 41 2,1360 0,5 5
17 0,9766 0,3 3 42 2,3648 2,0 20
18 0,1695 0,1 1 43 2,3733 0,7 7
19 0,1737 0,3 3 44 2,6527 1,1 11
20 0,1781 0,4 4 45 2,6614 2,3 23
21 1,1823 0,1 1 46 2,6700 0,4 4
22 1,1867 0,2 2 47 2,9581 1,1 11
23 1,2146 0,2 2 48 2,9667 10,4 104
24 1,2707 0,1 1 49 3,2548 33,9 339
25 1,2985 0,5 5
III. SIMULATIONS 54
Afin de decrire comment ont ete obtenus les resultats des analyses des donnees simulees,
nous nous interesserons a une des branches de la famille utilisee pour la simulation, c’est-
a-dire, a la famille constituee des individus 3, 5, 7, 8, 9, 10 et 11 de la figure 3.5 : nous
allons tenter d’expliquer les frequences d’occurence de chacun des lod-scores pour ce
sous-pedigree. Au total, six lod-scores differents ont ete observes pour cette famille : ils
sont presentes dans le tableau 3.2.
Fig. 3.5 – Partie du fichier utilisee pour expliquer les resultats des simulations : seuls
les individus a l’interieur de la zone pointillee sont consideres.
Tab. 3.2 – Lod-scores obtenus et frequences observees pour l’analyse des individus 3,
5, 7, 8, 9, 10 et 11 lors des simulations de 100 × 10 familles.Z(θ) frequence Z(θ) frequence
observee observee
1 0,0000 27,03 4 0,5890 1,50
2 0,1249 3,17 5 0,8856 1,40
3 0,2923 2,87 6 1,1823 63,10
En quatre etapes, nous obtenons les frequences esperees associees a ces six lod-scores.
Etape 1 : Trouver les probabilites d’observer chacune des differentes familles possibles
composees de deux parents et de cinq enfants dont le pere est atteint.
L’identification du nombre d’enfants recombinants depend de la phase du parent 3. Si
on sait que le parent 3 est en phase I et qu’on a x enfants informatifs, alors on peut
ecrire la probabilite d’obtenir r enfants recombinants sous la phase I etant donne que
la phase est I comme suit :
P(r enfants recombinants sous la phase I|phase I, x enfants informatifs)
=(
xr
)
θr(1 − θ)x−r,
III. SIMULATIONS 55
et la vraisemblance des donnees s’ecrit
P(donnees |x enfants informatifs) = P(r|phase I, x).
Si toutefois on ne connaıt pas la phase du sujet 3, alors la vraisemblance des donnees
est
P(donnees |x) = P(r|phase I)P(phase I) + P(x − r|phase II)P(phase II),
puisqu’il n’y a toujours que deux phases possibles pour le sujet 3 et que l’observation
de r recombinants conditionnelle a la phase I implique necessairement qu’il y a x − r
recombinants sous la phase II. Donc, dans ce cas,
P(donnees |x) =(
xr
)
θr(1 − θ)x−rP(phase I)
+(
xx−r
)
θx−r(1 − θ)xP(phase II).
On peut recrire l’expression comme suit, etant donne qu’on considere que P(phase I) =
P(phase II) = 1/2 :
P(donnees |x) =
(
x
r
)
1/2[
θr(1 − θ)x−r + θx−r(1 − θ)x]
. (3.3.1)
Etape 2 : Evaluer les probabilites a la vraie valeur de θ, soit a θ = 0, 01, pour obtenir
la probabilite d’observer des donnees de chaque type etant donne le nombre d’enfants
informatifs.
On utilise la formule (3.3.1) pour calculer les probabilites d’observer des ensembles de
donnees pour tous les nombres d’enfants recombinants sous la phase I (r) et les nombres
d’enfants informatifs (x) possibles. On obtient les resultats presentes dans le tableau
3.3.
Les lod-scores associes a des familles de r enfants recombinants sous la phase I et de x
enfants informatifs, si on observe de telles familles, sont presentes dans le tableau 3.4.
Etape 3 : Obtenir la probabilite d’avoir x enfants informatifs, c’est-a-dire P(X = x).
Pour trouver la probabilite d’avoir x enfants informatifs, il faut trouver la probabilite
que l’individu 3 soit homozygote au locus du marqueur. Lorsque c’est le cas, il n’y a
III. SIMULATIONS 56
Tab. 3.3 – Probabilites obtenues pour differentes valeurs de r et de x avec l’equation
(3.3.1).
x
0 1 2 3 4 5
0 1 0,5 0,4901 0,4852 0,4803 0,4755
1 - 0,5 0,0198 0,0149 0,0194 0,0240
2 - - 0,4901 0,0149 0,0006 0,0005
r 3 - - - 0,4852 0,0194 0,0005
4 - - - - 0,4803 0,0240
5 - - - - - 0,4755
Tab. 3.4 – Lod-scores associes aux familles de r enfants recombinants et de x enfants
informatifs. Il s’agit de log10P( donnees |x,θ)
P( donnees |x,1/2).
x
0 1 2 3 4 5
0 0 0 0,2923447 0,588966 0,8856308 1,182296
1 - 0 0 0 0 0,1249295
2 - - 0,2923447 0 0 0
r 3 - - - 0,588966 0 0
4 - - - - 0,8856308 0,1249295
5 - - - - - 1,182296
III. SIMULATIONS 57
pas d’information pour la liaison pour tous ses descendants. En effet, si un descendant
du pere de gauche de la figure 3.6 est non-atteint, alors c’est qu’il a recu les alleles 4a.
Or, l’haplotype 4a peut etre forme avec un ou l’autre des alleles 4 du pere. C’est pour
cela qu’on ne sait pas s’il y a recombinaison pour chacun des descendants d’un parent
homozygote.
Fig. 3.6 – Alleles des marqueurs pour deux familles contenant des individus atteints.
Par contre, si l’individu 3 est heterozygote, cela ne garantit pas qu’on aura de l’infor-
mation sur la recombinaison pour tous ses enfants. Pour comprendre ce fait, voyons le
pere de la famille de droite de la figure 3.6. Cet individu est heterozygote, mais pour
les memes alleles que sa conjointe. Le premier enfant a le genotype (1, 3) au locus du
marqueur et est atteint. On ne peut pas savoir si sa maladie a ete transmise avec l’allele
1 ou l’allele 3, donc on n’a pas d’information pour la liaison. Le second enfant est ho-
mozygote : on sait qu’un allele 1 provient du pere et que l’autre allele 1 provient de
la mere. Si le pere est en phase 1A/3a, on sait qu’il y a eu recombinaison : on a de
l’information pour la liaison. Donc, un parent heterozygote n’engendre pas seulement
des enfants dont on peut avoir de l’information pour la liaison.
Comme les accouplements aleatoires impliquent l’equilibre d’Hardy–Weinberg (decrit
a la page 11), la frequence des genotypes dans la population depend uniquement de
la frequence des genes eux-memes. Ceci signifie que la probabilite que l’individu 3 soit
homozygote au locus du marqueur est la meme que la probabilite de choisir deux alleles
identiques parmi quatre alleles equiprobables. Donc,
P(l’individu 3 soit homozygote) = 1/4
P(l’individu 3 soit heterozygote) = 3/4.
III. SIMULATIONS 58
A la figure 3.6, on a vu dans quels cas on n’a pas d’information pour la liaison d’un
enfant. On n’a pas d’information pour la liaison d’un enfant qui fait partie du pedigree
3.5 si :- le parent 3 est homozygote
ou
- le parent 3 est heterozygote, le parent 5 est egalement heterozygote et ses alleles
sont les memes que ceux du parent 3 et l’enfant est heterozygote.
On peut donc trouver la probabilite d’avoir de l’information pour x descendants en se
referant a la figure 3.7. Par exemple, l’evenement X = 5 pourrait survenir des deux
facons suivantes.1) Le pere est heterozygote (avec une probabilite de 3/4) et la mere n’a pas
d’alleles heterozygotes non-distinguables de ceux du pere (cela se produit avec
une probabilite de 7/8). On a alors obligatoirement de l’information pour
la liaison de tous les enfants.
2) Le pere est heterozygote (avec une probabilite de 3/4), la mere a des alleles
heterozygotes non-distinguables de ceux du pere (cela se produit avec une
probabilite de 1/8) et les enfants sont tous homozygotes, ce qui survient avec
une probabilite de(
55
)
(1/2)5(1 − 1/2)0.
Donc, la probabilite qu’il y ait 5 enfants dont on a de l’information est :
P(X = 5) =3
4·7
8+
(
5
5
)
·3
4·1
8·
1
25= 0, 6592.
On peut trouver, par un raisonnement semblable, que :
P(X = 4) =
(
5
4
)
·3
4·1
8·
1
25= 0, 0146
P(X = 3) =
(
5
3
)
·3
4·1
8·
1
25= 0, 0293
P(X = 2) =
(
5
2
)
·3
4·1
8·
1
25= 0, 0293
P(X = 1) =
(
5
1
)
·3
4·1
8·
1
25= 0, 0146
P(X = 0) =1
4+
(
5
0
)
·3
4·1
8·
1
25= 0, 2529.
III. SIMULATIONS 59
Fig. 3.7 – Diagramme en tiges et feuilles pour illustrer la probabilite que x enfants
soient informatifs pour la liaison. A cote de chacune des possibilites se trouve un couple
d’alleles inscrit a titre d’exemple.
III. SIMULATIONS 60
Etape 4 : Multiplier P(donnees |X = x enfants dont on a de l’info.) · P(X = x) pour
obtenir la probabilite d’observer un ensemble de donnees en particulier et x enfants dont
on a de l’information.
Les resultats de la multiplication des probabilites evaluees en θ = 0, 01 par la probabilite
d’avoir de l’information pour le nombre d’enfants correspondants ainsi que les calculs
realises aux deux premieres etapes se trouvent dans le tableau 3.5.
Tab. 3.5 – Calcul des frequences esperees pour chaque famille de r recombinants en
phase I et de x enfants informatifs.Nombre nombre lod-score Pθ=0,01 P(X = x) frequence
de rec. d’enfants Z(θ) (donnees |x) esperee
en phase I infor. associe (tableau 3.3) 100 · P(X = x)
r x (tableau 3.4) ·P(donnees |x)
5 5 1,1823 0,4755 0,6592 31,35
4 5 0,1249 0,0240 0,6592 1,585
3 5 0,0000 0,0005 0,6592 0,030
2 5 0,0000 0,0005 0,6592 0,030
1 5 0,1249 0,0240 0,6592 1,585
0 5 1,1823 0,4755 0,6592 31,35
4 4 0,8856 0,4802 0,0146 0,705
3 4 0,0000 0,0144 0,0146 0,030
2 4 0,0000 0,0006 0,0146 0,000
1 4 0,0000 0,0144 0,0146 0,030
0 4 0,8856 0,4802 0,0146 0,705
3 3 0,5890 0,4852 0,0293 1,420
2 3 0,0000 0,0149 0,0293 0,045
1 3 0,0000 0,0149 0,0293 0,045
0 3 0,5890 0,4852 0,0293 1,420
2 2 0,2923 0,4901 0,0293 1,435
1 2 0,0000 0,0198 0,0293 0,060
0 2 0,2923 0,4901 0,0293 1,435
1 1 0,0000 0,5000 0,0146 0,730
0 1 0,0000 0,5000 0,0146 0,730
0 0 0,0000 1,0000 0,2529 25,29
Les frequences esperees associees au meme lod-score sont sommees et sont presentees
dans le tableau 3.6 : on trouve que la somme des frequences des lignes associees a un
lod-score de 0 donne 27,02.
III. SIMULATIONS 61
Tab. 3.6 – Frequences esperees et frequences observees des lod-scores de la simulation.Z(θ) frequence frequence Z(θ) frequence frequence
observee esperee observee esperee
1 0,0000 27,03 27,02 4 0,5890 1,50 2,84
2 0,1249 3,17 2,60 5 0,8856 1,40 1,41
3 0,2923 2,87 2,87 6 1,1823 63,10 62,69
Il est interessant de remarquer que, bien qu’on decrive 21 combinaisons de valeurs x et
r, le nombre de differents lod-scores est 6. En fait, certaines familles bien distinctes par
rapport au nombre d’enfants dont on a de l’information et au nombre de recombinants
menent au meme lod-score : une famille ou x = 5 et r = 3 et une famille ou x = 4
et r = 1 ont 0 comme lod-score. En somme, les frequences esperees et les frequences
observees pour chacun des lod-scores sont tres semblables.
Tab. 3.7 – Lod-scores observes pour la simulation des 100 groupes de 10 familles.Classe de lod-score frequence
[7,5 ;10[ 1
[10 ;12,5[ 0
[12,5 ;15[ 3
[15 ;17,5[ 17
[17,5 ;20[ 16
[20 ;22,5[ 26
[22,5 ;25[ 26
[25 ;27,5[ 10
[27,5 ;30[ 1
Puisque nos analyses subsequentes s’interessent aux resultats par replicat de la simula-
tion et non par famille, nous detaillons aussi les lod-scores obtenus pour les 100 replicats
de la simulation dans le tableau 3.7. Seulement un lod-score egal a 18, 006501 a ete ob-
tenu plus d’une fois et il a ete obtenu en tout deux fois. L’histogramme correspondant
a ces donnees est presente a la figure 3.8.
Dans ce chapitre, le lecteur a eu l’occasion de comprendre comment les genotypes des
III. SIMULATIONS 62
Fig. 3.8 – Histogramme des lod-scores obtenus a partir de 100 ensembles de 10 familles.
familles tri-generationnelles sont simules. Il a pu prendre connaissance des lod-scores
obtenus a l’aide des donnees simulees et comprend que la frequence de chacun des lod-
scores obtenus pour une partie du fichier correspond a ce a quoi on s’attendait. On peut
maintenant voir quelles analyses il est possible de faire a partir des genotypes.
CHAPITRE IV
ANALYSE SOUS HETEROGENEITEINTRA-FAMILIALE
Dans le dernier chapitre, la methode de simulation des pedigrees a ete decrite et clarifiee
a l’aide d’un exemple. On peut maintenant effectuer differents types d’analyses a partir
des genotypes simules.
Le plan des analyses faites sur des donnees simulees dans le but de comparer la methode
proposee a des methodes deja utilisees est presente au tout debut de ce chapitre. Par
la suite, les sections 4.2 et 4.3 font voir les puissances ainsi que les erreurs de type I
obtenues pour l’analyse de differents types de donnees.
Au terme de ce chapitre, le lecteur saura qualifier la methode d’analyse de liaison
proposee pour tenir compte de l’heterogeneite non-allelique et pourra la situer par rap-
port a d’autres methodes.
4.1 Plan des analyses
Afin de tirer le maximum d’information des donnees simulees, quatre comparaisons des
resultats de differentes analyses sont faites.
Dans un premier temps, un total de m = 100 groupes de dix familles sont simules
sans heterogeneite. Les familles sont simulees sous liaison, c’est-a-dire a θ = 0, 01. La
vraisemblance de chacun des 100 groupes de 10 familles tri-generationnelles est evaluee.
Nous notons les lod-scores des 100 fichiers par :
Z·,1(θ), . . . , Z·,100(θ).
Un resume des valeurs des lod-scores obtenues est presente dans le tableau 3.7 a la page
61.
IV. ANALYSE SOUS HETEROGENEITE 64
Dans un deuxieme temps, chacune des familles tri-generationnelles est decomposee en
trois familles nucleaires comme il a ete explique a l’aide de la figure 2.9 presentee a la
page 41. Comme chaque famille tri-generationnelle donne trois familles bi-generation-
nelles, l’ensemble de lod-scores pour les 100 replications de 10 familles tri-generation-
nelles est associe a un ensemble de lod-scores pour les 100 replications de 30 familles
bi-generationnelles. On note ces lod-scores par :
Z·,·,1(θ), . . . , Z·,·,100(θ).
Ainsi, on distingue un lod-score calcule dans une grande famille a celui calcule dans un
groupe de trois petites familles par le deuxieme «.» (eg. Z·,r(θ) vs Z·,·,r(θ) respective-
ment). Donc, un lod-score est obtenu pour chaque groupe de 30 familles bi-generation-
nelles. Ce lod-score n’est pas egal a la somme des 30 lod-scores qu’on pourrait obtenir
pour chacune des petites familles. En effet, pour obtenir le lod-score du groupe de 30
familles, on maximise, en theta, la vraisemblance de l’ensemble des 30 familles, tandis
que si on devait obtenir les lod-scores des 30 petites familles separees, on maximiserait
la vraisemblance de chacune des petites familles, puis on sommerait les 30 lod-scores
obtenus.
Proposition de comparaisons I : Il est utile de comparer les lod-scores des grandes
familles a ceux des petites familles (Z·,r(θ) vs Z·,·,r(θ) ) : la quantification de la difference
observee des lod-scores donne une idee de l’effet de la decomposition des familles sur la
puissance a detecter la liaison. On s’attend bien sur a ce que l’analyse des petites familles
donne des lod-scores inferieurs a ceux des grandes familles puisqu’en decomposant, on
detruit les liens genetiques entre les membres des familles, ce qui a pour consequence
de reduire l’information genetique globale.
Le but de la methode proposee, rappelons-le, est d’analyser des donnees dans les cas
d’heterogeneite intra-familiale. Les familles que nous avons simulees sont homogenes.
Il est donc, dans un troisieme temps, necessaire d’introduire de l’heterogeneite intra-
familiale dans ces donnees. Voici comment on transforme les pedigrees : les memes
matrices de genotypes g que les familles tri-generationnelles homogenes sont utilisees
pour le locus du marqueur, mais certains des phenotypes sont modifies. Nous intro-
duisons en effet, apres la simulation des marqueurs genetiques, trois nouveaux sujets
atteints (7, 9 et 10) qui etaient consideres comme etant non-atteints lors de la simula-
tion des marqueurs conditionnelle aux phenotypes originaux (representes dans x). Le
vecteur de phenotypes correspondant a cette transformation est appele x′. Les vecteurs
sont detailles ci-dessous.
IV. ANALYSE SOUS HETEROGENEITE 65
Phenotype fixe pour la simulation ; phenotype modifie apres simulation
du marqueur lie a la maladie pour
l’introduction de l’heterogeneite
intra-familiale
x =
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
x14
x15
x16
=
2
1
2
2
1
1
1
1
1
1
1
1
2
2
2
1
et x′ =
2
1
2
2
1
1
2
1
2
2
1
1
2
2
2
1
.
En introduisant ces trois nouveaux individus atteints de la maladie, l’estimation de la
fraction de recombinaision devrait changer et, par consequent, celle des lod-scores de-
vrait varier. Reprenons la figure 4.1 deja illustree a la figure 2.8 (page 35). Cette figure
illustre l’identification des recombinants pour chacun des deux vecteurs de phenotypes,
l’original x et le modifie x′. Ainsi, apres modifications des phenotypes, on peut croire
a tort que θ = 4/10 tandis que selon les phenotypes originaux, l’estimation de cette
fraction de recombinaison est seulement θ = 1/10.
La vraisemblance des 100 replications de 10 grandes familles heterogenes est evaluee.
Afin de bien reconnaıtre les lod-scores calcules pour les familles heterogenes (c’est-a-dire
avec x′), on ajoute une etoile a la notation presentee precedemment. Les lod-scores sont
donc notes :
Z?·,1(θ), . . . , Z
?·,100(θ).
Proposition de comparaisons II : Il est interessant de comparer les lod-scores obtenus
lors de l’analyse des grandes familles homogenes a ceux obtenus pour les grandes fa-
milles heterogenes (Z·,r(θ) vs Z?·,r(θ) ). Cette comparaison permet de comprendre la
perte de puissance associee a l’analyse de familles ou il y a presence d’heterogeneite
IV. ANALYSE SOUS HETEROGENEITE 66
Fig. 4.1 – Famille bilineale et phenotypes pour les vecteurs x et x′.
intra-familiale.
Tous les lod-scores presentes precedemment referent a des resultats d’analyses effectuees
en ignorant la presence d’heterogeneite inter-familiale. Lorsqu’on fera reference a des
lod-scores calcules de cette facon, on les nommera : «lod-scores calcules sous un modele
d’homogeneite». Nous presentons ci-dessous la notation referant aux lod-scores calcules
en tenant compte de la presence d’heterogeneite inter-familiale.
Les 100 replications de 10 grandes familles sont reanalysees, mais cette fois, avec le
modele Ad vu a la section 2.5.1 qui debute a la page 36, c’est-a-dire le modele de
Smith 3. Pour conserver la meme notation que celle presentee avec le modele Ad, les
lod-scores sont indices par un «het». Donc, on note les lod-scores pour l’analyse des
3A chaque fois qu’on refere au «modele d’heterogeneite», il s’agit du modele Ad de Smith.
IV. ANALYSE SOUS HETEROGENEITE 67
grandes familles heterogenes obtenus a l’aide d’un modele d’heterogeneite comme suit.
Z?·,1het(θ), . . . , Z
?·,100het(θ).
Dans un quatrieme et dernier temps, les familles tri-generationnelles heterogenes sont
decomposees en familles bi-generationnelles en suivant la meme methode que celle
illustree sur la figure 2.9 a la page 41. L’heterogeneite qui se presente dans les donnees
n’est plus de l’heterogeneite intra-familiale : il s’agit maintenant d’heterogeneite inter-
familiale. On calcule les lod-scores des 100 groupes de 30 familles associes aux familles
tri-generationnelles sous un modele d’homogeneite :
Z?·,·,1(θ), . . . , Z
?·,·,100(θ).
Ainsi, par exemple, la valeur Z?·,1 represente le lod-score calcule pour les grandes familles
heterogenes de la replication 1, tandis que la valeur Z?·,·,1 represente le lod-score calcule
pour les 30 petites familles dans lesquelles il y a de l’heterogeneite inter-familiale de la
replication 1.
Les analyses sur les familles bi-generationnelles dans lesquelles on a introduit de l’he-
terogeneite sont refaites avec les memes donnees, mais cette fois utilisant le modele
Ad. Ainsi, les lod-scores representant l’analyse par le modele Ad de chaque replication
effectuee sur les 30 petites familles apres avoir introduit de l’heterogeneite sont :
Z?·,·,1het(θ), . . . , Z
?·,·,100het(θ).
Un tableau recapitulatif de la notation de chacun des types de lod-scores est presente
a la figure 4.1.
Deux dernieres comparaisons sont proposees pour comprendre l’heterogeneite.
Proposition de comparaisons III : La comparaison des lod-scores des grandes familles
heterogenes analysees sous un modele d’heterogeneite (analyse 1L+Ad : Z?·,rhet
(θ) )
aux lod-scores des groupes de petites familles heterogenes analysees sous un modele
d’heterogeneite (analyse D+1L+Ad : Z?·,·,rhet
(θ) ) par le test Ad permet de voir ce
qu’ajoute la decomposition au modele traditionnel d’heterogeneite.
Proposition de comparaisons IV : La comparaison des lod-scores des groupes de petites
familles heterogenes analysees sous un modele d’homogeneite (Z?·,·,r(θ) ) aux lod-scores
IV. ANALYSE SOUS HETEROGENEITE 68
Tab. 4.1 – Nomenclature.Numero de Type de Nomenclature
methode donnees
d’analyse nb. gener. donnees modele
1 3 homogenes homogeneite Z·,r(θ)
2 2 homogenes homogeneite Z·,·,r(θ)
3 3 heterogenes homogeneite Z?·,r(θ)
4 3 heterogenes heterogeneite Z?·,rhet
(θ)
5 2 heterogenes homogeneite Z?·,·,r(θ)
6 2 heterogenes heterogeneite Z?·,·,rhet
(θ)
des groupes de petites familles heterogenes analysees sous un modele d’heterogeneite
(Z?·,·,rhet
(θ) ) permet de quantifier l’augmentation de puissance lorsqu’on tient compte
de l’heterogeneite inter-familiale.
La figure 4.2 est un schema des analyses et comparaisons sus-mentionnees. Le rectangle
du haut decrit les parametres de simulation, alors que les autres rectangles decrivent
les 6 differentes methodes d’analyse. Les ovales decrivent les 4 comparaisons d’analyse
qui feront l’objet d’une discussion a la prochaine section.
IV. ANALYSE SOUS HETEROGENEITE 69
Fig. 4.2 – Schema des analyses et simulations realisees : a l’aide d’un ensemble de
donnees simulees, six types de lod-scores sont calcules et quatre comparaisons sont
proposees.
IV. ANALYSE SOUS HETEROGENEITE 70
4.2 Evaluation de la puissance
Dans cette sous-section, nous effectuons les quatre comparaisons afin d’apprecier le gain
dans les resultats obtenus par la methode d’analyse de familles decomposees sous un
modele d’heterogeneite (D+1L+Ad).
Pour comparer la puissance associee a deux methodes d’analyse, nous comparons les
distributions des lod-scores obtenus par replication. Il y aura donc toujours 100 obser-
vations par methode d’analyse.
4.2.1 Moyennes des lod-scores
Les moyennes et les ecarts-types des lod-scores, des valeurs de θ et de α sont presentees
dans le tableau 4.2.
IV. ANALYSE SOUS HETEROGENEITE 71
Tab. 4.2 – Moyennes et ecarts-types obtenus pour les lod-scores, les valeurs de θ et les
valeurs α des donnees donnees simulees 100 fois. Un numero pour chacune des methodes
d’analyse est inscrit a la premiere colonne.Methode d’analyse Lod-score θ α
numero nom moyen
(tabl. 4.1) (ecart-type)
1. Z·,r(θ) 20,87 0,015 1
(3,64) (0,010) -
2. Z·,·,r(θ) 16,60 0,014 1
(3,09) (0,010) -
3. Z?·,r(θ) 3,00 0,268 1
(1,01) (0,036) -
4. Z?·,rhet
(θ) 3,01 0,267 0,995
(1,00) (0,038) (0,045)
5. Z?·,·,r(θ) 3,10 0,196 1
(1,00) (0,030) -
6. Z?·,·,rhet
(θ) 4,90 0,010 0,525
(1,31) (0,003) (0,070)
La valeur α est la proportion de familles liees. Elle est fixee
a 1 pour les methodes d’analyse sous homogeneite alors qu’elle
est estimee pour les methodes d’analyse sous heterogeneite.
IV. ANALYSE SOUS HETEROGENEITE 72
4.2.2 Comparaisons des methodes d’analyse
Comparaison I : methodes d’analyse 1 (Z·,r(θ) ) et 2 (Z·,·,r(θ) ).
La comparaison entre les valeurs des lod-scores des familles tri-generationnelles et les
lod-scores des familles bi-generationnelles homogenes permet de quantifier la perte d’in-
formation due a la decomposition des familles. Les deux distributions de lod-scores sont
comparees a la figure 4.3. On constate que la moyenne des lod-scores pour les petites
05
1015
2025
3035
Comparaison I
Z.r Z..r
lod−
scor
e
20.866
16.594
Fig. 4.3 – Distributions des valeurs Z·,r(θ) et Z·,·,r(θ) .
familles est inferieure a la moyenne des lod-scores des familles tri-generationnelles : les
moyennes obtenues pour les valeurs Z·,r(θ) et Z·,·,r(θ) sont 20,87 et 16,59 (tableau 4.2)
et la moyenne des differences est de D = 4, 272. A l’aide d’un test de Student pour
des donnees appariees, nous avons teste l’hypothese nulle que cette moyenne est egale
a 0. Nous avons obtenu un seuil bilateral inferieur a 0,0001, donc les deux lod-scores
semblent differents. Cette difference peut etre due a une perte d’information genetique
causee par la perte d’information partielle ou totale de la phase des individus 3 et 4
dans les branches decoupees.
IV. ANALYSE SOUS HETEROGENEITE 73
En effet, les individus 3 et 4 de chacune des dix familles du fichier deviennent des
individus a phase inconnue apres la decomposition, alors que leur phase est connue
au depart : de l’information genetique sur l’etat recombinant ou non-recombinant des
enfants est donc perdue par la decomposition. Si on calculait les lod-scores pour les
familles bi-generationnelles presentees a la figure 4.4, on obtiendrait Z(θ) = 0, 42 en
θ = 0, 21 pour la famille dont la phase est connue et Z(θ) = 0, 12 en θ = 0, 21 pour la
famille dont la phase est inconnue.
Fig. 4.4 – Famille bi-generationnelle ou l’individu 4 a une phase connue (gauche) et
famille ou l’individu 4 a une phase inconnue (droite).
Comparaison II : methodes d’analyse 1 (Z·,r(θ) ) et 3 (Z?·,r(θ) ).
La comparaison entre les lod-scores obtenus lors de l’analyse de familles tri-generation-
nelles telles qu’elles et de familles tri-generationnelles dans lesquelles on a introduit de
l’heterogeneite permet de quantifier l’effet de la presence d’heterogeneite intra-familiale.
On peut anticiper que les lod-scores des familles heterogenes seront inferieurs aux lod-
scores des familles homogenes. Par exemple, le lod-score associe a la famille de gauche
dans la figure 4.5 vaut Z?f,r(θ) = 0, 11 en θ = 0, 385 tandis que le lod-score associe a la
famille de droite vaut Zf,r(θ) = 1, 81 en θ = 0, 085.
Les comparaisons des valeurs Z·,r(θ) et Z?·,r(θ) sont presentees a la figure 4.6. Les
distributions sont clairement distinctes et les Z·,r(θ) sont superieurs aux Z?·,r(θ). Les
moyennes obtenues pour Z·,r(θ) et Z?·,r(θ) sont 20,87 et 3 respectivement (tableau 4.2) et
la moyenne des differences est de D = 17, 863. A l’aide du test de Student, nous avons
teste l’hypothese nulle que cette moyenne est egale a 0. Nous avons obtenu un seuil
bilateral inferieur a 0,0001, donc les deux lod-scores semblent differents. L’introduction
d’heterogeneite intra-familiale fait donc diminuer de beaucoup la capacite des analyses
a detecter la liaison dans une famille ou la liaison est pourtant presente.
IV. ANALYSE SOUS HETEROGENEITE 74
Fig. 4.5 – Pedigree de trois generations heterogene et homogene.
05
1015
2025
3035
Comparaison II
Z*.r Z.r
lod−
scor
e
3.002
20.866
Fig. 4.6 – Distributions des valeurs Z·,r(θ) et Z?·,r(θ) .
IV. ANALYSE SOUS HETEROGENEITE 75
Comparaison III : methodes d’analyse 6 (Z?·,·,rhet
(θ) ) et 4 ( Z?·,rhet
(θ) ).
La comparaison entre les lod-scores obtenus pour l’analyse de familles bi-generation-
nelles dans lesquelles il y a de l’heterogeneite (methode 6 ; D+1L+Ad) et les lod-scores
de l’analyse de familles tri-generationnelles dans lesquelles il y a de l’heterogeneite avec
un modele permettant l’heterogeneite inter-familiale (methode 4 ; 1L+Ad) permet de
comprendre l’avantage de decomposer les familles en presence d’heterogeneite intra-
familiale. Les moyennes des valeurs Z?·,·,rhet
(θ) et Z?·,rhet
(θ) sont 4,9 et 3 (tableau 4.2 et
figure 4.7) et D vaut 1, 896. A l’aide du test de Student, nous avons teste l’hypothese
nulle que cette moyenne est egale a 0. Nous avons obtenu un seuil bilateral inferieur a
0,0001, donc il semble y avoir un avantage a decomposer les familles.
24
68
10
Comparaison III
Z*.r het Z*..r het
lod−
scor
e
3.005
4.901
Fig. 4.7 – Distributions des valeurs Z?·,·,rhet
(θ) et Z?·,rhet
(θ) .
IV. ANALYSE SOUS HETEROGENEITE 76
Comparaison IV : methodes d’analyse 6 (Z?·,·,rhet
(θ) ) et 5 (Z?·,·,r(θ) ).
La comparaison des lod-scores des petites familles heterogenes analysees sous un modele
d’heterogeneite et sous un modele d’homogeneite permet de comprendre l’importance
d’utiliser le modele d’heterogeneite de Smith, une fois les familles decomposees. Les dis-
24
68
10
Comparaison IV
Z*..r Z*..r het
lod−
scor
e
3.1
4.901
Fig. 4.8 – Distributions des valeurs Z?·,·,rhet
(θ) et Z?·,·,r(θ).
tributions des Z?·,·,rhet
(θ) et Z?·,·,r(θ) sont comparees a la figure 4.8. Les valeurs Z?
·,·,rhet(θ)
semblent superieures aux valeurs Z?·,·,r(θ). Les moyennes des valeurs Z?
·,·,rhet(θ) et Z?
·,·,r(θ)
sont 4,9 et 3,1 et la moyenne des differences est D = 1, 801. A l’aide du test de Student,
nous avons teste l’hypothese nulle que cette moyenne est egale a 0. Nous avons ob-
tenu un seuil bilateral inferieur a 0,0001, donc les deux lod-scores semblent differents.
Cependant, les valeurs des lod-scores Z?·,·,rhet
(θ) ont un parametre α supplementaire
par rapport a la distribution de Z?·,·,r(θ) et ne sont donc pas directement comparables,
puisque sous H0, ils n’ont pas le meme degre de liberte de la distribution χ2 (pages
31 et 37). Pour pouvoir les comparer adequatement, on effectue un calcul de puissance
formel en utilisant leurs seuils critiques respectifs de 3 et 3,7. Pour Z?·,·,r(θ) , on obtient
IV. ANALYSE SOUS HETEROGENEITE 77
P(rejeter l’hypothese de non-liaison | il y a liaison)
= P(Z > 3|θ < 1/2)
= 0, 54,
tandis que pour Z?·,·,rhet
(θ) on obtient
P(rejeter l’hypothese de non-liaison | il y a liaison)
= P(Z > 3, 7|θ < 1/2)
= 0, 83.
Donc, la puissance a detecter la liaison sur les petites familles est plus grande lorsqu’on
utilise un modele d’heterogeneite que lorsqu’on utilise un modele d’homogeneite.
Toutes les distributions sus-mentionnees sont presentees a la figure 4.9 pour une vue
d’ensemble. On peut constater que les lod-scores moyens pour les donnees ou de l’hete-
rogeneite a ete introduite (les lod-scores pour lesquels on trouve ? dans le symbole) sont
inferieurs aux lod-scores obtenus pour les donees analysees telles que simulees (les lod-
scores sans ?). On remarque egalement que les lod-scores des familles nucleaires Z·,·,r(θ)
semblent inferieurs aux Z·,r(θ) des familles tri-generationnelles alors que l’inverse est
observe dans les donnees heterogenes (les valeurs Z?·,·,rhet
(θ) des familles bi-generation-
nelles semblent superieures aux valeurs Z?·,rhet
(θ) , Z?·,·,r(θ) et Z?
·,r(θ) ).
IV. ANALYSE SOUS HETEROGENEITE 78
Fig. 4.9 – Distributions des lod-scores Z·,r(θ) , Z·,·,r(θ) , Z?·,r(θ) , Z?
·,rhet(θ) , Z?
·,·,r(θ) et
Z?·,·,rhet
(θ).
IV. ANALYSE SOUS HETEROGENEITE 79
4.3 Erreur de type I du modele sans heterogeneite
Meme si, d’apres les resultats obtenus a la section 4.2.2, la methode D+1L+Ad aug-
mente les chances de detecter la liaison lorsqu’elle est reellement presente, il importe
de veiller a ce que la decomposition des familles ne gonfle pas par la meme occasion
l’erreur de type I. L’erreur de type I associee aux hypotheses des analyses de liaison
est :
PH0(Rejet de H0) = Pnon−liaison(Trouver de la liaison)
= Pθ=1/2 (Zobs > Zcritique).
Les donnees simulees sous non-liaison sont simulees a θ = 1/2 de la meme facon que
les donnees simulees sous liaison. Etant donne que trouver une evidence de liaison dans
un cas de non-liaison est un evenement rare, pour estimer la probabilite d’occurence de
l’evenement, il est necessaire de simuler un grand nombre de replications. Ici, m = 10000
replications d’un ensemble de 10 familles tri-generationnelles ont ete simulees. Dans
un premier temps, le lod-score obtenu pour le total des 10 familles de chacune des
replications a ete saisi et la proportion d’entre eux qui ont excede un seuil critique a
ete note. Dans un deuxieme temps, les 10 familles composant une replication ont ete
decomposees pour produire 30 familles par replication et le lod-score a ete calcule par
la methode D+1L.
Tab. 4.3 – Estimations de l’erreur de type I : proportion des 10000 lod-scores Zobs qui
excedent la valeur Zcritique chez les familles tri-generationnelles et les groupes de trois
familles bi-generationnelles.Proportion
Zcritique Grosses Petites
3 0,0000 0,0000
2 0,0013 0,0015
1 0,0151 0,0138
0,75 0,0310 0,0289
0,50 0,0613 0,0578
0,25 0,1369 0,1285
Le tableau 4.3 resume le nombre d’erreurs de type I obtenues pour les seuils critiques
suivants : 3, 2, 1, 0,75, 0,50 et 0,25. On peut y lire, par exemple, que l’estimation de
la probabilite d’exceder un seuil critique de 2 est de 13/10000 dans les familles tri-
generationnelles et de 15/10000 dans les groupes de familles nucleaires. Les erreurs de
IV. ANALYSE SOUS HETEROGENEITE 80
type I pour les seuils 1, 0,75, 0,50 et 0,25 semblent plus probables chez les familles
tri-generationnelles que chez les familles bi-generationnelles, tandis que pour le seuil
Zcritique = 2, les erreurs semblent legerement moins probables chez les familles tri-gene-
rationnelles.
Un test de McNemar a ete realise afin de tester les hypotheses :
H0 = il n’y a pas de difference d’erreur de type I entre l’analyse par
familles tri-generationnelles et l’analyse par familles bi-generationnelles ;
vs
H1 = decomposer les familles a pour effet d’augmenter l’erreur de type I
pour les donnees associees au seuil critique Zcritique = 2, puisqu’il s’agit du seul cas ou la
proportion de rejet de H0 est plus grande ou egale dans les familles bi-generationnelles
que dans les familles tri-generationnelles. Le test de McNemar est le plus approprie
ici, puisqu’il tient compte du fait que les resultats sont apparies par le numero de
replication. Pour ce test, on definit les variables A,B,C et D comme etant la proportion
de replications ou il y a concordance parce qu’on a rejete H0 a la fois dans les grosses et
les petites familles (A) ou parce que H0 n’a pas ete rejete ni dans les grosses, ni dans les
petites familles (D). Les variables B et C, elles, representent la discordance en faveur
des grosses familles (B) ou en faveur des petites (C).
Grosses familles
Rej H0 Acc H0
Petites Rej H0 A B
familles Acc H0 C D
C’est avec A, B, C et D qu’on calcule la statistique Q?.
Q? = (B − C)2/(B + C) ∼ χ2(1).
Les valeurs A, B, C et D ainsi que la statistique Q? et la p-valeur pour ce test sont
presentes dans le tableau 4.4. A la lumiere des resultats, on peut affirmer qu’il n’y a
pas de difference significative d’erreur de type I entre l’analyse par familles tri-genera-
tionnelles et l’analyse par familles bi-generationnelles lorsque le seuil critique est egal a
2.
IV. ANALYSE SOUS HETEROGENEITE 81
Tab. 4.4 – Test de Mc Nemar pour l’hypothese H0 : il n’y a pas de difference d’erreur
de type I entre l’analyse par familles tri-generationnelles et l’analyse par familles bi-ge-
nerationnelles.Zcritique A B C D Q? Seuil observe
3 0 0 0 10000 <0 1
2 0 15 13 9972 0,1428571 0,7056
1 5 133 146 9716 <0 1
0,75 14 275 296 9415 <0 1
0,50 39 539 574 8848 <0 1
0,25 172 1113 1197 7518 <0 1
Les proportions observees de rejet de H0 peuvent egalement etre comparees aux pro-
portions attendues. C’est a l’aide de la distribution khi-deux et le la borne superieure
pour alpha tiree de Ott (1999) definie a l’equation (2.4.1) (page 32) que nous faisons
cette comparaison. Les proportions sont presentees dans le tableau 4.5. A l’aide de ce
tableau, on a la confirmation que la distribution χ2 et les distributions des lod-scores
sont assez semblables. On constate egalement que la proportion observee d’erreurs de
type I pour les grosses et les petites familles est inferieure a ce a quoi on s’attend pour
tous les seuils a l’exception de Zcritique = 2. C’est pourquoi, pour les proportions au
seuil critique 2, nous avons teste que la proportion de rejet attendue p est egale a la
proportion obtenue dans les grosses familles p0g, c’est-a-dire p = p0g
, contre l’hypothese
alternative que p < p0g. La statistique obtenue pour ce test vaut
z =p − p0g
√
p0gq0g
/n= −0.27717
et le seuil observe est 0,3908. La statistique obtenue pour le test de p = p0p, contre
l’hypothese alternative que p < p0pest
z =p − p0p
√
p0pq0p
/n= −0.77518
et le seuil observe est 0,2191. Donc, pour Zcritique = 2, la proportion attendue d’erreurs
de type I n’est pas significativement differente des proportions obtenues et pour les
autres seuils critiques, la proportion observee est inferieure a ce a quoi on s’attend.
Dans ce chapitre, le lecteur a constate qu’une importante perte de puissance a trou-
ver de la liaison se produit lorsqu’il y a introduction d’heterogeneite dans des familles
IV. ANALYSE SOUS HETEROGENEITE 82
Tab. 4.5 – Comparaison des proportions attendues sous la distribution χ21 et des pro-
portions obtenues de rejet de H0 : il n’y a pas de liaison.Zcritique Valeurs Proportions Proportions
critiques attendues obtenues
loi χ21 borne grosses petites
p sup. α p0gp0p
3 13,8155 0,0001 0,0010 0,0000 0,0000
2 9,2103 0,0012 0,0100 0,0013 0,0015
1 4,6052 0,0159 0,1000 0,0151 0,0138
0,75 3,4539 0,0316 0,1778 0,0310 0,0289
0,50 2,3026 0,0646 0,3162 0,0613 0,0578
0,25 1,1513 0,1416 0,5623 0,1369 0,1285
tri-generationnelles. Dans un cas d’heterogeneite, il a pu quantifier le gain moyen de
puissance lorsqu’une analyse est realisee sur des familles bi-generationnelles a l’aide
d’un modele d’heterogeneite par rapport a l’analyse sur les familles tri-generationnelles
a l’aide d’un modele d’homogeneite. Egalement, il a vu que la proportion d’erreurs de
type I associee aux tests de liaison par familles bi-generationnelles n’est pas significa-
tivement superieure a la proportion d’erreurs de type I pour les tests sur les familles
tri-generationnelles. De plus, les proportions d’erreurs obtenues pour les familles bi-ge-
nerationnelles et tri-generationnelles n’ont jamais ete significativement differentes des
proportions attendues, peu importe le seuil critique.
CHAPITRE V
UNE COVARIABLE POUR DISTINGUER 2FORMES D’UNE MALADIE
On sait, pour l’avoir vu au chapitre 3, que la presence d’heterogeneite intra-familiale
a un impact important sur la puissance des analyses de liaison. Nous avons propose la
methode D+1L+Ad comme moyen d’adresser ce probleme.
Dans le present chapitre, nous supposerons que nous possedons une covariable qui s’as-
socie aux differentes formes de la maladie. Un exemple d’une telle covariable est fourni
par l’utilisation de l’age de debut de la maladie du cancer du sein qui aide a distinguer
la forme hative de la forme tardive de la maladie elaboree dans Merette et al. (1992).
L’approche proposee consiste a tenter de distinguer a priori les individus atteints de la
forme A de ceux atteints de la forme B de la maladie pour ensuite effectuer une simple
analyse 1L seulement avec les sujets atteints d’une des deux formes. Donc, la section
5.1 est constituee d’une presentation de scenarios de sensibilite et de specificite qui
nous interessent. Par la suite, a la section 5.2, on discute des lod-scores moyens obtenus
pour chaque scenario et ces valeurs sont resumees dans deux graphiques a la section 5.3.
5.1 Presentation des scenarios
Supposons que nous possedons une fonction discriminante qui nous aide a determiner,
a l’aide de la covariable, l’etat atteint ou non-atteint d’une forme en particulier A ou
B de la maladie des individus. Dans ce cas, on peut revoir le phenotype de chacun des
individus qui semblent atteints dans le pedigree et decider a l’aide de la fonction s’il est
reellement d’une forme en particulier. Bien entendu, une telle fonction n’attribue pas
toujours le bon phenotype a chacun des sujets, mais est-ce qu’elle peut tout de meme
apporter de l’information supplementaire pour etudier l’heterogeneite intra-familiale ?
Afin de repondre a cette question, nous avons analyse des donnees et nous nous sommes
interesses aux lod-scores des tests de liaison dans le cas de quelques combinaisons de
V. UNE COVARIABLE 84
sensibilite et de specificite de la fonction.
Un rappel des notions de sensibilite et de specificite pour une certaine maladie A qu’on
note «M A» est presente au tableau 5.1.
Tab. 5.1 – Scenario associe a une sensibilite de 4/6 et une specifite de 1/3 : l’image
associee a ce scenario est presentee a la figure 5.1.
Simulation de la M A
+ -
Detection vrais faux Sensibilite = P( obtenir un resultat
de la M A + positifs negatifs 6 positif chez un sujet malade)
par une 4 2 = VP / (VP+FP)
fonction faux vrais = 4/6
discrminante - positifs negatifs 3
2 1 Specificite = P( obtenir un resultat
negatif chez un sujet sain)
6 3 9 = VN / (VN+FN)
= 1/3
La famille qu’on utilise pour cet exemple se trouve a gauche dans la figure 5.1 : au
total, six individus sont affectes par la forme A de la maladie (1,3,4,13,14 et 15) et
trois individus sont affectes par la forme B (7,9 et 10). A droite se trouve le resultat
des predictions des phenotypes auquel pourrait mener une fonction discriminante qui
correspond au tableau 5.1. Seulement quatre des six individus reellement atteints de la
maladie A ont ete cibles comme atteints. Il s’agit des «vrais positifs». Les individus 7
et 9 ont ete faussement cibles comme etant atteints de la maladie A : ils sont les «faux
positifs». L’individu 8 est un «vrai negatif», puisqu’il n’est pas atteint par la maladie
A et qu’il a ete determine non-atteint par la fonction. Pour des raisons semblables, les
soeurs 14 et 15 constituent le groupe des «faux negatifs».
La table 5.2 presente les combinaisons de sensibilite et de specificite testees. Pour que
des individus de la troisieme generation puissent etre atteints de la forme A de la mala-
die, la fonction doit indiquer que l’individu 1 est atteint et qu’au moins un des individus
3 et 4 sont atteints. C’est pour cette raison que seules les combinaisons pour lesquelles
il y a au moins deux vrais positifs sont utilisees.
V. UNE COVARIABLE 85
Tab. 5.2 – Scenarios possibles selon la sensibilite et la specificite associees aux
phenotypes attribues par la fonction discriminante.
Specificite
0 1/3 2/3 1
Sensibilite
M 1 M 1 M 1 M 1
6/6 + - + - + - + -
Det. + 6 3 + 6 2 + 6 1 + 6 0
de M 1 - 0 0 - 0 1 - 0 2 - 0 3
5/6 + - + - + - + -
Det. + 5 3 + 5 2 + 5 1 + 5 0
de M 1 - 1 0 - 1 1 - 1 2 - 1 3
4/6 + - + - + - + -
Det. + 4 3 + 4 2 + 4 1 + 4 0
de M 1 - 2 0 - 2 1 - 2 2 - 2 3
3/6 + - + - + - + -
Det. + 3 3 + 3 2 + 3 1 + 3 0
de M 1 - 3 0 - 3 1 - 3 2 - 3 3
2/6 + - + - + - + -
Det. + 2 3 + 2 2 + 2 1 + 2 0
de M 1 - 4 0 - 4 1 - 4 2 - 4 3
V. UNE COVARIABLE 86
Fig. 5.1 – Famille tri-generationnelle telle que simulee (gauche). La meme famille, apres
que le choix des individus atteints par la fonction discriminante soit effectue pour le
scenario donne en exemple (droite).
5.2 Presentation des lod-scores
On s’interesse aux lod-scores pour chaque couple de sensibilite et de specificite (c’est-
a-dire pour chacun des scenarios). Comme nous ne possedons pas de fonction discrimi-
nante, nous faisons le choix des vrais positifs, des vrais negatifs, des faux positifs et des
faux negatifs. Lorsque plusieurs groupes d’individus affectes peuvent etre associes aux
memes valeurs de sensibilite et de specificite, on fait 3 choix differents de familles. La
figure 5.2 illustre 3 choix possibles d’individus affectes pour un scenario en particulier.
Fig. 5.2 – Scenario dont la sensibilite est 4/6 et la specificite est de 1/3 : choix de
trois groupes differents d’individus affectes qui pourraient etre faits par une fonction
discriminante.
Le processus de simulation et d’analyse est comme suit.
V. UNE COVARIABLE 87
- On simule le marqueur de 300 replications de dix familles tri-generationnelles
identiques aux familles 3.3 (page 51).
Ce marqueur genetique est lie a la forme A de la maladie.
- On introduit de l’heterogeneite, c’est-a-dire qu’on indique que les individus 7, 9
et 10 sont atteints de la forme A alors qu’ils sont en fait atteints de la maladie de
forme B.
- On reclassifie l’ensemble des sujets atteints de chaque famille a l’aide de la fonc-
tion discriminante dans le but d’identifier les sujets atteints strictement de la
forme A.
- On analyse avec les phenotypes atteints et non-atteints de la forme A resultant
de la fonction discriminante. Ce processus est effectue a la fois dans les familles
tri-generationnelles et dans les familles bi-generationnelles.
Les lod-scores associes a chacun des scenarios de sensibilite et de specificite presentes
au tableau 5.2 sont le resultat d’analyses sous un modele d’heterogeneite. Ils sont cal-
cules pour les familles tri-generationnelles et pour les familles bi-generationnelles. Les
moyennes et les ecarts-types de ces lod-scores sont presentees au tableau 5.3. Les lod-
Tab. 5.3 – Moyennes et ecarts-types obtenus pour les lod-scores resultants des analyses
sous un modele d’heterogeneite. Les resultats sont presentes pour divers scenarios de
sensibilite et de specifite du choix des phenotypes par la fonction discriminante.
Specificite
familles tri-generationnelles familles bi-generationnelles
0 1/3 2/3 1 0 1/3 2/3 1
1 3,00 6,44 11,88 20,87 4,90 4,92 7,72 16,59
(1,01) (1,49) (2,17) (3,64) (1,31) (1,35) (1.64) (3,09)
5/6 0,76 2,73 6,31 11,78 0,16 0,16 2,37 7,63
(0,354) (0,682) (1,18) (2,13) (0,17) (0,16) (0,21) (1,61)
Sensibilite 4/6 0,01 0,67 2,71 6,31 0,00 0,00 0,16 4,82
(0,03) (0,24) (0,66) (1,43) (< 10−2) (< 10−2) (0,17) (1,31)
3/6 0,00 0,01 0,70 2,90 0,00 0,00 0,15 4,85
(< 10−2) (0,03) (0,32) (0,96) (< 10−2) (< 10−2) (0,18) (1,27)
2/6 - 0,196 1,81 1,87 - 0,00 0,17 1,34
- (0,10) (0,52) (2,78) - (< 10−2) (0,16) (2,02)
scores sont obtenus a partir de groupes de 10 grandes et de 30 petites familles. On peut
constater que le scenario de sensibilite 1 et de specificite 0 est en fait le cas ou on pense
que tous les atteints d’une forme de la maladie sont atteints de la forme A. Les resultats
de l’analyse sur ces donnees sont donc les memes que ceux de l’analyse qu’on avait ap-
pelee «analyse sur les donnees heterogenes avec un modele d’heterogeneite» dans le
V. UNE COVARIABLE 88
chapitre precedent. Aussi, les donnees de sensibilite 1 et de specificite 1 correspondent
au cas de «l’analyse sur les donnees homogenes avec un modele d’heterogeneite» (tou-
tefois, il faut comprendre que meme si les resultats sont les memes, ici, on utilise une
covariable). C’est donc pourquoi nous ne sommes pas etonnes de constater que les
moyennes de lod-scores des cellules (sensibilite =1, specificite =0) et (sensibilite =1,
specificite =1) pour les familles tri-generationnelles et bi-generationnelles avaient deja
ete presentees. En effet, 3,00 est la moyenne des lod-scores pour la methode 4 (tableau
4.2 de la page 71) ; 20,87, de la methode 1 ; 4,90, de la methode 6 et 16,59, de la methode
2. Donc, les scenarios pour lesquels les lod-scores moyens qui se situent entre 3,00 et
20,87 pour les grandes familles et entre 4,90 et 16,59 pour les petites familles sont des
cas ou la fonction discriminante et la covariable nous aident a trouver de la liaison.
Notons qu’a la page 52, on simulait 100 fois le marqueur du groupe de 10 familles.
Ici, pour bien representer les differents choix des individus atteints et non-atteints de
chacun des scenarios, on simule 300 fois ce marqueur et on effectue, si possible, trois
differents choix d’individus atteints et non-atteints. De cette facon, la moyenne des lod-
scores d’un scenario est plus representative de la realite que si nous avions fait un choix
unique des individus atteints.
V. UNE COVARIABLE 89
5.3 Lod-scores selon la sensibilite et la specificite
Afin de visualiser si certaines combinaisons de sensibilite et de specificite de la fonction
discriminante constituent une amelioration a des analyses de familles homogenes sous
homogeneite et l’analyse de familles completement heterogenes sous heterogeneite sans
covariable, des graphiques en trois dimensions sont presentes aux figures 5.3 et 5.4 : il
s’agit des lod-scores pour les familles tri-generationnelles et pour les familles bi-gene-
rationnelles respectivement. Pour mieux les situer, les lod-scores obtenus par l’analyse
Fig. 5.3 – Lod-scores obtenus par analyse sous un modele d’heterogeneite chez les
familles tri-generationnelles pour differents scenarios de sensibilite et de specificite du
choix des phenotypes fait par la fonction discriminante.
des familles completement homogenes et des familles completement heterogenes sont
symbolises par un cercle, tandis que tous les autres lod-scores sont symbolises par une
pyramide. Sur les deux graphiques, on constate que plus on seloigne d’une sensibilite
de 1 et d’une specificite de 1, plus les lod-scores diminuent. Cependant, dans le cas des
analyses sur les familles tri-generationnelles, les lod-scores moyens pour les scenarios
de sensibilite et de specificite (1, 2/3), (1, 1/3), (5/6, 1), (5/6, 2/3) et (4/6, 1) se situent
V. UNE COVARIABLE 90
entre le lod-score moyen des familles completement homogenes et celui des familles
completement heterogenes. Pour ce qui est des analyses sur les familles bi-generation-
Fig. 5.4 – Lod-scores obtenus par analyse sous un modele d’heterogeneite chez les
familles bi-generationnelles pour differents scenarios de sensibilite et de specificite du
choix des phenotypes fait par la fonction discriminante.
nelles, les lod-scores moyens pour les scenarios de sensibilite et de specificite (1, 2/3),
(1, 1/3) et (5/6, 1) se situent entre le lod-score moyen des familles completement ho-
mogenes et celui des familles completement heterogenes.
Pour conclure, l’utilisation d’une covariable et d’une fonction discriminante pour distin-
guer les individus atteints de la maladie A des individus atteints d’une autre forme avant
de faire un test de liaison est interessante, a condition que la fonction soit bonne, c’est-
a-dire qu’elle doit avoir une assez grande sensibilite ainsi qu’une assez grande specificite.
Il est donc preferable d’utiliser une bonne fonction discriminante, si on a acces a une
V. UNE COVARIABLE 91
covariable, que d’analyser des donnees dans lesquelles il y a heterogeneite. Les couples
de sensibilite et de specificite qui menent a des lod-scores superieurs aux lod-scores cal-
cules sur des familles heterogenes trouves ici sont (1, 2/3), (1, 1/3), (5/6, 1), (5/6, 2/3)
et (4/6, 1) pour l’analyse sur des familles tri-generationnelles et (1, 2/3), (1, 1/3) et
(5/6, 1) pour l’analyse sur des familles bi-generationnelles.
CONCLUSION
La methode d’analyse que nous avons proposee consiste en la decomposition de grandes
familles en familles nucleaires et l’analyse a un locus a l’aide du modele d’heterogeneite
de Smith. Nous avons compare la methode d’analyse de liaison proposee a plusieurs
types d’analyses, notamment a la methode usuelle, soit l’analyse de familles tri-genera-
tionnelles par un modele d’heterogeneite lorsqu’il y a heterogeneite intra-familiale. Les
informations que nous avons recueillies au sujet de la puissance presentees a la section
4.2 indiquent que la puissance de l’analyse par la methode de decomposition proposee
est superieure a la puissance de l’analyse par la methode usuelle. Pour les comparai-
sons de puissances, on discute a propos de divers facteurs, notamment : d’une perte
d’information genetique due a la perte de la phase des parents, de l’effet de la presence
d’heterogeneite dans les donnees, de l’effet de decomposition des familles, de l’utilisa-
tion d’un modele approprie pour les analyses et des differentes distributions theoriques
des deux modeles d’analyse. Lors de l’etude de l’erreur de type I a la section 4.3, on a
observe que les erreurs de type I ne sont pas plus probables pour les familles decoupees
que pour les familles tri-generationnelles.
En somme, il nous semble avoir justifie par l’etude de la puissance et de l’erreur de type
I que les tests de liaison pour l’analyse de pedigrees dans lesquels il y a de l’heterogeneite
devraient etre realises sur des familles decomposees en familles nucleaires a l’aide du
modele d’heterogeneite. De surcroıt, nous avons montre tout au long du dernier cha-
pitre que l’utilisation de la methode proposee et d’une covariable pour determiner les
phenotypes des individus peut aider a detecter la liaison lorsque la fonction discri-
minante est suffisamment bonne, c’est-a-dire lorsqu’elle a une grande sensibilite et une
grande specificite. Donc, pour sa puissance superieure aux autres analyses lorsque les fa-
milles sont heterogenes, pour l’erreur de type I qui n’est pas gonflee par la decomposition
des familles et pour la possibilite de s’aider a detecter la liaison si on possede une co-
variable et une bonne fonction discriminante, nous preferons la methode D+1L+Ad a
la methode usuelle 1L+Ad lorsqu’il y a heterogeneite intra-familiale.
Une piste de recherche future consisterait a realiser le test propose ainsi que le test
sur les familles telles qu’observees sur des pedigrees plus diversifies, c’est-a-dire des
CONCLUSION 93
pedigrees contenant des familles ayant un nombre d’enfants et un nombre d’individus
atteints qui ne soit pas fixe a l’avance.
BIBLIOGRAPHIE
[1] Bothamley, J. (1993). Dictionnary of theories. Visible Ink Press, Canton.
[2] Campbell, NA. (1995). Biologie. Editions du renouveau pedagogique, Saint-
Laurent.
[3] Casella G, Berger RL. (2002). Statistical inference. Duxbury, Pacific Grove.
[4] Durner M, Greenberg DA, Hodge SE. (1992). Inter- and intrafamilial heteroge-
neity : effective sampling strategies and comparison of analysis methods. American
Journal of Human Genetics, vol.51, pages 859-870.
[5] Elston RC, George VT, Severtson F. (1992). The Elston-Stewart algorithm for
continuous genotypes and environmental factors. Human Heredity, vol.42, pages
16-27.
[6] Elston RC, Lange K. (1975). The prior probability of autosomal linkage. Annals
of Human Genetics, vol.38, pages 341-350.
[7] Goldin LR. (1992). Detection of linkage under heterogeneity : comparison of the
two-locus vs. admixture models. Genetic Epidemiology, vol.9, pages 61-66.
[8] Hodge SE, Anderson CE, Neiswanger K, Sparkes RS, Rimoin DL.(1983). The
search for heterogeneity in insulin-dependent diabetes mellitus (IDDM) : linkage
studies, two-locus models, and genetic heterogeneity. Annals of Human Genetics,
vol.35, pages 1139-1155.
[9] Hodge SE. (1992). Do bilineal pedigrees represent a problem for linkage analysis ?
Genetic Epidemiology, vol.9, pages 191-206.
[10] Lathrop GM, Lalouel JM, Julier C, Ott J. (1984). Strategies for multilocus linkage
analysis in humans. Proc. Natl. Acad. Sci. USA, vol.81, pages 3443-3446.
[11] Lathrop GM, Weeks DE (1995). Polygenic disease : methods for mapping complex
disease traits. Trends Genetics, vol 11(12), pages 513-519.
[12] Leal SM, Ott J. (1997). Analysis of two-locus traits under heterogeneity for reces-
sive versus dominant inheritance. Genetic Epidemiology, vol.14, pages 1097-1100.
[13] Merette C, King MC, Ott J (1992). Heterogeneity analysis of breast cancer families
using age of onset as a covariate. The American Journal of Human Genetics, vol.50,
pages 515-519.
[14] Morton N. (1955). Sequential tests for the detection of linkage. American Journal
of Human Genetics, vol.7, pages 277-318.
[15] Ott J. (1983). Linkage analysis and family classification under heterogeneity. An-
nals of Human Genetics, vol.47, pages 311-320.
[16] Ott J. (1989). Computer-simulation methods in human linkage analysis. Procee-
dings of the National Academy of Sciences of the United States of America, vol.86,
pages 4175-4178.
BIBLIOGRAPHIE 95
[17] Ott J, Terwilliger J D. (1994). Handbook of human genetics linkage. The Johns
Hopkins University Press, New York.
[18] Ott J. (1999). Analysis of human genetics linkage. The Johns Hopkins University
Press, New York.
[19] Rao CR. (1973). Linear statistical inference and its application. Wiley, New York.
[20] Risch N. (1989). Linkage detection tests under heterogeneity. Genetic Epidemio-
logy, vol.6, pages 473-480.
[21] Ross RG, Olincy A, Harris JG, Radant A, Hawkins M, Adler LE, Freedman
R. (1999). Evidence for bilineal inheritance of psychological indicators of risk
in childhood-onset schizophrenia. American Journal of Medical Genetics, vol.88,
pages 188-199.
[22] Rossen RD, Brewer EJ, Person DA, Templeton JW. (1980). Familial rheumatoid
arthritis. Journal of Clinical Investigation, vol.65, pages 629-642.
[23] Schork NJ, Boehnke M, Terwilliger JD, Ott J. (1993). Two-trait-locus linkage
analysis : a powerful strategy for mapping complex genetic traits. American Journal
of Human Genetics, vol.53, pages 1127-1136.
[24] Smith CAB.(1961). Testing for heterogeneity of recombination fraction values in
Human Genetics. Annals of Human Genetics, vol.27, pages 175-182.
[25] Thompson EA. (1986). Pedigree analysis in human genetics. The Johns Hopkins
University Press, Baltimore.
Sites Web
[26] Web resources of genetic linkage analysis, http ://linkage.rockefeller.edu (mars
2004).
[27] The PERL CD bookshelf, http ://www.unix.org.ua/orelly/perl/ (juin 2004).
[28] The Rockefeller University : Heads of Laboratories,
http ://www.rockefeller.edu/research/abstract/php ?id=74 (juillet 2005).
Annexe A
Fichiers associes au programme
SLINK
A.1 Partie I. Fichiers d’entree
Il y a trois fichiers qu’on doit fournir a SLINK. Il s’agit de :- simped.pre, un fichier contenant la structure des familles, les phenotypes et les
codes de disponibilite ;
- simdata.dat, un fichier contenant les parametres du modele ;
- slinkin.dat, un fichier contenant les parametres pour la simulation.
Le fichier simped.pre est presente au tableau A.1. Dans l’entete de ce tableau se trouve
les descriptions de chacune des colonnes. Les alleles du genotype pour le marqueur sont
0 partout, puisqu’ils seront simules. Le code de disponibilite de tous les individus est
2, ce qui signifie que les alleles pour le marqueur seront simules et que les phenotypes
pour la maladie seront laisses tels qu’inscrits dans la colonne phenotype.
Le fichier simdata.dat utilise pour les simulations est presente au tableau A.2. Ce fichier
definit les parametres du modele en tant que tel. Il y a deux alleles possibles pour la
maladie et les frequences de ces alleles sont f1 = 0, 99 et f2 = 0, 01 (cette information
est inscrite sur les lignes «NO. OF ALLELES» et «GENE FREQUENCIES»). Les
penetrances correspondent a un modele dominant :
alleles (gi) 11 12 22
P(xi = 2|gi) 0 1 1.
Annexe A. Fichiers associes au programme SLINK 97
numero numero numero numero sexe de phenotype genotypes code de
de la d’individu du de la l’individu (1=non-atteint, au disponi-
famille pere mere (1=h, 2=f) 2=atteint) marqueur bilite
1 1 0 0 1 2 0 0 2
1 2 0 0 2 1 0 0 2
1 3 1 2 1 2 0 0 2
1 4 1 2 1 2 0 0 2
1 5 0 0 2 1 0 0 2
1 6 0 0 2 1 0 0 2
1 7 3 5 1 2 0 0 2
1 8 3 5 1 2 0 0 2
1 9 3 5 2 1 0 0 2
1 10 3 5 2 1 0 0 2
1 11 3 5 2 2 0 0 2
1 12 4 6 1 1 0 0 2
1 13 4 6 1 2 0 0 2
1 14 4 6 2 2 0 0 2
1 15 4 6 2 2 0 0 2
1 16 4 6 1 1 0 0 2
2 1 0 0 1 2 0 0 2
.
.....
.
.....
.
.....
.
.....
.
..
.
.....
.
.....
.
.....
.
.....
.
..
9 16 4 6 1 1 0 0 2
10 1 0 0 1 2 0 0 2
10 2 0 0 2 1 0 0 2
10 3 1 2 1 2 0 0 2
10 4 1 2 1 2 0 0 2
10 5 0 0 2 1 0 0 2
10 6 0 0 2 1 0 0 2
10 7 3 5 1 2 0 0 2
10 8 3 5 1 2 0 0 2
10 9 3 5 2 1 0 0 2
10 10 3 5 2 1 0 0 2
10 11 3 5 2 2 0 0 2
10 12 4 6 1 1 0 0 2
10 13 4 6 1 2 0 0 2
10 14 4 6 2 2 0 0 2
10 15 4 6 2 2 0 0 2
10 16 4 6 1 1 0 0 2
Tab. A.1 – Fichier simped.pre.
Annexe A. Fichiers associes au programme SLINK 98
A la deuxieme ligne «NO. OF ALLELES», on voit qu’il y a quatre alleles possibles pour
le marqueur etudie. Les frequences des alleles du marqueur dans la population sont de
0, 25 ; elles sont indiquees a cote de «GENE FREQUENCIES». La vraie valeur de la
fraction de recombinaison est indiquee sur la ligne «RECOMBINATION VALUES».
La derniere ligne n’est pas utile pour SLINK, mais on verra qu’elle est importante
lorsqu’un fichier de type simdata.dat est donne en entree pour MLINK.
2 0 0 5 << NO. OF LOCI, RISK LOCUS, SEXLINKED (IF 1) PROGRAM
0 0.0 0.0 0 << MUT LOCUS, MUT MALE, MUT FEM, HAP FREQ (IF 1)
1 2
1 2 << AFFECTION, NO. OF ALLELES
0.99000 0.01000 << GENE FREQUENCIES
1 << NO. OF LIABILITY CLASSES
0 1 1 << PENETRANCES
3 4 << ALLELE NUMBERS, NO. OF ALLELES
0.25000 0.25000 0.25000 0.25000 << GENE FREQUENCIES
0 0 << SEX DIFFERENCE, INTERFERENCE (IF 1 OR 2)
0.0100 << RECOMBINATION VALUES
1 0.0250 0.45000 << REC VARIED, INCREMENT, FINISHING VALUE
Tab. A.2 – Fichier simdata.dat.
Un fichier slinkin.dat est presente dans le tableau A.3. Les trois premiers nombres sont
des graines aleatoires pour la simulation. Ensuite, on trouve le nombre de replicats m
desire. Le numero du locus pour lequel on veut simuler est presente en cinquieme : il
s’agit du numero de locus de la maladie. Ce numero est specifie en premiere position
sur la troisieme ligne du le fichier simdata.dat.
29999 29798 28435 100 1 0.000000
Tab. A.3 – Fichier slinkin.dat.
A.2 Partie II. Fichier de sortie
Annexe A. Fichiers associes au programme SLINK 99
num num num num prem. proch. prochain sexe statut pheno. marqueurs code
de d’ind. du de la desc. desc. desc. (1=H, de
fam. pere mere pat. mat. 2=F) proband
1 1 0 0 3 0 0 1 1 2 3 4 2
1 2 0 0 3 0 0 2 0 1 1 4 2
1 3 1 2 7 4 4 1 0 2 4 4 2
1 4 1 2 12 0 0 1 0 2 4 4 2
1 5 0 0 7 0 0 2 0 1 3 4 2
1 6 0 0 12 0 0 2 0 1 3 4 2
1 7 3 5 0 8 8 1 0 1 4 4 2
1 8 3 5 0 9 9 1 0 1 3 4 2
1 9 3 5 0 10 10 2 0 1 4 4 2
1 10 3 5 0 11 11 2 0 1 3 4 2
1 11 3 5 0 0 0 2 0 1 3 4 2
1 12 4 6 0 13 13 1 0 1 4 4 2
1 13 4 6 0 14 14 1 0 2 3 4 2
1 14 4 6 0 15 15 2 0 2 4 4 2
1 15 4 6 0 16 16 2 0 2 3 4 2
1 16 4 6 0 0 0 1 0 1 3 4 2
2 1 0 0 3 0 0 1 1 2 4 2 2
.
.....
.
.....
.
.....
.
.....
.
.....
.
.....
.
..
.
.....
.
.....
.
.....
.
.....
.
.....
.
.....
.
..
999 16 4 6 0 0 0 1 0 1 2 3 2
1000 1 0 0 3 0 0 1 1 2 4 2 2
1000 2 0 0 3 0 0 2 0 1 1 2 2
1000 3 1 2 7 4 4 1 0 2 2 2 2
1000 4 1 2 12 0 0 1 0 2 1 2 2
1000 5 0 0 7 0 0 2 0 1 1 3 2
1000 6 0 0 12 0 0 2 0 1 3 4 2
1000 7 3 5 0 8 8 1 0 1 1 2 2
1000 8 3 5 0 9 9 1 0 1 2 3 2
1000 9 3 5 0 10 10 2 0 1 1 2 2
1000 10 3 5 0 11 11 2 0 1 1 2 2
1000 11 3 5 0 0 0 2 0 1 1 2 2
1000 12 4 6 0 13 13 1 0 1 1 4 2
1000 13 4 6 0 14 14 1 0 2 3 2 2
1000 14 4 6 0 15 15 2 0 2 4 2 2
1000 15 4 6 0 16 16 2 0 2 3 2 2
1000 16 4 6 0 0 0 1 0 1 1 4 2
Tab. A.4 – Fichier pedfile.dat.
Annexe B
Fichiers associes au programme
MLINK
B.1 Partie I. Fichiers d’entree
On doit fournir a MLINK les deux principaux fichiers suivants pour les analyses :- un pedfile.dat, contenant les donnees des familles a analyser ;
- un datafile.dat, contenant les parametres du modele de l’analyse.
Un fichier pedfile est presente dans le tableau B.1.
num num num num prem. proch. prochain sexe statut pheno. marqueurs code
de d’ind. du de la desc. desc. desc. (1=H, de
fam. pere mere pat. mat. 2=F) proband
1 1 0 0 3 0 0 1 1 2 3 4 2
1 2 0 0 3 0 0 2 0 1 1 4 2
1 3 1 2 7 4 4 1 0 2 4 4 2
1 4 1 2 12 0 0 1 0 2 4 4 2
1 5 0 0 7 0 0 2 0 1 3 4 2
1 6 0 0 12 0 0 2 0 1 3 4 2
1 7 3 5 0 8 8 1 0 1 4 4 2
1 8 3 5 0 9 9 1 0 1 3 4 2
1 9 3 5 0 10 10 2 0 1 4 4 2
1 10 3 5 0 11 11 2 0 1 3 4 2
1 11 3 5 0 0 0 2 0 1 3 4 2
1 12 4 6 0 13 13 1 0 1 4 4 2
1 13 4 6 0 14 14 1 0 2 3 4 2
1 14 4 6 0 15 15 2 0 2 4 4 2
1 15 4 6 0 16 16 2 0 2 3 4 2
1 16 4 6 0 0 0 1 0 1 3 4 2
Tab. B.1 – Fichier pedfile.dat.
Annexe B. Fichiers associes au programme MLINK 101
Le fichier datafile.dat est similaire a celui presente a l’annexe A sous le nom de sim-
data.dat. Au lieu de contenir les parametres du modele pour la simulation, le fichier
datafile contient les parametres qui seront utilises pour les analyses des donnees. Donc,
les valeurs des dernieres lignes du fichier0.0100 << RECOMBINATION VALUES
1 0.0250 0.45000 << REC VARIED, INCREMENT, FINISHING VALUE
seront utilisees pour determiner les valeurs θ pour lesquelles la vraisemblance sera cal-
culee. Les valeurs de θ demandees ici sont : 0,01, 0,035, 0,06, 0,085, 0,11, . . ., 0,435 et
0,46.
B.2 Partie II. Fichier de sortie
Les resultats se trouvent dans un fichier nomme outfile.dat qui ressemble a celui presente
au tableau B.4. On y trouve une section pour chacune des valeurs de la fraction de re-
combinaision qui est donnee dans le fichier datafile.dat, plus une section pour la fraction
de recombinaison θ = 1/2. Dans chaque section, la vraisemblance de chacun des pedi-
grees est evaluee.
Length of real variables = 8 bytes
LINKAGE (V5.1) WITH 2-POINT AUTOSOMAL DATA
ORDER OF LOCI : 1 2
———————————–
———————————–
THETAS 0.500
———————————–
PEDIGREE — LN LIKE — LOG 10 LIKE
———————————–
1 -30.301968 -13.159977
2 -29.608820 -12.858947
3 -34.460851 -14.966157
4 -30.995115 -13.461007
5 -28.915673 -12.557917
6 -33.074556 -14.364097
7 -37.233439 -16.170277
8 -30.995115 -13.461007
9 -33.074556 -14.364097
10 -37.233439 -16.170277
———————————–
TOTALS -325.893532 -141.533763
-2 LN(LIKE) = 6.51787064936434478e+02 LOD SCORE = 0.000000
———————————–
Tab. B.2 – Premiere partie du fichier outfile.dat.
Annexe B. Fichiers associes au programme MLINK 102
..
.
———————————–
THETAS 0.010
———————————–
PEDIGREE — LN LIKE — LOG 10 LIKE
———————————–
1 -29.638567 -12.871866
2 -28.945420 -12.570836
3 -31.561602 -13.707030
4 -29.658665 -12.880595
5 -28.915673 -12.557917
6 -29.659072 -12.880771
7 -29.739071 -12.915514
8 -23.500746 -10.206244
9 -29.688819 -12.893690
10 -29.739071 -12.915514
———————————–
TOTALS -291.046706 -126.399978
-2 LN(LIKE) = 5.82093412429807615e+02 LOD SCORE = 15.133784
———————————–
———————————–
THETAS 0.035
———————————–
PEDIGREE — LN LIKE — LOG 10 LIKE
———————————–
1 -29.687986 -12.893329
2 -28.994839 -12.592299
3 -30.588449 -13.284395
4 -29.759132 -12.924227
5 -28.915673 -12.557917
6 -29.786956 -12.936311
7 -30.044258 -13.048055
8 -23.805933 -10.338786
9 -29.866122 -12.970692
10 -30.044258 -13.048055
———————————–
TOTALS -291.493608 -126.594066
-2 LN(LIKE) = 5.82987216291496251e+02 LOD SCORE = 14.939697
———————————–
———————————–
THETAS 0.060
———————————–
PEDIGREE — LN LIKE — LOG 10 LIKE
———————————–
1 -29.737185 -12.914695
2 -29.044038 -12.613665
3 -30.334886 -13.174273
4 -29.860378 -12.968197
5 -28.915673 -12.557917
6 -29.918197 -12.993308
7 -30.355939 -13.183417
8 -24.117614 -10.474147
9 -30.046562 -13.049056
10 -30.355939 -13.183417
———————————–
TOTALS -292.686411 -127.112093
-2 LN(LIKE) = 5.85372821599262487e+02 LOD SCORE = 14.421670
———————————–
..
....
...
Tab. B.3 – Deuxieme partie du fichier outfile.dat.
Annexe B. Fichiers associes au programme MLINK 103
..
.
.
.....
———————————–
THETAS 0.460
———————————–
PEDIGREE — LN LIKE — LOG 10 LIKE
———————————–
1 -30.295714 -13.157261
2 -29.602567 -12.856231
3 -33.845329 -14.698840
4 -30.987738 -13.457804
5 -28.915673 -12.557917
6 -32.689751 -14.196979
7 -36.457575 -15.833324
8 -30.219251 -13.124054
9 -33.009943 -14.336036
10 -36.457575 -15.833324
———————————–
TOTALS -322.481117 -140.051769
-2 LN(LIKE) = 6.44962233318212535e+02 LOD SCORE = 1.481993
Tab. B.4 – Troisieme partie du fichier outfile.dat.