these de doctorat de l'universite pierre et marie

166
THESE DE DOCTORAT DE L’UNIVERSITE PIERRE ET MARIE CURIE Spécialité Génétique (Complexité du vivant) Présentée par M. LOIRE Etienne Pour obtenir le grade de DOCTEUR de l’UNIVERSITÉ PIERRE ET MARIE CURIE Sujet de la thèse : Évolution des microsatellites codants chez les primates Soutenue le : le 25 Novembre 2009 Devant le jury composé de : M. DUJON Bernard Président du Jury M. RADMAN Miroslav Rapporteur M. GALTIER Nicolas Rapporteur M. RAES Jeroen Examinateur M. DEPAULIS Frantz Examinateur M. NETTER Pierre Directeur de thèse M. ACHAZ Guillaume Directeur de thèse Université Pierre & Marie Curie - Paris 6 Bureau d’accueil, inscription des doctorants et base de données Esc G, 2 ème étage 15 rue de l’école de médecine 75270-PARIS CEDEX 06 Tél. Secrétariat : 01 42 34 68 35 Fax : 01 42 34 68 40 Tél. pour les étudiants de A à EL : 01 42 34 69 54 Tél. pour les étudiants de EM à MON : 01 42 34 68 41 Tél. pour les étudiants de MOO à Z : 01 42 34 68 51 E-mail : [email protected]

Upload: vuphuc

Post on 05-Jan-2017

248 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

THESE DE DOCTORAT DE

L’UNIVERSITE PIERRE ET MARIE CURIE

Spécialité

Génétique

(Complexité du vivant)

Présentée par

M. LOIRE Etienne

Pour obtenir le grade de

DOCTEUR de l’UNIVERSITÉ PIERRE ET MARIE CURIE

Sujet de la thèse : Évolution des microsatellites codants chez les primates Soutenue le : le 25 Novembre 2009 Devant le jury composé de : M. DUJON Bernard Président du Jury

M. RADMAN Miroslav Rapporteur

M. GALTIER Nicolas Rapporteur

M. RAES Jeroen Examinateur

M. DEPAULIS Frantz Examinateur

M. NETTER Pierre Directeur de thèse

M. ACHAZ Guillaume Directeur de thèse

Université Pierre & Marie Curie - Paris 6 Bureau d’accueil, inscription des doctorants et base de données Esc G, 2ème étage 15 rue de l’école de médecine 75270-PARIS CEDEX 06

Tél. Secrétariat : 01 42 34 68 35 Fax : 01 42 34 68 40

Tél. pour les étudiants de A à EL : 01 42 34 69 54 Tél. pour les étudiants de EM à MON : 01 42 34 68 41

Tél. pour les étudiants de MOO à Z : 01 42 34 68 51 E-mail : [email protected]

Page 2: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

1

Table des matières

Résumé ..................................................................................................................................5

Introduction............................................................................................................................7

1. Mécanismes de mutation des microsatellites.................................................................13

1. 1 Les erreurs au cours de la réplication...................................................................14

1.2.1. La sélection de base assurée par la fidélité de la polymérase.........................15

1.2.2. La correction d’épreuves de la polymérase («Proofreading»)........................15

1.2.3. le glissement de l’ADN polymerases sur les microsatellites.............................18

1.3. Les erreurs au cours de la transcription ..................................................................20

1.4. Les erreurs au cours de la recombinaison ...............................................................23

1.5. Les insertions d’éléments mobiles de type Alu.......................................................28

1.6. L’importance du système MMR pour limiter l’instabilité des microsatellites..........30

1.6.1. Le système de correction des mésappariements ...............................................30

1.6.2. Le système MMR chez les procaryotes............................................................30

1.6.3. Le système MMR chez les eucaryotes .............................................................32

1.6.3 MMR et séquences répétées .............................................................................36

1.7. L’importance du système NMD pour limiter les conséquences des mutations des microsatellites...............................................................................................................37

1.8. Les facteurs intrinsèques qui influencent l’instabilité des mirosatellites..................39

2. Microsatellites au sein des gènes...................................................................................41

2.1. Abondance.............................................................................................................41

2.2. Impact fonctionnel des microsatellites codants.......................................................46

2.2.1. Régions 5’ non traduites..................................................................................47

2.2.2. Introns.............................................................................................................50

2.2.3. Régions 3’ non traduites..................................................................................52

Page 3: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

2

2.2.4. régions codantes..............................................................................................53

2.2.4.1 Maladies neurodégénératives.....................................................................55

2.2.4.2 Instabilité des microsatellites et cancer ......................................................56

2.2.4.3 Loci de contingences chez les bactéries .....................................................57

2.3. Sélection................................................................................................................59

2.3.4. Sélection négative des microsatellites codants.................................................60

2.3.5. L’hypothèse d’une sélection positive des microsatellites codants.....................64

3. Questions adressées au cours de la thèse .......................................................................67

Résultats...............................................................................................................................69

1. Hypermutabilité des gènes chez H. sapiens...................................................................71

1.1. Article....................................................................................................................75

1.2. Résumé des résultats ..............................................................................................87

2. Évolution des microsatellites codants chez les primates ................................................89

2.1. Article (en préparation)..........................................................................................93

2.2. Résumé des résultats et discussion .......................................................................116

3) Impact du système NMD sur la progression des cancers colorectaux .........................119

Discussion..........................................................................................................................121

1. Résumé des résultats...................................................................................................122

2. Les groupes fonctionnels de gènes ne sont pas égaux devant les microsatellites codants.......................................................................................................................................123

3. Quantification de la force de sélection s’exerçant sur les microsatellites codants.........129

4. Le taux de substitution exceptionnel des microsatellites codants.................................133

5. Les contraintes imposées par les protéines, « produits » des gènes .............................135

Conclusion .........................................................................................................................137

Références..........................................................................................................................140

Annexe 1 : Article ..........................................................................................................156

Page 4: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

3

Remerciements

La liste est longue, les sentiments sont forts, l’espace comme le temps sont réduits. Je ferais

de mon mieux, mais l’exhausitivité est impossible. L’ellipse recèle beaucoup.

Le jury qui a accepté de considerer attentivement cette thèse est evidemment à mettre en haut,

car il est constitué de personnes avec qui je n’ai pas de liens personnels. Ils se sont donc

chargés de cette tâche non par amitié ou pour me rendre service, mais bien par le sentiment du

devoir qu’ont les scientifiques de juger objectivement du travail de chacun.

Pierre et Guillaume sont également à placer dans la section la plus formelle de ces

remerciements. Je dois à leur confiance et leur soutien sans faille parmi les plus belles années

de ma vie. Dominique et Françoise m’ont également mis le pied à l’étrier. Vous m’avez

souvent aidé à me relever. Merci à vous, ainsi qu’à tous les collègues de l’équipe génétique et

évolution.

Jamais je ne me feliciterai assez (après tout j’ai bien le droit de me remercier un peu) d’avoir

poussé la porte de l’ABI, troisième étage droite, rue Cuvier. C’était comme un secret bien

gardé, un privilège. J’y ai beaucoup appris dans le domaine scientifique et tout a changé là-

bas. Quand je pense à vous tous, ce sont des détails qui m’émeuvent le plus. Le premier café

pris avec Eduardo et Marie, un jour de novembre. Le partage de cette boisson avec vous avait

un goût de rite intiatique. J’ai appris beaucoup : Pourquoi il faut se méfier des étiquettes,

surtout sur les vestes (merci Isabelle) ; Pouquoi il faut se méfier des étiquettes, surtout sur les

pulls (Merci Joel) ; Quelle est la différence entre un flic (Il ne sait ni lire, merci Henry) ;

Comment voler mon propre vélo (et pourquoi pas de mes propres ailes, merci Anne) ; Que

certaines flammes ne s’éteignent jamais (Merci Martine) ; Qu’un disque est parfois mou tout

en contenant des pépites (merci Sophie); Que Mars pourrait bien changer de couleur (Merci

Bernard) ; Comment encercler les étoiles et Charles de Gaulle (merci Cyril) ; Comment faire

un rocket-jump (merci Alex) ; Que certaines bombes se manient avec précaution, tout comme

les voitures (merci Sara !) ; Qu’on peut avoir la gentillesse sobrement chevillée au corp

(Merci Anne-laure) ; Ou manger les meilleurs tapas de Barcelone (Thanks Todd) ; Que le joe-

bar-team illustre les probabilités à merveille (merci Guillaume S.) ; Que la craie et le noir

vont si bien ensemble (merci Christine) ; Que le sourire est terriblement contagieux et se

pratique tout les jours (merci Manue, ‘MO’ et Mathilde).

Page 5: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

4

Si on ne peut pas prétendre battre Cthulhu, on peut tordre le coup à bien des livres, même

remplis d’équation. Merci Guillaume, pour les aventures dans le monde de l’imaginaire.

Grâce à toi, j’ai aussi saisi pourquoi Hugo avait écrit :

« Il n'est pas de brouillards, comme il n'est point d'algèbres,

! Qui résistent, au fond des nombres ou des cieux,!

À la fixité calme et profonde des yeux ;!

Je regardais ce mur d'abord confus et vague,!

Où la forme semblait flotter comme une vague,

!Où tout semblait vapeur, vertige, illusion ;!

Et, sous mon œil pensif, l'étrange vision!

Devenait moins brumeuse et plus claire, à mesure!

Que ma prunelle était moins troublée et plus sûre. »

Mais celui qui m’a appris ces vers, la license poétique, je la dois à Julien, comme beaucoup

d’autres choses. Merci à toi, ainsi qu’à Luc, pour toutes ces soirées durant lesquelles nous

nous sommes elevés ensemble.

Tristan, ta-rie, Pierre, Gael, Thomas, Elvire, Mickael, Sylvie, Fabien. Vous n’avez pas besoin

que je l’écrive ici pour savoir combien je vous aime, mais après tout c’est l’occasion.

Toi non plus Marie. Merci ma muse, amuse et m’use encore, longtemps si tu veux, toujours si

tu peux.

Mes frères, guides et modèles.

Ma mère. Présente. Toujours à mes cotés

Mon père. Présent. Toujours dans ma mémoire.

Elise, ma fille. Chaque heure avec toi m’est infiniment plus précieuse que les battements du

temps qui passe autour.

Page 6: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

5

Résumé

Les microsatellites sont des séquences qui présentent des mécanismes mutationnels propres à

leur nature répétée et qui aboutissent à de fréquents changements du nombre d’unité qui les

composent. Cette nature hypermutable des microsatellites, extrêmement abondants dans les

génomes eucaryotes, est responsable de leur polymorphisme élevé au sein des populations.

Ces répétitions sont soumises à une force de sélection qui tend à les purger hors des gènes, en

raison de l’instabilité qu’ils confèrent à ces derniers.

Nous avons caractérisé les gènes humains qui contiennent un microsatellite codant instable et

sont pour cette raison qualifiés d’hypermutables. Ces gènes hypermutables sont

spécifiquement impliqués dans un nombre restreint de fonctions cellulaires. La pression de

sélection négative qui s’exerce à l’encontre des répétitions n’est pas homogène selon les

groupes fonctionnels considérés.

Au sein du phylum des primates, les microsatellites codants évoluent par insertion et délétion,

mais également par substitution et ce à un rythme deux fois élevé que celui du reste des

séquences codantes. Ces substitutions créent ou interrompent les répétitions. La distribution

des effectifs reste à l’équilibre dans toutes les espèces considérées. En nous penchant sur un

type particulier de microsatellite, nous avons pu estimer le coefficient de sélection. L’effet

d’un microsatellite sur la valeur adaptative d’un individu est relativement faible, mais

suffisant pour biaiser la distribution de ces répétitions.

Page 7: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

6

Page 8: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

7

Introduction

Page 9: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

8

Cette thèse s’inscrit dans un domaine d’étude, l’évolution moléculaire, bien trop vaste pour

permettre une introduction complète. Nombreux sont les objets et concepts qui l’ont enrichi

depuis que les lois de l’hérédité ont trouvé une base moléculaire avec la découverte du rôle

de la molécule d’ADN dans cette hérédité.

L’édifice des connaissances acquises sur ce sujet par l’humanité en un peu plus d’un siècle est

un monument qui n’en finira pas de fasciner un individu curieux des phénomènes naturels.

Car, niché derrière la stupéfiante diversité des formes prises par le vivant sur notre planète,

repose une unité fondamentale qui les rassemble toute. Les êtres vivants utilisent une classe

de biomolécules, les acide nucléiques, comme vecteur transmissible et persistant de

l’information génétique (Griffith 1928; Avery, MacLeod, and McCarty 1944). Ces molécules

sont constituées d’un enchaînement de monomères : les nucléotides. L’enchaînement

séquentiel de ces nucléotides permet de coder l’information nécessaire à l’accomplissement

du cycle vital des cellules qui constituent les organismes. Une fraction des molécules d’ADN,

les gènes, est spécifiquement décodée en fonction du contexte physiologique de la cellule et

en réponse à son environnement afin de produire des molécules (ARN ou protéines) qui

participent activement au maintien de son homéostasie. Chez les organismes pluricellulaires,

cette « expression » spécifique des gènes permet d’assurer le développement, la

différentiation des types cellulaires, et la coordination de leurs fonctions pour le maintien de

leurs homéostasies. Elle sous-tend la partie « visible » des organismes, forme et capacité,

appelée phénotype.

L’ensemble des molécules d’ADN, appelé génome, est recopié pour être transmis aux cellules

filles à chaque division cellulaire. À chaque génération, des nucléotides changent, s’ajoutent

ou disparaissent de manière aléatoire, altérant ainsi subtilement le patrimoine génétique des

individus. Ces mutations de la molécule d’ADN peuvent modifier sensiblement – ou pas du

Page 10: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

9

tout - le phénotype des individus chez qui elles apparaissent. Ces variations sont alors

susceptibles de connaître plusieurs types de destin. Être perdues si l’individu qui les porte n’a

pas l’occasion de les transmettre, être transmises aux descendants et ensuite maintenues dans

une partie de la population, ou bien complètement l’envahir pour devenir la nouvelle « norme

». L’étude rigoureuse du destin des variations au sein des organismes d’une même espèce est

appelée génétique des populations. La conséquence, pour les populations d’organismes, de

l’existence de ces mutations et de leurs transmissions – ou non – à la génération suivante est

l’évolution dite moléculaire, trame de fond de l’évolution biologique.

Ces variations sont un matériau brut qui, raffiné par les processus évolutifs, a permis

permettant l’émergence de l’innombrable variété de forme des êtres vivants passés et présents,

des différences phénotypiques que l’on observe entre espèces comme de celles qui existent

entre individus d’une même espèce.

Dobzhansky a écrit que « Rien en biologie n’a de sens si ce n’est à la lumière de l’évolution ».

Cet adage est couramment cité par les biologistes pour expliquer que l’adaptation des

organismes à leur environnement est le résultat d’un processus d’évolution. Les mécanismes

qui sous-tendent l’évolution sont cependant trop souvent réduits à des explications simplistes.

En effet, l’adaptation des organismes à leur environnement est parfois interprétée comme le

seul résultat d’une sélection retenant les mutations qui modifient de façon avantageuse le

phénotype des individus qui les portent. Pourtant, ce qui compte ultimement en évolution,

c’est le nombre de descendants que laissera un individu. Être transmis à la génération suivante

est l’unique condition de la pérennité d’une variation. Si la variation influence de manière

directe le succès reproductif de l’individu qui la porte, la sélection peut alors être invoqué

comme une force évolutive à l’œuvre. Mais, parmi les forces évolutives susceptibles

Page 11: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

10

d’influencer la transmission d’une variation, on en reconnaît d’autres : Par exemple la dérive

et la démographie. Ces deux forces sont subtiles et difficiles à modéliser car non

déterministes. Elles intègrent les effets du hasard dans la transmission des variations. Par

exemple, le choix que font deux individus de se reproduire ensemble n’est pas forcément

dicté par la sélection, surtout quand les tailles de populations sont réduites. Nous devons cette

reconnaissance des effets stochastiques dans l’évolution à Wright et Fisher, dès les années

1930, puis à Motoo Kimura qui a posé dans les années 1970 les bases de ce qu’on appelle

aujourd’hui la théorie neutraliste de l’évolution.

Alors comment, aujourd’hui, mesurer les effets relatifs de ces différentes forces qui façonnent

l’évolution du patrimoine génétique ? Comment identifier les variations qui se sont fixées au

sein des espèces pour des raisons adaptatives (sélection) de celles qui l’ont été au hasard ?

Répondre à cette question est loin d’être uniquement un jeu intellectuel. Un exemple classique

d’application est de distinguer les variations qui, chez une bactérie résistante à un

antibiotique, ont été retenues dans son génome pour cette résistance qu’elles lui confèrent de

toutes les autres qui se sont fixées de façon neutre. D’autres aspirations moins pragmatiques

peuvent être évoquées, comme de savoir ce qui fait la spécificité du genre Homo.

La structure de la molécule qui porte notre patrimoine génétique est maintenant accessible.

Depuis quelques dizaines d’années, les techniques de séquençage permettent de lire l’exact

enchaînement des nucléotides qui composent les molécules d’ADN. Nous disposons donc à

présent des génomes d’un certain nombre d’individus appartenant à diverses espèces.

Ces génomes ne sont pas composés uniquement de ces unités informatives contraintes que

sont les gènes. Ils contiennent par exemple : des régions qui permettent d’attacher les

chromosomes à la matrice nucléaire, d’assurer leurs cohésions lors de la division cellulaire

Page 12: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

11

(satellites centromériques), ou de terminer leur réplication (télomères), des interruptions au

sein même des gènes (introns), des gènes ayant perdus toutes fonctions (pseudo-gènes), des

séquences capables de se disséminer de façon autonome (éléments mobiles) et des répétitions

de motifs (mini- et microsatellites). Tout un « bestiaire » de séquences d’ADN dont

l’énumération rapide qui en est faite ici ne fait pas honneur aux nombreux travaux qui ont

permis de les identifier et de comprendre leur structure et leur évolution. Mais le propos est

moins d’introduire la complexité de la structure des génomes que d’appuyer le fait que pour

tout un pan de ceux-ci, le hasard a tenu un rôle prépondérant. l’évolution moléculaire n’est

pas seulement l’évolution des gènes.

Utiliser l’évolution de ces éléments comme un modèle « nul » à comparer avec l’évolution

des gènes pour comprendre les effets de la sélection sur ces derniers est une approche

possible. Toutefois les indices d’un rôle fonctionnel de ces éléments se sont accumulés, leur

valant d’être qualifiés aujourd’hui de « fraction non codantes » plutôt que d’ADN poubelle

(sic).

Dans le cadre des travaux présentés dans cette thèse, nous nous sommes intéressés à une

classe particulière de ces éléments : Les microsatellites. Ces microsatellites sont des

répétitions de courts motifs que l’on observe disséminées dans les génomes de tous les

organismes étudiés. Ces répétitions sont soumises à un processus de mutation qui aboutit à

l’addition ou la soustraction du motif qui les composent au cours de la réplication. Évoluant

de façon neutre et présentant de nombreux variants au sein des populations, les microsatellites

sont des marqueurs de choix qui permettent de réaliser des études d’association, d’identifier

des individus ou de réaliser des tests de paternité. L’originalité de nos travaux tient dans la

localisation particulière des microsatellites étudiés : Les gènes. Ces derniers sont, comme on

Page 13: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

12

l’a évoqué, la fraction exprimée du génome. Leur implication majeure dans le phénotype fait

qu’ils font partie des éléments les plus stables au cours de l’évolution La stabilité des gènes

peut-être mise en lumière par la simple constatation que certains sont restés, malgré des

millions d’années d’évolution, quasi-identiques au sein d’espèces si diverses que ces gènes

sont les seules preuves identifiables de leur ascendance commune. Cette relative immuabilité

des gènes pourrait nous amener à penser que l’évolution a favorisé la forme la plus stable

possible pour ces gènes. Et pourtant, parmi ces gènes, on observe la présence de

microsatellites. Ces microsatellites présentent la particularité d’être à la fois peu complexes,

c’est-à-dire porteurs de peu d’information, et mutagènes, c’est-à-dire de subir à une fréquence

importante des modifications de leur forme.

L’existence de ces microsatellites au sein des gènes est donc paradoxale. Peu complexe et

instables, ils existent pourtant au sein de la fraction la plus informative et parfois la mieux

conservée de notre patrimoine génétique.

Page 14: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

13

1. Mécanismes de mutation des

microsatellites

Nous définirons dans ce manuscrit les microsatellites comme des répétitions en tandem d’un

motif dont la longueur varie entre 1 et 6 nucléotides (Tautz 1994). On distinguera les

microsatellites « purs » des microsatellites interrompus, ces derniers présentant une ou

plusieurs interruptions au sein de la répétition. Le nombre minimal de répétition du motif

nécessaire pour considérer que la répétition constitue un microsatellite est une question pour

laquelle aucune réponse simple ne peut être apporté. Cependant, notre étude étant motivée par

la propriété d’instabilité des microsatellites, nous présenterons plus loin les valeurs du nombre

minimal de répétitions qui doivent, d’après différentes sources de la littérature, constituer un

microsatellites pour que ces derniers puissent être considérés comme instables.

Cette instabilité est la conséquence de mécanismes mutationnels particulièrement susceptibles

d’affecter ou de générer des microsatellites : les erreurs de réplication, les erreurs au cours de

la transcription, les erreurs au cours de la recombinaison, ainsi que les insertions d’éléments

mobiles du type Alu chez les primates. Nous présenterons un mécanisme de réparation de

l’ADN capable de juguler l’instabilité des microsatellites : le système de réparation des

mésappariements et le NMD, qui permet d’atténuer l’impact des mutations de microsatellites

codants. Enfin nous présenterons les facteurs susceptibles d’influencer l’instabilité des

microsatellites.

Page 15: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

14

1. 1 Les erreurs au cours de la réplication La réplication consiste à produire à chaque division une copie des millions ou milliards de

paires de bases qui composent le génome des organismes uni- ou multicellulaires. Cette

réplication est un processus très fidèle mais malgré tout imparfait. Depuis la description

originelle de la structure en double hélice de l’ADN par Watson et Crick (Watson and Crick

1953), plusieurs études ont montré que des systèmes multiples assurent la sauvegarde et la

stabilité de l’information génétique en limitant la fixation des mutations (Kunkel 1992). Grâce

à ces systèmes de réparation ou de correction, le taux net de mutation, des microbes jusqu’aux

mammifères, est très faible et varie généralement entre 10-8 et 10-11 mutations par base

répliquée et par génome (Drake et al. 1998).

La fidélité de la réplication de l’ADN détermine en grande partie la stabilité du génome. Le

faible taux de mutation observé durant la synthèse nucléotidique n’est pas la conséquence

intrinsèque de la seule précision de la réplication de l’ADN, mais reflète aussi l’existence de

mécanismes capables de corriger les erreurs de l’ADN polymérase (Umar and Kunkel 1996;

Kunkel and Bebenek 2000). La fidélité de la réplication, aussi bien chez les bactéries que chez

les cellules eucaryotes, est déterminée à trois niveaux agissant de manière séquentielle

(Kunkel 1992; Schaaper 1993; de Wind and Hays 2001). Premièrement, une importante

contribution à la fidélité de la réplication est conférée par la sélection de base par voie de

complémentarité assurée par l’ADN polymérase durant la polymérisation nucléotidique.

Deuxièmement, les erreurs faites par l’ADN polymérase peuvent être corrigées par une

activité exonucléolytique associée à la polymérase, appelée «proofreading» ou édition.

Finalement, un système post-réplicatif de réparation des mésappariements (ou MMR, de

Page 16: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

15

l’anglais « mismatch repair ») corrige les erreurs de réplication ayant échappé au

« proofreading ».

1.2.1. La sélection de base assurée par la fidélité de la polymérase

La sélection de base est le mécanisme qui permet à l’ADN polymérase de discriminer entre un

nucléotide et un autre durant la polymérisation selon l’appariement par complémentarité des

bases. En 1953, Watson et Crick ont montré que des liaisons hydrogène entre les bases A et T

et les bases G et C offrent une spécificité assurant une réplication fidèle de l’ADN. L’ADN

polymérase assure la sélection de base en fonction de la géométrie des paires de bases

formées. Le site actif de l’enzyme est modelé de manière à accepter l’équivalent géométrique

des paires de bases selon le modèle Watson et Crick et de rejeter les paires de bases qui

diffèrent de cette géométrie (Goodman, 1997). Cependant, des paires de bases non conformes

au modèle Watson et Crick peuvent aussi se former; d’où le rôle de l’ADN polymérase à

empêcher ce type de liaison. La fidélité de la réplication dépend donc de l’efficacité de l’ADN

polymérase à incorporer la base exacte. Ainsi plus l’ADN polymérase est fidèle, plus

l’appariement de bases se fait correctement et sans erreurs (Schaaper 1993; Echols and

Goodman 1991).

1.2.2. La correction d’épreuves de la polymérase («Proofreading»)

La fidélité de la réplication dépend non seulement de la sélection de base de l’ADN

polymérase, mais aussi de son activité exonucléolytique 3’->5’. L’ADN polymérase génère

deux types d’erreurs au cours de la réplication : les substitutions survenant lorsqu’un

nucléotide mal apparié est incorporé, et l’insertion ou la délétion d’un nucléotide

supplémentaire. Ces erreurs peuvent être repérées et corrigées par l’ADN polymérase elle-

même grâce à son activité de correction d’épreuves, ou « proofreading ». Il en résulte ainsi

Page 17: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

16

une augmentation de la fidélité de la réplication. Au cours de l’élongation nucléotidique dans

le sens 5’->3’, si une erreur est commise par la polymérase, l’enzyme repart en sens contraire

(3’->5’) et excise la dernière base ajoutée, créant un site libre qui pourra être occupé par un

autre nucléotide (Figure 1.1) (Kunkel 1990; Kroutil et al. 1996).

Cette fonction « proofreading » de l’enzyme devient particulièrement importante en présence

de séquences répétées car l’ADN polymérase génère alors plus fréquemment des erreurs

d’insertion et de délétion de bases. Durant la réplication des microsatellites, l’activité

exonucléolytique de la polymérase est très sollicitée. Malgré cela, sa capacité à corriger ses

propres erreurs diminue lorsque le nombre de répétitions augmente (Kroutil et al. 1996).

Page 18: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

17

Figure 1.1 : L’ADN polymérase et son activité exonucléolytique de correction d’épreuves

1 . L’ADN polymérase incorpore un nucléotide selon la sélection de base par complémentarité. 2. Le nucléotide entre et une liaison se forme. 3 . L’enzyme avance d’un nucléotide . 4 . Un mauvais appariement entraîne le retrait du nucléotide et l’enzyme recule de 1 pb (tiré de Lewin, 1999).

Page 19: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

18

1.2.3. le glissement de l’ADN polymerases sur les microsatellites

La fidélité de la réplication de l’ADN est aussi fonction de la nature de la séquence d’ADN à

répliquer.

Les données disponibles chez la levure, les mammifères et la drosophile suggèrent que les

altérations dans les microsatellites, particulièrement les répétitions simples, reflètent le

dérapage de l’ADN polymérase qui produit des mésappariements entre une ou plusieurs bases

répétées (Levinson and Gutman 1987; Strand et al. 1993; Harfe and Jinks-Robertson 2000b).

Au fur et à mesure que l’ADN polymérase progresse le long de la séquence répétée, une

transition a lieu entre le brin natif et le brin complémentaire. Les deux brins peuvent se

réassocier dans une configuration de mésappariement. Si la base mésappariée est sur le brin

natif, le microsatellite s’allonge par addition d’une unité répétée, alors que le mésappariement

d’une base sur le brin complémentaire servant d’amorce entraîne une délétion (Figure 1.3)

(Strand et al. 1993; Umar and Kunkel 1996; Sia et al. 1997).

Page 20: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

19

Figure 1.2: Schéma illustrant l’instabilité d’un microsatellite (GT)5.

Si les nucléotides mésappariés sont sur le brin natif, il en résulte une insertion transitoire, alors que les nucléotides mésappariés sur le brin complémentaire entraînent une délétion transitoire. Ces intermédiaires peuvent êtres corrigés, en présence d’un système de réparation fonctionnel, par un réalignement ou une excision 3’—> 5’ du brin natif avant que la synthèse ne continue. Si la correction n’a pas lieu durant la réplication, le brin nouvellement synthétisé peut être réparé une fois la réplication achevée en utilisant le brin parental comme gabarit complémentaire. Cependant, la continuation de la polymérisation de ces intermédiaires sans « proofreading» ni réparation provoque une insertion ou une délétion dans le brin nouvellement synthétisé (adapté de (Umar and Kunkel 1996)).

Page 21: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

20

1.3. Les erreurs au cours de la transcription

Il existe maintenant de nombreuses évidences mettant en lumière le rôle de la transcription

comme source d’instabilité des microsatellites chez de nombreux organismes modèles (voir

Lin, 2009). En clonant un microsatellites au sein du gène rapporteur lacZ dans un plasmide,

Bowater et ses collègues (Bowater et al. 1997) ont pu mettre en évidence chez Escherishia

coli que l’instabilité du microsatellite – une répétition de CAG – était augmentée d’un facteur

10 quand la transcription du gène était induite. Chez la levure, une expérience similaire menée

sur une répétition du nucléotide CG a mis en évidence une augmentation d’un facteur 9 de

l’instabilité suite à l’activation de la transcription de cette séquence (Wierdl, Dominska, and

Petes 1997). Le modèle que ces derniers proposent pour rendre compte de cette instabilité est

le suivant : Au cours de la transcription, les brins complémentaires d’ADN sont séparés par

les hélicases du complexe de polymérisation de l’ARN. Des structures secondaires (épingles à

cheveux ou boucles) sont alors susceptibles de se former au cours de la réassociation des brins

d’ADN, notamment si les répétitions qu’ils contiennent sont constituées du tri-nucleotides

CTG. En l’absence de réparation, la longueur des microsatellites au cours des transcriptions

suivantes est affectée (voir figure 1.3).

Il est à noter que ce mécanisme ne s’applique qu’aux microsatellites susceptibles d’être

transcrits, c’est-à-dire présents dans l’environnement d’un gène. Les microsatellites concernés

sont ceux qui sont susceptibles d’adopter des structures secondaires. Ceci restreint le rôle de

ce mécanisme dans l’évolution des microsatellites de manière générale, mais est d’un intérêt

tout particulier car il implique que les mutations de microsatellites dans l’environnement d’un

Page 22: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

21

gène peuvent survenir de façon somatique, c’est-à-dire au sein de chaque cellule, et

indépendamment de la réplication.

Page 23: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

22

Figure 1.3 Modèle de l’instabilité des microsatellites dûs à la transcription.

Une répétition de CAG est présente sur le brin du haut et une répétition de CTG sur le brin du bas, dans la direction de la transcription. La transcription se réalise de la gauche vers la droite. Le passage de l’ARN pol2 (en bleu clair) entraîne la formation de structure secondaire au niveau des microsatellites. L’épingle à cheveux est stabilisée par la fixation du complexe mutS (en vert et bleu). L’ARN pol2 suivante est arrêté par la présence de ce complexe, ce qui induit une réponse de type NER (nucleotide excision repair). Le déplacement de l’ARN pol2 permet d’initier la réparation par le système du NER (XPG, ERCC1 et XPF). La réparation entraîne une expansion ou une contraction du microsatellite. Adapté de Lin et al, 2006(Lin, Dion, and Wilson 2006).

Page 24: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

23

1.4. Les erreurs au cours de la recombinaison

La recombinaison est un mécanisme qui permet de transférer directement un fragment d’une

molécule d’ADN vers une autre. Ce transfert peut-être réciproque ou être effectué dans une

seule direction. Ce transfert nécessite que les molécules d’ADN soient capables de s’apparier,

et donc partage une certaine identité de séquences pour amorcer le processus. Cette identité

peut-être très localisée, entre des molécules de taille et d’origines très diverses. On parle alors

de recombinaison non-homologue. Différents processus effectués par les êtres vivants

haploïdes sont initiés par une phase de recombinaison non-homologue : Le transfert

horizontal de matériel génétique, la rétro-transposition d’éléments mobiles ou encore

l’insertion de phages (Insertion Sequences). Ces mécanismes sont fondamentaux chez ces

organismes car ils permettent une dispersion des variations génétiques au sein d’une même

population, de population différentes ou même d’espèces différentes.

Chez les organismes diploïdes, de nombreux événements de recombinaison réciproques

s’effectuent lors de la formation des gamètes entre les chromosomes homologues, permettant

de briser la liaison génétique existant entre des variations portées par une même molécule

d’ADN parentale (i.e. de permettre à un individu de produire des gamètes contenant des

variations hérités des molécules d’ADN paternelles et maternelles). La recombinaison est

dites homologue car elle s’effectue entre des molécules très ressemblantes, ayant une forte

identité et au niveau d’un même locus. D’autres part, des mécanismes de recombinaison sont

à l’œuvre lors de la réparation d’un certain nombre de dommages faits à une des molécules

d’ADN, en utilisant la molécule d’ADN homologue comme matrice.

Page 25: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

24

Les longues répétitions génomiques sont susceptibles d’altérer la spécificité de la

recombinaison homologue. Chaque exemplaire de la répétition, disséminé au sein du génome,

est susceptible d’être reconnu comme une zone homologue au cours de la recombinaison. Il

en résulte une recombinaison dite ectopique car effectuée entre deux segments d’ADN situés

à des loci différents avec comme conséquence un remaniement important de la structure des

génomes (Achaz et al. 2002).

Toutefois, ce qui nous intéresse ici est de savoir s’il existe un lien entre recombinaison et

mutation des microsatellites. Certaines observations suggèrent en effet que la recombinaison

est une cause majeure de l’évolution des microsatellites et qu’inversement les microsatellites

sont susceptibles d’être à l’origine des sites de recombinaison (Treco and Arnheim 1986;

Kirkpatrick et al. 1999; Gendrel, Boulet, and Dutreix 2000). L’étude mené par Bagshaw et ses

collègues (Bagshaw, Pitt, and Gemmell 2006) à mis en évidence chez la levure

Saccharomyces cerevisiae une association entre les hot-spots de recombinaison (des sites

récurrents d’initiation de la recombinaison au cours de la méiose) et densité de microsatellites.

Toutefois, cette association entre microsatellites et hot-spots de recombinaison ne s’observe

qu’avec certains types de microsatellites (des répétitions de mono-, di- et tri-nucléotides

intergéniques), et sur une fraction réduite des hot-spots (117) mis en évidences chez la levure.

Cette association n’est pas significative pour tous les autres microsatellites et pour les hot-

spots situés aux abords des régions géniques.

Cette association n’a pas pu être détectée dans les génomes de primates, probablement car les

sites d’initiation de la recombinaison sont trop labiles pour que cette association soit

détectables (Myers et al. 2005).

Page 26: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

25

Dans une autre étude menée sur S. cereviasiae, Richard et Pâques ont proposé un modèle

permettant de rendre compte du lien entre recombinaison et instabilité des répétitions

(Richard and Paques 2000). Ce modèle a pour base le SDSA (pour synthesis-dependant strand

annealing, qu’on pourrait traduire par association de brins dépendant d’une étape de

synthèse). La recombinaison est initiée par une cassure double-brin. Après invasion du brin 3’

au niveau de la molécule homologue, les étapes de synthèse se font sur les deux brins ont eu

lieu la cassure. Ensuite, une ou plusieurs étapes de dissociations (unwinding) du brin

synthétisé puis de réassociations peuvent se produire. Entre chaque étape, une ré-invasion de

la molécule patron a lieu. C’est au cours de chacune de ces étapes de ré-invasion, si une

répétition est présente au niveau de la cassure initiale, qu’un mésappariement est susceptible

de se produire entre les différentes unités qui constituent la répétition (voir figure 1.4). Ce

mécanisme mutationnel est donc susceptible de modifier drastiquement le nombre de

répétition.

Page 27: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

26

Figure 1.4 : Modèle de réarrangement de répétition par SDSA.

L’initiation se fait suite à une cassure double-brin et l’invasion par l’extrémité 3’ de la matrice homologue. Les flèches représentent les étapes de synthèse d’ADN. La molécule cassée ou « donneuse » est en bleu, la molécule matrice ou « receveuse » est en rouge, les brins néo-synthétisées en orange. Les répétitions en tandem sont hachurées. Les brins néosynthétisées contiennent tout deux la répétition et leur mésappariements peuvent entraîner une contraction ou une expansion de la répétition. Alternativement, (sur la droite), les brins néo-synthétisés peuvent se dissocier et se « mésapparier » lors de la ré-invasion. Expansion et contraction peuvent alors se produire, plusieurs fois au cours d’un même événement de recombinaison.

Page 28: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

27

Une autre observation suggère cependant un lien faible entre recombinaison et mutation des

microsatellites. En effet toute une portion du chromosome Y, qui détermine le genre sexuel de

l’individu, n’est jamais en présence d’un homologue au cours du cycle vital. De ce fait, cette

portion n’est pas soumise à la recombinaison homologue méiotique. Or la fréquence observée

de mutation de microsatellites dans cette portion du chromosome Y n’est pas

significativement inférieure à celle observée dans les autosomes (Gusmao et al. 2005)

Page 29: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

28

1.5. Les insertions d’éléments mobiles de type Alu

Les séquences Alu sont des éléments mobiles de type SINE (short interspersed elements),

c’est-à-dire de moins de 500 paires de bases (Schmid 1996). Ces éléments sont qualifiés de

mobile en vertu de leur capacité à se transposer. Le mécanisme de transposition s’apparente

une forme de copier-coller. Un ARN messager de type Alu est transcrit par l’ARN

polymérase III. La rétro-transcription de l’ARN sous forme d’ADN au sein d’un site

d’insertion (voir figure 1.5) est réalisée par une enzyme de type reverse transcriptase produite

par d’autres classes d’éléments mobiles (Mathias et al. 1991). Les séquences Alu représentent

à elle seule environ 10% du génome humain, soit plus d’un million de copies (Lander et al.

2001). Différentes études ont mis en évidence une association chez les primates entre les

éléments Alu et des séquences de faibles complexités (Economou et al. 1990; Jurka and

Pethiyagoda 1995; Toth, Gaspari, and Jurka 2000). Deux séquences de faibles complexité

accompagnent les élements Alu lors de leurs insertions. La région centrale qui contient la

séquence A5TACA6 et la queue poly-A qui contient jusqu’à 100 adénines consécutives. (voir

figure 1.6). L’association observée entre éléments Alu et microsatellites n’est donc pas

étonnante. Mais cette association peut également être due à la présence de microsatellites au

sein du site d’insertion des éléments Alu (Arcot et al. 1995). Au total, il a été estimé que les

éléments Alu pouvaient potentiellement générer 2.2 millions de sites microsatellites (Batzer

and Deininger 2002). L’influence des éléments Alu sur la présence des microsatellites codants

reste toutefois soutenue par peu d’observations (Mais voir par exemple le microsatellite

intronique du gène de la frataxine (Justice et al. 2001).

Page 30: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

29

Figure 1.5 : Structure et retrotranspostion d’un élément Alu humain.

a) La longueur totale d’un élément Alu est d’environ 300 paires de bases (variant avec la longueur de la queue poly-A). Ils sont composés d’une région centrale riche en adénines et flanqués de deux répétitions directes dérivées du site d’insertion (flèches noires). La région 5’ contient un promoteur (boites A et B). La région 3’ est constituée d’une répétition directe d’Adénine.

b) La transcription est réalisée par l’ARN polymérase III, initiée au niveau de la région promotrice (A et B). Les séquences Alu ne comportant pas de signal de terminaison, la transcription se poursuit en aval de la région 3’ jusqu’à rencontré une région poly-T.

c) La coupure au site d’insertion (TTAAAA) par l’endonucléase L1 permet l’invasion et la rétro-transcription (flèche mauve) du transcrit.

d) Deux nouvelles répétitions directes sont crées au niveau du site d’insertion (flèches rouges)

Adapté de Batzer et Deiniger, 2002 (Batzer and Deininger 2002).

Page 31: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

30

1.6. L’importance du système MMR pour limiter l’instabilité

des microsatellites

1.6.1. Le système de correction des mésappariements

Le système de correction des mésappariements (MMR) participe au maintien de l’intégrité du

génome chez les organismes vivants. Ce système reconnaît et corrige les bases mésappariées

et les petites insertions/délétions. C’est donc un système de réparation ou de correction post-

réplicatif. En plus de ce rôle majeur, le système MMR est également impliqué dans la

restriction de la recombinaison entre les séquences d’ADN divergentes par inhibition de leur

interaction, de manière à maintenir l’intégrité des espèces en réduisant la fréquence des

recombinaisons (Modrich and Lahue 1996,Kolodner 1996; Harfe and Jinks-Robertson 2000a;

Schofield and Hsieh 2003).

1.6.2. Le système MMR chez les procaryotes

Les protéines «Mut» du système MMR ont été initialement identifiées chez l'organisme

procaryote Escherichia coli (Radman and Wagner 1986). Trois protéines majeures, MutS,

MutL et MutH, sont impliquées dans la correction des mésappariements. Comme nous

l’avons expliqué plus haut, les mésappariements résultent soit d’une mauvaise incorporation

nucléotidique soit d’un dérapage de la polymérase ayant échappé à la correction d’épreuves.

La première étape de la correction des erreurs de réplication implique l’homodimère MutS,

qui reconnaît le mésappariement et se lie à la base incorrecte afin d’initier la cascade des

événements du système MMR. L’hydrolyse de l’ATP assure le mouvement bi-directionnel de

Page 32: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

31

l’ADN vers MutS afin de former une structure en boucle. En présence d’ATP et d’un

mésappariement, MutS recrute un homodimère constitué de la protéine MutL. L’assemblage

de ce complexe formé au niveau de la structure en boucle de l’ADN stimule l’activité

endonucléolytique de MutH, laquelle clive le brin d’ADN nouvellement synthétisé à partir

d’une séquence voisine GATC non-méthylée. Le brin clivé est ensuite dégradé par une

exonucléase, puis la correction du mésappariement est complétée par une nouvelle synthèse

d’ADN effectuée par une polymérase spécifique (polymérase III) suivie d’une ligature qui

assure la continuité de la restauration du brin (Modrich and Lahue 1996; Jiricny 1998;

Schofield and Hsieh 2003).

Page 33: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

32

1.6.3. Le système MMR chez les eucaryotes

Chez les eucaryotes, les caractéristiques générales du système MMR sont conservées, mais le

nombre de gènes MMR est supérieur à celui retrouvé chez les bactéries et variable selon les

espèces (Harfe, Minesinger, and Jinks-Robertson 2000). À titre d’exemple il existe six

homologues de MutS (MSH1-MSH6) et quatre homologues de MutL (MLH1, MLH2, MLH3

et PMS1) dans le génome de S. cerevisiae. Parmi les homologues de MutS, seules les

protéines MSH2, MSH3 et MSH6 interviennent dans la correction de mésappariments. MSH1

est impliquée dans la réparation et le maintien de l’ADN mitochondrial (Reenan and

Kolodner 1992) pour leur part, MSH4 et MSH5 interviennent dans les processus de

recombinaison méiotique (Hollingsworth, Ross-Macdonald et Roeder 1994; Ponte, and

Halsey 1995).

Page 34: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

33

Figure 1.6 : Représentation schématique du système de correction des

mésappariements post-réplicatifs dans des cellules humaines.

L’erreur est ici un mésappariement de type G/T à corriger en G/C. Le processus démarre par la liaison du complexe hMSH2/hMSH6 qui recrute le dimère hMLH1/hPMS2. Ce complexe possède alors la capacité de se déplacer dans les deux directions sur la molécule d’ADN (flèche verte). Lorsqu’il rencontre une discontinuité sur un brin, par exemple un gap entre deux fragments d’okazaki, il se lie à l’anneau PCNA (cercle bleu) et recrute une exonucléase (EXO1, en rouge) initiant ainsi la dégradation du brin néo-synthétisé. Ce processus est ré-initié par des fixations secondaires de complexes hMSH2/hMSH6/hMLHl/hPMS2 au niveau du mésappariement. Des protéines de type RPA (losanges bleus) viennent stabiliser le simple brin. Une polymérase puis une ligase assurent la re-synthèse du brin et sa ligation. Adapté de Stojic et al, 2004 (Stojic, Brun, and Jiricny 2004).

Parmi les autres eucaryotes, la drosophile possède le plus faible nombre de gènes MMR, où

seuls les homologues de MSH2 (spel1), MSH6, MLH1 et PMS1 ont été identifiés. La

drosophile ne dispose d’aucun homologue de MSH1, MSH3, MSH4, MSH5, MLH2 ou

MLH3 (Flores, 2001). De tous ces gènes, le gène MSH2 joue un rôle central dans le système

Page 35: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

34

MMR car son altération entraîne une augmentation importante du taux de mutation (Reenan

and Kolodner 1992).

Contrairement aux procaryotes, où les protéines MutS et MutL fonctionnent en homodimères,

les protéines MMR agissent en hétérodimères chez les eucaryotes. Des études génétiques et

biochimiques indiquent que le complexe MSH2-MSH6 (appelé MutS!) répare les bases

mésappariées et les petites insertions/délétions constituées d’un ou deux nucléotides, alors que

le complexe MSH2-MSH3 (MutS") joue un rôle majeur dans la correction de plus grandes

boucles d’insertions/délétions, ayant entre 2 et 8 nucléotides.

Pareillement, chez les eucaryotes, il existe plusieurs homologues de MutL, lesquels forment

également des hétérodimères. La toute première protéine MMR identifiée chez la levure fut

PMS1, un homologue de MutL (Williamson, Game, and Fogel 1985). En l’absence de ce

gène, un phénotype particulier avait été observé, une ségrégation post-méiotique, c’est-à-dire

la présence de deux allèles différents d’un gène au sein d’un produit haploïde de la méiose.

C’est ce phénotype qui a donné son nom (« post-meiotic segregation », PMS) à cet

homologue de MutL. Les autres homologues eucaryotes de MutL (MLH1-MLH3) ont été

identifiés sur la base de la conservation de la séquence d’acides aminés (Prolla, Christie, and

Liskay 1994; Modrich and Lahue 1996; Flores-Rozas and Kolodner 1998). Parmi ces

homologues, MLH1 est le composant central puisqu’il forme des hétérodimères avec les trois

autres homologues de MutL (Wang, Kleckner, and Hunter 1999). Les complexes MutL!

(MLH1-PMS1) et MutL# (MLH1-MLH2) interviennent dans la correction des

mésappariements, alors que l’hétérodimère MutL" (MLH1-MLH3) intervient dans la

recombinaison méiotique et supprime les mutations (Harfe and Jinks-Robertson 2000a). La

mutation des gènes PMS1 ou MLH1 chez la levure entraîne une augmentation du taux de

Page 36: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

35

mutation comparable à celle observée chez les mutants msh2 (Prolla, Christie, and Liskay

1994), d’où l’importance de ces gènes dans la correction des mésappariements.

Jusqu’à présent, aucun homologue de la protéine MutH n’a été trouvé chez les eucaryotes. Il

est généralement postulé que la discrimination du brin à réparer se fait par un mécanisme

autre que par la méthylation de l’ADN. Les coupures au niveau du brin nouvellement

synthétisé constituerait une cible à la réparation (Figure 1.6). Les étapes de la resynthèse et de

la ligature achèveraient le processus de correction de façon analogue à ce qui se passe chez les

procaryotes (Harfe and Jinks-Robertson 2000a).

Page 37: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

36

1.6.3 MMR et séquences répétées

Les gènes MMR participent donc au maintien de l’intégrité du génome chez les organismes

vivants. De nombreux travaux antérieurs (Strand et al. 1993; Kolodner and Alani 1994; Sia et

al. 1997; Strauss, Sagher, and Acharya 1997; Tran et al. 1997; Flores and Engels 1999) ont

montré que ces gènes jouent un rôle important dans la stabilité des séquences répétées aussi

bien chez les procaryotes que chez divers eucaryotes (levure, drosophile, mammifère). Il a été

montré que, chez la S. cerevisiae, l’inactivation du gène MSH2 provoque une augmentation

de 350 fois de l’instabilité du dinucléotide (GT)17 (Strand et al. 1993), une augmentation de

plus de 1000 fois de l’instabilité d’un mononucléotide (C)8 (Strauss, Sagher, and Acharya

1997) et un accroissement de près de 10,000 fois de l’instabilité d’une répétition simple (A)14

(Tran et al. 1997). Chez la drosophile, une mutation du gène Spel1 (l’homologue de MSH2 de

levure) provoque une réduction de la stabilité des dinucléotides (Flores and Engels 1999).

Ce qui est vrai pour MSH2 l’est également pour d’autres gènes MMR. Plusieurs travaux

permettent d’illustrer un effet semblable suite à la mutation du gène PMS1 de levure (ou son

homologue chez d’autres eucaryotes). Par exemple, Strand et al. (1993) ont montré qu’une

mutation dans le gène PMS1 de levure se traduisait par une augmentation de l’instabilité du

microsatellite (GT)17 d’environ 700 fois. Chez la souris déficiente en PMS2, Yao et ses

collègues (Yao et al. 1999). ont noté une augmentation de 50 fois de l’instabilité du

mononucléotide (A)24 ainsi qu’un accroissement de 24 fois du dinucléotide (CA)33 par rapport

aux souris sauvages.

Page 38: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

37

1.7. L’importance du système NMD pour limiter les

conséquences des mutations des microsatellites

Le système NMD, pour Non-sens Mediated Decay, permet la détection de transcrits contenant

un codon stop prématuré et d’induire leur dégradation (Baker and Parker 2004).

Les acteurs principaux de cette reconnaissance sont les protéines UPF1, UPF2 et UPF3. Ces

trois protéines, découvertes chez S. cerevisiae (Lelivelt and Culbertson 1999), sont conservées

chez un grand nombre d’espèces eucaryotes, y compris chez les mammifères et jouent un rôle

similaire chez tous ces organismes (Maquat 2004). Un des modèles actuels de

reconnaissances des codons stop prématuré (PTC) fait intervenir le complexe de jonction des

exons (EJC). Ce complexe se met en place au cours de l’étape d’épissage des introns, à 22

nucléotides en amont de la jonction entre deux exons. Lorsque le ribosome rencontre un

codon stop en amont d’un de ces complexes, il recrute UPF1 via les protéines TRF1 et TRF3

(facteur d’arrêt de la traduction). UPF2 et UPF3, liés au complexe EJC, sont alors

susceptibles d’interagir avec UPF1 et d’entraîner la dégradation du messager via l’exosome,

le complexe Ski et l’exonucléase XRN1 (voir figure 1.7).

L’interaction entre UPF2 et UPF3 se fat avec le complexe de jonction exon-exon, le système

NMD n’est donc capable de détecter un codon stop prématuré que si celui-ci est situé avant le

dernier intron du messager. Ceci revient à dire qu’un codon stop prématuré dans le dernier

exon d’un messager n’induira pas la dégradation de ce dernier par la voie du NMD.

Page 39: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

38

Chez les organismes ne présentant pas d’interruption des séquences codantes (notamment la

levure, chez qui les introns sont peu fréquents), l’activation du NMD se réalise grâce aux

interactions entre les protéines UPF liées à la queue poly-A (PABP) et au ribosome en arrêt.

L’existence de ce mécanisme est d’importance dans le cadre de nos travaux, car les

microsatellites présents dans les phases codantes des gènes sont, du fait de leur mécanisme de

mutation par insertion/délétion, sont particulièrement susceptible d’introduire un décalage de

la phase de lecture et donc d’induire une réponse du complexe NMD.

Figure 1.7: Schéma illustrant le système NMD chez les mammifères :

a) lors de l’arrêt du ribosome au cours de la traduction sur le codon stop prématuré (PTC), les protéines TRF1 et TRF2 recrutent UPF1. Cette dernière se lie aux protéines UPF2 et UPF3 liées au complexe de jonction exon-exon (EJC) en aval.

b) Une fois le complexe NMD formé, le messager est entraîné vers une voie de dégradation dépendante de la nucléase XRN1, de l’exosome et du complexe Ski.

Adapté de Conti and Izaurralde, 2005 et de Wen and Brogna 2008.

Page 40: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

39

1.8. Les facteurs intrinsèques qui influencent l’instabilité

des mirosatellites

Le taux d’instabilité est affecté par plusieurs caractéristiques du microsatellite lui-même: la

longueur de l’unité répétée, la composition de l’unité répétée, le nombre de répétitions de

cette unité de base, le taux de transcription du microsatellite, la pureté de la séquence répétée

(ex. présence d’interruptions dans la répétition) et la composition de la séquence flanquante.

Ces différents paramètres seront développés dans les paragraphes suivants.

Il a été observé que des suites mononucléotidiques sont plus instables que les dinucléotides,

qui sont à leur tour plus instables que les trinucléotides, etc... Ceci a été rapporté chez E. coli

(Bichara, Wagner, and Lambert 2006), S. cerevisiae (Henderson and Petes 1992; Sia et al.

1997), ainsi que chez dans des cultures de cellules de mammifères (Boyer et al. 2002). Il s’en

dégage une tendance : pour un nombre égal de répétitions, plus l’unité répétée est longue, plus

le microsatellite sera stable.

La composition en bases influence également le taux de mutation des microsatellites. Les

répétitions de G ou de C sont plus instables que celles composées de A ou de T (Boyer et al.

2002). Chez S. cerevisiae, par exemple, des mononucléotides constitués de 10 C ou 10 G sont

de trois à 19 fois plus instables que ceux composés de 10 A ou de 10 T (Harfe and Jinks-

Robertson 2000b).

Une étude chez E. coli (Morel et al. 1998) a montré que l’instabilité d’un microsatellite d’une

longueur donnée dépend de son orientation par rapport au sens de la réplication, l’instabilité

Page 41: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

40

d’un poly(TG) étant deux fois plus élevée que celle d’un poly(AC) de même longueur.

D’autres travaux ont aussi montré que l’instabilité d’un trinucléotide est affectée par son

orientation (Kang et al. 1995; Maurer, O'Callaghan, and Livingston 1996). Par contre, une

étude chez S. cereviae a montré que le taux d’instabilité d’un poly(GT) est indépendant de

cette orientation (Henderson and Petes 1992).

Enfin, la longueur de la séquence répétée, c’est-à-dire le nombre de fois qu’est répétée l’unité

de base, affecte l’instabilité des microsatellites (Wierdl, Dominska, and Petes 1997; Yamada

et al. 2002a ; Ellegren 2004). La fréquence de dérapage de l’ADN polymérase dans les

mononucléotides est d’autant plus élevée que le microsatellite est long (Kroutil et al. 1996).

Chez S. cerevisiae, un microsatellite de 14 adénines est par exemple 400 fois plus instable que

son homologue contenant 4 adénines (Tran et al. 1997). Une étude effectuée chez Arabidopsis

thaliana a montré que l’instabilité d’un mononucléotide constitué de guanine est positivement

corrélée à sa longueur (Leonard, Bollmann, and Hays 2003).

L’étude de l’importance relative des facteurs influençant les microsatellites à pu être

déterminé récemment en examinant des loci de microsatellites homologues dans les génomes

du chimpanzé et de l’homme (Kelkar et al. 2008). Il se dégage de cette étude que :

- Les facteurs intrinsèques (nombre de répétitions, longueur du microsatellite,

composition du motif) sont de meilleurs prédicteurs de la mutabilité que les facteurs

extrinsèques (localisation génomique, niveau de transcription)

- le nombre de répétitions du motif est le facteur intrinsèque qui influence le plus la

mutabilité (i.e. explique 73 % de la variance dans leur modèle de régression).

Page 42: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

41

2. Microsatellites au sein des gènes

2.1. Abondance

La mesure de l’abondance des séquences microsatellites au sein des gènes à été largement

explorée par de nombreuses études, plus au moins exhaustives selon la disponibilité des

séquences génomiques à l’époque où elles ont été conduites. Chez les eucaryotes modèles

séquencés, un certain nombre de microsatellites ont été observés dans les phases ouvertes de

lecture, notamment dans les génomes de D. melanogaster, A. thaliana, C. elegans, H.sapiens

et S. cerevisiae (Toth, Gaspari, and Jurka 2000; Katti, Ranjekar, and Gupta 2001; Kantety et

al. 2002; Morgante, Hanafey, and Powell 2002).

Il existe également aujourd’hui des bases de données qui permettent d’accéder, pour les

espèces eucaryotes modèles dont le génome complet a été séquencé, à l’ensemble des loci

microsatellites (essentiellement dédiées à la recherche de marqueurs génétiques pour conduire

des études d’association). Par exemple : la Microsatellites Repeats Database for genomes à

l’adresse http://www.ccmb.res.in/mrd/ (Subramanian, et al. 2002), Satellog à

http://satellog.bcgsc.ca (Missirlis, et al. 2005), EuMicroSatdb à

http://ipu.ac.in/usbt/EuMicroSatdb.htm (Aishwarya, et al. 2007) et UgMicroSatdb à

http://ipu.ac.in/usbt/UgMicroSatdb.htm (Aishwarya, et al. 2008).

Chez de nombreuses espèces, les exons – contrairement aux autres régions génomiques –

contiennent de rares répétitions de di- et de tetra- nucléotides, mais présentent plus de tri- et

d’hexa-nucléotide répétés que tout autres type de motifs répétés (Edwards et al. 1998;

Metzgar, Bytof, and Wills 2000; Wren et al. 2000; Young, Sloan, and Van Riper 2000;

Page 43: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

42

Cordeiro et al. 2001; Morgante, Hanafey, and Powell 2002; Falcon and Gentleman 2007).

Chez tous les chromosomes humains, les répétitions de triplets sont approximativement deux

fois plus abondantes dans les exons que dans les autres régions génomiques (Subramanian,

Mishra, and Singh 2003).

Les exons et les transcrits de manière plus générale contiennent une plus grande proportion de

di-nucléotides GA/CT que de d’AT chez Arabidopsis thaliana (Morgante, Hanafey, and

Powell 2002) et dans les génomes des céréales étudiés (Kantety et al. 2002).

Parmi les différentes répétitions de triplets possibles (10 sous-classes ayant des propriétés

physico-chimiques comparables, voir (Jurka and Pethiyagoda 1995), AGC est le motif le plus

fréquent chez les animaux (40.9%-60.9%). Chez les plantes, c’est la sous-classe AAG qui est

dominante (28.3% - 42.1%), sauf chez les céréales où le triplet CCG est le plus abondant

(32%-49%).

Les différences observées selon les régions génomiques peuvent être interprétées comme

résultant soit d’un biais mutationnel (par exemple dans les régions transcrites ou au niveau

des points chauds de recombinaison voir d’une efficacité de réparation différentielle des

régions codantes), soit d’une sélection en faveur - ou à l’encontre – des microsatellites pour

des raisons fonctionnelles au sein d’une région génomique donnée.

Les différences observées entre type de motifs répétés au sein d’une même région génomique

peuvent être interprétés soit en terme mutationnel (capacité à adopter des structures

secondaires plus ou moins stable durant les glissement des brins en cours de réplication), soit

en terme sélectif avec par exemple pour les régions codantes les biais en composition en

acides aminés des protéines influant sur la représentation des différents type de

microsatellites.

Page 44: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

43

Une des études comparative entre les différentes taxons les plus complètes est celle menée par

Toth, Gaspari et Jurka en 2000 (Toth, Gaspari, and Jurka 2000). Cette étude est un

recensement de l’ensemble des microsatellites dont la longueur en paires de bases est au

moins égale à 12. Elle à été conduite sur les données présentes sur le site genbank du NCBI à

une époque ou les génomes complets étaient peu nombeux. Les biais dans cette banque ont

été pris en considération et corrigés dans une certaines mesure par l’examen du chromosome

22 humain, entièrement séquencés à l’époque. L’analyse de ce chromosome a mis en évidence

une sous-estimation de la présence des répétitions de A/T, vraisemblablement due à sous

représentation des éléments Alu parmi les séquences étudiées.

Chaque type de motifs répétés est considéré séparément. Les comptages sont effectués dans

différentes régions génomiques : intergénique, intronique, ou exonique. Les différences

d’abondance selon les types de motifs répétés, la région génomique, le taxon (primates,

mammifères, muridés, vertébrés, embryophytes, arthropodes, champignons, annélides) et les

différentes espèces qui les représentent sont présentée sous forme de tables. Il se dégage de

cette analyse les points suivants :

- Dans les exons, les répétitions de tri-nucléotides sont invariablement les plus

abondants dans tous les taxons, suivis par les répétitions d’héxanucléotides. Dans les

introns et les régions intergéniques, les répétitions d’hexanucléotides sont plus

abondantes que dans les exons, sauf chez S. cerevisiae et les embryophytes.

- Chez les primates, les répétitions de mononucléotides sont les plus abondantes. Dans

les introns et les régions intergéniques, elles sont deux fois plus abondantes que les

répétitions de di-, de tri- de tétranucléotides ( qui sont présentes en quantités

similaires).

Page 45: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

44

- Chez les muridés, les répétitions de di-nucléotides sont environ trois fois plus

fréquentes que les répétitions de mono-nucléotides. Les répétitions de tri-nucléotides

sont rares en comparaison des répétitions de di et de tetra-nucléotides.

- Les répétitions de dinucléotides sont les plus abondantes dans les régions introniques

et intergéniques de tous les taxons à l’exception des primates, des embryophytes et des

champignons.

- Chez les vertébrés, les répétitions de tétra-nucléotides sont plus abondantes que les

répétitions de triplets dans les introns et les régions intergéniques et dans ces mêmes

régions, chez les mammifères, les répétitions de pentanucléotides sont plus abondantes

que les répétitions de triplets.

- Chez les arthropodes et les champignons, les répétitions de tétra-nucléotides

constituent la classe de microsatellites la moins fréquente dans les régions inter-

géniques et les introns.

- De manière générale, les muridés sont les êtres vivants dont le génome contient le plus

de microsatellites, tandis que C. elegans est celui qui en contient le moins.

Ces quelques différences significatives observées doivent nous convaincre de la grande

hétérogénéité de la représentation des différents type de microsatellites selon l’espèce

considérée. Ces variations peuvent avoir pour origine un certain nombre de biais mutationnels

influant soit la composition de ces génomes, et donc celle des microsatellites qu’ils

contiennent, soit le taux de mutation des microsatellites per se, par exemple si des différences

d’efficacité du système de réparation de mésappariement existent entre ces différentes

Page 46: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

45

espèces. La taille effective des populations et le temps de générations sont également

susceptibles de moduler le taux apparent de mutation.

Indubitablement, pour les microsatellites codants, un certain nombre de contraintes

fonctionnelles sont susceptibles d’influencer leur représentation.

Cette sélection ne peut être envisagée que si ces séquences ont un impact fonctionnel et sont

donc susceptibles d’influencer le succès reproductif des individus.

Page 47: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

46

2.2. Impact fonctionnel des microsatellites codants

L’idée que les séquences répétées en général et les microsatellites en particulier ne peuvent

être qualifiée de neutres lorsqu’elles évoluent dans l’environnement d’un gène est aujourd’hui

bien documentée (Kashi, King, and Soller 1997 ; Trifonov, 2003 ; Li et al. 2004). L’impact

sur le phénotype des individus peut-être très différent selon la portion du gène considérée.

Dans les régions régulatrices, non traduites ou introniques, l’effet des microsatellites peut-être

relativement complexe. On trouve un certain nombre de fonctions associées à la présence de

microsatellites géniques non-codants et des processus perturbés par leurs variations (voir

figure 2.1).

Page 48: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

47

Figure 2.1 : Fonctions régulatrices observées des microsatellites au sein des exons, des introns et des régions non-traduites (UTR) en 5’ et 3’. Adapté de (Li et al. 2004).

2.2.1. Régions 5’ non traduites

Des études ont mis en évidence qu’un microsatellite présent dans les régions 5’ non-traduites

peut influer sur le niveau de transcription ou de traduction du gène.

Une étude du gène humain codant pour la calmoduline-1 a montré qu’une délétion complète

de la séquence répétée (CAG)7 présente dans la région 5’ ce gène entraîne une diminution de

Page 49: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

48

50% du taux de transcription (Toutenhoofd et al. 1998). Une modification du nombre de

répétition constituant le microsatellite n’avait par contre pas d’effet notable.

Dans une expérience menée sur un gène rapporteur, il a été montré que l’expansion d’une

répétition (CTG)n situé dans la région 5’ diminuait le niveau de traduction du gène, et ont lié

la formation d’une structure de type épingle à cheveux à une inhibition de la fixation des

complexes d’initiation de la traduction au transcrit (Raca et al. 2000).

L’impact fonctionnel d’une variation de longueur d’un microsatellite au sein de la région 5’

du gène codant pour le récepteur de la vasopressine (AV1) a pu être mis en évidence sur des

populations naturelles de campagnols (Hammock and Young 2004). Dans cette étude, un

polymorphisme de longueur de ce microsatellite génique non-codant a pu être lié à un niveau

d’expression différentiel du récepteur de ce neuropeptide, et même, par extension à un trait

comportemental de ces animaux. Les données recueillies en laboratoire suggéraient en effet

que le caractère monogame ou non-monogame des mâles de cette espèce était lié à la

longueur de ce microsatellite.

Cette preuve d’un lien entre polymorphisme de longueur d’un microsatellite « régulateur » et

différentiation comportementale d’un petit mammifère a toutefois été remise en cause lors

d’investigations de terrains menées par des écologistes, qui ont confirmé le lien entre

longueur du microsatellite et niveau d’expression du récepteur à la vasopressine, mais pas

avec le caractère monogame des mâles campagnols (Ophir et al. 2008).

D’un point de vue strictement mécanistique, ces répétitions en 5’ semblent pouvoir servir de

site de fixation pour des facteurs de transcription et / ou de traduction. Une expérience a été

menée sur le facteur de transcription CCAAT/enhancer binding protein ! (C/EBP! ), qui joue

un rôle dans la régulation de la croissance et la différentiation des hépatocytes. Ce gène peut

Page 50: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

49

produite deux isoformes différentes, selon le site d’initiation de la traduction utilisé

(Calkhoven et al. 1994). Le choix du site d’initiation est dépendant de la fixation de la

protéine de liaison aux répétition de CUG (CUGBP1). Cette protéine a la capacité de se lier

aux répétitions CUG présentes en 5’ et dans le début de la séquence codante de la C/EBP! .

Cette liaison entraîne la production de l’isoforme de la C/EBP! présentant le plus petit poids

moléculaire. Il a été suggéré cette fixation de la CUGBP1 sur les répétitions de CUG permet

de stabiliser la structure qui favorise le démarrage de la traduction à partir du site d’initiation

situé le plus en amont.

Une autre étude (Lawson and Zhang 2008) a mis en évidence que le distribution des

microsatellites dans les régions 5’ des gènes était significativement biaisée lorsque l’on

distingue les gènes dit de ménage, exprimés de façon ubiquitaire, et les gènes dit « tissus-

spécifiques » qui présentent des patrons d’expression différents selon les types cellulaires. Les

gènes tissus-spécifiques présentent plus de microsatellites en 5’, ces derniers sont plus longs

et enrichis en GC. Ces différences observées entre ces deux groupes de gènes ne sont

marqués que si l’on considère les régions 5’ (non significatif dans les exons, les introns et les

régions 3’ non traduites). Cette étude suggère fortement que le rôle des microsatellites en 5’

dans la régulation de l’expression des gènes n’est pas anecdotique, et que leur présence dans

ces régions est le reflet de l’implication de ces répétitions dans la chorégraphie subtile de

l’expression spatiotemporelle des gènes.

Page 51: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

50

2.2.2. Introns

Plusieurs mécanismes sont susceptibles d’être influencé par la présence de microsatellites au

sein de introns.

La transcription du gène codant pour la tyrosine hydroxylase chez l’homme est influencé par

une répétition du tetra-nucléotide TCAT présente dans le premier intron. Le caractère

interrompu/pur de ce microsatellite, conservé dans le phylum des primates (Meyer et al.

1995), gouverne le niveau d’expression de ce gène (Meloni et al. 1998).

L’expansion d’une répétition de GAA intronique dans le gène FRDA – impliqué dans l’ataxie

de Friedreich - inhibe son expression de façon pathologique (Sakamoto et al. 2001).

Un phénomène de co-régulation d’une répétition de GT dans le premier intron et d’une

répétition de CA dans la région 5’ UTR a été mise en évidence pour le gène COL1A2 qui

code pour la sous-unité alpha2 du collagène de type 1 chez l’homme (Akai, Kimura, and Hata

1999). L’activité transcriptionnelle de ce gène est accrue par la présence de ces deux

microsatellites, mais pas par l’un des deux.

La répétition de CA présente dans le premier intron du gène codant pour le récepteur au

facteur de croissance de l’épiderme (EGRF) présente un polymorphisme de longueur dans les

populations humaines qui module le niveau d’expression du gène (Gebhardt, Burger, and

Brandt 2000b). Plus le microsatellite est court, plus le niveau de transcription du gène

augmente, favorisant l’apparition de certain type de cancer (Brandt et al. 2006). La courbure

de l’ADN entraînée par la présence de cette répétition permettrait la liaison d’un répresseur au

complexe de transcription (Gebhardt, Burger, and Brandt 2000a).

Page 52: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

51

L’épissage, qui permet d’exciser spécifiquement certaines parties du transcrit avant la

production de la protéine, est également susceptible d’être influencé par la présence de

microsatellite intronique. Des signaux activateurs de ce mécanisme (enhancers) sont

généralement assez complexe (Gabellini 2001), mais dans plusieurs cas un microsatellites

peut être reconnu par le machinerie du splicosome (complexe de protéine assurant le

déroulement correct et spécifique de l’épissage), notamment des répétitions du motif GGG

(Sirand-Pugnet et al. 1995). Des inclusions d’exons tissus-spécifiques sont modulée par la

nombre de répétition de microsatellites introniques. Dans le gène CFTR, qui code pour le

régulateur de la conductance transmembranaire du flux d’ions chlorure (dont les mutations

sont responsables de fibrose kystique aussi appelée mucoviscidose), contient deux

microsatellites introniques (TG)n et (T)n localisé au site accepteur d’épissage (jonction intron

8/ exon9). Des variations du nombre de répétitions sont impliqué dans l’inclusion

conditionnelle de l’exon 9 dans le transcrit épissé (Pagani et al. 2000).

La localisation sub-cellulaire des transcrits est également susceptible d’être influencée par la

présence d’un microsatellite intronique. Dans le cas du gène ZNF9, qui code pour une

protéine présentant des motifs en doigts de zinc (permettant la liaison à l’ADN), une

expansion du motif CCTG répété de l’intron 1 entraîne la séquestration nucléaire des

transcrits, malgré une maturation – épissage et poly-adenylation - apparemment correcte de

ces derniers (Liquori et al. 2001). Ce phénomène est à l’origine de la dystrophie myotonique

de type 2.

Page 53: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

52

2.2.3. Régions 3’ non traduites

La présence de microsatellites dans les régions 3’ non-traduites a été liée au mécanisme de

glissement lors de la transcription. Dans une expérience menée sur le gène rapporteur URA3

chez S. cerevisiae, un phénomène d’élongation du transcrit à pu être mis en évidence, et un

mécanisme à été proposé pour rendre compte de ce phénomène (Fabre, Dujon, and Richard

2002). Les conséquences de ce glissement ont été mises en évidence par l’étude de certaines

pathologies humaines. L’expansion de la répétition de CTG situé dans la région 3’ du gène

DMPK entraîne une dystrophie myotonique de type 1 (Ranum and Day 2002). Les transcrits

s’accumulent alors dans noyau de la cellule et présentent des aberrations dans leur processus

maturation.

La toxicité pour les cellules semble provenir de l’accumulation de ces transcrits aberrants au

sein du noyau, et de leur interaction avec les protéines de liaisons aux répétitions de CUG

(Roberts et al. 1997).

Enfin, un autre mécanisme susceptible d’être affecté par la présence de microsatellites dans

les régions géniques est l’atténuation transcriptionnelle ou « silencing ». Ce mécanisme est dit

épigénétique car il ne met pas en jeu un changement quelconque de la séquence nucléotidique,

mais diverses modifications chimiques de la molécule d’ADN ou des protéines capables de la

lier. Ces modifications (par exemple des methylations de nucléotides ou des ajouts de divers

groupements chimiques sur les protéines histones) sont susceptibles de modifier l’accessibilité

de l’ADN aux complexes d’initiation de la transcription. Lorsque cette accessibilité est quasi-

nulle, on peut parler de « silencing ». La description de ce mécanisme dépasse largement le

Page 54: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

53

cadre de l’introduction à notre étude, mais le lien avec la présence de répétitions est à

signaler.

En effet les modifications épigénétique sont capables d’entraîner une condensation régionale

de l’ADN. La région en question est alors qualifiée d’hétérochromatine (à opposer à

l’euchromatine, forme moins condensée de l’ADN et donc accessible). Des expérience menée

en 2003 ont démontré (Saveliev et al. 2003) que les variants de la répétition de CUG situé en

3’ de la séquence codante du gène FRDA qui présentent un grand nombre de motif répétés

sont susceptibles d’induire la transition d’un état euchromatinien vers un état

hétérochromatinien dans la région génomique dans lequel est inséré ce gène. Cette induction

semble être permise par le biais d’interaction avec la protéine HP1, acteur reconnu des

modifications épigénétiques entraînants la formation d’hétérochromatine (Kellum 2003).

2.2.4. régions codantes

En sus des régions non-codantes énumérées ci-dessus, un gène codant pour une protéine

contient également une phase ouverte de lecture, ou séquence codante. Cette séquence

codante est formée d’une succession de codons. Les codons sont des groupes de trois

nucléotides qui sont associés spécifiquement et séquentiellement à un acide aminé lors du

processus de traduction afin de former une protéine. Chaque modification d’un nucléotide de

la séquence codantes peut entraîner une modification de cette protéine. L’insertion (ou la

délétion) d’un nombre de nucléotide non multiple de trois va entraîner un déphasage dans la

séquence codante (voir figure 2.2). Dans le cas des répétitions de triplets (ou d’hexa-

nucléotides), des acides aminés identiques sont insérés ou supprimés dans la séquence

codante.

Page 55: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

54

Les mutations de microsatellites codants ont donc potentiellement un impact très important

sur la structure de la protéine codée par le gène dans lequel ils sont enchâssés. Les

expansions/contraction de triplets créent des succession d’acide aminés qui sont à l’origine

chez l’homme de nombreuses maladies neuro-dégénératives. Les mutations de microsatellites

non-multiples de trois aboutissent à la production d’une protéine tronquée, un phénomène

observé dans certain type de cancer.

Figure 2.2 : Conséquence d’une substitution non silencieuse et de l’insertion d’une adenine au sein d’une séquence codante sur la protéine correspondante.

La substitution - en vert - d’un G (guanine) par un C (cytosine) transforme le codon GCA (acide aminé correspondant : Alanine ) en un codon CCA (acide aminé correspondant : Proline). L’insertion d’un A au niveau de la répétition – en rouge - décale d’un nucléotide la phase de tous les codons en aval, et donc les acides aminés incorporés. Rapidement apparaît un codon TGA, signal d’arrêt de la traduction de la protéine.

Page 56: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

55

2.2.4.1 Maladies neurodégénératives

L’impact fonctionnel des microsatellites codants probablement le mieux connu est le rôle que

joue les répétitions de triplet dans un certain nombre de maladies neuro-dégénératives

susceptibles d’affecter les humains (Cummings and Zoghbi 2000; Masino and Pastore 2002).

La majorité de ces maladies sont causées par l’expansion de répétition codantes du

trinucléotide CAG, qui se traduit par une répétition de Glutamine au sein de la proteine

correspondante. Les exemples les mieux connus sont la maladie de Huntington (HD),

l’atrophie dentato-rubro-pallido-luysienne (DRPLA), l’atrophie spino-bulbaire musculaire

(SBMA), et différentes ataxies spinocerebelleuses (SCA1, SCA2, SCA3, SCA6, SCA7). Ces

maladies partagent un certain nombre de caractéristiques cliniques : Elles sont héréditaires,

progressives, touchant généralement des adultes d’une quarantaine d’années, causent une

perte de fonction neuronale et finalement un décès suite à la destruction de ces cellules 10 à

20 ans après le début des symptômes. Plus le nombre de répétitions de CAG héritées est

grand, plus l’apparition des symptômes est précoce. Les répétitions présentent une instabilité

somatique et germinale. Chez les familles atteintes, la transmission entre générations

s’accompagne d’une diminution du temps de latence avant l’apparition des symptômes.

On considère que l’expansion des poly-glutamines subséquentes à celle des répétitions de

CAG confère aux protéines un gain de fonction (Galvao et al. 2001; Ranum and Day 2002).

Dans la plupart des cas, la toxicité de ce gain de fonction a été démontrée. Dans des cellules

en culture et sur des modèles animaux, il a été montré que les poly-Glutamine sont

susceptibles de former des aggrégats toxiques pour les neurones et les cellules périphériques.

Il est également possible que les ARN messagers contenant la répétition de CAG interfère

avec les processus d’epissage et de traduction, aboutissant à une perte de la proteine, ou à son

interaction anormale avec des protéines liant l’ARN (Galvao et al. 2001). D’autres

Page 57: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

56

expériences suggèrent que les protéines mutantes (contenant une expansion de poly-

Glutamine) interagissent de façon anormale avec la voie ubiquitine/proteasome et lysosomal

(Yamada, Tsuji, and Takahashi 2002).

Une autre classe de triplet est responsable de pathologies humaine, créant des poly-alanines

au sein des gènes concernés. Au niveau génomique, ce sont des répétitions de codons CGN

(le N désignant n’importe lequel des quatre nucléotides), qui peuvent être dégénérées et donc

potentiellement moins instables. Pourtant, neuf pathologies sont associées à des expansions de

ces répétitions (pour une revue, voir Albrecht and Mundlos 2005), affectant le développement

et entraînant par exemple des retards mentaux sévères sont documentées.

2.2.4.2 Instabilité des microsatellites et cancer

L’instabilité des microsatellites est le nom d’un phénotype associé a environ 90% des cancers

colorectaux sans polypes héréditaires (HNPPC – hereditary non polyposis colorectal cancer)

et d’environ 15% des formes sporadiques de cancers du côlon (Redston 2001), de tumeurs

gastriques (Yamada et al. 2002b), du poumon (Zienolddiny et al. 1999) ou encore de cancer

endometriaux (Vassileva et al. 2002). Ce phénotype ne décrit pas l’instabilité intrinsèque des

microsatellites telle que nous l’avons décrite jusqu’ici, mais le fait que dans ces cellules

tumorales, l’inactivation d’un corpus de gènes du MMR entraîne une augmentation drastique

du taux de mutation apparent des microsatellites (voir 1.6). Cette inactivation est

généralement causée par la mutation d’une répétition de mononucléotide An exonique au sein

de ces gènes (Duval and Hamelin 2002). Les répétition de mononucléotides codants sont en

effet des séquences beaucoup plus délétères pour les gènes qui les contiennent que les

répétitions de triplets, car les mutations qui les affectent entraîne systématiquement (sauf

Page 58: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

57

insertion multiple de 3) un décalage de phase de lecture et donc la production d’une protéine

tronquée.

Dans les cancers présentant un phénotype MSI, l’ensemble des gènes contenant un

microsatellite codant se trouve alors susceptible d’être inactivés. Tout comme les gènes du

MMR, un grand nombre de gènes impliqués dans le contrôle de la prolifération cellulaire

contiennent une répétition de mononucléotides (Duval and Hamelin 2002)). Dans les cas de

cancer à MSI, on retrouve généralement une mutation non-sens générée par la mutation d’une

de ses répétitions dans les gènes BAX, IGFIIR, TGFbetaR2, E2F4 et BRCA2 (Johannsdottir

et al. 2000).

2.2.4.3 Loci de contingences chez les bactéries

Chez les bactéries, le nombre de microsatellites est généralement assez réduit comparé aux

autres organismes (van belkum et al, 1998). Les bactéries qui en contiennent sont

généralement pathogènes. Ce biais à été étudié chez Haemophilus influenza, bactérie qui

colonise les voies respiratoires supérieures de l’homme. Cet organisme est capable d’échapper

à la surveillance du système immunitaire de son hôte grâce en faisant varier la phase de

lecture des lipopolysacharraide (LPS) (Weiser, Love, and Moxon 1989; Roche and Moxon

1995), constituants de sa paroi susceptibles de déclencher une réponse immunitaire. Cette

variation de phase de lecture est permise par l’expansion ou la contraction de répétition du

tetra-nucléotide CCAT, ce qui aboutit à la production de différentes forme de LPS (voir figure

2.2). L’idée qu’un certain nombre de gènes, non-essentiels, peuvent contenir des séquences

répétées instables et ainsi être capable de s’adapter plus facilement aux contingences d’un

environnement fluctuant a été notamment popularisée par Moxon, en 1994 (Moxon et al.

Page 59: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

58

1994). Ces loci de contingences semblent être distribué parmi les gènes codant pour des

protéines susceptibles d’être reconnues par le système immunitaire de l’hôte .

La réponse à des stress environnementaux, par essence imprévisibles, est également une des

raisons de promouvoir une certaine forme de variabilité. Chez E. coli, il a pu être démontré

que les gènes impliqués dans la réponse aux stress environnementaux sont enrichis en

microsatellites (Rocha, Matic, and Taddei 2002). Ces gènes (e.g. mutT, dam, mutY, vsr, dinJ,

ruvC …) sont dévolus de différentes manière à la maintenance de l’intégrité du génome. La

perte de leur fonction aboutit chez l’organisme à l’émergence d’un phénotype dit

« mutateur », c’est-à-dire présentant un taux de mutation plus élevé que la moyenne. La

fonction des microsatellites dans ces gènes serait donc de produire régulièrement au sein des

colonies bactériennes des individus présentant un taux de mutation plus élevés. Ces individus

sont défavorisés dans des conditions optimales de croissance, mais seraient capables, lors de

changements environnementaux, d’explorer plus rapidement l’espace des phénotypes

possibles (Taddei et al. 1997).

Page 60: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

59

2.3. Sélection

Les différents rôles fonctionnels assurés par les microsatellites géniques sont susceptibles de

modifier ce qu’on appelle la valeur adaptative des organismes (ou fitness). En effet, chaque

microsatellite génique peut se voir sélectionné si sa présence au sein du gène modifie les

chances de succès reproductif de l’individu qui le porte par rapport a celui qui en est dépourvu

(ou si la longueur, et donc l’instabilité du microsatellite, est différente entre ces deux

individus). Les différents rôles fonctionnels mis en exergue précédemment suggèrent que les

microsatellites n’évoluent effectivement pas de façon neutre, mais sont soumis à une forme de

sélection.

L’implication de ces répétitions dans des processus comme la régulation de l’expression des

gènes ou la création de variabilité dans les phénotypes au sein des colonies de micro-

organisme est susceptible d’engendrer une sélection positive des microsatellites géniques ou

de l’instabilité qu’ils confèrent.

Chez l’homme, les observations qui ont été faites sont généralement liées à l’étude de

pathologies. On considère donc que les microsatellites enchâssés dans les régions codantes

sont délétères et que la sélection qui s’exerce sur eux est négative. On s’attend donc à ce que

les microsatellites codants soient purgés par la sélection car les individus qui contiennent ces

répétitions se reproduisent moins souvent que les autres.

L’examen des données d’abondances des microsatellites géniques, chez toutes les espèces

eucaryotes étudiées, semblent corroborer cette hypothèse. En effet, les microsatellites sont

bien moins nombreux au sein des régions codantes que des régions non-codantes (voir 2.1).

De plus, parmi ces microsatellites codants, ceux qu’on observe en majorité sont ceux dont la

Page 61: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

60

mutation par insertion/délétion n’entraîne pas de déphasage du cadre de lecture, mais

seulement des ajouts d’acides aminés au sein de la protéine (répétition de triplet et d’hexa-

nucléotides). Enfin, la distribution des microsatellites capables de perturber la phase codante

des gènes n’est pas non plus aléatoire. Les versions les plus longues, et donc les plus instables

(voir 1.8) sont moins bien représentées que les autres au sein des séquences codantes. Nous

présenterons successivement des études dont les résultats sont en accord avec cette intuition,

puis celles qui proposent des arguments en faveur d’une vision plus nuancée de cette

problématique.

2.3.4. Sélection négative des microsatellites codants

Faire la preuve qu’une forme de sélection s’exerce réellement sur un locus donné n’est pas

une routine triviale (Sharp et al. 1995; Otto 2000). Quantifier la valeur sélective d’un allèle,

c’est-à-dire estimer le rapport entre le nombre moyen de descendants produit par la fraction

de la population qui possède cet allèle et celui produit par ceux qui possèdent un allèle

différentes peut même se relever impossible pour ceux qui s’intéressent a un organisme

comme celui de l’humain pour lequel des expériences classiques de génétiques sont

impossibles.

Toutefois, certaines approximations peuvent être faites comme par exemple mesurer

l’exceptionnalité statistique d’un motif au sein d’un génome. Le nombre attendu de répétition

d’un motifs au sein d’une séquence d’ADN a été dérivé par De Wachter en 1981 (de Wachter

1981). Sachant la fréquence d’un motif M égale à f(M) dans une séquence de longueur N, le

nombre attendu de répétition en tandem de t fois le motif M dans cette séquence vaut :

!

E(Mt ) = f (M)t[1" f (M)]

2[N

|(1" f (M)) + 2r]

Page 62: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

61

avec

!

N|= N t # r 2# r +1

Cette approximation fait l’hypothèse que la séquence est à l’équilibre mutationnel, que les

seules mutations possibles sont des substitutions et qu’elles sont indépendantes.

La comparaison des effectifs observés avec ceux attendus selon ce modèle sur un panel de

séquence eucaryotes (Cox and Mirkin 1997; Metzgar, Bytof, and Wills 2000) a permis de

mettre en évidence le fait que :

1) On observe significativement plus de microsatellites dans les régions non-codantes

que dans les régions codantes et ce quel que soit le type de microsatellites considérés.

Cette tendance est d’autant plus marquée que les microsatellites sont long. Cette

observation est interprétée comme résultant d’une neutralité des microsatellites non-

codants tandis que les microsatellites codants sont soumis à une force de sélection

négative.

2) La densité de microsatellites non-codants est significative plus importante que celle

attendue par ce modèle. Un biais mutationnel en faveur de l’expansion de

microsatellites expliquerait cette observation

3) La densité de microsatellites codants dont le motif a une longueur multiple de trois est

également plus importante qu’attendue, car la sélection à l’encontre de ce type de

microsatellites qui ne produisent pas de déphasage du cadre de lecture est moins forte

Page 63: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

62

4) La densité en microsatellites codants susceptible de créer un décalage de phase de

lecture est inférieure à celle attendue. Cette observation est un argument en faveur

d’une sélection négative de ces microsatellites.

D’autres type d’approche se base sur les marches aléatoires, des modèles dit de

naissance/disparition ou des chaînes de Markov (Kruglyak et al. 1998; Bell 1996). Ces

approches sont séduisantes car elles se basent, pour quantifier la probabilité d’observer un

microsatellite donné, sur un scénario évolutif. Les microsatellites sont créés à partir d’une

graine (en général deux répétitions) qui a une probabilité de subir des expansions, des

contractions ou des mutations ponctuelles qui viennent l’interrompre (Buschiazzo and

Gemmell 2006). La principale limitation de ces modèles est l’estimation de ses paramètres à

partir des données. En utilisant des simulations – ces modèles ne se prêtant pas à des

approches analytiques – Borstnick et Pumpernik (Borstnik and Pumpernik 2002) ont montré

qu’au sein des régions codantes de primates, les répétitions de mononucléotides et de

dinucléotides sont sous-représentés. D’autres résultats intéressants ont été produits lors de

cette étude, avec notamment des estimations du rapport entre taux de mutations par

expansion/contraction et taux d’interruption par substitutions au sein des répétitions de

triplets.

Dans une étude plus récente, Ackermann et Chao (Ackermann and Chao 2006) se sont

spécifiquement penché sur la sélection des répétitions de mononucléotide codants (qui sont

chez l’homme les microsatellites codants les plus abondants parmi ceux capable d’induire des

déphasage du cadre de lecture). La principale vertu de leur approche est de respecter la

composition en acide aminé des protéines étudiées. En effet, les répétitions de mono-

nucléotides codent pour des répétitions d’acides aminés (Lysine, Glycine, Phénylalanine et

Page 64: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

63

Proline) . Ces répétitions d’acides aminés sont susceptibles de jouer un rôle dans la fonction

de la protéine (Alba and Guigo 2004). La présence de répétitions au niveau des séquences

codantes peut donc être le reflet de la nécessité de coder des répétitions d’acides aminés.

Toutefois, la redondance du code génétique permet d’utiliser différents codons pour un même

acide aminé. Par exemple, deux lysine consécutives sur une protéine peuvent êtres codés par

les codons AAA-AAA ou par les codons AAG-AAA. Dans le premier cas, une répétition est

codée au niveau génomique, dans l’autre, non. D’autres part, il est connu que les organismes

et les régions génomique sont soumis à un usage des code, c’est au choix préférentiel de

certains codons parmi tous ceux codants pour le même acide aminé (Sharp and Li 1987).

À partir de la séquence d’acides aminés, les auteurs ont généré un millier de séquences

aléatoires. Pour chaque acide aminé, un des codon possible était choisi aléatoirement mais en

respectant l’usage du code spécifique à la protéine.

Les comptages des répétitions de mono-nucléotides observés au sein du groupe de séquences

aléatoires permettent d’obtenir une distribution théorique de leur nombre attendus, dans le

cadre d’un modèle qui respecte l’enchaînement des acides aminés sur les protéines et l’usage

préférentiel du code au sein du gène.

Leurs résultats confirment la sous-représentation des répétitions de mononucléotide au sein

des gènes et présentent un argument fort en faveur d’une sélection négative de ces séquences

hypermutables au sein des gènes. Cette conclusion est par ailleurs renforcée par le fait que la

sous-représentation est encore plus marquée dans le groupe des gènes dit essentiels (c’est-à-

dire dont les pertes de fonctions entraînent une létalité des individus) et dans le groupe –

recouvrant du premier - de ceux qui sont fortement exprimés et sont donc susceptibles de

subir des erreurs de transcriptions.

Page 65: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

64

2.3.5. L’hypothèse d’une sélection positive des microsatellites codants

En dépit des études précédemment cités, certains auteurs ont postulés que des gènes peuvent

conserver des microsatellites au sein de leur séquence codantes en raison de la mutabilité que

leur confèrent ces répétitions (Kashi, King, and Soller 1997; Moxon and Wills 1999; Metzgar

and Wills 2000; Verstrepen, Reynolds, and Fink 2004; Kashi and King 2006). Toutes se

basent sur le raisonnement suivant : Une variabilité des gènes est utile car elle permet

l’émergence d’individus capable de s’adapter à un nouvel environnement. Évidemment, la

sélection ne peut agir en prévision d’un changement futur de l’environnement. Par ailleurs,

augmenter le taux de mutation global des individus est contre-productif pour l’organisme car

les mutations sont plus susceptibles d’être délétères que bénéfiques. La sélection doit donc a

priori tendrent à réduire le taux de mutation global des organismes dans un environnement

stable.

Des mutations affectant le taux de mutation global (généralement affectant des gènes

impliqués dans la réparation de l’ADN) peuvent toutefois persister dans une population par

auto-stop avec les mutations bénéfiques qu’elles ont pu contribuer à faire émerger chez les

individus mutateurs. Ce phénomène s’observe au sein de colonies de bactéries (Taddei et al.

1997).

D’autres type de mutateurs peuvent exister au sein des populations naturelles : ce sont des

mutateurs locaux, qui augmentent le taux de mutation à un locus particulier grâce à une

mutabilité intrinsèque accrue. Les microsatellites entrent parfaitement dans le cadre de cette

définition. Ils sont susceptibles d’augmenter très localement le taux de mutation, et de ce fait

Page 66: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

65

ont été sélectionnées au sein de gènes de contingence bactériens pour leurs capacités à

allumer et éteindre la fonction de ces gènes ou à modifier leur forme (voir 2.2.4.3).

Les mutateurs globaux sont peu susceptibles d’êtres conservés au sein d’espèces sexuées. En

effet, la recombinaison va rapidement briser la liaison génétique existant entre le mutateur et

la mutation bénéfique.

En revanche, rien n’exclut l’existence de mutateur locaux. Evoquer les mécanismes

permettant de générer, à partir de quelque loci, l’immense répertoire de récepteurs des cellules

somatiques du système immunitaire permet de se convaincre que la sélection est capable de

retenir des mécanismes générant de la variabilité locale chez l’homme.

Il est intéressant d’évoquer l’étude menée par Chang et col. (Chang et al. 2001). L’examen

des gènes du système de réparation des mésappariements révèle au sein de leur séquence

codantes la présence de nombreuse répétitions de mononucléotide suffisamment longue pour

être qualifiée d’instables. L’examen des mêmes gènes chez d’autres espèces modèles (A.

thaliana, M. musculus, S. cerevisiae, C. elegans et E. coli) révèlent que ces microsatellites ne

sont pas conservés, mais que la majorité des gènes du système de réparation des

mésappariements de ces espèces en contiennent également, à différentes positions.

Cette observation (qui est toutefois peu soutenue par des arguments statistiques) a conduit les

auteurs à postuler que ces séquences mutatrices locales ont pu être sélectionnée positivement,

de façon récurrente au sein des clades étudiés, pour leur capacité à créer, potentiellement de

façon transitoire, des mutateurs globaux.

Cette hypothèse est à mettre en rapport avec l’observation qui a été faite lors d’étude des

cancers à MSI (instabilité des microsatellites) que de nombreux gènes impliqués dans le

Page 67: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

66

maintien de la stabilité du génome contiennent ce type de répétitions de mono-nucléotides

codants (voir 2.2.4.2).

Cette hypothèse a été un des points de départ de nos investigations, dont nous pouvons à

présent introduire les objectifs, évidemment définis a postériori.

Page 68: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

67

3. Questions adressées au cours de la

thèse

Les microsatellites sont des séquences présentant des processus de mutations particuliers.

Comme nous l’avons vue, la présence de ces répétitions au sein des gènes représente pour ces

derniers un fardeau, en altérant notamment leurs robustesses aux mutations non-sens. De

nombreuses études se sont intéressées à la présence de ces microsatellites au sein de gènes

connus pour leur implication dans des processus particuliers ou responsables de certaines

pathologies, et le rôle tenu par les microsatellites au sein de ces gènes dans ces phénomènes

est maintenant clairement établi. D’autres part, la modélisation de l’évolution des séquences

répétées à permis de rendre compte de la sélection négative à laquelle sont soumises ces

dernières dans les séquences codantes. Toutefois, l’examen à l’échelle fonctionnelle de ces

répétitions au sein des gènes qui les portent n’a pas été réalisé de manière exhaustive chez

l’homme. La question de l’existence d’une forme de sélection positive des microsatellites

pour la mutabilité accrue qu’ils confèrent aux gènes qui les portent mérite d’être examinée

avec plus de détail, avec notamment la prise en compte de certains biais mutationnels.

D’autres part, il nous semble intéressant de pouvoir quantifier la force de la sélection qui

s’exerce sur les microsatellites codants, que celle-ci soit négative ou positive, car chaque gène

scruté au niveau génomique pour tenter de déterminer les forces évolutives qui l’ont façonné

(ou le façonne encore) est susceptible de présenter des traces de sélection ayant pour origine

la présence de ces microsatellites codants.

Page 69: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

68

D’une manière plus généraux, ces travaux s’inscrivent dans une problématique liée à la

robustesse et à la mutabilité relative des gènes. En effet, nous nous intéressons à caractériser

ces qualités par le biais de l’étude attentive de leur contenu en séquence répétés, en

recherchant des indices permettant de tester l’hypothèse d’une sélection pour la stabilité des

gènes qui serait modulée selon les fonctions auxquelles elles participent.

Page 70: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

69

Résultats

Page 71: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

70

Les résultats sont présentés ici en trois parties, correspondant aux deux articles que nous

avons rédigés au cours de ma thèse, et à un troisième auquel j’ai contribué. La première partie

correspond à un article publié en 2008 dont le sujet est la recherche et l’analyse fonctionnelle

de l’ensemble des gènes qui, chez l’homme, présentent un microsatellite codant. La deuxième

partie s’intéresse aux mêmes microsatellites codants, mais dans la perspective de leur

évolution au sein des séquences codantes de quatre espèces de primates pour lesquels les

génomes complets étaient disponibles en 2008. Il est axé autour d’un article actuellement en

préparation. Enfin, l’article supplémentaire auquel j’ai participé est décrit afin de détailler ma

contribution.

Page 72: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

71

1. Hypermutabilité des gènes chez H.

sapiens

Ainsi qu’il a été présenté en introduction, les gènes impliqués dans le système de réparation

des mésappariements présentent de nombreuses répétitions de mononucléotides codants

(Chang et al. 2001). Ces répétitions étant instables au cours de la réplication, il a été suspecté

que ces séquences avaient été sélectionnées pour la mutabilité qu’elles confèrent à ces gènes,

augmentant ainsi ponctuellement le taux de mutation global du génome. Comme il avait été

démontré par ailleurs que ces répétitions sont généralement sous l’influence d’une sélection

négative (Metzgar, Bytof, and Wills 2000; Borstnik and Pumpernik 2002, Ackermann et Chao

2006), nous avons voulu tester plus en avant cette hypothèse.

A cette fin, nous avons tout d’abord produit un catalogue exhaustif des séquences codantes

présentant un microsatellites codants suffisamment long pour que le gène correspondant

puisse être à cet égard qualifié d’hypermutable. L’ensemble des séquences codantes annotées

chez l’homme ont été récupérés sur la base de donnés Ensembl, dans sa version 37 (Birney et

al. 2006). Chaque exon à été considéré indépendamment, et l’union des coordonnées des

exons recouvrants dans les différents transcrits à été utilisée pour définir une seule séquence

codantes par gène. Les jonctions exons/exons ont été signalées dans la séquence afin d’éviter

la détection de répétitions artificiellement créés lors de la concaténation des exons. La même

méthode à été appliquée aux séquences introniques, cette fois en concaténant les régions non-

exoniques, afin de disposer d’un témoin.

Page 73: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

72

Les microsatellites codants recherchés sont formés de la répétition d’un motif dont la

longueur n’est pas un multiple de trois, de façon à s’assurer que les événements

d’insertion/délétion au sein des ces microsatellites aboutissent à la production d’une protéine

tronquée, et donc à la perte de la fonction du gène. Le nombre minimal de répétition du motif

à partir duquel ces événements d’insertion/déletion peuvent se produire fait encore débat.

Nous nous sommes appuyés sur des données présentes dans la littérature pour définir ces

seuils respectivement à 8, 5,4 et 4 unités pour les répétitions de mono-, di-, tetra- et penta-

nucléotides. Notons ici que des seuils de longueurs plus élevés (9,6,4 et 4) ont également été

utilisés de façon à tester la robustesse des résultats à la définition de ces seuils. Les résultats

restent qualitativement identiques.

Rechercher des surreprésentations fonctionnelles au sein du groupe de gènes contenant ces

microsatellites dans leurs séquences codantes a requis de traiter les informations disponibles

dans la banque de données Gene Ontology (Ashburner et al. 2000). Cette base de données

propose une ontologie - c’est-à-dire un vocabulaire hiérarchique dédié à la description d’un

phénomène - constituée de GO-terms, des unités de vocabulaire décrivant les processus

biologiques, les fonctions moléculaires ou la localisation cellulaires des gènes. Ces GO-terms

présentent différents niveaux de description et sont recouvrants. En effet, les GO-terms les

plus précis sont englobés par d’autres, plus généraux. Chaque gène annoté par un GO-term

précis et donc également annotés par tous les GO-terms englobants. D’autres part, les gènes

sont annotés par plusieurs GO-terms, reflétant leurs éventuelles polyvalences moléculaires ou

localisations plurielles. L’architecture particulière de cette ontologie nous a mené à porter une

attention toute particulière au problème des tests multiples. En effet, le grand nombre de tests

effectués (autant que de GO-terms qu’annotés sur les gènes humains) augmente

statistiquement la proportion de résultats positifs. Une des procédures classiques permettant

Page 74: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

73

de corriger pour les tests multiples – la correction de Bonfferoni – est sensible à

l’indépendance des tests. Or, la structure hiérarchique de l’ontologie entraîne une dépendance

entre chaque test réalisé sur des GO-terms situés à des niveaux différents mais décrivant la

même fonction (e.g. les gènes annotés « Mismatch repair » sont également annoté « DNA

repair »). Nous avons donc segmenté les tests de surreprésentation par niveau de complexité

de description, et présenté les résultats sous cette forme.

Le fait que certaines fonctions présentent un nombre élevé de microsatellites codants n’est pas

indépendant de la structure de ces gènes. Suivant le modèle proposé originalement par de

Wachter en 1981, nous avons ensuite calculé, pour chaque gène, une probabilité de contenir

une répétition de mononucléotide codants – ces dernières étant les plus abondantes et les plus

biaisées dans leur distribution au sein des fonctions – qui se base sur la longueur et la

composition en nucléotide de ce gène.

Enfin, nous avons à partir du même modèle calculé une fraction attendue de gènes

hypermutables – c’est-à-dire contenant une répétition de mononucléotide d’une longueur

supérieure à 8 ou 9 nucléotides – pour chaque groupe fonctionnel. Cette fraction « attendue »

de gènes hypermutables à été comparés à la fraction observée, afin de déterminer si les

fonctions présentent plus, moins ou autant de gènes hypermutables que l’on peut le prédire

sur la base de la longueur et de la composition en nucléotide des gènes participant à cette

fonction. Un intervalle de confiance à été estimé par simulation, permettant de séparer les

groupes fonctionnels présentant un nombre de gènes hypermutables significativement plus

grand ou plus petit qu’attendu.

Page 75: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

74

Page 76: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

75

1.1. Article

Page 77: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

H yper mutability of G enes in Homo sapiens Due to the H osting of LongM ono-SSR

Etienne Loire,*!"§k { #** Francxoise Praz,!!"" Dominique Higuet,§k { # Pierre Netter,*!" andGuillaume Achaz§k { #***Universite Pierre et Marie Curie-Paris 6, Unite M ixte de recherche (U MR) 7592, Institut Jacques Monod, Paris, France; !CentreNational de la Recherche Scientifique (C NRS), U MR 7592, Institut Jacques Monod, Paris, France; "Universite Denis D iderot-Paris7,U MR 7592, Institut Jacques Monod, Paris, France; §Universite Pierre et Marie Curie Paris 6, U MR 7138, Systematique, Adaptation,Evolution, Paris, France; kC NRS, U MR 7138, Systematique, Adaptation Evolution, Paris, France; { Museum National d’ H istoireNaturelle, U MR 7138, Systematique Adaptation Evolution, Paris, France; #Institut National de al Saute et de la Recherche M edicale,U MR 7138, Systematique, Adaptation Evolution, Paris, France; **Universite Pierre et Marie Curie-Paris 6, A telier deB ioinformatique, Paris, France; !!Universite Pierre et Marie Curie-Paris 6, U MR_S 893, CdR Saint-Antoine, Paris, France; and""INSERM , U MR_S 893, CdR Saint-Antoine, Paris, France

Simple sequence repeats (SSRs) are very common short repeats in eukaryotic genomes. ‘‘ Long’’ SSRs are considered‘‘hypermutable ’’ sequences because they exhibit a high rate of expansion and contraction. Because they are potentiallydeleterious, long SSRs tend to be uncommon in coding sequences. However, several genes contain long SSRs in theirexonic sequences. Here, we identify 1,291 human genes that host a mononucleotide SSR long enough to be prone toexpansion or contraction, being called hypermutable hereafter. On the basis of Gene Ontology annotations, we show thatonly a restricted number of functions are overrepresented among those hypermutable genes including cell cycle andmaintenance of D N A integrity. Using a probabilistic model, we show that genes involved in these functions are expectedto host long SSRs because they tend to be long and/or are biased in nucleotide composition. F inally, we show that foralmost all functions we observe fewer hypermutable sequences than expected under a neutral model. There are howeverinteresting exceptions, for example, genes involved in protein and RN A transport, as well as meiosis and mismatch repairfunctions that have as many hypermutable genes as expected under neutrality. Conversely, there are functions (e.g.,collagen-related genes) where hypermutable genes are more often avoided than in other functions. Our results show that,even though several functions harbor unusually long SSR in their exons, long SSRs are deleterious sequences in almostall functions and are removed by purifying selection. The strength of this purifying selection however greatly varies fromfunction to function. We discuss possible explanations for this intriguing result.

Int roduction

M icrosatellites or simple sequence repeats (SSRs) arearrays of D N A with short motifs—1–6 nt—repeated in tan-dem (Tautz 1994). SSRs are ubiquitous in all genomes ex-plored so far and are especially abundant in eukaryotegenomes (Toth et al. 2000). Strikingly, the number andthe sizes of SSRs in genomes are typically much larger thanexpected from simple substitution models (Pupko andGraur 1999). This overabundance of SSRs is, most likely,a consequence of their specific mutational properties; theserepeats are prone to expansion and contraction throughpolymerase strand slippage (Levinson and Gutman 1987)and, to a lesser extent, to recombination (L i et al. 2002).For strand slippage, after the replication fork has run, tem-plate and neosynthesized strands can be reannealed with theslippage of one (or more) motifs. If the ‘‘mismatch repair’’(M M R) complex does not correct the resulting loop, a sub-sequent round of replication changes the number of re-peated units by a specific amount. This translates into aninsertion or a deletion of one (or more) motifs in the SSR.

V arious factors have been shown to modulate the rate ofSSR expansion/contraction, although their relative strengthvaries from species to species (Toth et al. 2000). It appearsthat, for ‘‘ long’’ SSRs, contraction prevails over expansion(Xu et al. 2000). This bias in favor of contraction, along witha higher chance of being interrupted by a substitution for

even longer SSRs, prevents their infinite growth (Kruglyaket al. 1998; E llegren 2000; D ieringer and Schlotterer 2003).The nature of the motif itself also greatly modulates the mu-tation rate. For example, G C-rich SSRs are more unstablethan others (Sagher et al. 1999; Gragg et al. 2002), and longmotifs are more stable than short ones (Rose and Falush1998; Legendre et al. 2007). Overall, the relative role ofall these factors makes difficult to predict a mutation ratefor a given SSR. However, it remains true that the SSR mu-tation rate is typically several orders of magnitude higherthan the average substitution rate (Drake et al. 1998).

A number of studies in a wide range of organisms haveattempted to delimit characteristics of SSRs that are predictiveof the variability of the repeats. They concluded that the num-ber of repeats was among the strongest predictors of the slip-page probability during replication (Rose and Falush 1998; Laiand Sun 2003b; Legendre et al. 2007; K elkar et al. 2008). Re-peat variability is not an all-or-nothing phenomenon but ratherincreases exponentially with increasing number of repeatunits, as initially established in yeast (Sia et al. 1997).

A t what length should SSRs be deemed ‘‘hypermuta-ble ’’? Using a simple probabilistic model, Rose and Falush(1998) proposed a threshold size for slippage mutationsaround 8 bp for mono-, di-, and tetranucleotide SSRs.Based on a different model, similar thresholds were pro-posed: 9 units for mononucleotide SSRs (mono-SSRs)and 4 units for dinucleotide (8 bp) and tetranucleotide(16 bp) SSRs (Lai and Sun 2003a). Using a human/chim-panzee complete genome comparison, it appears that, in thislineage, a mononucleotide of 9 units exhibit a similar mu-tability than a dinucleotide of 6 units or a tetranucleotideSSR of 5 units (K elkar et al. 2008). A lternatively, wecan also infer that a mononucleotide of 8 units exhibit

K ey words: microsatellites, SSR, evolution, mutability, Homosapiens.

E-mail: [email protected]. Biol. Evol. 26(1):111–121. 2009doi:10.1093/molbev/msn230Advance A ccess publication October 8, 2008

! The Author 2008. Published by Oxford University Press on behalf ofthe Society for Molecular B iology and Evolution. A ll rights reserved.For permissions, please e-mail: [email protected]

Page 78: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

a similar mutability than a dinucleotide of 5 units or a tet-ranucleotide SSR of 4 units.

Interestingly, similar threshold sizes for mononucleo-tide and dinucleotide SSRs instability were observed in vi-tro during polymerase chain reaction (Lai and Sun 2003a;Shinde et al. 2003). For mono-SSRs, the observation of hu-man oncogenesis associated with microsatellite instability(MSI) also highlights 8 units as an instability threshold.MSI has been shown to underlie hereditary nonpolyposiscolorectal cancer (H NPC C) (A altonen et al. 1993). H NPC Cpatients carry a germ-line mutation in one of the postrepli-cative M MR genes, mainly M L H1 or MSH2 (Jacob andPraz 2002; Woerner et al. 2006). Once the correspondingnormal allele is lost through somatic inactivation, cells be-come totally devoid of M MR activity and are left with un-repaired polymerase errors that arise during replication.Rates of mutation arising in microsatellite repeats are dras-tically enhanced by mutations affecting postreplicativeD N A M MR (Strand et al. 1993). In this context, only geneswith an SSR of at least 8 nt have been reported to exhibita significant instability (Duval and Hamelin 2003; Woerneret al. 2006; M iquel et al. 2007). A ltogether, these resultssuggest common features of microsatellite mutation mech-anisms both in vivo and in vitro with evidence of a slippagemutation threshold at around 8 or 9 units for mono-SSRs.

SSRs tend to be less common in coding sequences(Metzgar et al. 2000; A ckermann and Chao 2006) asa change in nucleotide number often has disastrous func-tional consequences. If the unit length is a multiple of three,there will be an expansion or a contraction of the particularamino acids encoded by the 3-mer (codon). It is well estab-lished that long expansions of such coding microsatellitesare responsible for many neurodegenerative disorders(E verett and Wood 2004). When the unit length is not a mul-tiple of three, a change in unit number produces a frameshift(Strauss 1999). If the slippage occurs during the replicationprocess, it may create an allele that contains a prematurestop codon either in somatic cells or in the germ line. Slip-page can also occur during transcription (Fabre et al. 2002),leading to abnormal messenger RN A that is usually de-graded by the nonsense-mediated mRN A decay system(Conti and Izaurralde 2005). Because SSRs in coding se-quences are typically associated with deleterious effects,they tend to be subject to purifying selection. We want toemphasize that SSRs that have unit lengths that are not a mul-tiple of three have a direct, harmful potential in coding se-quences because no slippage can be tolerated; therefore,they should be even less common within exons. Intriguingly,it has been observed that many genes involved in D N A re-pair, including M MR, carry a long mono-SSR in their codingsequences (Mori et al. 2001; M iquel et al. 2007). If these par-ticular SSR experience an expansion or a contraction, theM MR system will become deficient and will lead to a highermutation rate (as observed in some H NPC C-associated tu-mors). It has been postulated that a deficient M MR systemcould be advantageous when the environment is stressful. Inthis case, organisms with a higher mutation rate could adaptmore easily to environmental challenges. Consequently,mono-SSRs in these genes could have been positively se-lected for their mutational potential (Moxon and W ills1999; Chang et al. 2001; K ashi and K ing 2006).

In the present study, we have detected all strictSSRs—that is perfect repeats without any ‘‘ interruption’’in the pattern—in all human genes. We used the presenceof a long SSR (with at least 8 [or 9] units for mono-SSR, 5[or 6] units for di-SSR, and 4 [or 5] units for tetra- and pen-ta-SSRs) as a proxy for the hypermutability of genes (Roseand Falush 1998; Lai and Sun 2003b). Even though manyother factors can influence the mutability of genes, the pres-ence of a long SSR greatly increases the chances for a geneto be inactivated. Indeed, the probability of a nonsense sub-stitution is several orders of magnitude lower than the rateof slippage of a long enough SSR. We found mono-SSRs tobe the most abundant unstable SSR as well as the most bi-ased in term of hosting genes’ function. Consequently, wefocused our study on mono-SSR and used the term ‘‘hyper-mutable genes’’ to refer to genes that carry a long (andtherefore potentially unstable) mono-SSR in their codingsequence hereafter.

Using annotations from the Gene Ontology (G O) da-tabase (Ashburner et al. 2000), we performed an in silicofunctional analysis of all genes that are a priori hypermu-table. We found a cohesive restricted subset of functionsthat are overrepresented among hypermutable genes. Totake into account differences due to the length and the com-position of genes, we computed for each gene the probabil-ity to host a long mono-SSR. In this statistical framework,we observe less hypermutable genes than expected in al-most all functions, including the ones we found overrepre-sented. This shows that, typically, hypermutable genes areremoved by purifying from the human genome because oftheir deleterious potential. Interestingly, we observe that thestrength of the purifying selection, that removes long mono-SSR, varies from function to function.

M ate r ials and M ethodsM icrosatellites in Human-Coding Sequences

We extracted all exons and introns from all transcriptsof the 22,218 genes from the human genome of the databaseEnsembl v37. Each gene sequence was then reduced to itsexonic sequences only. When exons of different transcriptswere overlapping, we merged them into an artificial exonic-like sequence. For each gene, we then concatenated all itsnonredundant exonic-like sequences into a single sequenceand inserted an ‘‘X’’ at each junction. The X tag ensures thatno microsatellite can be detected astride two differentexons. The same procedure was applied to introns to buildup a unique intronic sequence for each gene. We built twosets, each composed of 22,218 artificial exonic sequencesand 18,384 artificial intronic sequences derived from alltranscripts.

We detected all strict SSRs (no interruption in thepattern) of a motif whose length ranges from 1 to 5.

Statistics on Mono-SSR

The following model is very similar to previous mod-els that were used to describe the probability of observinga given SSR in sequences (de Wachter 1981).

Interestingly, the functional bias of hypermutability isonly driven by mono-SSR. Therefore, the statistical

112 Loire et al.

Page 79: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

framework focused on mono-SSR exclusively. Extensionsfor longer motifs are given in Robin et al. (2005).

Probability of a G iven Mono-SSR

We will give here an approximation of the probabilityto observe at least one occurrence of an X-SSR of size m!

(m or more) in a random sequence of L independent lettersof the { A , T , G , and C } alphabet. Px will denote the prob-ability to generate a nucleotide X in such random sequence.

Let us first note that the number of occurrences of anX-SSR of size m!, denoted by Nx, is exactly the number ofclumps of the m-mer (X)m. A clump of a motif is definedhere as the maximal set of overlapping occurrences of thismotif in the sequence (Robin et al. 2005). The expectationof Nx is thus given by

E"NX#5 "1 $ PX# % "PX#m %"L $ m ! 1#;

and Nx can be approximate by a Poisson random variable(Robin et al. 2005). Therefore, we have

P"NX & 1#5 1 $ P"NX 5 0#;

where

P"NX 5 0#5 e$E"NX#:

Expected Size of a Mono-SSR

We first computed, for each sequence and for each typeof nucleotide, the m value that corresponds to P(Nx & 1)& 0.5. This value will be named m1/2. If the model fits

the data, a given gene has 50% chance of having its longestSSR larger than m1/2. We can then affect all genes to eithera ‘‘ larger’’ or a ‘‘smaller’’ category depending whether itslongest mono-SSR is larger or smaller than its m1/2. Becausethese are independent Bernoulli trials, we expect for a set ofgenes that half of it should be in the larger category. We canthen test if the genes tend to have a smaller/larger mono-SSRthan expected using a v2 test.

Expected Fraction of Hypermutable Genes

We also computed the expected fraction of genes car-rying a long mono-SSR (m fixed) in their coding sequencesfor a set of genes. To do so, we calculated, for each gene ofthis set, the probability of observing at least one mono-SSRof length m! of any type of nucleotide (with m 5 8 or 9).We assume that the probability for each type of SSR is in-dependent. Because m is not very small, this approximationis reasonable. In a given gene, the probability to find at leastone mono-SSR of length m! is

P!NA;C;G;T & 1

"5 1 $ P"NA 5 0# % P"NC 5 0#% P"NG 5 0# % P"NT 5 0#:

The average of all these probabilities for a given func-tion is an unbiased estimator of the expected fraction of hy-permutable genes in this function.

F inally, using this model, we can compute the confi-dence interval (CI) associated with its expected fraction ofhypermutable gene. To do so, one needs to compute theprobability that, among N genes, each having a probabilityP(NA , C , G , T & 1) to host a mono-SSR at size m!, n geneshave such an SSR. These are N independent Bernoulli trialswith different probabilities of success. We estimate theprobability to obtain at least n hypermutable genes fora given term by simulations. For each term, we randomlyrun N Bernoulli trials with respect to the individual prob-ability of each gene. This procedure is repeated 105 timesfor a given term. The empirical distribution is then used tocompute a 95% CI for a given set of genes.

Functional Group of Human Genes

We used G O (Ashburner et al. 2000) as well as PantherOntology (M i et al. 2005) to assign human genes to func-tional groups. Both databases are based on organized ontol-ogies, a controlled vocabulary for the description of geneproducts. More precisely, there are constituted of terms(i.e., G O term or PantherID) that describe a ‘‘biological pro-cess’’ (BP), a ‘‘molecular function’’ (M F), or a ‘‘cellularcomponent ’’ (C C) (although this latter category does notexist in Panther Ontology). For all genes, we consideredall available annotations. We retrieved G O terms from En-sembl (http://www.ensembl.org/biomart/martview/) andPanther IDs from the Panther database Web page (http://www.pantherdb.org/).

Here, we defined the level of a term as the number ofnodes that exists between this term and the root of the graph(level 0). In the cases of multiple paths, we keep the shortestone. We decided to compare only terms lying at the samelevel. We used the annotated term of a gene to browse theontologies and collect all its parental terms. For each level,we considered only genes that have at least one definedterm.

Representation of Gene Functions among the Data Set

We wanted to test if any function were overrepre-sented among genes carrying a long SSR. For that purpose,we used a cumulative hypergeometric law (see e.g., Castillo-Davis and Hartl 2003 as suggested Rivals et al. 2007).

We perform our tests level by level to compare com-parable terms. For each level of the ontologies, we per-formed one test per term. To correct for multiple tests,we considered that terms lying at the same level of the on-tology were independent and therefore can be corrected us-ing the Bonferroni correction. On the contrary, weconsidered that tests between levels were fully dependentbecause they use the same annotations but with differentaccuracies.

Results

In this study, we restricted ourselves to strict SSRs thatcontain no nucleotide interruption, which tend to stabilizemicrosatellites (E llegren 2004) and thus lower their intrin-sic mutability. For each of the 22,218 annotated genes in the

SSR-Based Hypermutability of Human Genes 113

Page 80: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

human genome, we detected all strict SSRs in concatenatedexonic and intronic sequences. Because we were interestedin studying genes that are susceptible to direct inactivationby SSR contraction or expansion, we excluded SSR thathad a unit length that was a multiple of three.

Long SSRs in Coding Sequences Are Mononucleotideand D inucleotide SSRs

For each gene, we identified the largest mono-, di-,tetra-, and pentanucleotide SSR (frameshifting SSR) in ex-onic and, when available, in intronic sequence. Because therate of insertion/deletion grows exponentially with thenumber of repeat units (Tran et al. 1997; Legendre et al.2007), the longest SSR in the exons of a given gene pro-vides a good approximation for gene hypermutability.

Results (fig. 1) show that all types of SSRs are smallerin exons than in introns. Indeed, intronic SSRs are fourtimes longer than exonic SSR for mono-SSR (5.8 vs.21.9) and 2.5 times longer for pentanucleotide SSR (1.3vs. 3.4). One could relate this observation to the purifyingselection that acts against the expansion of SSR in codingsequence; however, intronic sequences are much longerthan exonic sequences (i.e., on average 30 times). Both fac-tors contribute to this difference, as it will be shown below.

As mentioned above, mono-SSRs are estimated to beunstable when they reach a length of 8 units (Rose andFalush 1998) or 9 units (Lai and Sun 2003b). If we considera threshold of 8 units, the corresponding mutabilities arereached for di-, tetra-, and penta-SSRs for 5, 4 and 4 units,respectively. In this case, the numbers of genes, in the hu-man genome, having an SSR longer or equal than thethreshold, are 1,291 for mono-SSR (5.8% of all genes),678 for di-SSR (3.1%), 39 for tetra-SSRs (0.2%), and 11for penta-SSRs (,0.1%) and a total of 1,935 (8.7%) genes.Using thresholds of 9, 6, 5, and 5 units for mono-, di-, tetra-,and penta-SSRs yields to 417 for mono-SSR (1.9%), 116for di-SSR (0.52%), 8 for tetra-SSRs (,0.1%), and 1 forpenta-SSRs (,,0.1%) and a total of 475 (2.1%) genes.

If we assume that those thresholds represent the min-imum numbers of units to observe instability, the SSRs thatmostly participate to gene hypermutability are clearlymono-SSR and di-SSR.

Hypermutable Genes Are Overrepresented ina Restricted Subset of Functions

Using either the lower (8 units for mono-SSRs) or thehigher (9 units for mono-SSRs) threshold, we define a set ofgenes that have, a priori, a high probability to be disruptedby a nonsense mutation due to the expansion/contraction ofthe SSR they host. We then searched for overrepresentedterms of G O (Ashburner et al. 2000) among the set of genes.

We worked on the subset of 15,385 genes (69% of to-tal) that had at least one term in one of the three graphs.Note that 57% of all genes have one term in BP, 63% inM F , 54% in C C , and 48% in the three. The fraction of geneswith a long SSR within each subset is identical (data notshown). It is however important to note that more specificlevels are made up of fewer annotated genes.

From all terms that were annotated at least once in thehuman genome (supplementary table S1, SupplementaryMaterial online), only a few were found overrepresented.No function was overrepresented if only genes hostinga long tetra- or a penta-SSR were considered, and their re-moval has no impact on the results. More surprisingly, thereis no function overrepresented among genes with long di-SSR, and their removal leaves the results almost unchanged(supplementary table S2, Supplementary Material online).Therefore, the only SSRs that are not uniformly distributedamong functions are the mono-SSRs.

F igure 2 shows all terms we found overrepresented inhypermutable genes when mono-SSRs of 8 bp or more areconsidered. Results with mono-SSR of 9 bp are consistentwith the former and are presented in supplementary table S2(Supplementary Material online). Among the 3,122 BPterms, only 10 were statistical ly overrepresented(fig. 2a). Interestingly, genes with mono-SSRs are enrichedfor functions involved in either ‘‘cell cycle ’’ or ‘‘response toD N A damage stimulus. ’’ Many of these hypermutablegenes carry both types of annotations or related ones.The overrepresented terms are more or less precise descrip-tions of the same subset of functions. Following A lexa et al.(2006), if we remove the 12 genes that are annotated asfunctioning in meiosis (the most specific overrepresentedterm), no BP terms are found to be overrepresented. There-fore, genes with this function are responsible for the moregeneral terms found to be overrepresented. Because there isno reason to believe that the most precise terms are mostinformative, we present results for all levels.

The same trend is observed for M F (fig. 2b) and C C(fig. 2c). In M F , out of the 2,600 terms, only 15 highly

F IG. 1.—D istribution of SSR length in human genes. Counts ofhuman genes that contain an SSR which size is equal or larger than thevalue given in x axis. The size is expressed in number of units. We onlyreport the results for SSRs whose motif length is not a multiple of three.In the top panel, we report results for exonic sequences, whereas resultsfor intronic sequences are displayed on the bottom panel. This figureillustrates that introns carry larger SSRs than exons do and that long SSRsin exons are mostly mono- or di-SSRs.

114 Loire et al.

Page 81: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

connected terms are found overrepresented. These terms allrelate to ‘‘hydrolase ’’ (especially ‘‘ A TPase ’’), ‘‘helicase, ’’‘‘ G TPase regulator, ’’ and ‘‘ A TP binding. ’’ Removing A T-Pase and G TPase regulator genes from the data set sup-presses other overrepresentations in M F . As for C C , onlyfive terms (out of 583) are overrepresented and all are re-lated to ‘‘nucleus. ’’ The ‘‘ intracel lular nonmembrane-boundorganelle ’’ term encompasses intracellular molecular com-ponents such as the kinetochores, the chromosomes, and thenucleosome. Ignoring genes from nucleus does not alter theoverrepresentation in intracellular nonmembrane-bound or-ganelle and vice versa. Obviously, removing genes anno-tated by the latter suppresses the overrepresentations ofshallower related terms.

Among Overrepresented Functions, Genes Are Longerand/or More B iased in Composition

Only a restricted number of functions are overrepre-sented in hypermutable genes. In the three graphs, thesefunctions all relate to cell cycle and ‘‘ D N A maintenance. ’’We wanted to test whether genes involved in these func-tions have a higher chance of hosting a long mono-SSR.In this respect, we computed, for each gene, the probabilityof finding a long mono-SSR (8 bp or more) given its lengthand composition. The probability model we used hereassumes that mono-SSRs are only generated by severalindependent substitutions that keep the average nucleotidecontent of the gene unchanged. It is therefore used tocheck whether the presence of a given mono-SSR in a givengene can be explained by random point mutations only.This model does not include the possibility of slippagefor modifying the size of coding mono-SSR. Indeed,insertion or deletion of 1 or 2 units in a coding SSRwhose motif length is not a multiple of three leads toa frameshift mutation. Thus, fixation of such events mustbe extremely rare.

The average probability of having a mono-SSR of 8units or more in genes involved in the function we findoverrepresented is 0.184, that is higher than 0.142, the av-erage for the other annotated genes (P ,, 10$16, W ilcox-on U test). This shows that, on average, genes involved inthe function we found overrepresented have a higher prob-ability to host a long mono-SSR.

Mono-SSRs Are Typically Shorter than Expected inExons

Because this model assumes that all substitutions canoccur freely with respect to the gene nucleotide composi-tion, this model can be used as a neutral model. Indeed, thismodel corrects for local composition and therefore for po-tential local mutation biases. Furthermore, it assumes thatall substitutions occur freely within the sequence, whichimplies the neutrality of substitutions. From the comparisonof what is expected under the model to what we observe, weare able to test for the neutrality of mono-SSR.

We first tested whether the length of mono-SSR, weobserve in genes, is expected under the neutral model.To do so, we computed for each gene, m1/2, the size of

the SSR that corresponds to a probability P 5 0.5. Ifan SSR originates from several independent selectivelyneutral substitutions, half of the genes will have a mono-SSR larger than m1/2, the other half will have a mono-SSR smaller than m1/2. We counted all genes that were host-ing a smaller or a larger SSR than m1/2. Results are given intable 1.

In exons, we find that all types of SSRs are smallerthan expected (v2 test; P , 10$16), which agrees with pre-vious studies (Metzgar et al. 2000; A ckermann and Chao2006). For introns, we find that G-SSR and C-SSR are small-er than expected (v2 test; P , 10$16), whereas A-SSR andT-SSR are longer than expected (v2 test; P , 10$16). Inter-estingly, introns where ‘‘ A lu’’ were removed by Repeat-Masker (Smit 1999) show the same pattern. A ctually,masking A lu reduces the length of intronic sequence andincreases the number of sequences that host larger than ex-pected G-SSR or C-SSRs.

There Are Less Hypermutable Genes than Expected inA lmost A ll Functions

If we find as many hypermutable genes (i.e., geneswith a mono-SSR of 8 bp or more) as the neutral modelpredicts, we will have to acknowledge that long mono-SSRs are virtually neutral for these genes. If we findmore hypermutable genes than expected, it suggeststhat mono-SSRs were positively selected in these genes. In-deed, in exons, mono-SSRs are created by the accumulationof substitutions and if they improve the fitness of theirhost genome, they will be selected for. If we find less longmono-SSR than expected, it suggests that mono-SSRsare removed by purifying selection from the codingsequences.

In all, 1,291 genes (5.8% of the total) contain a mono-SSR of 8 units or more. Using the model, we expect 14.2%of such genes (with a 95% conservative CI of [13.8%,14.7%]). This again highlights that, on average, there areless long mono-SSR in genes than expected by chance,most likely due to their removal by purifying selection.

We further wanted to test if this trend is shared by allfunctions taken individually. Therefore, we compared foreach term of G O , the expected fraction of genes withlong mono-SSR to the expected one. Results are shownin figure 3. Overall, among the functions that have at least20 genes, 734/1,238 functions (59.3%) exhibit a fraction ofhypermutable genes outside the 95% CI that was computedunder the neutral model—406/679 (59.8%) in BP, 233/404(57.7%) in M F , and 95/155 (61.3%) in C C . These functionsare colored in blue in figure 3. For all, except one, there areless hypermutable genes than predicted by the neutralmodel. Taking into account also the terms with less than20 genes, we observe a lower, though significant, numberof terms outside the 95% CI: 788/6,305 terms (12.5%). Thisdemonstrates that for almost all functions, hypermutablegenes are removed by purifying selection. Consideringmono-SSR of 9 bp or more (instead of 8 bp or more) leadsto identical results (supplementary fig. S1, SupplementaryMaterial online).

The functions that we found overrepresented amonghypermutable genes (colored in red)—the functions given

SSR-Based Hypermutability of Human Genes 115

Page 82: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

in figure 2—have a larger observed fraction than the aver-age. They, however, exhibit usually less hypermutablegenes than expected from neutrality. This shows that eventhough we find them overrepresented, hypermutable genes

are also avoided in these functions. It is noteworthy to men-tion that the hypergeometric statistics we used to estimatethe overrepresentation among hypermutable genes dependson the number of genes within a term. Therefore, we

FIG. 2.—G O terms overrepresented among hypermutable genes. Here, we report for all three branches of the ontology, the functions we foundoverrepresented among hypermutable genes in the human genome. Results are given for (a) BP, (b) M F , and (c) C C . Each column is a level in theontology (the higher the level, the more precise the annotation). It contains ellipses representing overrepresented functions lying at this level. Theencapsulated numbers are the numbers of hypermutable genes in these functions. Genes shared by several functions are given in the intersection ofellipses. Arrows indicate a complete inclusion into another term at a shallower adjacent level. We also give, under the picture, the total number ofhypermutable genes that is annotated at this level as well as the number among them that is embedded in the functions we found overrepresented.

116 Loire et al.

Page 83: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

observed terms with a high fraction of hypermutable genesthat are not significantly overrepresented (e.g., M MR withan observed fraction of 26.1%) and, conversely, terms wefound significantly overrepresented even though they ex-hibit a moderate fraction of hypermutable genes (e.g., ‘‘bio-polymer metabolism, ’’ which has an observed fraction of7.3%). This latter case happens when the number of genesis very large for a given function, which improves thepower of the statistical test we used.

Generally, the comparison between the observed andthe expected fraction of hypermutable genes for all terms(fig. 3) reveals a weak though positive correlation betweenthe observed and the expected values (r 5 0.35 for BP,r 5 0.56 for M F , and r 5 0.43 for C C , P ,, 10$4 forall regressions). This implies that typically the presenceof long mono-SSR in genes can be partially explainedby their length and their nucleotide composition.

The Strength of Purifying Selection V aries fromFunction to Function

Results highlight interesting functions that appear dif-ferent from the others. F irst, we observed some functionswith a particularly small observed/expected ratio. The moststriking example is the ‘‘collagen’’ term (fig. 3c) for whichthe ratio is 0.075. Even though one would expect a largeproportion (40.0%) of hypermutable genes within this term,we found only very few (3.1%). Conversely, there are 36terms with a ratio observed/expected larger than 1 (e.g.,‘‘endoplasmic reticulum to Golgi transport ’’ as well as mei-osis and M MR in fig. 3a).

This variation could be solely due to the random sam-pling of genes within functions. Modeling the probability ofhaving long mono-SSR under purifying selection may al-low the test for this hypothesis. As a first approximation, weused the observed density of long mono-SSR in coding se-quences to compute an average rate of SSR per base. If allgenes were under the same selective constraints, the num-ber of SSR per gene should be Poisson distributed with thisaverage rate multiplied by their length. A ccordingly, wecomputed the probability to host at least one long mono-SSR (i.e., to be an hypermutable gene) for all genes. Wethen computed, for each function, a 95% CI for the expectednumber of hypermutable genes. Among terms with morethan 20 genes, we found 171/1,238 (13.8%) terms outside

the CI; this is larger than the 5% we expected if codingmono-SSRs were under the same selective pressure in allfunctions.

Discussion

In this study, we assumed that all genes hosting a longenough mono-SSR can be considered as hypermutablegenes. Whatever the chosen threshold for hypermutability,we show that only a cohesive restricted set of functions areoverrepresented among hypermutable genes. Interestingly,we show that this is only due to the mono-SSR withingenes, the other type of SSRs being uniformly distributedamong functions. Using a probabilistic model, we were ableto show that mono-SSRs are shorter than expected bya model of neutral substitution (which is coherent with pre-vious studies, e.g., Metzgar et al. [2000]; A ckermann andChao [2006]) and that hypermutable genes are avoided inalmost all functions. F inally, our study shows that thestrength of purifying selection, that removes hypermutablegenes from the human genomes, varies greatly from func-tion to function.

SSRs Are K ept Small by Purifying Selection in Exons

The comparison between introns and exons suggeststhat frameshifting SSRs are subject to a strong purifyingselection in coding sequences. Indeed, if one considersthat intron evolution is almost neutral, then the length ofintronic SSRs must be solely the consequence of their mu-tation process. The differences observed between length ofexonic and intronic SSRs reflect the existence of selectionthat acts against free expansion of those SSRs in codingsequence.

Indeed, using a model that predicts the size of the lon-gest mono-SSR expected in a coding sequence of a givenlength and composition, we showed that, in exons, mono-SSR length is globally smaller than expected. In introns, G/C-SSRs are also shorter than expected but A /T-SSRs areusually longer than expected. This is consistent with theobservation that G/C-SSRs are generally smaller than A /T-SSRs (L i et al. 2002). This suggests that A /T- and G/C-SSRs should be considered separately. Insertion ofA lu sequences in introns contributes to the abundance oflong A/T-SSRs but is not sufficient to explain their

Table 1M ono-SSR P robability in H uman E xons and Int rons

Exons Introns A lu-masked Introns

Mono-SSR Smaller Larger Smaller Larger Smaller Larger

A 20,271 1,947 3,441 1,4943 5,045 13,339T 20,279 1,939 3,254 1,5130 4,458 13,926G 21,660 558 16,059 2,325 13,651 4,733C 21,342 976 15,139 3,245 12,484 5,900Number expected 11,109 11,109 9,192 9,192 9,192 9,192

N O T E.—For each type of mono-SSRs (A , C , G , and T), we compute for each human gene an expected length value (m1/2) beyond which there is a 50% chance offinding an SSR of size m1/2 or longer. Each gene was then assigned to the larger or the smaller category depending on the comparison of the length of its longest mono-SSRto m1/2. If the neutral model were fitting, we would expect half of the genes to host a mono-SSR larger than m1/2. This table shows the results for exonic and intronicsequences and for each type of repeat nucleotide. We also examined intronic sequences masked for A lu sequences because their presence in an intron adds A/T repeats tothese sequences. Dev iation from the expectation (0.5 vs. 0.5) is significant for all types of sequences and mono-SSRs (v2 test, P , 10$16 for all tests).

SSR-Based Hypermutability of Human Genes 117

Page 84: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

abundance. Because there is no reading frame, one couldimagine that A /T-SSRs can undergo free expansion. Themodel we used as a reference assumes that all SSRs are cre-ated by an accumulation of substitutions. Beyond a thresh-

old size, SSRs experience expansions through replicationslippage (or recombination) and then become longer thanexpected. Obviously, there are additional factors that pre-vent G/C-SSRs to expand. As for coding sequences, we

FIG. 3.—Expected and observed fractions of hypermutable genes for all G O terms. Here we represent for each term, the observed proportion ofgenes that contain a mono-SSR larger than eight as a function of its expected fraction. The terms are extracted from (a) BP, (b) M F , and (c) C Contologies. The size of each dot is proportional to the total number of genes that term encompasses (taken as discrete intervals: [20, 50], [50, 100], [100,500], [500, 103], and [103, infinity]). Terms with less than 20 genes were not represented. Terms we found statistically overrepresented amonghypermutable genes (terms from fig. 2) are colored in red. The line represents the ratio observed/expected 5 1. Terms that are significantly outside the95% CI predicted under neutrality are colored in blue. This figure shows that almost all functions contain less genes carrying a long mono-SSR thanexpected. This again illustrates that most, if not all, long mono-SSR tends to be removed by purifying selection. A lthough, it also shows that somefunctions (e.g., meiosis, M MR, and ‘‘condensed chromosome’’) encompass many genes with long mono-SSR along with an observed/expected ratioclose to 1. This suggests that genes involved in those functions are under relaxed purifying selection.

118 Loire et al.

Page 85: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

suspect that G/C-SSRs are kept short by purifying selectionin introns. Two molecular evidences are compatible withthis hypothesis. F irst, G-rich tracts are known to adopt un-usual D N A structure (parallel quadruplex) involved in dif-ferent biological functions (Sen and G ilbert 1988). Second,G-rich tracts are also prone to electron transfer that causesoxidative damage (Hall et al. 1996). For one or the other (orboth) reasons, there is a good chance that G/C-SSRs havean impact on fitness even in introns. This effect shouldequally apply in exons. Those deleterious effects certainlyadd up with those previously highlighted (selection againstframeshifts).

Functions of Hypermutable Genes

Despite this global underrepresentation of SSRs in ex-onic sequences, several genes still host a long SSR. Defin-ing a threshold for long SSRs is not trivial. Thus, we usedtwo sets of values that are relevant for the minimum sizebeyond which SSRs are subject to expansion and contrac-tion. It is important to mention that both sets of thresholdslead to extremely similar results. This highlights the robust-ness of our results to the choice of a threshold for hyper-mutability. Among the very large number of terms thatwere annotated in the human genes, only a restricted num-ber exhibits an overrepresentation of hypermutable genes.

Legendre et al. (2007) conducted a similar analysis ona data set that includes all genes that contain any type ofSSR. BP overrepresented among this data set is differentfrom the ones we report here. An analysis of the 1,266genes hosting a long tri-SSR reveals a similar set of func-tions (data not shown), with the exception of neurogenesisand related terms. We suspect that the difference in metricfor hypermutability explains this difference. Because manyneurological disorders are caused by the presence of a cod-ing tri-SSR, we conclude that the overrepresentation of thefunctions described by Legendre et al. is mainly driven bygenes hosting a tri-SSR that we ignored in our study.

Importantly, one could argue that this is a consequenceof large duplicate families that share often the same anno-tations. However, using Ensembl definition of gene family(Enright et al. 2002), we computed for each function thefraction of genes that contain a duplicate within the func-tion. No differences were observed between the overrepre-sented functions and the others (0.35 vs. 0.41, P 5 0.18when considering all genes, 0.25 vs. 0.31, P 5 0.32 whenconsidering genes with mono-SSR, Mann–Whitney U test).Therefore, this overrepresentation is not an artifact of largeduplicate families. Our analysis shows that those functionsare generally devoted to cell cycle and maintenance ofgenome integrity (D N A repair, meiosis, cell cycle, helicasedomain–containing genes, nuclear localized genes, etc.). Itshould be mentioned that a similar set of functions is over-represented among genes that host at least two long mono-SSRs (data not shown). Furthermore, the same analysiswith annotations from PantherD B (M i et al. 2005)also leads to a similar set of functions (data not shown).Overall, we think that our results are robust to the most ob-vious artifacts and that the restricted cohesive set of func-tions we find overrepresented in hypermutable genes aremeaningful.

The Strength of Purifying Selection againstHypermutable Genes V aries from Function to Function

We computed an expected fraction of hypermutablegenes in all functional groups of genes and compared it withthe observed fraction. We show that almost all functionsclearly harbor less hypermutable genes than expected underneutrality. This strongly suggests that the vast majority oflong mono-SSRs are kept out of coding sequences by pu-rifying selection.

Functions overrepresented among the hypermutablegenes (i.e., those dedicated to genomic stability and cell cy-cle) are expected to contain a large fraction of hypermutablegenes. They are longer and/or more biased in compositionthan the average genes. Therefore, the overrepresentation ofhypermutable genes in those functions can be explained bythe length and the nucleotide composition of genes amongthose functions. This points out the importance of usinga statistical framework that tests for the effect of lengthand composition of the genes.

An overestimation of the expected number of longmono-SSRs would diminish the strength of the purifyingselection we observe. A t least three properties of D N A -coding sequences were neglected in our model. F irst, slip-page process was ignored, although almost none is expectedin coding sequence. Slippage, however, leads to largermono-SSR than what is observed in coding sequence. There-fore, ignoring slippage lowers the expected number and sizeof mono-SSR. Second, we also ignored the dependency ofnucleotide context in coding sequences. We estimated theprobabilities of mono-SSR in coding sequences using a sim-ulated data set of random sequences modeled by a Markovmodel of size 2 (using the frequency of the 3-mers). Usingthese probabilities instead of the one given by the Poissonmodel does not qualitatively changes our results. F inally, weignored the amino acid sequences of the genes. A ckermannand Chao (2006) fixed the amino acid sequences of genesand showed that mono-SSRs are underrepresented.

There are few functions for which we observed asmany hypermutable genes as expected under a neutralmodel. For these functions, long mono-SSRs are virtuallyneutral. On another extreme, we shall consider functionsthat are expected to contain long mono-SSR but do not(e.g., cytoskeleton- and collagen-related genes). Overall,we have to acknowledge that the strength of the purifyingselection that acts against long mono-SSR varies from func-tion to function, from very strong (e.g., for collagen) up toits complete absence (e.g., for ER to Golgi transport). Wecan propose several hypotheses to explain this observation.

F irst, the rate of instability for SSR within the samegenome may greatly vary from one locus to another. There-fore, we can imagine that the hypermutable genes are lo-cated in peculiar loci in the genome where SSRs arestabilized.

A lternatively, it is possible that the functions wheremono-SSRs are apparently neutral could be composed ofgenes that are more ‘‘dispensable ’’ than others. Here weused dispensable to refer to a low cost in fitness whenthe gene is not properly expressed. For the human genome,we however do not have a list of phenotype associated withthe absence of all genes. The use of Online Mendelian

SSR-Based Hypermutability of Human Genes 119

Page 86: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

Inheritance in Man (http://www.ncbi.nlm.nih.gov/omim/)seems inappropriate because although half of the genescarry an entry, the entries clearly do not have the samemeaning in terms of individual fitness and the genes withno annotation cannot be considered as dispensable.

F inally, it is possible that the apparent neutrality ofSSR could be the result of a balance between positiveand negative selection. If the expression of a gene is asso-ciated to sometimes positive, sometimes negative fitness,one could imagine that the evolution of such a gene wouldlook neutral even though it is always under selection. Here,we find that genes that host a long SSR are devoted to themaintenance of D N A integrity. Why did such genes retainhypermutable motifs in their coding sequences? Previousstudies (Moxon and W ills 1999; Chang et al. 2001;Rocha et al. 2002; K ashi and K ing 2006) reported thepresence of long mono-SSR in M MR genes and proposedthat these genes tune the global mutation rate of the organ-ism by switching on and off after a loss-of-frame mutationcaused by replication slippage. Mutator phenotypes, gener-ally caused by a mutated M MR gene (Rosenberg et al.1998), have been shown to be evolutionary advantageousin bacteria facing an environmental challenge (Taddei et al.1997). Among a population under stress, individualswith a new advantageous mutation (most likely individualsbearing the mutator allele) will improve in fitness. Thus,this advantageous mutation will increase in frequency alongwith the mutator (by hitchhiking). If genetic linkage islikely to be strong in bacteria, it is not in eukaryotes. There-fore, the possibility of mutators in the human lineageseems difficult. We can nonetheless intuitively suspect thatselection could favor a premutator state (i.e., unstablemono-SSR hosted in coding sequence) in some function(e.g., genes devoted to genomic stability), although it wouldrequire more theoretical investigations that will not beconducted here.

It seems difficult at this stage to definitely support orreject one of the hypotheses. However, we would like tomention that the last hypothesis (hidden positive selection)should be regarded with caution. If long mono-SSR looksneutral in these genes, the most parsimonious explanation isthat they are neutral.

As a consequence, we do not favor this ‘‘oscillatingmode of selection’’ hypothesis and challenge the existenceof mutator genes in human and more generally ineukaryotes.

Conclusion

The hypermutability of the human genes (when con-sidering only potentially unstable SSR) is typically a conse-quence of their length and/or nucleotide composition. Mostlong SSRs are removed from coding sequence by purifyingselection. However, a restricted set of functions seems to beinsensitive to the presence of a priori deleterious long SSR.The mystery of this apparent relaxed purifying selectionneeds more thought and data. In that respect, we think thatthere is a need for more theory along with a phylogeneticperspective on the evolution of coding SSR to gather furtherinsight in this unclosed debate.

Supplementa r y M ate r ial

Supplementary figure S1 and tables S1 and S2 areavailable at Molecular Biology and Evolution online(http://www.mbe.oxfordjournals.org/).

A cknowledgments

Authors would like to thank S. Schbath, E . Rocha, I.Goncxalves, S. Baulac, E . Leguern, and C . Castillo-Davis forcomments on previous versions of the manuscript.

L ite r atu re C ited

A altonen L A , Peltomaki P, Leach FS, et al. (15 co-authors).1993. C lues to the pathogenesis of familial colorectal cancer.Science. 260:812–816.

A ckermann M , Chao L . 2006. D N A sequences shaped byselection for stability. PLoS Genet. 2:e22.

A lexa A , Rahnenfuhrer J, Lengauer T . 2006. Improved scoring offunctional groups from gene expression data by decorrelatingG O graph structure. B ioinformatics. 22:1600–1607.

Ashburner M , Ball C A , B lake JA , et al. (17 co-authors). 2000.Gene ontology: tool for the unification of biology. The geneontology consortium. Nat Genet. 25:25–29.

Castillo-Davis CI, Hartl D L . 2003. GeneMerge—post-genomicanalysis, data mining, and hypothesis testing. B ioinformatics.19:891–892.

Chang D K , Metzgar D , W ills C , Boland CR. 2001. M icro-satellites in the eukaryotic D N A mismatch repair genes asmodulators of evolutionary mutation rate. Genome Res. 11:1145–1146.

Conti E , Izaurralde E . 2005. Nonsense-mediated mRN A decay:molecular insights and mechanistic variations across species.Curr Opin Cell B iol. 17:316–325.

de Wachter R. 1981. The number of repeats expected in randomnucleic acid sequences and found in genes. J Theor B iol. 91:71–98.

D ieringer D , Schlotterer C . 2003. Two distinct modes ofmicrosatellite mutation processes: evidence from the completegenomic sequences of nine species. Genome Res. 13:2242–2251.

Drake JW , Charlesworth B , Charlesworth D , Crow JF . 1998.Rates of spontaneous mutation. Genetics. 148:1667–1686.

Duval A , Hamelin R. 2003. Replication error repair, micro-satellites, and cancer. Med Sci (Paris). 19:55–62.

E llegren H . 2000. Heterogeneous mutation processes in humanmicrosatellite D N A sequences. Nat Genet. 24:400–402.

E llegren H . 2004. M icrosatellites: simple sequences withcomplex evolution. Nat Rev Genet. 5:435–445.

Enright AJ, V an Dongen S, Ouzounis C A . 2002. An efficientalgorithm for large-scale detection of protein families. NucleicA cids Res. 30:1575–1584.

Everett C M , Wood N W . 2004. Trinucleotide repeats andneurodegenerative disease. Brain. 127:2385–2405.

Fabre E , Dujon B , Richard G F . 2002. Transcription and nucleartransport of C A G/C T G trinucleotide repeats in yeast. NucleicA cids Res. 30:3540–3547.

Gragg H , Harfe B D , Jinks-Robertson S. 2002. Base compositionof mononucleotide runs affects D N A polymerase slippage andremoval of frameshift intermediates by mismatch repair inSaccharomyces cerevisiae. Mol Cell B iol. 22:8756–8762.

Hall D B , Holmlin RE , Barton JK . 1996. Oxidative D N A damagethrough long-range electron transfer. Nature. 382:731–735.

120 Loire et al.

Page 87: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

Jacob S, Praz F . 2002. D N A mismatch repair defects: role incolorectal carcinogenesis. B iochimie. 84:27–47.

K ashi Y , K ing D G. 2006. Simple sequence repeats as advanta-geous mutators in evolution. Trends Genet. 22:253–259.

K elkar Y D , Tyekucheva S, Chiaromonte F , Makova K D . 2008.The genome-wide determinants of human and chimpanzeemicrosatellite evolution. Genome Res. 18:30–38.

Kruglyak S, Durrett RT , Schug M D , Aquadro C F . 1998.Equilibrium distributions of microsatellite repeat lengthresulting from a balance between slippage events and pointmutations. Proc Natl A cad Sci USA . 95:10774–10778.

Lai Y , Sun F . 2003a. M icrosatellite mutations during thepolymerase chain reaction: mean field approximations andtheir applications. J Theor B iol. 224:127–137.

Lai Y , Sun F . 2003b. The relationship between microsatelliteslippage mutation rate and the number of repeat units. MolB iol Evol. 20:2123–2131.

Legendre M , Pochet N , Pak T , V erstrepen KJ. 2007. Sequence-based estimation of minisatellite and microsatellite repeatvariability. Genome Res. 17:1787–1796.

Levinson G , Gutman G A . 1987. Slipped-strand mispairing:a major mechanism for D N A sequence evolution. Mol B iolEvol. 4:203–221.

L i Y-C , Korol A B , Fahima T , Beiles A , Nevo E . 2002.M icrosatellites: genomic distribution, putative functions andmutational mechanisms: a review. Mol Ecol. 11:2453–2465.

Metzgar D , Bytof J, W ills C . 2000. Selection against frameshiftmutations limits microsatellite expansion in coding D N A .Genome Res. 10:72–80.

M i H , Lazareva-U litsky B , Loo R, et al. (12 co-authors). 2005.The PA N T H ER database of protein families, subfamilies,functions and pathways. Nucleic A cids Res. 33:284–288.

M iquel C , Jacob S, Grandjouan S, A ime A , V iguier J,Sabourin JC , Sarasin A , Duval A , Praz F . 2007. Frequentalteration of D N A damage signalling and repair pathways inhuman colorectal cancers with microsatellite instability.Oncogene. 26:5919–5926.

Mori Y , Y in J, Rashid A , Leggett B A , Young J, Simms L ,Kuehl PM , Langenberg P, Meltzer SJ, Stine O C . 2001.Instabilotyping: comprehensive identification of frameshiftmutations caused by coding region microsatellite instability.Cancer Res. 61:6046–6049.

Moxon ER, W ills C . 1999. D N A microsatellites: agents ofevolution? Sci Am. 280:94–99.

Pupko T , Graur D . 1999. Evolution of microsatellites in the yeastSaccharomyces cerevisiae: role of length and number ofrepeated units. J Mol Evol. 48:313–316.

Rivals I, Personnaz L , Taing L , Potier M C . 2007. Enrichment ordepletion of a G O category within a class of genes: whichtest? B ioinformatics. 23:401–407.

Robin S, Rodolphe F , Schbath S. 2005. D N A words and models.Cambridge: Cambridge University Press.

Rocha EPC , Matic I, Taddei F . 2002. Over-representation ofrepeats in stress response genes: a strategy to increaseversatility under stressful conditions? Nucleic A cids Res. 30:1886–1894.

Rose O , Falush D . 1998. A threshold size for microsatelliteexpansion. Mol B iol Evol. 15:613–615.

Rosenberg SM , Thulin C , Harris RS. 1998. Transient andheritable mutators in adaptive evolution in the lab and innature. Genetics. 148:1559–1566.

Sagher D , Hsu A , Strauss B . 1999. Stabilization of theintermediate in frameshift mutation. Mutat Res. 423:73–77.

Sen D , G ilbert W . 1988. Formation of parallel four-strandedcomplexes by guanine-rich motifs in D N A and its implica-tions for meiosis. Nature. 334:364–366.

Shinde D , Lai Y , Sun F , Arnheim N . 2003. Taq D N A polymeraseslippage mutation rates measured by PCR and quasi-likelihood analysis: (C A/G T)n and (A/T)n microsatellites.Nucleic A cids Res. 31:974–980.

Sia E A , Kokoska RJ, Dominska M , Greenwell P, Petes T D .1997. M icrosatellite instability in yeast: dependence on repeatunit size and D N A mismatch repair genes. Mol Cell B iol.17:2851–2858.

Smit A F . 1999. Interspersed repeats and other mementos oftransposable elements in mammalian genomes. Curr OpinGenet Dev. 9:657–663.

Strand M , Prolla T A , L iskay RM , Petes T D . 1993. Destabiliza-tion of tracts of simple repetitive D N A in yeast by mutationsaffecting D N A mismatch repair. Nature. 365:274–276.

Strauss BS. 1999. Frameshift mutation, microsatellites andmismatch repair. Mutat Res. 437:195–203.

Taddei F , Radman M , Maynard-Smith J, Toupance B ,Gouyon PH , Godelle B . 1997. Role of mutator alleles inadaptive evolution. Nature. 387:700–702.

Tautz D . 1994. Simple sequences. Curr Opin Genet Dev. 4:832–837.Toth G , Gaspari Z , Jurka J. 2000. M icrosatellites in different

eukaryotic genomes: survey and analysis. Genome Res. 10:967–981.

Tran H T , K een JD , Kricker M , Resnick M A , Gordenin D A .1997. Hypermutability of homonucleotide runs in mismatchrepair and D N A polymerase proofreading yeast mutants. MolCell B iol. 17:2859–2865.

Woerner SM , K loor M , von Knebel Doeberitz M , Gebert JF .2006. M icrosatellite instability in the development of D N Amismatch repair deficient tumors. Cancer B iomark. 2:69–86.

Xu X , Peng M , Fang Z . 2000. The direction of microsatellitemutations is dependent upon allele length. Nat Genet. 24:396–399.

Naruya Saitou, Associate Editor

A ccepted October 5, 2008

SSR-Based Hypermutability of Human Genes 121

Page 88: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

87

1.2. Résumé des résultats

Le catalogue de gènes hypermutables selon la définition que nous en donnons atteint une

proportion de 8.7% des 22 218 gènes étudiés. Parmi ces gènes, 1 291 contiennent une

répétition de mononucléotides codants d’une longueur supérieure ou égale à 8 nucléotides.

C’est dans ce groupe que les biais fonctionnels atteignent une valeur significative. Dix

processus biologiques (GO-terms) y sont surreprésentés : Méiose, Phase M, Phase M du cycle

cellulaire méiotique, Métabolisme des biopolymères, Cycle cellulaire, reponse aux stimuli de

dommages à l’ADN, Processus physiologique de la cellule, et Réponse aux stimuli

endogènes.

L’emboîtement de ces fonctions, qui sont directement liées les unes aux autres au sein de

l’ontologie, justifie la méthodologie utilisée pour détecter les surreprésentations. La

surreprésentation des plus précises d’entre elles entraîne également la surreprésentation de

celles qui les englobent, et une correction statistique pour les tests multiples qui n’aurait pas

été effectuée par niveau masquerait artificiellement certains résultats.

On trouve deux grandes classes de processus biologiques cohérents : Les fonctions liées au

contrôle du cycle cellulaire et les processus de réparation de l’ADN.

Il est intéressant de noter que les fonctions moléculaires surreprésentées sont également

cohérentes avec les fonctions de réponses aux stimulus : Les hélicase, la liaison aux acides

nucléiques et les activités ATPasiques, sont caractéristiques des protéines liées à la

maintenance de l’intégrité de l’ADN. De même leur localisation cellulaire : Le noyau

cellulaire. La présence des organelles non-membranaires est liée à la présence dans ce groupe

Page 89: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

88

du kinétochore, organelle lié au centromère durant les phases de divisions cellulaires

mitotiques et méiotiques.

Le modèle que nous avons proposé pour évaluer la probabilité, pour chaque gène, de contenir

une répétition de mononucléotide (mono-SSR) nous à permis de mettre en évidence que :

1) Les séquences codantes contiennent moins de mono-SSR qu’attendus par ce modèle, tout

type de nucléotide confondus.

2) Les introns contiennent plus de mono-SSR qu’attendus, sauf les répétitions de G et de C

qui restent sous-représentées dans ces séquences.

3) Les biais fonctionnels observés sont en partie imputables au fait que les gènes dédiés à ces

fonctions (Contrôle du cycle cellulaire ; Réponse aux simuli de dommages à l’ADN) sont

longs et/ou biaisées dans leur composition nucléotidiques, et présentent de ce fait une

probabilité plus forte de contenir ce type de répétitions.

4) Pris dans leur globalité, les groupes fonctionnels présentent généralement un nombre

observé de gènes contenant un mono-SSR différents de celui attendus, avec un continuum

allant de très inférieur à l’attendu, ce qui peut être interprété comme résultant d’une sélection

négative forte de ces répétitions instables, à identique à l’attendus, ce qui pourrait être

interprété comme résultant d’une relaxation de cette même sélection négative dans ces

fonctions. Les fonctions dans lesquelles les mono-SSR sont surreprésentés le sont donc

probablement en raison de cette relaxation, et non d’une hypothétique sélection positive

promouvant l’hypermutabilité de gènes par le biais de ces répétitions.

Page 90: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

89

2. Évolution des microsatellites codants

chez les primates

Les observations faites lors des travaux précédents méritaient que l’on porte une attention

plus particulière au devenir des microsatellites codants au cours de l’évolution humaine. Nous

avons donc choisi une approche de génomique comparative afin d’acquérir des données sur

les patrons de mutations des microsatellites codants au sein des gènes de primates.

La première étape a été l’obtention d’un jeu d’alignements d’orthologues. Nous avons

collecté ces derniers dans la base de données Homolens (Penel et al. 2009), en nous

restreignant aux groupes qui contenaient une séquence unique pour chacune des quatre

espèces considérées (H. sapiens, Pan troglodytes, Pongo pygmae et Macaca mulatta). De

nombreux groupes contiennent en effet un ou plusieurs paralogues, et ce pour une ou

plusieurs des espèces. Ces paralogues, issus de duplications apparues sur différentes branches

de l’arbre phylogénétique des espèces considérées, sont susceptibles d’avoir été soumis à des

pressions de sélections différentielles. Notre but étant ultimement d’analyser les forces de

sélections qui s’appliquent sur les microsatellites codants, nous avons restreint notre jeu de

données à 6888 alignements d’orthologues présents en copies uniques dans chaque génome.

Ces alignements contenaient des régions non-homologues, notamment du fait de l’inclusion

d’exons dans certaines séquences qui n’étaient pas annotées dans les gènes des autres espèces.

Nous avons donc filtré ces alignements sur la base de l’identité de séquences avec une

procédure adaptée.

Page 91: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

90

Au sein des ces alignements, nous avons recherché l’ensemble des loci de microsatellites, en

recherchant les répétitions de motif d’une longueur de un à six nucléotides dans chaque

séquence individuelle, en utilisant les seuils d’instabilité précédemment décrits (Loire et al.

2009). Lorsque les coordonnées étaient recouvrantes, nous avons défini un locus comme

l’ensemble des bases contenues entre l’union de ces coordonnées.

Nous avons ensuite réalisé des comptages de mutations (substitution et insertion/déletion) sur

trois type de séquences : Les microsatellites formés de la répétition d’un motif d’une longueur

multiple de trois (3n-SSR), les autres types de microsatellites (!3n-SSR) et le reste des

séquences codantes. La concaténation de l’ensemble de ces loci a été utilisée pour estimer la

divergence génétique au sein du phylum des primates pour chacun de ces types de séquences

séparément.

Pour chaque groupe d’orthologues, les séquences ancestrales ont été reconstruites en utilisant

le programme codeml (Yang 2007). Ces séquences nous ont permis d’orienter les mutations

au sein des loci de microsatellites codant, et ainsi de dénombrer les mutations créant ou

interrompant une répétition au sein de chaque branche (à l’exception la branche menant à M.

mulatta, qui sert de groupe externe).

Les probabilités d’observer ces patrons de mutations peuvent s’avérer complexes à calculer en

raison des événements de substitutions multiples et de l’absence de modèles rendant compte

de façon satisfaisante des événements d’insertion/déletion.

Nous avons donc décidé d’examiner plus particulièrement les répétitions de mononucléotides

d’une longueur exactement égale à 8 et pour lesquels au maximum un événement de

substitution est observé. Une répétition non interrompue est désignée comme un mono-8.

Lorsqu’une substitution interrompt la répétition, on parle alors de proto-SSR. Nous avons

Page 92: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

91

évalué le rapport attendu entre nombre mono-8 et nombre de proto-8 en estimant le taux de

mutation de l’un vers l’autre et considérant un état d’équilibre, puis l’avons comparé au

rapport observé dans l’ensemble des séquences codantes du génome humain. Pour rendre

compte de la différence entre ces rapports, nous avons utilisé un modèle de

mutation/sélection/dérive, en suivant les travaux de Bulmer (Bulmer 1991). Le principe est de

considérer que chaque locus est indépendant, et a deux allèles possibles : proto- et mono-8. La

fréquence p des mono-8 à un locus dans la population est estimée à partir de la fréquence des

mono-8 à chaque locus dans le génome.

Les proto-8 sont considérés comme neutres, et les mono-8 comme sélectionnés négativement.

Le coefficient de sélection s’obtient en dérivant les équations classiques de génétique des

populations (Rice 2004; Hartl and Clark 2006).

Enfin les valeurs p, fréquence de l’allèle mono-8, ont été estimé pour chaque groupe

fonctionnel défini par Gene Ontology (Ashburner et al. 2000). Les groupes fonctionnels pour

lesquels la valeur de p s’écarte significativement de la valeur moyenne ont été identifié à

l’aide d’un test basé sur des distributions binomiales ayant comme paramètre la valeur

moyenne de p et le nombre de loci présents dans chaque groupe fonctionnel.

Page 93: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

92

Page 94: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

93

2.1. Article (en préparation)

Page 95: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

94

Evolution of coding microsatellites

in primate genomes.

Etienne Loire

a,b, Dominique Higuet

a, Pierre Netter

a and Guillaume Achaz

a,b

a: UMR 7138, Systématique, Adaptation, Evolution (UPMC, CNRS, MNHN,

IRD). 4, place Jussieu. 75005 PARIS

b: Atelier de Bioinformatique (UPMC). 4, place Jussieu. 75005 PARIS

Keywords: SSR, Microsatellites, Phylogeny, Primate genomes

Running head: coding microsatellites in primates

Corresponding author:

Etienne Loire

BP 1202

75252 paris Cedex 05

[email protected]

tel : 33 1 44 27 68 91

fax: 33 1 44 27 63 12

Page 96: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

95

Abstract

Microsatellites (SSR) are typically avoided in coding sequences because of their

deleterious potential. Indeed, an insertion or a deletion event in any coding SSR, which unit

size is not a multiple of 3, induces a frameshift in the hosting gene. Here we study the

evolution of coding SSR in a phylogenetic context using four primate genomes: human,

chimpanzee, orangutan and macaque. In our set of 6,888 orthologous genes unambiguously

aligned among the four species, we show that, except for tri- and hexa-SSR in which

insertions and deletions are frequently observed, coding SSR evolves mainly through

substitutions. We show that the rate of substitution in coding SSR is typically two times

higher than in the rest of the coding sequences. Furthermore, although numerous coding SSR

are created and lost in the lineages, their numbers remains constant. This last observation

suggests that the coding SSR have reached equilibrium. We hypothesize that this equilibrium

involves a combination of mutation, drift and selection. We then estimated the average

selective cost of a mono-SSR of 8bp and show that its fitness impact is only moderate.

Although coding mono-SSR of 8 units are only slightly deleterious, their fitness impact

greatly varies from function to function, suggesting that the strength of the selection that acts

to remove them from the sequence can be tuned by gene functions.

Page 97: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

96

Introduction

Any genome from any organism is filled with rerepepetitive sequences of low-

complexity. One of the most encountered low-complexity sequences is the microsatellite, also

known as SSR -Simple Sequence Repeat-. An SSR is a small motif, which size ranges from 1

to 6 bp, that is repeated in tandem. The most striking feature of an SSR is its very high rate of

mutation. Although, some results indirectly suggest that the substitution rate may be increased

in SSR (Shankar et al. 2007; Pumpernik, Oblak, and Borstnik 2008), it is well established that

SSR exhibit a very high insertion/deletion rate (Levinson and Gutman 1987; Schlotterer and

Tautz 1992; Tautz 1994). A typical insertion/deletion event will add/remove one unit,

however one can observe changes of several units (Henderson and Petes 1992). In that regard,

SSR can be regarded as mutational hot spots.

Whenever a SSR is hosted by a coding sequence, any insertion or deletion event

would alter the amino-acid sequence. When the unit size is a multiple of 3, it would add or

remove one (or several) amino acid. On the contrary, when the unit size is not a multiple of 3,

an insertion or a deletion event induces a frameshift that results typically in a premature

STOP codon. The resulting messenger RNA is then degraded by the Non-sense Mediated

Decay pathway (Ruiz-Echevarria, Gonzalez, and Peltz 1998), which prevents abnormal

transcripts to be translated. A gene with a frameshift can be therefore assimilated to a null

allele for the gene (i.e. a pseudogene).

This implies that SSR are potentially harmful in coding sequence because of their high

propensity to turn a wild type allele into a null allele. Indeed, the probability that an SSR is

targeted by a mutation is several orders of magnitude higher than a reference locus: the

insertion/deletion rate in an SSR ranges from 10-6 to 10-2 per replication (Schlotterer 2000),

whereas the average substitution rate is, in mammals, 10-10 per site per replication (Drake

1999). Scaled at a gene size (e.g. 1kb for the sake of the argument), the none-sense

substitution rate can be approximated to 3/64*1000*10-10=5*10-9 per replication. Therefore,

the presence of a single SSR in a coding sequence enhances, by several order of magnitude,

the probability of being targeted by a non-sense mutation.

Obviously, each SSR locus exhibits its own instability --its propensity of being

targeted by an insertion or a deletion event--. Several factors including, for example, the

Page 98: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

97

species genome in which the locus is hosted (Toth, Gaspari, and Jurka 2000), the composition

of the repeated motif (Jurka and Pethiyagoda 1995) can greatly modulate the mutability of a

given SSR. However, the best predictor of the SSR mutability is its number of repeated units

(Lai and Sun 2003; Kelkar et al. 2008). Indeed, it seems that the mutability m, is a geometric

function of the number of repeated units n. This can be mathematically expressed as

!

m" pn

(de Wachter 1981; Cox and Mirkin 1997; Metzgar, Bytof, and Wills 2000). This suggests that

there is an independent probability p for each unit to be targeted by an insertion or a deletion

event.

The mutability of a locus will become important enough only when the number of

units reached a minimum. Based on the literature, we previously decided to set this minimum

at 8 units for the mono-nucleotides SSR (mono-SSR), 5 units for the di-SSR, 4 units for the

tri-SSR and 4 units for the tetra-SSR. An extensive discussion about this particular choice can

be viewed in Loire et al. ((Loire et al. 2009)) and will not be further address here.

We would like to emphasize that coding SSR not only carry a long-term impact on

fitness but also, and maybe more importantly, show an immediate fitness cost at each

generation. Indeed the coding SSR can be the target of an insertion or a deletion event in the

germline (long-term cost) but also in the somatic cell lines (immediate cost). Examples of

such generational consequence of hosting a coding SSR are their implication in several tumor

genesis ((Zienolddiny et al. 1999; Vassileva et al. 2002; Yamada et al. 2002; Duval and

Hamelin 2003)). Furthermore, this instability plays also an important during transcription

where an SSR loci will induce several abnormal transcripts with an altered number of units

(Jacques and Kolakofsky 1991; Fabre, Dujon, and Richard 2002). Last but not least, it has

been shown that transcription enhances the genomic rate of insertion and deletion in SSR

((Lin, Dion, and Wilson 2006).

These observations suggest that SSR have an extremely harmful potential in coding

sequence when their unit size is not a multiple of 3. In accordance, several previous studies

found less SSR than expected by chance in coding sequences ((Metzgar, Bytof, and Wills

2000; Ackermann and Chao 2006; Loire et al. 2009)). At least two classes of models give

expectations for the number of SSR within a gene. A first approach is to take the frequency of

each nucleotide into account and to predict what would be the probability of finding an SSR

of a given size in a gene ((de Wachter 1981; Metzgar, Bytof, and Wills 2000; Loire et al.

2009). Improvements that takes frequencies of overlapping di- or tri-nucleotide frequencies

can be obtained analytically ((Robin, Rodolphe, and Schbath 2005)) or by simulation but does

Page 99: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

98

not alter the results (Loire unpublished results). Another methodological approach is to

consider the amino-acid sequence as given. In that respect, one can compute, on this sequence

and on a given codon usage, an expected number of SSR. This second approach corrects for

any over- or under-representation of tracts of lysine (that can be encoded by a poly-A),

phenylalanine (poly-T), proline (poly-C) or glycine (poly-G). For example, contrarily to what

intuition suggests, tracts of prolines are extremely common in proteins (Rubin et al. 2000).

Whatever is the chosen approach, results are quite clear: long enough SSR, which

units number is not a multiple of 3 (i.e. neither tri-SSR nor hexa-SSR), are fewer and/or

smaller than expected in coding sequences. This unambiguously shows that SSR are typically

avoided in coding sequences; this observation fits a model in which coding SSR are

associated with a negative selective coefficient. An analysis of the human genome show that

this results can be extended to almost all functional categories ((Loire et al. 2009)) as defined

by Gene Ontology annotations (Ashburner et al. 2000).

Importantly our previous results ((Loire et al. 2009)) do not support the hypothesis

under which the coding SSR of the mismatch repair system can be selected for as modulators

of the genome mutation rate ((Chang et al. 2001; Li et al. 2004)). These so-called modulators

are reminiscent of bacterial mutators, which importance in evolutionary process has been

emphasized ((Taddei et al. 1997)). However, theory clearly shows that mutators cannot

increase in frequency whenever the mutator locus is genetically independent from the

beneficial mutations it generates ((Ninio 1991; Rosenberg, Thulin, and Harris 1998; Tenaillon

et al. 2000)) --as it would be the case of a mutator in a diploid sexual organism--. However,

this does not rule out that positive selection can favor null alleles in genes, as long as the

benefit is bounded to the null allele. Also, it does not exclude that the strength of the purifying

selection that acts against coding SSR varies from gene to gene, some showing more relaxed

selection than others.

Here, using comparative genomics, we depict the dynamic of coding SSR in four

genomes of the primate lineages: human (Homo sapiens), chimpanzee (Pan troglodytes),

orang-utan (Pongo pygmaeus) and macaque (Macaca mulatta). We show that, even though

many coding SSR appear and disappear through substitutions, their number in the coding

sequences remains constant. This suggests that their abundance results from a balance

between mutation, selection and drift. Using two alternate models, we propose estimates of

the selective cost of mono-SSR of 8bp.

Page 100: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

99

Material and Methods

DATASET

Alignments of orthologs from human (H. sapiens), chimpanzee (P. troglodytes),

orang-Utan (P. pygmaeus) and macaque (M. mulatta) were retrieved from the Homolens

database (Penel et al. 2009). Primary alignments were performed with protein sequences and

were then back-translated into coding sequences (CDS) alignments using pal2nal ((Suyama,

Torrents, and Bork 2006)).

When more than one transcript were reported for a gene, only the largest was kept. We

devised a method to exclude regions of the alignment that exhibit a high divergence in at least

one sequence. Visual inspection of these regions shows that typically one sequence is very

divergent and therefore obviously not homologous to the other ones. This may be due to

either different splicing variants or incorrect annotations of the exons. Anyway, these regions

have to be excluded from the alignments. To set the boundaries of the regions that have to be

excluded, we computed, for each CDS alignment, a cumulative score that starts at the 5’ of

the CDS. The score is increased by +1 when the four sequences were identical, and decreased

by -1 otherwise. Because the four primate genomes are highly similar, the cumulative score

typically increases when the regions are homologous and decreases when at least one of the

four sequences differs from the other (Figure 1). The regions with a decreasing cumulative

score were then discarded if their length was more than 30 nucleotides. Filtered alignments

were checked manually for accuracy.

Ancestral sequences were reconstructed using codeml (Yang 2007), which parameters

were set to: seqtype = codons, NSsites = 0 and ncatG = 4. All ancestral sequences show a

posterior probability above 0.8.

The evolutionary distance between the species sequence were computed using an

HKY model (Hasegawa, Kishino, and Yano 1985) along with a gamma correction. Tree

reconstruction was done with neighbor joining (Saitou and Nei 1987) using tree-puzzle

(Schmidt et al. 2002).

ESTIMATION OF THE SELECTION COEFFICIENT

To compute an estimate of the coefficient of selection (s) associated with a coding

SSR, we use a two-alleles model. For that purpose, we focused on mono-8 (mono-SSR of

8bp) along with the sequences that can be turned into a mono-8 by a single substitution. These

later sequences will be named hereafter proto-8. In the following, S represents the SSR allele

and P the paired proto-SSR alleles. Any of the two alleles can be changed into the other one

Page 101: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

100

by a single substitution. Following Bulmer (Bulmer 1991), we estimated the average

coefficient of selection associated with the S allele under two different models.

Model 1: Infinite population size

In the first model, the population size is infinite and all SSR evolve identically but

independently. This corresponds to a case where all S alleles have the same selection

coefficient (s) and where free recombination occurs between loci. At each locus, the

frequency p of the S allele is the same and consequently, a single genome has an expected

fraction of loci with an S allele equal to p. p is predicted by a mutation-selection equilibrium.

If we define µ as the substitution rate per site, a P allele mutates in an S allele at a rate aµ;

reciprocally an S allele mutates to a P allele at a rate dµ. Please note that “a” stands for

apparition (of the SSR) and “d” for disappearance. The fitness function is wP/P = 1, wP/S = 1-

hs, wS/S = 1-s. Following standard derivations (e.g. (Hartl and Clark 2006)), the frequency

after one generation of random mating is:

!

pt+1 =[pt

2+ pt (1" pt )(1" hs)](1" dµ) + [pt (1" pt )(1" hs) + (1" pt )

2]

pt2

+ 2pt (1" pt )(1" hs) + (1" pt )2

At equilibrium (

!

pt+1 = pt ), when

!

µ << p , we have:

!

s ~ µa " p(a + d)

p(1" p)[p + h(1" 2p)] (1)

Model 2: Finite population size

In the second model (Bulmer 1991), the population size, N, is finite and small enough

so that any polymorphic state is only transient. At each locus one of the two alleles is fixed

and a fraction p of the loci is fixed for the S allele. When a new mutant is generated, it has a

probability !(") to be fixed, with " = 2Nes. Providing that the fitness function is, as in the

previous model, 1:(1-hs):(1-s) the probability of fixation can be approximated to

!

"(#) = h# /N(1$ e$2h#) , if h ! 0 (Rice 2004). The number of P allele loci that mutate to an S

allele and become fixed is N(1-p)aµ!(-"). Reciprocally, the number of S allele loci that

mutate to a P allele and become fixed is Npdµ!("). At equilibrium, these two numbers are

equal, which leads to:

!

" =1

2hln(1# P)

P

a

d

$

% & '

( ) (2)

Page 102: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

101

FUNCTIONAL ANALYSIS

GO-terms associated with human genes were downloaded from Ensembl database

(http://www.ensembl.org/index.html). We have estimated that among all mono-8 (S allele)

and proto-8 (P allele), the frequency of S alleles is p. Most genes of the human genome are

annotated by one or several Gene-Ontology terms (GO terms). Using the structure of the

ontology, we collected for each gene all the GO-terms that are parent of the annotated ones

and add them to the gene annotation. Then, for each GO-term, we tested whether, among the

set of genes that are annotated by the GO-term under consideration can be assimilated to a

random sample of genes. For that purpose, we computed the probability that, given n the

number of loci (loci with both P and S alleles) in the set of gene, we observed at least this

number of S alleles. The probability was computed using a cumulative Binomial of

parameters p and n.

We perform our tests level by level to compare comparable terms. Here, we defined

the level of a term as the number of nodes that exists between this term and the root of the

graph (level 0). In the cases of multiple paths, we keep the shortest one. For each level of the

ontology, we performed one test per term. To correct for multiple tests, we considered that

terms lying at the same level of the ontology were independent and therefore can be corrected

using the Bonferroni correction. On the contrary, we considered that tests between levels were

fully dependant since they use the same annotations but with different accuracies.

Results

We analyzed 6,888 alignments of orthologs from human, chimpanzee, orang-utan and

macaque that represents 11,085,687 sites.

We define an SSR as a tandem exact repeat (no gap, no mismatch) of a unit, which

size ranges from 1 to 6bp. The minimum number of repeated units differs for each type of

SSR. We selected the following minima: mono-SSR must have "8 units, di-SSR "5 units and

tri- , tetra-, penta- and hexa-SSR "4 units. The union of all sites spanned by an homologous

SSR in the different species defines an SSR locus. As a consequence, a mono-SSR locus is a

section of the alignment of 8 sites or more. Accordingly, we found 525 mono-SSR loci (40.3

% of all SSR loci), 238 di-SSR loci (18.3 %), 378 tri-SSR loci (29 %), 58 tetra-SSR loci (4.5

%), no penta-SSR loci (0%) and 102 hexa-SSR loci (7.8 %). In total, it sums to 1,301 SSR

loci, hosted by 1,112 genes, which span 20,523 sites (0.122 % of all sites).

Page 103: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

102

CODING SSR DIVERGE FASTER THAN THE REST OF THE CODING SEQUENCE

We split the sites of the alignments between three classes. The first class encompasses

all tri- and hexa-SSR loci. We analyzed these SSR on their own because an insertion or a

deletion of one unit does not alter the reading frame and is therefore more likely to be

observed. The second class contains mono-, di-, and tetra-SSR loci. The last one is composed

of all the rest of the coding sequences. For each class, we counted the number of sites that

contain at least 1 substitution or at least 1 gap.

Results (Table 1) clearly show that, for the tri- and hexa-SSR, there are as many sites

with gaps than with substitutions. For the two other classes, there are about ten times less sites

with gaps than with substitution. This has to be interpreted as a consequence of the

frameshifts produced when the length of an insertion/deletion event is not a multiple of 3.

Results also show that SSR sequences diverge two times faster than does the rest of

the coding sequence. A distance tree, based on substitution only, show a concordant pattern

among all lineages (Figure 2). From this, it is clear that, in all lineages, the substitution rate is

about two times higher in SSR than in the rest of the coding sequences.

THE NUMBER OF CODING SSR IS AT EQUILIBRIUM.

In order to test whether there was a tendency to loose or gain coding SSR in the

different primate lineages, we reconstructed the ancestral sequences of the human-

chimpanzee ancestor as well as the human-chimpanzee-orangutan ancestor and catalogued all

SSR loci within the 6 genomes. In figure 3, we report the number of coding SSR in each of

the 6 genomes along with the number of gain and loss in each branch. These latter numbers

were computed by comparing the state of each SSR loci in each genome (presence or absence

of the SSR allele). Because the ancestral state of the root is unknown, we cannot sort apart

gains and losses in the macaque lineage.

Results show that there are as many creations than losses in the primate lineages. It

also shows that the number of SSR is similar in all genomes, suggesting that the number of

SSR results from an equilibrium between gains and losses. Indeed, the number of gains is not

statistically different losses in mono-SSR (91 vs 73), di-SSR (44 vs 36) or in all SSR pooled

together (200 vs 228). However, we observe more losses (111) than gains (65) for tri-SSR (P

< 10-3 ; !2 test). With the exception of the tri-SSR, we can hypothesize that SSR have reached

Page 104: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

103

an equilibrium where gains of new SSR balance with losses. To further investigate this

equilibrium, we decided to focus more specifically on the mono-SSR of exactly 8 units. These

sequences are 10bp long, since their edge cannot be of the same nucleotide than the SSR

itself. Complementarily, we also analyzed the related proto-SSR, which we define here as

sequences of 10bp that can be turned into a mono-SSR of 8 units by a single mutation. Please

note that we excluded from these proto-SSR all the mono-SSR of 9 or more units.

A mono-SSR of 8 units (hereafter an S allele) and a proto-SSR (hereafter a P allele)

are two alternative alleles for an SSR locus. Clearly other alleles can be observed for an SSR

locus, our focus will be only on S and P alleles. Because SSR are at equilibrium, other states

should not change the following reasoning. Although the P alleles are presumably neutral, the

S alleles are presumably negatively selected because of their intrinsic mutability//Loire, 2009

#385\\(Metzgar, Bytof, and Wills 2000; Ackermann and Chao 2006).

The numbers of loci with an S allele and with a P allele are reported on the nodes of a

cladogram (Figure 4). On the branches of the cladogram, we also report the number of

mutation from P to S (hereafter named “apparition”) and the reverse mutation (hereafter

named “disappearance”). It is important to clarify that many mutations other than apparition

or disappearance are expected to happen. As a consequence, the number of S and P allele loci

cannot be deduced from only counting the number of apparitions and disappearances and

from the ancestral state.

As for SSR in general, the total number of apparition (28) is not statistically different

from the number of disappearance (32) (!2 test). This shows that S and P alleles have reached

an equilibrium value in the primate lineages. There is, on average, 11,632 loci with a P allele

and 320 loci with an S allele. This translates into an average frequency of the S allele of

p = 0.027.

MUTATIONS ONLY CANNOT EXPLAIN THE DATA

A first model that should be tested is that pS simply results from the rates of apparition

and disappearance. In this model, we would expect the frequency of S to be µa/(µa+ µd), where

µa is the rate of apparition and µd the rate of disappearance. Because apparition and

disappearance are both substitutions they can be expressed as a function of µ, the average

substitution rate: µa = a µ and µd = d µ. In that respect the frequency of S is expected to be

a/(a+d).

Because for a given proto-SSR only a single substitution makes an apparition, we will

set a = 1/3. Even if one corrects for rates of transitions and transversions, this does not change

Page 105: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

104

the average apparition rate as long as the average composition of P alleles is identical to the

one of S alleles (both being A: 0.72, T: 0.13, G: 0.05, C: 0.10). As for the disappearance, any

of the 8 nucleotides can be changed into any different nucleotide. We thus set d = 8. Given

this, we would expect under this “mutation only” model a frequency of the S allele of 0.04.

This is 1.47 higher than the observed frequency. We hypothesize that this difference is

explained by the selective advantage of the P allele over the S allele.

ESTIMATION OF THE FITNESS IMPACT OF S ALLELES.

Then, we considered models where the S alleles are underrepresented because their

fitness value is lower than the one from P alleles. In this model, both apparitions and

disappearances occur and selection acts against the S alleles. The expected frequency of the S

alleles then depends on the mutation rate and on the fitness function. Depending on the

assumption one is ready to make for the effective size of the populations, two alternative

models could be used to estimate the average fitness cost of the S alleles (Bulmer 1991). In

both models, there is the implicit assumption that the fitness cost associated with the S allele

is equal at every loci.

In the first model, the population size is assumed to be infinite and all SSR loci evolve

independently. In such a model, all loci are polymorphic and the frequency of the S alleles is

equal at each locus. The expected frequency is given by the mutation-selection equilibrium. In

this model, the fitness functions is as follow: wP/P = 1, wP/S = 1-hs, wS/S = 1-s. In the fitness of

the heterozygotes, h represents the degree of dominance of the S alleles. When h=0, the S

alleles are completely recessive and when h=1, it is completely dominant. Please note that we

used µ = 2.10-8 per generation (two times the average mutation rate in primates (Drake 1999)

and Ne=10,000, the estimated human effective size (Hill 1981). Results (Table 2) show that, if

the first model is correct, the selection coefficient associated with the S alleles is extremely

small. Scaled with the human effective population size, it remains much smaller than 1 unless

h~0. This would imply that the S alleles are effectively neutral unless they are completely

recessive. Even in this last case, the selective disadvantage remains small (" is still smaller

than 1).

In the second model, the population size is assumed to be finite enough, so that the

time in which a loci is polymorphic is very small. In this second model, the loci are all fixed

for one or the other allele. The proportion of the loci that are fixed for the S alleles results

from an equal number of fixation events in one way and in the other. The fixation

probabilities are given by standard diffusion results, which are not available for the case of

Page 106: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

105

h ~ 0. Estimation of selective coefficients show that the fitness cost is small, in the order of 1.

Even though, no value are available for h ~ 0, one could imagine by comparing it to the model

1 that it would be around 8. This again suggests that mono-8 have a moderate impact on

fitness when compared to their counterpart (proto-8). In that regard, S alleles can be viewed as

slightly deleterious alleles.

FITNESS COST VARIES FROM FUNCTION TO FUNCTION

Although the average p can be computed for all mono-8/proto-8 loci, we wanted to

further tests if some functional groups (as define by Gene Ontology annotations) show more

or less selective constraint than others. The frequency of S allele, computed among the 21,416

annotated human genes, is the same than in our restricted set of orthologous genes (i.e. p =

0.027). Therefore, we tested, for each functional category, as defined by a GO-term, whether

the observed number of S alleles is significantly over or under the expectation.

Results are given in supplementary table 1. As one could expect, some functional

groups of genes (development related genes) show less S alleles than expected while others

show a significant enrichment (genes involved in DNA maintenance, cell death and lipid

degradation). It is tempting to hypothesize that a deprivation in S alleles is a consequence a

stronger purifying selection against the S alleles whereas enrichment suggest a relaxed

purifying selection.

Discussion

In this study, we have investigated the evolution of coding SSR in phylogenetic

framework. This strategy revealed several interesting features of the evolutionary dynamics of

coding SSR in the primate lineages.

First, to our surprise, it shows that pre-computed alignments of orthologs that can be

retrieved from databases should be carefully checked, especially when several species are

included. This may be the consequence of several reasons, some being artefactual (e.g.

erroneous annotations of exons), others being biologically relevant (e.g. losses and gains of

exons though evolution). Whatever are the correct explanations, there is a need for checking

the homology of all sites in a given alignment. The method we proposed here is to trim out

the suspicious regions. In its current formulation, it can only be applied to closely related

genomes. However, one could think of obvious extensions, where the score would be

computed using matrices that measure degeneracy (DNA or protein score matrices) instead of

the currently used identity matrix.

Page 107: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

106

We show that, except for tri- and hexa-SSR, the evolution of SSR in the primate

lineages occurs mostly by substitution. This has to be interpreted as the deleterious effect of

an insertion/deletion event in a coding sequence. Whenever the length of an insertion or a

deletion event is not a multiple of 3 (as it would be for tri- and hexa-SSR), it generates a null

allele for the gene. As a consequence, it is very likely that, even though insertion/deletion do

occur frequently, they are filtered out by selection. Inspection of polymorphisms among

population may help confirming this hypothesis.

This study shows that coding SSR are often created and lost in the course of evolution.

Interestingly, their absolute numbers remain constant in the different lineage. This strongly

supports that coding SSR have reached equilibrium. It is possible that the tri-SSR are an

exception in the primate lineage (more losses than creation are observed). However, the

codeml software, used to reconstruct the ancestral states, set the ancestral codon to AAA

when it cannot reach a decision. We therefore suspect that the enrichment in tri-SSR in

ancestral states may be an artifact of the reconstruction.

Because mono-SSR have reached an equilibrium in the lineages we analyzed, we

made an attempt to estimate the fitness cost (s) associated with a mono-8 SSR (S allele) when

compared to a proto-8 sequence (P allele). We show that under a simple mutation model, we

would expect 1.5 more S alleles than observed. Because the total number of mono-8/proto-8

loci are so large, we assume that this difference cannot be caused by sampling. In the light of

previous studies (Metzgar, Bytof, and Wills 2000; Borstnik and Pumpernik 2002; Ackermann

and Chao 2006; Loire et al. 2009), we conclude that this difference is very likely due to the

purifying selection that acts to remove the SSR from the coding sequences. Therefore, using

two alternate models, we estimated the selective cost of mono-8 as well as " = 2Nes, the

effective strength of selection. The first model (infinite population size) suggests that the

fitness cost of such an allele can be neglected unless it is completely recessive whereas the

second one (finite population) suggests that S alleles are slightly deleterious (the more

recessive the more deleterious). Because mono-SSR are underrepresented in coding sequence

and because we think that the primate populations are far from being infinitely large, we

favour the hypothesis under which mono-8 are slightly deleterious when compared to proto-8.

The strength of selection that acts to remove mono-SSR from coding sequence is very

likely to vary from gene to gene and even from function to function. Many factors will

influence the fitness cost of a mono-8. Some factors will be a consequence of the SSR

structure itself (e.g. its composition (Jurka and Pethiyagoda 1995)) or of its genomic

Page 108: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

107

environment (Li et al. 2002). Others will be related to the gene that host the SSR. The

transcriptional activity of the gene is one obvious factor (Fabre, Dujon, and Richard 2002);

another one could the class of function of the gene. To address this last point, we analyzed all

functions defined by Gene Ontology annotations that are annotated in the human genome. We

show that among all these functions, a set of functions show less proto-8 than expected, which

are part of the developmental process. It is tempting to postulate that these genes are under

strong purifying selection because of the strong impact early mutations in the somatic line

may have. However, the analysis of the exact nature of the factors that explain the range of

the selective cost deserves an entire study. Here we emphasized that the estimate of the

selective coefficient we report here is only an average and that many factors will influence its

value. The exact nature of what factors are the most important on the fitness cost of coding

SSR remains to be unraveled.

Finally, one of the most unexpected results from this study is the accelerated

substitution rate in coding SSR when compared to the rest of the coding sequence. This

accelerated substitution rate may be the consequence of either a higher mutation rate or a

higher fixation rate. In the light of the observation that repetitive sequences seem to show an

accelerated evolution in non-coding regions (Pumpernik, Oblak, and Borstnik 2008), we tend

to favor the first hypothesis. Indeed, it is possible that SSR are epigenetically modified (Libby

et al. 2008), which would then change their intrinsic mutation rate. However, although the

accelerated substitution rate is a robust observation, the proposed explanation remains, at this

stage, only hypothetical.

Acknowledgments

We would like to thank xxx for constructive comments on the manuscript. We would

also like to thank B Boeda for pointing to us the unexpected abundance of poly-proline in

protein sequences.

Page 109: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

108

References

Ackermann M, and Chao L. 2006. DNA sequences shaped by selection for stability. PLoS

Genet. 2:e22.

Ashburner M, Ball CA, Blake JA et al. 2000. Gene ontology: tool for the unification of

biology. The Gene Ontology Consortium. Nat Genet. 25:25--29.

Borstnik B, and Pumpernik D. 2002. Tandem repeats in protein coding regions of primate

genes. Genome Res. 12:909--915.

Bulmer M. 1991. The selection-mutation-drift theory of synonymous codon usage. Genetics.

129:897-907.

Chang DK, Metzgar D, Wills C, and Boland CR. 2001. Microsatellites in the eukaryotic DNA

mismatch repair genes as modulators of evolutionary mutation rate. Genome Res.

11:1145--1146.

Cox R, and Mirkin SM. 1997. Characteristic enrichment of DNA repeats in different

genomes. Proc Natl Acad Sci U S A. 94:5237-5242.

de Wachter R. 1981. The number of repeats expected in random nucleic acid sequences and

found in genes. J Theor Biol. 91:71--98.

Drake JW. 1999. The distribution of rates of spontaneous mutation over viruses, prokaryotes,

and eukaryotes. Ann N Y Acad Sci. 870:100-107.

Duval A, and Hamelin R. 2003. Replication error repair, microsatellites, and cancer. Med Sci

(Paris). 19:55--62.

Fabre E, Dujon B, and Richard GF. 2002. Transcription and nuclear transport of CAG/CTG

trinucleotide repeats in yeast. Nucleic Acids Res. 30:3540-3547.

Hartl D, and Clark A. 2006. Principles of Population Genetics, Fourth Edition.

Hasegawa M, Kishino H, and Yano T. 1985. Dating of the human-ape splitting by a

molecular clock of mitochondrial DNA. J Mol Evol. 22:160-174.

Henderson ST, and Petes TD. 1992. Instability of simple sequence DNA in Saccharomyces

cerevisiae. Mol Cell Biol. 12:2749-2757.

Hill WG. 1981. Estimation of effective population size from data on linkage disequilibrium.

Genetics Research. 38:209-216.

Jacques JP, and Kolakofsky D. 1991. Pseudo-templated transcription in prokaryotic and

eukaryotic organisms. Genes Dev. 5:707-713.

Jurka J, and Pethiyagoda C. 1995. Simple repetitive DNA sequences from primates:

compilation and analysis. J Mol Evol. 40:120-126.

Kelkar YD, Tyekucheva S, Chiaromonte F, and Makova KD. 2008. The genome-wide

determinants of human and chimpanzee microsatellite evolution. Genome Res. 18:30-

38.

Lai Y, and Sun F. 2003. The relationship between microsatellite slippage mutation rate and

the number of repeat units. Mol Biol Evol. 20:2123-2131.

Levinson G, and Gutman GA. 1987. Slipped-strand mispairing: a major mechanism for DNA

sequence evolution. Mol Biol Evol. 4:203--221.

Li Y-C, Korol AB, Fahima T, Beiles A, and Nevo E. 2002. Microsatellites: genomic

distribution, putative functions and mutational mechanisms: a review. Mol Ecol.

11:2453--2465.

Li Y-C, Korol AB, Fahima T, and Nevo E. 2004. Microsatellites within genes: structure,

function, and evolution. Mol Biol Evol. 21:991--1007.

Libby RT, Hagerman KA, Pineda VV et al. 2008. CTCF cis-Regulates Trinucleotide Repeat

Instability in an Epigenetic Manner: A Novel Basis for Mutational Hot Spot

Determination. PLoS Genet. 4:e1000257.

Page 110: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

109

Lin Y, Dion V, and Wilson JH. 2006. Transcription promotes contraction of CAG repeat

tracts in human cells. Nat Struct Mol Biol. 13:179-180.

Loire E, Praz F, Higuet D, Netter P, and Achaz G. 2009. Hypermutability of genes in Homo

sapiens due to the hosting of long mono-SSR. Mol Biol Evol. 26:111-121.

Metzgar D, Bytof J, and Wills C. 2000. Selection against frameshift mutations limits

microsatellite expansion in coding DNA. Genome Res. 10:72--80.

Ninio J. 1991. Transient mutators: a semiquantitative analysis of the influence of translation

and transcription errors on mutation rates. Genetics. 129:957-962.

Penel S, Arigon AM, Dufayard JF, Sertier AS, Daubin V, Duret L, Gouy M, and Perriere G.

2009. Databases of homologous gene families for comparative genomics. BMC

Bioinformatics. 10 Suppl 6:S3.

Pumpernik D, Oblak B, and Borstnik B. 2008. Replication slippage versus point mutation

rates in short tandem repeats of the human genome. Mol Genet Genomics. 279:53-61.

Rice S. 2004. Evolutionary Theory.

Robin S, Rodolphe F, and Schbath S. 2005. DNA Words and Models. Cambridge University

Press.

Rosenberg SM, Thulin C, and Harris RS. 1998. Transient and heritable mutators in adaptive

evolution in the lab and in nature. Genetics. 148:1559--1566.

Rubin GM, Yandell MD, Wortman JR et al. 2000. Comparative genomics of the eukaryotes.

Science. 287:2204-2215.

Ruiz-Echevarria MJ, Gonzalez CI, and Peltz SW. 1998. Identifying the right stop:

determining how the surveillance complex recognizes and degrades an aberrant

mRNA. EMBO J. 17:575--589.

Saitou N, and Nei M. 1987. The neighbor-joining method: a new method for reconstructing

phylogenetic trees. Mol Biol Evol. 4:406-425.

Schlotterer C. 2000. Evolutionary dynamics of microsatellite DNA. Chromosoma. 109:365--

371.

Schlotterer C, and Tautz D. 1992. Slippage synthesis of simple sequence DNA. Nucleic Acids

Res. 20:211-215.

Schmidt HA, Strimmer K, Vingron M, and von Haeseler A. 2002. TREE-PUZZLE:

maximum likelihood phylogenetic analysis using quartets and parallel computing.

Bioinformatics. 18:502-504.

Shankar R, Chaurasia A, Ghosh B, Chekmenev D, Cheremushkin E, Kel A, and Mukerji M.

2007. Non-random genomic divergence in repetitive sequences of human and

chimpanzee in genes of different functional categories. Mol Genet Genomics.

277:441-455.

Suyama M, Torrents D, and Bork P. 2006. PAL2NAL: robust conversion of protein sequence

alignments into the corresponding codon alignments. Nucleic Acids Res. 34:W609-

612.

Taddei F, Radman M, Maynard-Smith J, Toupance B, Gouyon PH, and Godelle B. 1997.

Role of mutator alleles in adaptive evolution. Nature. 387:700--702.

Tautz D. 1994. Simple sequences. Curr Opin Genet Dev. 4:832--837.

Tenaillon O, Le Nagard H, Godelle B, and Taddei F. 2000. Mutators and sex in bacteria:

conflict between adaptive strategies. Proc Natl Acad Sci U S A. 97:10465-10470.

Toth G, Gaspari Z, and Jurka J. 2000. Microsatellites in different eukaryotic genomes: survey

and analysis. Genome Res. 10:967--981.

Vassileva V, Millar A, Briollais L, Chapman W, and Bapat B. 2002. Genes involved in DNA

repair are mutational targets in endometrial cancers with microsatellite instability.

Cancer Res. 62:4095-4099.

Page 111: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

110

Yamada T, Koyama T, Ohwada S, Tago K, Sakamoto I, Yoshimura S, Hamada K, Takeyoshi

I, and Morishita Y. 2002. Frameshift mutations in the MBD4/MED1 gene in primary

gastric cancer with high-frequency microsatellite instability. Cancer Lett. 181:115-

120.

Yang Z. 2007. PAML 4: phylogenetic analysis by maximum likelihood. Mol Biol Evol.

24:1586-1591.

Zienolddiny S, Ryberg D, Gazdar AF, and Haugen A. 1999. DNA mismatch binding in

human lung tumor cell lines. Lung Cancer. 26:15-25.

Page 112: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

111

TABLES

TABLE 1

Sequence type Number of sites with "1 substitution with "1 gap

3-SSR + 6-SSR 11,869 1,028 (8.6%) 1,042 (8.7%)

Other SSR 8,654 718 (8.3%) 66 (0.7%)

Rest of the coding

sequence

11,073,128 449,776 (4.1%) 23,222 (0.2%)

Table 1: Fraction of sites spanned by substitutions and gaps

3-SSR and 6-SSR were analyzed independently from the other SSR because insertion-

deletion in these SSR does not alter the reading frame. Both types of SSR diverge two times

faster than the rest of the coding sequences.

TABLE 2

Model 1

(selection and mutation)

Model 2

(selection, mutation and drift)

h s " = 2Nes " s = " /(2Ne)

0 3.0 10-6 0.12 ? ?

0.1 6.8 10-7 0.03 2.03 5.1 10-5

0.5 1.6 10-7 0.006 0.40 1.0 10-5

1 8.5 10-8 0.003 0.20 5.1 10-6

Table 2: Estimation of the fitness cost of a 1-SSR of 8 units

In the first model, population is assumed to be infinite. In such a case, drift is neglected and

the coefficient of selection s is computed using equation 1. In the second model, population is

finite and " is computed under the equilibrium between selection, mutation and drift using

equation 2. The following values were used in the equations: a = 1/3, d = 8, µ = 2.10-8, p =

0.027, Ne = 2.104.

Page 113: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

112

FIGURES

Figure 1: Exemple of alignement filtering.

Cumulative core was sequentially calculated along alignment with +1 for identity and -1 for

mismatch. The regions with a decreasing cumulative score were discarded if their length was

at least 30 nucleotides

Page 114: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

113

Figure 2: Genetic distance estimated on non-repeated coding sequence and on coding

SSR.

Distances were computed on the concatenated alignments of coding SSR on one hand and on

the rest of the coding sequence in the other. Distance were computed using an HKY model

and a Gamma Law by TreePuzzle and the tree was constructed using neighbour joining.

Branches length of coding SSR exhibit a two-fold increase when compared to the rest of the

coding sequences.

Page 115: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

114

Figure 3: Distribution of SSR loci among primate lineage.

The evolution of SSR loci are represented on a cladogram of the four primate lineages. The

number of loci are figured on nodes, while gains (+) and losses (-) are figured on the

branches. We report counts for mono-, di- and tri-SSR are given as well as all SRR pooled.

Because the genome at the root cannot be reconstructed, gains and losses cannot be sorted

apart in the macaque lineage. Except for tri-SSR, the number of gain and loss SSR is not

different among species (c2 test). For tri-SSR, there is a significant difference between gain

(+65) and loss (-111) (P < 10-3 ; !2 test) Therefore, one can conclude that, except for tri-SSR,

the number of SSR loci has reached equilibrium in all branches.

Page 116: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

115

Figure 4: Dynamics of S and P alleles.

At each node, are reported the numbers of S alleles (mono-SSR of size 8) in the smaller dark

disc and the number of P alleles (a sequence that can be turned into a mono-8 by a single

substitution) in the larger clearer disc. In the branches, are reported the number of apparition

(number of P alleles that were turned into a S alleles) and the number of disappearance. The

total number of apparition (28) and disappearance (32) do not differ significantly (!2 test)

suggesting that the dynamics is at equilibrium.

Page 117: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

116

2.2. Résumé des résultats et discussion

L’étude des patrons de mutations au sein des microsatellites codants révèlent des différences

importantes selon que l’on considèrent les 3n-SSSR ou les !3n-SSR. Alors que les premiers

présentent fréquemment des insertions ou des délétions, les !3n-SSR évoluent essentiellement

par substitution. Ces !3n-SSR également soumis aux mutations de type expansion/contraction,

ceci peut donc s’interpréter comme une conséquence de l’impact important des insertions ou

des délétions de ce type de motif sur les phases codantes des gènes qui aboutit à la disparition

par sélection des gènes dans lesquels ces événements se produisent.

Nos résultats indiquent également que les SSR, toutes classes confondues, apparaissent et

disparaissent dans chacune des lignées étudiées à un rythme constant. Ceci suggère que bien

que ces créations et disparitions sont quantitativement nombreuses, les effectifs restent à un

équilibre constant dans toutes les branches. Un biais est possibles pour ce qui est des

répétitions de triplets qui semblent plus abondants dans les séquences ancestrales. Nous

soupçonnons un artefact créé par la méthode de reconstruction.

Le fait que les distributions de répétitions de mononucléotides semblent avoir atteint un

équilibre nous a permis de montrer que :

1) En considérant un modèle de mutation simple qui permet de passer d’un mono-8 à un

proto-8 (son équivalent stabilisé par une interruption), on peut estimer que le rapport

mono-8/proto-8 attendu est de 1/24. Le rapport observé est en fait de 1/35. La

fréquence de proto-8 est donc une fois et demi plus importante qu’attendue. Cette

Page 118: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

117

observation suggère que les mono-8 sont soumis à une sélection négative qui tend à

les purger hors des séquences codantes. Cette conclusion, qui est cohérente avec les

résultats antérieurs (Metzgar, Bytof, and Wills 2000; Borstnik and Pumpernik 2002;

Ackermann and Chao 2006; Loire et al. 2009), est conditionnée par le modèle

mutationnel utilisé. Toutefois ce dernier est robuste à un certain nombre de biais de

mutation, car les mono-8 et les proto-8 sont de composition quasi-identique.

2) En utilisant un premier modèle de mutation/sélection, nous avons pu estimer un

coefficient de sélection s’appliquant aux mono-8. Ce dernier, et surtout la valeur

"=2Nes – force efficace de sélection – se révèle négligeable sauf à considérer un

impact nul des mono-8 à l’état hétérozygote (récessivité complète). En utilisant un

modèle plus réaliste incluant les effets de la dérive (population de taille finie), les

mono-8 sont légèrement délétères (et ce d’autant plus que ces dernières sont

récessives).

3) En segmentant les gènes par groupe fonctionnel, nous avons pu mettre en évidence

que la fréquence des allèles mono-8 varie selon ces groupes, avec certaines fonctions

présentant moins de mono-8 qu’attendus par rapport à la moyenne, avec notamment

les gènes liés au processus de développement. Cette sous-représentation pourrait être

liée à une plus forte sélection en faveur de la robustesse des gènes, mais d’autres biais

affectant la mutabilité des microsatellites pourrait être évoqués, comme par exemple le

niveau de transcription des gènes.

Enfin, un autre résultat de notre analyse est la mise en évidence de l’accélération du taux de

substitution au sein des microsatellites codants vis-à-vis de celui du reste des séquences

codantes. Cette accélération, déjà notée par Pumpernik et coll (Pumpernik, Oblak, and

Page 119: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

118

Borstnik 2008) suggèrent que les microsatellites sont des hot-spots de mutation par

insertion/déletion mais aussi, dans une moindre mesure, en terme de substitution. Les origines

de cette observation restent à élucider. Un effet de la sélection qui retiendrait les mutations

stabilisant les microsatellites codants pourrait être invoqué, mais la précédente étude a été

réalisée sur des régions codantes et laisse donc suggérer que cette observation est liée à une

augmentation du taux de mutation par substitutions aux niveau de ces séquences.

Page 120: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

119

3) Impact du système NMD sur la

progression des cancers colorectaux

Dans le cadre de leurs travaux sur les cancers colorectaux présentant un phénotype

d’instabilité des microsatellites, l’équipe d’Alex Duval (INSERM, UMR S893, Team 13

“Microsatellite Instability and Cancers”) s’est intéressé à l’impact du système NMD sur la

réponse immunitaire anti-tumorale. Leurs travaux étaient motivés par les observations

suivantes.

- Le phénotype MSI est en général conféré par la perte de fonction d’un ou plusieurs gènes du

système de réparation des mésappariement. Cette perte de fonction entraîne une augmentation

drastique du taux de mutation apparent des microsatellites. De ce fait, les gènes qui

contiennent un microsatellite codants sont susceptibles de présenter une mutation non-sens, et

des transcrits présentant un codon stop prématuré (PTC) s’accumulent.

- Un des rôles du système NMD est justement de catalyser la dégradation des transcrits

présentant un PTC afin de limiter la production de protéines tronquées (Sken et Maquat,

2007).

- Ces proteines tronquées seraient à même d’induire une réponse immunitaire anti-tumorale

qui permet de juguler la progression des cancers (Saeterdal et al, 2001; Ishikawa et al, 2003).

L’expérience a consisté à inactiver in vivo le fonctionnement du système NMD (en utilisant

un système de type si-RNA visant le gène UPF1, acteur majeur de ce système), puis à

surveiller l’activité transcriptionnelle des cellules à l’aide de puce à ADN.

Page 121: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

120

Notre collaboration à ce projet a été de produire la liste exhaustive des gènes qui, chez

l’homme, contiennent un microsatellites instables –selon la méthode précédemment décrites

(Loire et al, 2008) et sont de ce fait susceptible de subir un déphasage du cadre de lecture.

Parmi les transcrits surexprimés lors d’une inactivation du gène UPF1, nous avons montré

qu’il existe sur-représention de ceux qui sont produits à partir des gènes présents dans cette

liste. Les gènes contenant une répétition de mononucléotides instable représentent 6% du

nombre total de gènes chez H. sapiens et 38% des 1215 gènes dont la quantité de transcrit

était augmentée dans l’expérience (Test exact de Fisher, p < 2.10-16).

Cette étude a ainsi mis en évidence le fait que le système NMD, s’il permet d’éviter au

cellules non-tumorales de subir le coût de la production de protéines tronquées, peut

potentiellement avoir un impact négatif sur la possibilité de juguler la progression des cancers

MSI grâce à une forme d’immunité anti-tumorale induite par ces même protéines tronquées.

Page 122: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

121

Discussion

Page 123: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

122

1. Résumé des résultats

Le corpus de connaissances nouvelles obtenues lors de nos travaux peut être présenté de façon

concise :

Des différences significatives existent quant à l’intensité de la sélection qui s’exerce à

l’encontre des microsatellites codants selon la fonction des gènes concernés. La sélection en

faveur de la robustesse n’est donc pas une constante mais peut être plus ou mois relaxée selon

les groupes fonctionnels considérés.

Des modèles dérivés de l’étude d’un locus dans une population, appliqués à l’ensemble des

loci d’un même type au sein d’un seul génome permettent de quantifier la force de la sélection

s’exerçant sur les microsatellites codants. La mesure de cette sélection est très dépendante des

hypothèses faites par les modèles.

Comparés aux régions non répétés de séquences codantes, les microsatellites codants

accumulent deux fois plus de substitutions nucléotidiques, que ces substitutions créent où

interrompent ces répétitions.

Ces trois points me semblent mériter une discussion, et certaines études complémentaires

peuvent êtres envisagés pour répondre aux questions soulevées par ces travaux. Je

m’efforcerai donc de présenter ces quelques éléments de réflexion dans les paragraphes

suivants.

Page 124: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

123

2. Les groupes fonctionnels de gènes ne

sont pas égaux devant les microsatellites

codants

Il a été avancé que les gènes impliqués dans le système de réparation des mésappariements

(MMR) sont enrichis en répétitions de mononucléotides codants (Chang et al. 2001).

L’examen attentif de l’ensemble des groupes fonctionnels montre que cette observation est en

fait parcellaire. En effet, le nombre et la nature des fonctions enrichies est plus large que ce

qui était avancé. D’une part, elles ne sont pas uniquement impliquées uniquement dans le

maintien de l’intégrité du génome (e.g. Métabolisme des biopolymère). D’autre part

l’enrichissement en répétitions de mononucléotides codants des fonctions de réparation de

l’ADN et de contrôle du cycle cellulaire indique que le système de réparation des

mésappariement n’est qu’une partie des voies métaboliques impliquées dans le maintien de

l’intégrité du génome qui présentent une telle surreprésentation.

Cette observation est intéressante car les gènes qui contiennent une telle répétition sont

fréquemment inactivées dans un certains type de cancers présentant une instabilité des

microsatellite (Duval and Hamelin 2003). Nous apportons donc un argument statistique à un

enrichissement qui était suspecté.

D’autre part, un modèle prenant en compte la longueur et la composition nucléotidique des

séquences codantes pour estimer la probabilité de voir apparaître ces répétitions de

mononucléotides permet de mettre en évidence que ces répétitions sont plus abondantes dans

les gènes longs et biaisés dans leur composition en bases. Les gènes impliqués dans la

réparation de l’ADN et le contrôle du cycle cellulaire appartiennent justement à cette

Page 125: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

124

catégorie. Il n’est donc pas nécessaire d’invoquer une forme de sélection positive de ces

répétitions de mononucléotides au sein de ces gènes pour rendre compte de leur présence.

Nous pourrions donc envisager la présence de ces répétitions comme résultant d’un équilibre

en une pression mutationnelle qui tend à créer ces répétitions et une sélection en faveur de la

robustesse de ces gènes. Cette sélection en faveur de la robustesse de ces gènes n’est peut-être

pas suffisante pour purger ces répétitions car l’impact négatif que la perte de ces gènes peut

avoir sur l’individu se manifeste après l’age de la reproduction.

Cette conclusion remet en cause le modèle de mutateur eucaryote qui a été proposé (Chang et

al. 2001; Kashi and King 2006). Ce modèle postule que les microsatellites contenus dans les

séquences codantes des gènes du MMR sont retenus par la sélection car l’instabilité qu’ils

confèrent à ces gènes permet d’augmenter ponctuellement le taux de mutation global du

génome. Cette augmentation du taux de mutation ponctuelle permet alors de générer de la

variabilité génétique et potentiellement de nouvelles mutations bénéfiques aux individus qui

les portent. Ceci impliquerait une sélection conjointe des modificateurs du taux de mutations

(les microsatellites au sein des gènes du MMR) et des mutations bénéfiques générées. Ceci est

possible lorsque les modificateurs (ou mutateurs) sont liés génétiquement avec les mutations

bénéfiques générées chez l’individu. Il faut toutefois noter que, chez les eucaryotes sexués, la

liaison génétique décroît à chaque génération par le biais de la recombinaison méiotique. De

ce fait, nos résultats vont à l’encontre de l’hypothèse de mutateurs eucaryotes, mais cette

dernière souffrait déjà d’une contradiction mécanistique. Notons toutefois que nous

n’excluons pas l’hypothèse qu’une sélection des microsatellites pour leur mutabilité soit

possible. Mais cette sélection ne peut agir que si la mutation du microsatellite est bénéfique

niveau local, par exemple pour les loci de contigences (Sniegowski and Murphy 2006; King

and Kashi 2007) où la variabilité créée par la variation des répétitions est directement

Page 126: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

125

sélectionnée pour des raisons adaptatives. La liaison génétique est alors complète, et c’est une

élévation locale du taux de mutation qui est alors sélectionnée positivement.

Nos résultats sur l’abondance des répétitions de mono-nucléotides dans les régions codantes

suggèrent que la sélection négative de ces séquences est plus ou moins forte selon la fonction

du gène considéré. Nous avons vu que, contrairement à ce qui avait pu être avancé dans des

études précédentes, ce biais fonctionnel est du, au moins en partie, à un effet de composition

et de longueur des séquences codantes. Mais en utilisant ce même modèle pour estimer une

fraction attendue du nombre de gènes contenant une répétition de mononucléotide (appelés

hypermutables par la suite), et en la comparant à la fraction observée, des différences

significatives sont observées entre groupes fonctionnels. Si la majorité d’entre eux présente

des effectifs observés inférieurs à ceux qui sont attendus, d’autres présentent autant de gènes

hypermutables observés qu’attendus. Cette apparente neutralité suggère que dans ces groupes

fonctionnels, la sélection négative des microsatellites codants est relâchée. Incidemment, on

considère que la relaxation de la sélection contre les microsatellites codants peut être le reflet

d’une relaxation de la sélection pour la robustesse des gènes, ces premiers influençant

négativement cette dernière.

La relaxation de la sélection pour la robustesse d’un gène pourrait être influencée par son

essentialité. Difficile à évaluer, l’essentialité d’un gène peut être envisagée par l’impact de la

perte de sa fonction sur la valeur adaptive de l’individu chez qui cette perte intervient.

Dans le cas de familles de paralogues capables d’assurer – au moins partiellement - la même

fonction, la perte de l’un d’entre eux suite à la mutation d’un microsatellite codant aura un

impact moins fort sur la valeur adaptative. L’examen des familles de paralogues nous a

permis de démontrer que les groupes fonctionnels enrichis en microsatellites codants ne sont

Page 127: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

126

pas ceux qui présentent une telle redondance génétique. Il faut toutefois admettre que notre

approche n’écarte pas définitivement cette hypothèse, car le critère de définition de la

redondance génétique est ici l’identité de séquence. Or, des séquences homologues sont

susceptibles d’assurer des fonctions différentes tout comme des fonctions identiques peuvent

être assurées par des gènes dont la séquence est très différente.

La perte de certains gènes qui sont connus pour être responsable de pathologies pourraient

également avoir un impact plus fort sur la valeur adaptative. Notre approche a consisté à

estimer l’essentialité des gènes en se basant sur leur présence dans la base de données OMIM.

Cette base de donnée rassemble des informations sur les gènes connus pour être impliqué

dans diverses pathologies. Cette approche n’a pas non plus permis d’expliquer les résultats

obtenus, car au contraire les groupes fonctionnels enrichis en répétitions de mononucléotides

contiennent un grand nombre de gènes qualifiables d’essentiel selon ce critère. Reconnaissont

toutefois que cette approche n’est pas aussi satisfaisante que si l’organisme choisi avait été un

de ceux pour lesquels l’essentialité des gènes est expérimentalement mesurable (e.g. S.

cerevisiae ou E. coli ).

Enfin, il est également important de préciser que considérer l’essentialité des gènes comme le

seul facteur susceptible d’influencer la sélection de la robustesse génétique de ces derniers est

réducteur.

La capacité à conserver une fonction malgré l’apparition de mutation est un des aspect de la

robustesse phénotypique, aussi appelée canalisation (Waddington 1942). La robustesse d’un

trait phénotypique dont le déterminisme génétique est multifactoriel peut être imaginée

comme résultant de la possibilité, au sein d’un réseau génétique, de perdre certains de ces

acteurs sans modifier visiblement le phénotype. Ainsi, l’essentialité de chaque gène est

Page 128: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

127

conditionnée par le rôle que ce dernier joue au sein d’un réseau de gènes en interaction. Les

gènes les moins « essentiels » sont ceux dont l’absence au sein de ce réseau n’empêche pas ce

dernier de conférer à l’individu son phénotype. Les gènes qui présentent le plus de connexion

(aussi appelé « Hubs ») sont alors les plus indispensables au réseau. Des exemples sont

connus, par exemple le réseau de gènes impliqués dans la régulation du cycle cellulaire (Levy

et Siegal, 2008). Une analyse détaillée des réseaux de gènes en interaction et de l’impact de

leur perte sur le trait phénotypique correspondant serait une des pistes permettant d’expliquer

nos observations.

Enfin, les choix que nous avons faits pour évaluer le taux de mutations des microsatellites

sont critiquables à plusieurs égards, et les biais fonctionnels observés peuvent trouver leur

origine dans nos hypothèses de travail. Comme nous l’avons vu en introduction, les facteurs

influençant la mutabilité des microsatellites codants sont nombreux et complexes à modéliser.

La littérature nous a fourni des longueurs seuil à partir desquels considérer qu’un

microsatellites est susceptible de muter par insertion/délétion. Il est certain qu’une forme de

continuité existe dans ce phénomène. Pour ces seuils, des événements de mutation sont

observés expérimentalement, mais nous ne pouvons pas exclure que ces mêmes événements

se produisent dans des microsatellites plus courts, même si leur fréquence est trop faible pour

être en permettre l’observation (Leclercq, ).

Le niveau d’expression des gènes est également susceptible d’influencer la mutabilité des

microsatellites. En effet, le taux de mutation génomique des microsatellites est susceptible

d’augmenter avec le niveau de transcription (Fabre, Dujon, and Richard 2002). Les gènes les

plus transcrits sont de ce fait également les plus susceptibles de subir une mutation de leurs

microsatellites codants et ainsi de perdre ou altérer leur fonction.

Page 129: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

128

Page 130: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

129

3. Quantification de la force de sélection

s’exerçant sur les microsatellites codants

Afin d’évaluer la force de la sélection négative des microsatellites codants, nous avons

examiné les événements de substitution qui venaient interrompre ou créer une répétition de

mononucléotide au sein des orthologues de quatre espèces de primates. Pour distinguer les

apparitions des disparitions, nous sommes passés par une étape de reconstruction des

séquences ancestrales. La méthode par maximum de vraisemblance qui permet cette

reconstruction a donné de bons résultats, du fait de la relative proximité génétique des

organismes étudiés (la divergence homme-macaque est estimée à 30 millions d’années). De

ce fait, les probabilités postérieures sont élevées (supérieure à 80% pour chaque séquence

codante reconstruite). Ainsi, nous avons pu orienter chaque substitution au sein des

microsatellites et dans le reste des séquences codantes.

L’examen de ces événements de substitution nous a permis de faire les observations

suivantes :

- Le nombre d’apparition et de disparition est sensiblement comparable dans toutes les

branches, ce qui suggère un état d’équilibre pour ces séquences répétées.

- Ces événements sont nombreux, car le taux de substitution au sein de ces séquences répétées

est élevé (voir Discussion, section 4). Cet état d’équilibre est donc fortement dynamique, avec

des apparitions et des disparitions fréquentes.

Page 131: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

130

Ces observations suggèrent un modèle de mutation/sélection/dérive assez simple, avec une

pression de mutation qui tend à faire apparaître ces répétitions et disparaître ces répétitions, et

une force de sélection qui favorise la rétention des substitutions qui les font disparaître.

Afin de tester un tel modèle, nous avons donc considéré un modèle de génétique des

populations avec un locus et deux allèles (microsatellites et proto-microsatellites). La

fréquence de chaque allèle au sein de l’ensemble des loci existant dans chaque génome nous a

permis d’estimer la fréquence des allèles à un seul locus dans une population d’individus.

Cette démarche nous a été inspirée de travaux antérieurs (Bulmer 1991) qui avaient de cette

façon caractérisé la sélection s’opérant sur l’usage des codons alternatifs. Cette démarche fait

l’hypothèse d’une indépendance des loci et donc néglige la liaison génétique entre loci.

Toutefois, cette hypothèse peut être considérée comme raisonnable au vu de la taille des

génomes considérés et de la fréquence de recombinaison chez les eucaryotes strictement

sexués qui tend à supprimer cette liaison génétique à chaque génération.

Nous avons examiné les loci présentant soit une répétition de mononucléotides d’une

longueur strictement égale à 8 interrompus par une seule substitution, soit dans la séquence

ancestrale (apparition), soit dans la séquence actuelle (disparition). Ceci nous a permis

d’estimer les taux de mutations d’un allèle vers l’autre.

Dans un premier modèle, aucun allèle n’est fixé. Le taux de sélection calculé avec ce modèle

est quasiment nul, ce qui est en contradiction totale avec les résultats précédents. Le problème

vient probablement de nos hypothèses sous-jacentes, et en premier lieu de celles que les

populations de primates pourrait évoluer comme une population de taille infinie. Cette

hypothèse est peu crédible.

Page 132: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

131

Nous avons donc estimé l’intensité de la sélection négative de nos répétitions à l’aide d’un

modèle qui tient compte de la taille des populations. Nous nous sommes basés sur une

estimation de l’effectif efficace chez l’homme égale à 10000 (Hill 1981). Cette taille est

probablement surestimée à cause des différents goulots d’étranglements par lesquels sont

passés les populations d’homininés (Tenesa et al. 2007). De plus, nous avons supposé un

effectif efficace équivalent pour les autres primates, n’ayant pas à notre disposition un modèle

permettant de faire l’hypothèse de plusieurs populations de tailles différentes pour chaque

espèce ayant contribué à l’analyse. À l’aide de ce modèle, nous estimons que la force de

sélection contre les répétitions est décelable si l’effet délétère de ces dernières est de type

récessif, c’est-à-dire si la sélection ne s’applique que sur les homozygotes. Pourtant il est

probable que des effets délétères dominants existent à cause de la toxicité des transcrits

présentant un décalage de phase de lecture ou de leurs produits.

Enfin nous avons dû, pour ces répétitions de mononucléotides codants, ne considérer que

celles dont la longueur était strictement égale à 8 nucléotides. La force de la sélection

négative qui s’exercent à l’encontre des répétitions plus grandes est probablement plus

importante car ces longues répétitions sont également plus susceptibles de muter par

insertion/deletion. Toutefois, il s’avère que les effectifs au sein d’un génome sont trop réduits

pour mesurer la sélection de ce type de répétition avec notre méthode, qui montre ainsi ses

limites.

In fine, vu la dynamique importante de ces répétitions codantes, il est probable que l’étude de

l’évolution des microsatellites gagnerait à être conduite sur une échelle de temps plus réduite.

Nous gageons que l’étude des polymorphismes qui ségrégent au sein d’une population

Page 133: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

132

particulière permettra une évaluation plus fine de la sélection qui s’exerce sur les

microsatellites codants.

Page 134: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

133

4. Le taux de substitution exceptionnel des

microsatellites codants

Nous nous sommes efforcés de quantifier la force de sélection qui s’exerce sur les

microsatellites codants. À cette fin, nous avons examiné des loci de microsatellites

homologues au sein des orthologues de quatre espèces de primates.

La quantification des événements de mutation au sein de ces microsatellites codants nous a

amené à faire cette observation surprenante : l’ensemble des microsatellites codants évolue

par substitution en moyenne deux fois plus rapidement que le reste des séquences codantes.

Cette observation pourrait résulter d’un biais de composition des microsatellites, mais la

méthode utilisées prend en compte certains biais de substitution (modèle HKY). Il faut

toutefois noter ici que les modèles de substitutions utilisés ne tirent pas parti du fait que nos

mutations sont ici orientées. Cet aspect mériterait que l’on y porte plus d’attention.

L’hypermutabilité des microsatellites en termes de substitution a été observée au niveau des

régions situés deux kilobases en amont des gènes dit ‘de ménage’ chez l’homme (Shankar et

al. 2007) et dans les régions non codantes orthologues homme/chimpanzé (Pumpernik, Oblak,

and Borstnik 2008)

Cette hypermutabilité pourrait résulter d’une activité accrue des système de réparation de

l’ADN au niveau des séquences repetées, hypothèse qui avait déjà été avancée pour expliquer

que le taux de substitution des séquences flanquantes des microsatellites était plus important

que la moyenne (Santibanez-Koref, Gangeswaran, and Hancock 2001).

Page 135: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

134

L’hypothèse alternative est que les substitutions qui viennent interrompre un microsatellite

sont plus fréquemment fixées que la moyenne. Ce taux de fixation résulterait alors de la

sélection négative des microsatellites, qui se traduit par une sélection positive des mutations

qui viennent les interrompre. Cette hypothèse est plutôt en accord avec notre intuition et les

résultats précédents qui suggèrent une sélection négative assez forte de ces séquences

hypermutables, mais les résultats obtenus sur des régions non-codantes (Pumpernik, Oblak,

and Borstnik 2008) laissent soupçonner que ce taux élevé de substitution des microsatellites a

une origine structurelle.

Page 136: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

135

5. Les contraintes imposées par les

protéines, « produits » des gènes

Les séquences codantes dans lesquelles nous avons recherché des microsatellites sont

traduites en séquences d’acides aminés. De ce fait, les microsatellites sont également traduits

en séquences peptidiques. La sélection agit au niveau du phénotype des individus et ce

phénotype est conféré pour une part par la protéine. C’est donc sur la séquence de cette

dernière que la sélection que l’on pourrait qualifier de « fonctionnelle » peut agir. Cette

sélection va donc agir en faveur ou en défaveur de la présence des répétitions d’acide aminé.

Toutefois, la sélection agit également sur la robustesse des gènes. Il a été démontré que pour,

pour coder une répétition d’acide aminé, la séquence nucléotidiques utilisées est généralement

non répétitive, c’est-à-dire qu’un codon alternatif est sélectionné (AAG plutôt que AAA dans

le cas des répétitions de lysine, voir (Ackermann and Chao 2006)). La présence d’un

microsatellite ne peut donc être uniquement le fait de la présence d’une répétition d’acide

aminé, bien que l’existence de cette dernière augmente la probabilité d’observer cette

première. C’est là un des principaux reproches qui pourrait être fait au modèle que nous avons

choisi pour estimer la probabilité des répétitions de mononucléotides.

Mais de fait, pour chaque mutation qui vient interrompre ou créer un microsatellite, la

question se pose de savoir si cette substitution est sélectionnée car elle modifie la séquence

d’acide aminés ou si elle est sélectionnée car elle modifie la stabilité du gène. Si cette

substitution est synonyme, elle est neutre au niveau de son impact sur la séquence d’acide

aminé, mais sélectionnés positivement si elle interrompt un microsatellite (et négativement si

elle créé une telle répétition). Si cette substitution n’est pas synonyme, elle est susceptible

Page 137: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

136

d’être soumise à une forme de sélection en raison de la modification de la séquence protéique

qu’elle induit, tout en étant également soumise à une sélection agissant sur la stabilité

génomique.

Cette constatation, qui peut sembler triviale, me semble toutefois mériter une attention

particulière. En effet, les tests de sélection qui consistent à mesurer des biais dans le ratio

substitutions synonymes/substitutions non-synonymes font en général l’hypothèse de la

neutralité des substitutions synonymes et celle de l’impact sur la séquence de la séquence en

acide aminé des substitutions non-synonymes. De manière plus générale, j’ai acquis la

conviction que l’interprétation d’un signal de sélection à un site codant donné devrait toujours

être examiné en considérant les séquences flanquantes de ce site, de façon à pouvoir exclure

que la sélection détectée ne résulte pas de l’interruption d’une répétition.

Page 138: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

137

Conclusion

Les microsatellites sont des séquences très étudiées, car leur utilisation courante de marqueur

hypervariable en génétique ne saurait se satisfaire d’une compréhension superficielle de leur

modalité évolutive. Ils existent actuellement des modèles mutationnels qui rendent compte de

façon satisfaisante de l’évolution de ces séquences dans un contexte neutre. Le schéma est

plus complexe dans un environnement génétique contraint, et les quelques observations que

nous avons pu faire apportent plus de questions que de réponses. L’idée que leur présence est

fortement délétère dans les séquences codantes est à la fois intuitive et directement observée

expérimentalement ou dans le cadre de pathologies. Nos résultats abondent dans ce sens, mais

pour des microsatellites présentant à priori une mutabilité intrinsèque équivalente, la sélection

qui s’exerce à leur encontre est différente. Nous devons reconnaître que certains facteurs

n’ont pas été pris en compte dans notre étude, comme les liens avec les taux de

recombinaison, le niveau d’expression ou encore l’influence des éléments transposables. Il

n’en reste pas moins que la robustesse et l’évolution des gènes est certainement modulée par

ces séquences codantes instables, qui n’ont ni révélé tous leurs secrets, ni obtenus toute la

considération qu’elles méritent lors de l’étude de l’évolution des séquences codantes qui les

contiennent.

Page 139: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

138

Page 140: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

139

Références

Achaz G, Rocha EP, Netter P, and Coissac E. 2002. Origin and fate of repeats in bacteria.

Nucleic Acids Res. 30:2987-2994.

Ackermann M, and Chao L. 2006. DNA sequences shaped by selection for stability. PLoS

Genet. 2:e22.

Aishwarya V, Grover A, and Sharma PC. 2007. EuMicroSatdb: a database for microsatellites

in the sequenced genomes of eukaryotes. BMC Genomics. 8:225.

Aishwarya V, and Sharma PC. 2008. UgMicroSatdb: database for mining microsatellites from

unigenes. Nucleic Acids Res. 36:D53-56.

Akai J, Kimura A, and Hata RI. 1999. Transcriptional regulation of the human type I collagen

alpha2 (COL1A2) gene by the combination of two dinucleotide repeats. Gene. 239:65-73.

Alba MM, and Guigo R. 2004. Comparative analysis of amino acid repeats in rodents and

humans. Genome Res. 14:549--554.

Albrecht A, and Mundlos S. 2005. The other trinucleotide repeat: polyalanine expansion

disorders. Curr Opin Genet Dev. 15:285-293.

Arcot SS, Wang Z, Weber JL, Deininger PL, and Batzer MA. 1995. Alu repeats: a source for

the genesis of primate microsatellites. Genomics. 29:136-144.

Ashburner M, Ball CA, Blake JA et al. 2000. Gene ontology: tool for the unification of

biology. The Gene Ontology Consortium. Nat Genet. 25:25--29.

Avery OT, MacLeod CM, and McCarty M. 1944. Studies on the chemical nature of the

substance inducing transformation of pneumococcal types : induction of transformation by a

desoxyribonucleic acid fraction isolated from Pneumococcus type III. J Exp Med. 79:137-

158.

Page 141: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

140

Bagshaw AT, Pitt JP, and Gemmell NJ. 2006. Association of poly-purine/poly-pyrimidine

sequences with meiotic recombination hot spots. BMC Genomics. 7:179.

Baker KE, and Parker R. 2004. Nonsense-mediated mRNA decay: terminating erroneous gene

expression. Curr Opin Cell Biol. 16:293-299.

Batzer MA, and Deininger PL. 2002. Alu repeats and human genomic diversity. Nat Rev

Genet. 3:370-379.

Bell GI. 1996. Evolution of simple sequence repeats. Comput Chem. 20:41--48.

Bichara M, Wagner J, and Lambert I. 2006. {Mechanisms of tandem repeat instability in

bacteria}. Mutat Res. 598:144-163.

Birney E, Andrews D, Caccamo M et al. 2006. Ensembl 2006. Nucleic Acids Res. 34:556--

561.

Borstnik B, and Pumpernik D. 2002. Tandem repeats in protein coding regions of primate

genes. Genome Res. 12:909--915.

Bowater RP, Jaworski A, Larson JE, Parniewski P, and Wells RD. 1997. Transcription

increases the deletion frequency of long CTG.CAG triplet repeats from plasmids in

Escherichia coli. Nucleic Acids Res. 25:2861-2868.

Boyer JC, Yamada NA, Roques CN, Hatch SB, Riess K, and Farber RA. 2002. Sequence

dependent instability of mononucleotide microsatellites in cultured mismatch repair proficient

and deficient mammalian cells. Hum Mol Genet. 11:707--713.

Brandt B, Meyer-Staeckling S, Schmidt H, Agelopoulos K, and Buerger H. 2006.

Mechanisms of egfr gene transcription modulation: relationship to cancer risk and therapy

response. Clin Cancer Res. 12:7252-7260.

Bulmer M. 1991. The selection-mutation-drift theory of synonymous codon usage. Genetics.

129:897-907.

Buschiazzo E, and Gemmell NJ. 2006. The rise, fall and renaissance of microsatellites in

eukaryotic genomes. Bioessays. 28:1040-1050.

Page 142: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

141

Calkhoven CF, Bouwman PR, Snippe L, and Ab G. 1994. Translation start site multiplicity of

the CCAAT/enhancer binding protein alpha mRNA is dictated by a small 5' open reading

frame. Nucleic Acids Res. 22:5540-5547.

Chang DK, Metzgar D, Wills C, and Boland CR. 2001. Microsatellites in the eukaryotic DNA

mismatch repair genes as modulators of evolutionary mutation rate. Genome Res. 11:1145--

1146.

Conti E, and Izaurralde E. 2005. Nonsense-mediated mRNA decay: molecular insights and

mechanistic variations across species. Curr Opin Cell Biol. 17:316--325.

Cordeiro GM, Casu R, McIntyre CL, Manners JM, and Henry RJ. 2001. Microsatellite

markers from sugarcane (Saccharum spp.) ESTs cross transferable to erianthus and sorghum.

Plant Sci. 160:1115-1123.

Cox R, and Mirkin SM. 1997. Characteristic enrichment of DNA repeats in different

genomes. Proc Natl Acad Sci U S A. 94:5237-5242.

Cummings CJ, and Zoghbi HY. 2000. Fourteen and counting: unraveling trinucleotide repeat

diseases. Hum Mol Genet. 9:909-916.

de Wachter R. 1981. The number of repeats expected in random nucleic acid sequences and

found in genes. J Theor Biol. 91:71--98.

de Wind N, and Hays JB. 2001. Mismatch repair: praying for genome stability. Curr Biol.

11:R545-548.

Drake JW, Charlesworth B, Charlesworth D, and Crow JF. 1998. Rates of spontaneous

mutation. Genetics. 148:1667-1686.

Duval A, and Hamelin R. 2003. Replication error repair, microsatellites, and cancer. Med Sci

(Paris). 19:55--62.

Duval A, and Hamelin R. 2002. Mutations at coding repeat sequences in mismatch repair-

deficient human cancers: toward a new concept of target genes for instability. Cancer Res.

62:2447-2454.

Page 143: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

142

Echols H, and Goodman MF. 1991. Fidelity mechanisms in DNA replication. Annu Rev

Biochem. 60:477-511.

Economou EP, Bergen AW, Warren AC, and Antonarakis SE. 1990. The polydeoxyadenylate

tract of Alu repetitive elements is polymorphic in the human genome. Proc Natl Acad Sci U S

A. 87:2951-2954.

Edwards YJ, Elgar G, Clark MS, and Bishop MJ. 1998. The identification and

characterization of microsatellites in the compact genome of the Japanese pufferfish, Fugu

rubripes: perspectives in functional and comparative genomic analyses. J Mol Biol. 278:843-

854.

Ellegren H. 2004. Microsatellites: simple sequences with complex evolution. Nat Rev Genet.

5:435--445.

Fabre E, Dujon B, and Richard GF. 2002. Transcription and nuclear transport of CAG/CTG

trinucleotide repeats in yeast. Nucleic Acids Res. 30:3540-3547.

Falcon S, and Gentleman R. 2007. Using GOstats to test gene lists for GO term association.

Bioinformatics. 23:257-258.

Flores C, and Engels W. 1999. Microsatellite instability in Drosophila spellchecker1 (MutS

homolog) mutants. Proc Natl Acad Sci U S A. 96:2964-2969.

Flores-Rozas H, and Kolodner RD. 1998. The Saccharomyces cerevisiae MLH3 gene

functions in MSH3-dependent suppression of frameshift mutations. Proc Natl Acad Sci U S

A. 95:12404-12409.

Gabellini N. 2001. A polymorphic GT repeat from the human cardiac Na+Ca2+ exchanger

intron 2 activates splicing. Eur J Biochem. 268:1076-1083.

Galvao R, Mendes-Soares L, Camara J, Jaco I, and Carmo-Fonseca M. 2001. Triplet repeats,

RNA secondary structure and toxic gain-of-function models for pathogenesis. Brain Res Bull.

56:191-201.

Page 144: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

143

Gebhardt F, Burger H, and Brandt B. 2000b. Modulation of EGFR gene transcription by a

polymorphic repetitive sequence--a link between genetics and epigenetics. Int J Biol Markers.

15:105-110.

Gendrel CG, Boulet A, and Dutreix M. 2000. (CA/GT)(n) microsatellites affect homologous

recombination during yeast meiosis. Genes Dev. 14:1261-1268.

Goodman MF. 1997. Hydrogen bonding revisited: geometric selection as a principal

determinant of DNA replication fidelity. Proc Natl Acad Sci U S A. 94:10493-10495.

Griffith F. 1928. The Significance of Pneumococcal Types. The Journal of Hygiene. 27:113-

159.

Gusmao L, Sanchez-Diz P, Calafell F et al. 2005. Mutation rates at Y chromosome specific

microsatellites. Hum Mutat. 26:520-528.

Hammock EA, and Young LJ. 2004. Functional microsatellite polymorphism associated with

divergent social structure in vole species. Mol Biol Evol. 21:1057-1063.

Harfe BD, and Jinks-Robertson S. 2000a. DNA mismatch repair and genetic instability. Annu

Rev Genet. 34:359-399.

Harfe BD, and Jinks-Robertson S. 2000b. Sequence composition and context effects on the

generation and repair of frameshift intermediates in mononucleotide runs in Saccharomyces

cerevisiae. Genetics. 156:571--578.

Harfe BD, Minesinger BK, and Jinks-Robertson S. 2000. Discrete in vivo roles for the MutL

homologs Mlh2p and Mlh3p in the removal of frameshift intermediates in budding yeast. Curr

Biol. 10:145-148.

Hartl D, and Clark A. 2006. Principles of Population Genetics, Fourth Edition.

Henderson ST, and Petes TD. 1992. Instability of simple sequence DNA in Saccharomyces

cerevisiae. Mol Cell Biol. 12:2749-2757.

Hill WG. 1981. Estimation of effective population size from data on linkage disequilibrium.

Genetics Research. 38:209-216.

Page 145: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

144

Hollingsworth NM, Ponte L, and Halsey C. 1995. MSH5, a novel MutS homolog, facilitates

meiotic reciprocal recombination between homologs in Saccharomyces cerevisiae but not

mismatch repair. Genes Dev. 9:1728-1739.

Jiricny J. 1998. Replication errors: cha(lle)nging the genome. EMBO J. 17:6427-6436.

Johannsdottir JT, Jonasson JG, Bergthorsson JT, Amundadottir LT, Magnusson J, Egilsson V,

and Ingvarsson S. 2000. The effect of mismatch repair deficiency on tumourigenesis;

microsatellite instability affecting genes containing short repeated sequences. Int J Oncol.

16:133-139.

Jurka J, and Pethiyagoda C. 1995. Simple repetitive DNA sequences from primates:

compilation and analysis. J Mol Evol. 40:120-126.

Justice CM, Den Z, Nguyen SV, Stoneking M, Deininger PL, Batzer MA, and Keats BJ.

2001. Phylogenetic analysis of the Friedreich ataxia GAA trinucleotide repeat. J Mol Evol.

52:232-238.

Kang S, Ohshima K, Shimizu M, Amirhaeri S, and Wells RD. 1995. Pausing of DNA

synthesis in vitro at specific loci in CTG and CGG triplet repeats from human hereditary

disease genes. J Biol Chem. 270:27014-27021.

Kantety RV, La Rota M, Matthews DE, and Sorrells ME. 2002. Data mining for simple

sequence repeats in expressed sequence tags from barley, maize, rice, sorghum and wheat.

Plant Mol Biol. 48:501-510.

Kashi Y, King D, and Soller M. 1997. Simple sequence repeats as a source of quantitative

genetic variation. Trends Genet. 13:74--78.

Kashi Y, and King DG. 2006. Simple sequence repeats as advantageous mutators in

evolution. Trends Genet. 22:253--259.

Katti MV, Ranjekar PK, and Gupta VS. 2001. Differential distribution of simple sequence

repeats in eukaryotic genome sequences. Mol Biol Evol. 18:1161--1167.

Page 146: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

145

Kelkar YD, Tyekucheva S, Chiaromonte F, and Makova KD. 2008. The genome-wide

determinants of human and chimpanzee microsatellite evolution. Genome Res. 18:30-38.

Kellum R. 2003. HP1 complexes and heterochromatin assembly. Curr Top Microbiol

Immunol. 274:53-77.

King DG, and Kashi Y. 2007. Indirect selection for mutability. Heredity. 99:123-124.

Kirkpatrick DT, Wang YH, Dominska M, Griffith JD, and Petes TD. 1999. Control of meiotic

recombination and gene expression in yeast by a simple repetitive DNA sequence that

excludes nucleosomes. Mol Cell Biol. 19:7661-7671.

Kolodner R. 1996. Biochemistry and genetics of eukaryotic mismatch repair. Genes Dev.

10:1433-1442.

Kolodner RD, and Alani E. 1994. Mismatch repair and cancer susceptibility. Curr Opin

Biotechnol. 5:585--594.

Kroutil LC, Register K, Bebenek K, and Kunkel TA. 1996. Exonucleolytic proofreading

during replication of repetitive DNA. Biochemistry. 35:1046-1053.

Kruglyak S, Durrett RT, Schug MD, and Aquadro CF. 1998. Equilibrium distributions of

microsatellite repeat length resulting from a balance between slippage events and point

mutations. Proc Natl Acad Sci U S A. 95:10774--10778.

Kunkel TA. 1990. Misalignment-mediated DNA synthesis errors. Biochemistry. 29:8003-

8011.

Kunkel TA. 1992. DNA replication fidelity. J Biol Chem. 267:18251-18254.

Kunkel TA, and Bebenek K. 2000. DNA replication fidelity. Annu Rev Biochem. 69:497-

529.

Lander ESLinton LMBirren B et al. 2001. Initial sequencing and analysis of the human

genome. Nature. 409:860-921.

Page 147: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

146

Lawson MJ, and Zhang L. 2008. Housekeeping and tissue-specific genes differ in simple

sequence repeats in the 5'-UTR region. Gene. 407:54-62.

Leclercq S. Origines des séquences microsatellites dans les génomes eucaryotes. Université

Montpellier II - Sciences et Techniques du Languedoc.

Lelivelt MJ, and Culbertson MR. 1999. Yeast Upf proteins required for RNA surveillance

affect global expression of the yeast transcriptome. Mol Cell Biol. 19:6710-6719.

Leonard JM, Bollmann SR, and Hays JB. 2003. Reduction of stability of arabidopsis genomic

and transgenic DNA-repeat sequences (microsatellites) by inactivation of AtMSH2 mismatch-

repair function. Plant Physiol. 133:328-338.

Levinson G, and Gutman GA. 1987. Slipped-strand mispairing: a major mechanism for DNA

sequence evolution. Mol Biol Evol. 4:203--221.

Lewin B. 1999. Genes. Oxford university Press, Oxford.

Li Y-C, Korol AB, Fahima T, and Nevo E. 2004. Microsatellites within genes: structure,

function, and evolution. Mol Biol Evol. 21:991--1007.

Lin Y, Dion V, and Wilson JH. 2006. Transcription promotes contraction of CAG repeat

tracts in human cells. Nat Struct Mol Biol. 13:179-180.

Liquori CL, Ricker K, Moseley ML, Jacobsen JF, Kress W, Naylor SL, Day JW, and Ranum

LP. 2001. Myotonic dystrophy type 2 caused by a CCTG expansion in intron 1 of ZNF9.

Science. 293:864-867.

Loire E, Praz F, Higuet D, Netter P, and Achaz G. 2009. Hypermutability of genes in Homo

sapiens due to the hosting of long mono-SSR. Mol Biol Evol. 26:111-121.

Maquat LE. 2004. Nonsense-mediated mRNA decay: splicing, translation and mRNP

dynamics. Nat Rev Mol Cell Biol. 5:89-99.

Masino L, and Pastore A. 2002. Glutamine repeats: structural hypotheses and

neurodegeneration. Biochem Soc Trans. 30:548-551.

Page 148: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

147

Mathias SL, Scott AF, Kazazian HH, Jr., Boeke JD, and Gabriel A. 1991. Reverse

transcriptase encoded by a human transposable element. Science. 254:1808-1810.

Maurer DJ, O'Callaghan BL, and Livingston DM. 1996. Orientation dependence of

trinucleotide CAG repeat instability in Saccharomyces cerevisiae. Mol Cell Biol. 16:6617-

6622.

Meloni R, Albanese V, Ravassard P, Treilhou F, and Mallet J. 1998. A tetranucleotide

polymorphic microsatellite, located in the first intron of the tyrosine hydroxylase gene, acts as

a transcription regulatory element in vitro. Hum Mol Genet. 7:423-428.

Metzgar D, Bytof J, and Wills C. 2000. Selection against frameshift mutations limits

microsatellite expansion in coding DNA. Genome Res. 10:72--80.

Metzgar D, and Wills C. 2000. Evidence for the adaptive evolution of mutation rates. Cell.

101:581-584.

Meyer E, Wiegand P, Rand SP, Kuhlmann D, Brack M, and Brinkmann B. 1995.

Microsatellite polymorphisms reveal phylogenetic relationships in primates. J Mol Evol.

41:10-14.

Missirlis PI, Mead CL, Butland SL, Ouellette BF, Devon RS, Leavitt BR, and Holt RA. 2005.

Satellog: a database for the identification and prioritization of satellite repeats in disease

association studies. BMC Bioinformatics. 6:145.

Modrich P, and Lahue R. 1996. Mismatch repair in replication fidelity, genetic

recombination, and cancer biology. Annu Rev Biochem. 65:101-133.

Morel P, Reverdy C, Michel B, Ehrlich SD, and Cassuto E. 1998. The role of SOS and flap

processing in microsatellite instability in Escherichia coli. Proc Natl Acad Sci U S A.

95:10003-10008.

Morgante M, Hanafey M, and Powell W. 2002. Microsatellites are preferentially associated

with nonrepetitive DNA in plant genomes. Nat Genet. 30:194-200.

Page 149: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

148

Moxon ER, Rainey PB, Nowak MA, and Lenski RE. 1994. Adaptive evolution of highly

mutable loci in pathogenic bacteria. Curr Biol. 4:24-33.

Moxon ER, and Wills C. 1999. DNA microsatellites: agents of evolution? Sci Am. 280:94--

99.

Myers S, Bottolo L, Freeman C, McVean G, and Donnelly P. 2005. A fine-scale map of

recombination rates and hotspots across the human genome. Science. 310:321-324.

Ophir AG, Campbell P, Hanna K, and Phelps SM. 2008. Field tests of cis-regulatory variation

at the prairie vole avpr1a locus: association with V1aR abundance but not sexual or social

fidelity. Horm Behav. 54:694-702.

Otto SP. 2000. Detecting the form of selection from DNA sequence data. Trends Genet.

16:526-529.

Pagani F, Buratti E, Stuani C, Romano M, Zuccato E, Niksic M, Giglio L, Faraguna D, and

Baralle FE. 2000. Splicing factors induce cystic fibrosis transmembrane regulator exon 9

skipping through a nonevolutionary conserved intronic element. J Biol Chem. 275:21041-

21047.

Penel S, Arigon AM, Dufayard JF, Sertier AS, Daubin V, Duret L, Gouy M, and Perriere G.

2009. Databases of homologous gene families for comparative genomics. BMC

Bioinformatics. 10 Suppl 6:S3.

Prolla TA, Christie DM, and Liskay RM. 1994. Dual requirement in yeast DNA mismatch

repair for MLH1 and PMS1, two homologs of the bacterial mutL gene. Mol Cell Biol.

14:407-415.

Pumpernik D, Oblak B, and Borstnik B. 2008. Replication slippage versus point mutation

rates in short tandem repeats of the human genome. Mol Genet Genomics. 279:53-61.

Raca G, Siyanova EY, McMurray CT, and Mirkin SM. 2000. Expansion of the (CTG)(n)

repeat in the 5'-UTR of a reporter gene impedes translation. Nucleic Acids Res. 28:3943-

3949.

Page 150: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

149

Radman M, and Wagner R. 1986. Mismatch repair in Escherichia coli. Annu Rev Genet.

20:523-538.

Ranum LP, and Day JW. 2002. Dominantly inherited, non-coding microsatellite expansion

disorders. Curr Opin Genet Dev. 12:266-271.

Redston M. 2001. Carcinogenesis in the GI tract: from morphology to genetics and back

again. Mod Pathol. 14:236-245.

Reenan RA, and Kolodner RD. 1992. Characterization of insertion mutations in the

Saccharomyces cerevisiae MSH1 and MSH2 genes: evidence for separate mitochondrial and

nuclear functions. Genetics. 132:975-985.

Rice S. 2004. Evolutionary Theory.

Richard GF, and Paques F. 2000. Mini- and microsatellite expansions: the recombination

connection. EMBO Rep. 1:122-126.

Roberts R, Timchenko NA, Miller JW, Reddy S, Caskey CT, Swanson MS, and Timchenko

LT. 1997. Altered phosphorylation and intracellular distribution of a (CUG)n triplet repeat

RNA-binding protein in patients with myotonic dystrophy and in myotonin protein kinase

knockout mice. Proc Natl Acad Sci U S A. 94:13221-13226.

Rocha EPC, Matic I, and Taddei F. 2002. Over-representation of repeats in stress response

genes: a strategy to increase versatility under stressful conditions? Nucleic Acids Res.

30:1886--1894.

Roche RJ, and Moxon ER. 1995. Phenotypic variation in Haemophilus influenzae: the

interrelationship of colony opacity, capsule and lipopolysaccharide. Microb Pathog. 18:129-

140.

Ross-Macdonald P, and Roeder GS. 1994. Mutation of a meiosis-specific MutS homolog

decreases crossing over but not mismatch correction. Cell. 79:1069-1080.

Sakamoto N, Larson JE, Iyer RR, Montermini L, Pandolfo M, and Wells RD. 2001.

GGA*TCC-interrupted triplets in long GAA*TTC repeats inhibit the formation of triplex and

Page 151: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

150

sticky DNA structures, alleviate transcription inhibition, and reduce genetic instabilities. J

Biol Chem. 276:27178-27187.

Santibanez-Koref MF, Gangeswaran R, and Hancock JM. 2001. A relationship between

lengths of microsatellites and nearby substitution rates in mammalian genomes. Mol Biol

Evol. 18:2119-2123.

Saveliev A, Everett C, Sharpe T, Webster Z, and Festenstein R. 2003. DNA triplet repeats

mediate heterochromatin-protein-1-sensitive variegated gene silencing. Nature. 422:909-913.

Schaaper RM. 1993. Base selection, proofreading, and mismatch repair during DNA

replication in Escherichia coli. J Biol Chem. 268:23762-23765.

Schmid CW. 1996. Alu: structure, origin, evolution, significance and function of one-tenth of

human DNA. Prog Nucleic Acid Res Mol Biol. 53:283-319.

Schofield MJ, and Hsieh P. 2003. DNA mismatch repair: molecular mechanisms and

biological function. Annu Rev Microbiol. 57:579-608.

Shankar R, Chaurasia A, Ghosh B, Chekmenev D, Cheremushkin E, Kel A, and Mukerji M.

2007. Non-random genomic divergence in repetitive sequences of human and chimpanzee in

genes of different functional categories. Mol Genet Genomics. 277:441-455.

Sharp PM, Averof M, Lloyd AT, Matassi G, and Peden JF. 1995. DNA sequence evolution:

the sounds of silence. Philos Trans R Soc Lond B Biol Sci. 349:241-247.

Sharp PM, and Li WH. 1987. The codon Adaptation Index--a measure of directional

synonymous codon usage bias, and its potential applications. Nucleic Acids Res. 15:1281-

1295.

Sia EA, Kokoska RJ, Dominska M, Greenwell P, and Petes TD. 1997. Microsatellite

instability in yeast: dependence on repeat unit size and DNA mismatch repair genes. Mol Cell

Biol. 17:2851-2858.

Page 152: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

151

Sirand-Pugnet P, Durosay P, Brody E, and Marie J. 1995. An intronic (A/U)GGG repeat

enhances the splicing of an alternative intron of the chicken beta-tropomyosin pre-mRNA.

Nucleic Acids Res. 23:3501-3507.

Sniegowski PD, and Murphy HA. 2006. Evolvability. Curr Biol. 16:R831-834.

Stojic L, Brun R, and Jiricny J. 2004. Mismatch repair and DNA damage signalling. DNA

Repair (Amst). 3:1091-1101.

Strand M, Prolla TA, Liskay RM, and Petes TD. 1993. Destabilization of tracts of simple

repetitive DNA in yeast by mutations affecting DNA mismatch repair. Nature. 365:274--276.

Strauss BS, Sagher D, and Acharya S. 1997. Role of proofreading and mismatch repair in

maintaining the stability of nucleotide repeats in DNA. Nucleic Acids Res. 25:806--813.

Subramanian S, Madgula VM, George R, Mishra RK, Pandit MW, Kumar CS, and Singh L.

2002. MRD: a microsatellite repeats database for prokaryotic and eukaryotic genomes.

Genome Biol. 3.

Subramanian S, Mishra RK, and Singh L. 2003. Genome-wide analysis of microsatellite

repeats in humans: their abundance and density in specific genomic regions. Genome Biol.

4:R13.

Taddei F, Radman M, Maynard-Smith J, Toupance B, Gouyon PH, and Godelle B. 1997.

Role of mutator alleles in adaptive evolution. Nature. 387:700--702.

Tautz D. 1994. Simple sequences. Curr Opin Genet Dev. 4:832--837.

Tenesa A, Navarro P, Hayes BJ, Duffy DL, Clarke GM, Goddard ME, and Visscher PM.

2007. Recent human effective population size estimated from linkage disequilibrium. Genome

Res. 17:520-526.

Toth G, Gaspari Z, and Jurka J. 2000. Microsatellites in different eukaryotic genomes: survey

and analysis. Genome Res. 10:967--981.

Page 153: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

152

Toutenhoofd SL, Garcia F, Zacharias DA, Wilson RA, and Strehler EE. 1998. Minimum

CAG repeat in the human calmodulin-1 gene 5' untranslated region is required for full

expression. Biochim Biophys Acta. 1398:315-320.

Tran HT, Keen JD, Kricker M, Resnick MA, and Gordenin DA. 1997. Hypermutability of

homonucleotide runs in mismatch repair and DNA polymerase proofreading yeast mutants.

Mol Cell Biol. 17:2859--2865.

Treco D, and Arnheim N. 1986. The evolutionarily conserved repetitive sequence d(TG.AC)n

promotes reciprocal exchange and generates unusual recombinant tetrads during yeast

meiosis. Mol Cell Biol. 6:3934-3947.

Umar A, and Kunkel TA. 1996. DNA-replication fidelity, mismatch repair and genome

instability in cancer cells. Eur J Biochem. 238:297-307.

Vassileva V, Millar A, Briollais L, Chapman W, and Bapat B. 2002. Genes involved in DNA

repair are mutational targets in endometrial cancers with microsatellite instability. Cancer

Res. 62:4095-4099.

Verstrepen KJ, Reynolds TB, and Fink GR. 2004. Origins of variation in the fungal cell

surface. Nat Rev Microbiol. 2:533--540.

Waddington CH. 1942. Canalization of development and the inheritance of acquired

characters. Nature. 150:563-565.

Wang TF, Kleckner N, and Hunter N. 1999. Functional specificity of MutL homologs in

yeast: evidence for three Mlh1-based heterocomplexes with distinct roles during meiosis in

recombination and mismatch correction. Proc Natl Acad Sci U S A. 96:13914-13919.

Watson JD, and Crick FH. 1953. The structure of DNA. Cold Spring Harb Symp Quant Biol.

18:123-131.

Weiser JN, Love JM, and Moxon ER. 1989. The molecular mechanism of phase variation of

H. influenzae lipopolysaccharide. Cell. 59:657-665.

Page 154: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

153

Wen J, and Brogna S. 2008. Nonsense-mediated mRNA decay. Biochem Soc Trans. 36:514-

516.

Wierdl M, Dominska M, and Petes TD. 1997. Microsatellite instability in yeast: dependence

on the length of the microsatellite. Genetics. 146:769--779.

Williamson MS, Game JC, and Fogel S. 1985. Meiotic gene conversion mutants in

Saccharomyces cerevisiae. I. Isolation and characterization of pms1-1 and pms1-2. Genetics.

110:609-646.

Wren JD, Forgacs E, Fondon JWr, Pertsemlidis A, Cheng SY, Gallardo T, Williams RS,

Shohet RV, Minna JD, and Garner HR. 2000. Repeat polymorphisms within gene regions:

phenotypic and evolutionary implications. Am J Hum Genet. 67:345--356.

Yamada M, Tsuji S, and Takahashi H. 2002. Involvement of lysosomes in the pathogenesis of

CAG repeat diseases. Ann Neurol. 52:498-503.

Yamada NA, Smith GA, Castro A, Roques CN, Boyer JC, and Farber RA. 2002a. Relative

rates of insertion and deletion mutations in dinucleotide repeats of various lengths in

mismatch repair proficient mouse and mismatch repair deficient human cells. Mutat Res.

499:213-225.

Yamada T, Koyama T, Ohwada S, Tago K, Sakamoto I, Yoshimura S, Hamada K, Takeyoshi

I, and Morishita Y. 2002b. Frameshift mutations in the MBD4/MED1 gene in primary gastric

cancer with high-frequency microsatellite instability. Cancer Lett. 181:115-120.

Yang Z. 2007. PAML 4: phylogenetic analysis by maximum likelihood. Mol Biol Evol.

24:1586-1591.

Yao X, Buermeyer AB, Narayanan L, Tran D, Baker SM, Prolla TA, Glazer PM, Liskay RM,

and Arnheim N. 1999. Different mutator phenotypes in Mlh1- versus Pms2-deficient mice.

Proc Natl Acad Sci U S A. 96:6850-6855.

Young ET, Sloan JS, and Van Riper K. 2000. Trinucleotide repeats are clustered in regulatory

genes in Saccharomyces cerevisiae. Genetics. 154:1053-1068.

Page 155: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

154

Zienolddiny S, Ryberg D, Gazdar AF, and Haugen A. 1999. DNA mismatch binding in

human lung tumor cell lines. Lung Cancer. 26:15-25.

Page 156: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

155

Annexe 1 : Article

Page 157: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

Nonsense-Mediated mRNA Decay Impacts MSI-DrivenCarcinogenesis and Anti-Tumor Immunity in ColorectalCancersJamila El-Bchiri1,2, Agathe Guilloux1,2, Peggy Dartigues1,2, Etienne Loire3,4, Dominique Mercier1,2, Olivier

Buhard1,2, Iradj Sobhani5, Pierre de la Grange6, Didier Auboeuf6, Francoise Praz1,2, Jean-Francois

Flejou1,2, Alex Duval1,2*

1 INSERM, UMR S893, Team 13 ‘‘Microsatellite Instability and Cancers’’, Paris, France, 2UPMC Univ Paris 06, UMR S893, Paris, France, 3UPMC Univ Paris 06, Atelier de

Bioinformatique, Paris, France, 4UPMC Univ Paris 06, UMR 7592, Institut Jacques Monod, Paris, France, 5Departement de Gastro-Enterologie, CHU Henri Mondor, Creteil,

France, 6 INSERM, U685, Hopital Saint-Louis, Paris, France

Abstract

Nonsense-mediated mRNA Decay (NMD) degrades mutant mRNAs containing premature termination codon (PTC-mRNAs).Here we evaluate the consequence of NMD activity in colorectal cancers (CRCs) showing microsatellite instability (MSI)whose progression is associated with the accumulation of PTC-mRNAs encoding immunogenic proteins due to frameshiftmutations in coding repeat sequences. Inhibition of UPF1, one of the major NMD factors, was achieved by siRNA in theHCT116 MSI CRC cell line and the resulting changes in gene expression were studied using expression microarrays. Theimpact of NMD activity was also investigated in primary MSI CRCs by quantifying the expression of several mRNAs relativeto their mutational status and to endogenous UPF1 and UPF2 expression. Host immunity developed against MSI cancer cellswas appreciated by quantifying the number of CD3e-positive tumor-infiltrating lymphocytes (TILs). UPF1 silencing led to theup-regulation of 1251 genes in HCT116, among which a proportion of them (i.e. 38%) significantly higher than expected bychance contained a coding microsatellite (P,2610216). In MSI primary CRCs, UPF1 was significantly over-expressedcompared to normal adjacent mucosa (P,0.002). Our data provided evidence for differential decay of PTC-mRNAscompared to wild-type that was positively correlated to UPF1 endogenous expression level (P= 0.02). A negative effect ofUPF1 and UPF2 expression on the host’s anti-tumor response was observed (P,0.01). Overall, our results show that NMDdeeply influences MSI-driven tumorigenesis at the molecular level and indicate a functional negative impact of this systemon anti-tumor immunity whose intensity has been recurrently shown to be an independent factor of favorable outcome inCRCs.

Citation: El-Bchiri J, Guilloux A, Dartigues P, Loire E, Mercier D, et al. (2008) Nonsense-Mediated mRNA Decay Impacts MSI-Driven Carcinogenesis and Anti-TumorImmunity in Colorectal Cancers. PLoS ONE 3(7): e2583. doi:10.1371/journal.pone.0002583

Editor: Cathal Seoighe, University of Cape Town, South Africa

Received April 2, 2008; Accepted May 28, 2008; Published July 9, 2008

Copyright: ! 2008 El-Bchiri et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permitsunrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

Funding: This work was partly supported by grants from the Association pour la Recherche contre le Cancer (credit number 3946). JEB, EL and PDLG wererecipients of a fellowship from the Ministere Francais de la Recherche (MRT).

Competing Interests: The authors have declared that no competing interests exist.

* E-mail: [email protected]

Introduction

Nonsense-mediated mRNA decay (NMD) is an evolutionarilyconserved mRNA surveillance mechanism that recognizes andeliminates aberrant mRNAs harboring premature terminationcodons (PTC), thereby preventing the accumulation of potentiallydeleterious truncated proteins in eukaryotic cells [1]. Following pre-mRNA splicing, NMD targets are recognized via a multiproteinexon-junction complex (EJC) that is deposited 24 nucleotidesupstream of each exon-exon junction. As a general rule, it has beenestablished that aberrant mRNAs containing PTC located eitherless than 50–55 nucleotides upstream of the last exon-exon junctionor in the last exon are not degraded by NMD (NMD-irrelevant) [2].The core of NMD effectors comprises the evolutionary-conservedUPF proteins, UPF1/RENT1, UPF2/RENT2, and two paralogsof UPF3, UPF3 (also called UPF3a) and UPF3X (also calledUPF3b). UPF1 is an RNA helicase whose activity is regulated bycycles of phosphorylation/dephosphorylation. Phosphorylation of

UPF1 requires UPF2 and UPF3 and is catalyzed by SMG1, aprotein kinase related to the phosphoinositide-3-kinase family.UPF1 phosphorylation by SMG1 has been shown to be the rate-limiting step in NMD [3,4]. It is noteworthy that SMG1 activity isnot only devoted to NMD but also plays a role in DNA damagesignaling and repair, notably by phosphorylating p53 [5].Dephosphorylation of UPF1 is mediated by SMG5, SMG6 andSMG7, three proteins that act as adaptors between phosphorylatedUPF1 and protein phosphatase 2A [3]. UPF1 function is crucial inNMD, while UPF3 and UPF3X are partially redundant [6] andUPF2 is dispensable in some cases suggesting the existence of aUPF2-independent NMD pathway [7]. UPF1 acts not only inNMD-mediated degradation of aberrant transcripts but also in thephysiological decay of various mRNAs, regulating the expression of3–10% of the transcriptome [8,9]. Silencing of UPF1 and to a lesserextent UPF2 has been reported to modulate the expression level ofa number of physiological substrates of NMD, including transcriptswith upstream open reading frames in the 59-untranslated region,

PLoS ONE | www.plosone.org 1 July 2008 | Volume 3 | Issue 7 | e2583

Page 158: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

transcripts containing an intron within their 39-untranslated regionas well as transcripts derived from transposon or endogenousretrovirus [8,10]. NMD has also been proposed to play a role in theregulation of alternative splicing events, since sequence-basedanalyses predict that about 35% of mammalian alternative splicingevents produce PTC-containing spliced variants. Nevertheless, ithas recently been reported that most PTC-containing splicevariants are produced at low levels in human cells, independentlyof the action of NMD, suggesting that the majority of such PTC-introducing events are not under positive selection pressure andtherefore are not expected to contribute important functionalroles [11].To date, the consequences of NMD activity have been mostly

investigated in monogenic hereditary diseases, including heredi-tary tumors [12]. NMD has been reported to protect heterozygouscarriers from the deleterious effects of some aberrant PTC-mRNAs encoding truncated proteins with dominant-negativeactivity [12]. Conversely, NMD inability in degrading NMD-irrelevant transcripts has been proposed to favor the phenotypicexpression of dominant hereditary diseases [12]. Because cancercells are genetically unstable and accumulate numerous somaticframeshift mutations in genes with an expected role in celltransformation, the NMD system has been proposed to play a rolein tumor development [12]. However, the assessment of its overallimpact on this process has been poorly described and remainshard to define since it depends on the nature and the number ofmutants accumulated in cancer cells during tumor progression. Todate, NMD inhibition has been successfully used as an in vitrostrategy to discover new cancer-related genes harboring truncatingmutations, suggesting that it may indeed have a role in favoringthe selection of some frequent mutational events in various tumortypes [13]. It is noteworthy that NMD activity has been shown tobe highly variable, leading to incomplete and differential decay ofputatively NMD-relevant mRNAs containing a PTC (referred toas NMD-escape) [14,15,16].MSI tumors harboring mismatch repair (MMR) deficiency are

frequent in humans. They represent about 15% of sporadiccolorectal, gastric and endometrial tumors and include neoplasmsarising in the Hereditary Non Polyposis Colorectal Cancer(HNPCC) syndrome. Dozens of mutations affecting genescontaining coding repeat sequences have been reported in thesetumors, defining the so-called mutator pathway whose role issuspected to be crucial in MSI-driven tumorigenesis [17]. To date,a large number of publications have reported frameshift mutationsin genes involved in various biological pathways such as cell cycleregulation (e.g. TGFBR2, IGF2R, TCF4, AXIN2, PTEN, RIZ),apoptosis (e.g. BAX, CASP5, BCL10, APAF1, FAS), DNA damagerepair (e.g. ATR, DNA-PKcs, RAD50, MSH3, MSH6, MBD4,MLH3, BLM, CHK1) and others [17]. We recently reported thatthe decay of frameshift mutation-derived mRNAs following in vitrosilencing of UPF1 and/or UPF2 in a panel of MSI CRC cell lineswas differential and incomplete [14]. If not fully degraded,frameshift mutant mRNAs encode proteins containing aberrant C-terminal tails, among which some have been shown to displayimmunogenic properties [18,19]. Several studies have emphasizedthe fact that, in keeping with this process, MSI tumors weremarkedly infiltrated by cytotoxic intra-epithelial tumor-infiltratingT lymphocytes (TILs) and that such a cellular immune responsewas predictive of a relatively favorable outcome independently ofthe initial tumor stage and other clinical factors [20]. Therefore,NMD activity may interfere with anti-tumor immunity by limitingthe expression of some of these aberrant proteins. Using MSIcolorectal cancer as a model, we aimed here at furtherinvestigating the role of NMD in oncogenesis.

Results

Transcriptome changes secondary to UPF1 silencing inHCT116 CRC cells and their relationship to microsatelliteinstabilityUsing Affymetrix GeneChipH Human Exon 1.0 ST gene

expression arrays, the expression of 1363 genes was found to besignificantly deregulated upon UPF1 silencing in the HCT116 (MSI)CRC cell line, with a fold change$1.5 compared to untreated cells(Table S1). With 111 others, UPF1 was, as expected, one of the genesto be significantly down-regulated. The level of inhibition wassignificant (.75%) and agreed well with our data obtained by real-time quantitative RT-PCR (data not shown). Overall, 1251 geneswere up-regulated upon UPF1 silencing (1251/1363, i.e. 92% of allderegulated genes under these conditions), amongst which 472 (38%)contained a mononucleotide repeat sequence of at least 7 base pairsin the coding region (Table S2). Of interest, the total number of genesin the human genome with a coding repeat tract$7N is lower (4470/22218 ; 20%. Data not shown), making significantly higher thanexpected by chance the overall number of such target genes up-regulated in HCT116 upon UPF1 silencing (P,2610216; Chi2 test).Amongst the aforementioned 472 genes in HCT116 cells, 22

genes containing a coding mononucleotide repeat of 7 to 10nucleotides were chosen because of their putative role in colorectalcarcinogenesis and screened for insertion/deletion mutations inthese cells (Table 1). All these genes but 3 (MBD4, MSH3,TGFBR2) had never been reported to be mutated in MSI CRCs(Table 1). Using this approach, we detected or confirmedhomozygous mutations in the SLC35F5, TGFBR2, ARV1, MSH3,SMAP1 genes and heterozygous mutations in the MBD4, EFHC1,TTC3, and WDR19 genes (Figure 1a). All the correspondingmutant mRNAs harbored a PTC located in coding regions thatmay be prone to NMD. In addition, we observed that 4 othertarget genes with previously described heterozygous frameshiftmutations in HCT116 (BAX, RECQL, RAD50 andMSH6) were notsignificantly re-expressed following UPF1 silencing (Figure 1a).The re-expression rates for PTC-mRNAs induced by UPF1silencing in HCT116 are shown in Figure 1a and highlight the factthat, as described [14], UPF1-mediated mRNA decay is highlyvariable within a series of endogenously mutated PTC-mRNAsalthough allele specific expression assays were not used todifferentiate between mutated and wild-type mRNAs in the caseof heterozygous frameshift alterations.

Frameshift mutations in MSI primary CRCs according totheir NMD statusAll the target genes mutated in HCT116 for which the impact

of NMD had previously been determined were screened forframeshift mutations in coding microsatellite sequences in a seriesof primary MSI CRCs (n = 44). This includes genes whosemutated mRNAs are more or less sensitive to NMD (TGFBR2,SLC35F5, ARV1, MSH3, TTC3, EFHC1, MBD4, SMAP1, WDR19,BAX, RECQL, RAD50, MSH6) (Figure 1a). The mutationfrequencies of these 13 genes representing possible targets forMSI-driven instability were highly variable in these tumors(Figure 1b). Based on their high mutation frequency, SLC35F5,ARV1, TTC3, and SMAP1 represent new target genes in whichframeshift mutations have not previously been reported in MSICRC. They were mutated in 48% (21/44), 23% (10/44), 32%(14/44) and 73% (32/44) of tumors, respectively (Figure 1b).

Over-expression of UPF1 mRNA in MSI primary CRCsBy measuring the levels of UPF1 and UPF2 mRNAs by real-

time quantitative RT-PCR in another independent series of MSI

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 2 July 2008 | Volume 3 | Issue 7 | e2583

Page 159: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

primary CRCs for which we also obtained the samplescorresponding to matching normal mucosa, we observed anapproximately 7-fold over-expression of UPF1 in tumors (n = 25)compared to normal mucosa (P=0.0015; paired t-test) (Figure 2).Since the quantification (7-fold) of the over-expression has to betaken with cautiousness due to the small amount of data, weverified that UPF1 mRNA was indeed over-expressed in MSIprimary CRCs by performing a qualitative chi-square test, whichis robust to extreme values. Using this approach, the number ofcases in which UPF1 expression was higher in tumors compared tomatching normal mucosa (N=20/25) was significantly differentthan expected by chance (P=0.009; chi-square test). These dataare illustrated on Figure 2, in which 20 and 5 open circlesrepresenting MSI tumor samples over-expressing UPF1 or not,respectively, are represented above a doted line symbolizing theexpression of this NMD factor in normal mucosa. Of interest, atrend for over-expression of this factor was also observed in non-MSI (MSS) CRCs (n= 31) in the same conditions (P=0.08; pairedt-test) (Figure 2). In contrast, UPF2 was not differentially expressedin either MSI or MSS CRCs compared to matching normalmucosa (P=0.56 and 0.83, respectively; paired t-test) (Figure 2).

Significant decay of frameshift mutation-derived mRNAsthat depend on UPF1 expression in MSI primary CRCsIn our series of 44 primary MSI CRCs, we further determined

the relative in vivo expression of 18 MSI target genes by real-timequantitative RT-PCR using experimental conditions that we

previously determined in a series of CRC cell lines (ATR, BAX,BLM, CBF2, CDX2, GRB14, GRK4, IGF2R, MBD4, MSH3, MSH6,RAD50, RBBP8, RECQL, RIZ, TCF4, TFDP2, TGFBR2) (Figure 3and also Table S3 for the mutational status of these 18 genes inMSI CRCs) [14]. For all genes except 3 (CDX2, GRB14, TFDP2), atrend for decay of mutant compared to wild-type mRNAs wasobserved. The decay of mutant mRNAs compared to wild-typeswas significant for MSH6 (P=0.02; Student’s t-test) and nearlysignificant for a few others only, e.g. BAX (P=0.08), CDX2(P=0.10), MSH3 (P=0.10), RIZ (P=0.10) and TFDP2 (P=0.10),providing evidence for differential decay of PTC-mRNAscompared to wild-type in our series of primary CRCs, as alreadydescribed in a series of MSI CRC cell lines [14] (Figure 3).Overall, there was a highly significant decay of PTC-mRNAs inthe MSI primary CRCs (P,1024, Student’s t-test; see the‘‘Materials and Methods’’ section for Statistical analyses). Asindirect proof of the contribution of NMD, the overall intensity ofthis process in MSI primary CRCs was positively correlated to theendogenous UPF1 expression level (P=0.02, Student’s t-test; seethe ‘‘Materials and Methods’’ section for statistical analyses),whereas the impact of UPF2 was not significant (P=0.72,Student’s t-test) (data not shown).

UPF1 and UPF2 are negative predictive factors of thehost’s immune response against MSI CRCsWith the exception of TCF4, no significant positive correlations

were found between the endogenous expression of PTC-mRNAs

Table 1. List of 22 Target genes up-regulated following UPF1 silencing in HCT116 and their mutational status.

Gene Symbol Ensembl Human Gene Fold Change Repeat Repeat Position in cDNA Type of Mutation in HCT116

ARV1 ENSG00000148926 2.08 9A 539 hmz

CDC23 ENSG00000094880 1.99 7A 411 wt

CSPG2 ENSG00000038427 2.17 7A 7874 wt

EFHC1 ENSG00000096093 1.94 7A 1316 htz

MBD4* ENSG00000129071 1.89 10A 930 htz

MSH3* ENSG00000113318 1.6 8A 1394 hmz

NR3C1 ENSG00000113580 1.87 7A 1974 wt

ORC6L ENSG00000091651 2.24 7A 561 wt

PIGB ENSG00000069943 1.85 8T 1086 wt

PSD3 ENSG00000156011 1.6 8A, 8A 737, 2333 wt

PSEN1 ENSG00000080815 2.02 7T 774 wt

REV3L ENSG00000009413 1.91 8A 1481 wt

RIF1 ENSG00000080345 1.75 7T, 8A 1538, 4637 wt

SHPRH ENSG00000146414 1.69 8A 887 wt

SLC35F5 ENSG00000115084 2.2 10T 1157 hmz

SMAP1 ENSG00000112305 1.6 10A 550 hmz

TBC1D23 ENSG00000036054 1.66 9A 1901 wt

TFE3 ENSG00000068323 2.39 8G 1676 wt

TGFBR2* ENSG00000163513 2.45 10A 831 hmz

TMEM161B ENSG00000164180 1.57 8T 651 wt

TTC3 ENSG00000182670 2.42 8A, 7A 1867, 2432 htz

WDR19 ENSG00000157796 1.54 8T 788 htz

The threshold for re-expression was considered significant when the fold change was .1.5 (see the Materials and Methods section). Newly described target genes forinstability in MSI CRCs are indicated in bold characters. Hmz: homozygously mutated at the coding repeat tract in HCT116. Htz: heterozygously mutated at the codingrepeat tract in HCT116. wt: not mutated at the coding repeat tract in HCT116. Target genes that have been already described to be mutated in MSI CRCs are indicatedwith an *.doi:10.1371/journal.pone.0002583.t001

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 3 July 2008 | Volume 3 | Issue 7 | e2583

Page 160: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

and the presence of CD3e-positive TILs in tumors (PTCF4 = 0.06;Bootstrapped t-test) (data not shown). The link between thenumber of TILs and the expression of UPF1 and UPF2 was notlinear but log-linear. Thus, the influence of UPF1 and UPF2expression on the numbers of TILs was investigated via a Wald testand the coefficients in the Poisson regression model were estimatedvia iteratively re-weighted least squares. Based on these observa-tions, a negative effect of UPF1 and UPF2 expression on theoverall number of CD3e-positive TILs was demonstrated (P,0.01for UPF1 and UPF2; Wald test). A mathematical modelcorrelating the number of CD3e-positive TILs with the expressionof these NMD factors in MSI CRCs was established, predictingthat TILs increased by about 30% when the expression of UPF1was halved.These data are illustrated for UPF1 and UPF2 in Figure 4; tumor

samples in which UPF1 and UPF2 expression are low (below theaverage) presented with variable rates of CD3e positive-TILs whiletumor samples in which UPF1 and UPF2 expression are high(above the average) were found to be nearly always characterized bya lowCD3 count, making UPF1 and UPF2 possible markers of pooranti-tumor immunity in MSI primary CRCs.

Discussion

By evaluating a large number of target genes that were mutatedat variable rates in their coding repeat sequences, we show asignificant decay of the corresponding mutant mRNAs comparedto wild-type in MSI primary CRCs with a significant impact ofendogenous expression of UPF1 in this process, with UPF2 playinga minor role in the process, as recently described by our group in aseries of MSI CRC cell lines [14]. Taken one by one, we observeda significant or nearly significant decay of only some mutantmRNAs compared to wild-types and this is not surprising since: (i)as recently published by our group, NMD impact on theexpression of frameshift mutation-derived mRNAs is highlyvariable from one mutant to another [14]; (ii) frequencies oftarget gene alterations were highly variable and sometimes verylow in our tumor series; (iii) some mutants in particular (TCF4) areNMD-irrelevant. In this study, we also investigate large scale geneexpression changes in MSI CRC cells in the context of NMDinhibition using a specific method, showing that it led to the up-regulation of 1251 genes in HCT116, among which a proportionof them significantly higher than expected by chance contained a

Figure 1. a. Impact of UPF1 on the decay of PTC-mRNAs in HCT116 cells. TGFBR2, SLC35F5, ARV1, MSH3, SMAP1, TTC3, EFHC1, MBD4, WDR19,BAX, RECQL, RAD50 and MSH6 harbor homozygous or heterozygous frameshift mutations in the HCT116 MSI CRC cell line. Using expression array, foldchanges in the expression of the corresponding mRNAs relative to UPF1 silencing were determined (fold change= EmRNA in cells treated with a UPF1siRNA / EmRNA in cells treated with control siRNA). Genes that are underlined are those whose re-expression was significant in these conditions (1.5fold-change up with a p-value #0.005). Evidence for variable sensitivity to UPF1-mediated decay of such PTC-mRNAs could therefore be obtained,although allele specific expression assays were not used to differentiate between mutated and wild-type mRNAs in the case of heterozygousframeshift alterations. b. Coding frameshift mutations in target genes relative to NMD-status in MSI primary CRCs. Frequencies of frameshiftmutations of the same series of 13 target genes for instability in 44 MSI primary CRCs are represented. Target genes whose frameshift mutations arefrequently selected for during MSI CRC progression harbor different sensitivities to UPF1-mediated decay.doi:10.1371/journal.pone.0002583.g001

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 4 July 2008 | Volume 3 | Issue 7 | e2583

Page 161: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

coding microsatellite. Although not all of them are expected to bemutated in MSI CRC cells, as shown here on a short series of up-regulated target genes, it can be advanced that UPF1 isparticularly relevant for modulating the expression of dozens ofgenes mutated in MSI CRC cells. Overall, these data confirm forthe first time, both in vitro and in vivo, that NMD deeply influencesMSI-driven tumorigenesis at the molecular level.As a possible functional consequence of NMD activity in vivo in

MSI tumorigenesis, we investigated whether the activity of thissystem modulates anti-tumor immunity. Of interest, the onlyframeshift mutation whose presence was significantly associatedwith a higher number of TILs in MSI CRCs was in TCF4, theonly NMD-irrelevant target gene studied in our series as its codingrepeat sequence is located within its last exon. Moreover, aninverse correlation between UPF1 and UPF2 expression and thenumber of CD3e-positive TILs was observed in MSI CRCs, and amathematical model linking the number of CD3e-positive TILs tothe expression of NMD factors in MSI CRCs predicted that TILsincreased by about 30% when the expression of UPF1 or UPF2was halved. These data indicate that NMD may impact negativelythe host’s immunity against MSI tumor cells in a cumulativemanner via the contrasted and incomplete degradation of mutatedtranscripts encoding immunogenic peptides. It could be speculatedin this context that UPF factors may be specific markers of poorimmunity in MSI primary CRCs. In light of these results, it canthus be advanced that the aforementioned negative impact ofNMD on the immune process developed by the host against MSItumor cells would be efficient only when NMD factors are over-expressed and highly active in degrading the numerous PTC-

mRNAs encoding for immunogenic peptides that are synthesizedin MSI CRCs. In contrast, it can be assumed that, when expressedat lower rates, NMD factors would be inefficient in preventing thedevelopment of an anti-tumor immune response whose intensitywould depend on the number and the nature of frameshiftalterations accumulated in MSI cancer cells. These findings maybe of clinical interest since, as mentioned earlier, anti-tumorimmunity is generally considered as an independent factor whoseintensity has been consistently demonstrated to be predictive offavorable outcome independently of the initial colon tumor stageand other clinical factors [20].Since the efficiency of NMD for degrading mutant mRNAs

from target genes is highly variable, we recently proposed thatNMD may therefore play an important role in the selection oftarget gene mutations with a functional role in MSI carcinogenesis[14]. It is noteworthy that among the genes up-regulated uponUPF1 silencing, four not yet reported target genes (SLC35F5,TTC3, ARV1 and SMAP1) are here demonstrated to be frequentlymutated in our series of MSI primary CRCs. Amongst them,SMAP1, for Stromal Membrane Associated Protein-1, haspreviously been reported to participate in chromosomal rear-rangements with MLL in hematological malignancies [21]. With a73% frequency of frameshift alterations in MSI primary CRCs,including homozygous mutations in five CRC samples (data notshown), it is one of the most frequently mutated target genes inMSI CRCs together with TGFBR2 and ACVR2 [17]. In keepingwith our previous results and those obtained by Ionov et al. usingemethine as a nonspecific inhibitor of the NMD system [14,22],we confirmed in this study that TGFBR2 PTC-mRNA is degraded

Figure 2. Expression of UPF1 and UPF2 in MSI and non-MSI (MSS) primary CRCs relative to matched normal colonic mucosa. In 25MSI and 31 MSS CRCs we compared the expression of UPF1 and UPF2 between the tumors and matched normal colonic mucosa by real-timequantitative RT-PCR. In all but 5 cases, over-expression of UPF1 was observed in MSI CRC tumors. Considering all samples, the over-expression ofUPF1 in MSI tumors was statistically significant (P=1.561023; paired t-test). In MSS CRCs, a trend for over-expression of this factor was observedunder the same conditions (P= 0.08; paired t-test). In patients with MSI or MSS CRCs, UPF2 was not differentially expressed between tumor andmatching normal mucosa (P=0.56 and P= 0.83, respectively; paired t-test).doi:10.1371/journal.pone.0002583.g002

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 5 July 2008 | Volume 3 | Issue 7 | e2583

Page 162: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

through NMD in MSI CRC cells. In a recent paper, You et al.[23] reported contradictory data, claiming that this target gene aswell as MSH3 escape NMD in the HCT116 cell line. Theypresented results on a series of PTC-mRNAs showing thesetranscripts were either completely sensitive or completely resistantto NMD in MMR-deficient cells. Their data were obtained byperforming expression assays that were neither quantitative norallele-specific. In the same study, these authors also suggested asystematic translational repression of truncated proteins fromframeshift mutation-derived mRNAs that escaped NMD (NMTRfor ‘‘Nonsense Mediated Translational Repression’’) [23]. Weverified by western blotting that expression of the correspondingproteins for both of the homozygously mutated target genes(TGFBR2, MSH3) was not detectable in HCT116 cells (data notshown). Contrary to You et al, we propose that loss of TGFBR2and MSH3 expression is mainly due to NMD rather than to anhypothetical NMTR pathway. It is noteworthy that the existenceof an NMTR pathway does not suit well with the immunogenicproperties of MSI cancer cells that depend directly on theaccumulation of immunogenic peptides derived from numerousframeshift-related proteins whose PTC-mRNAs are NMD-rele-vant in most cases [18,19,20]. Regardless of discrepancies, all thesedata argue for a role of NMD in modulating the expression ofseveral genes whose mutations have been already demonstrated

(TGFBR2, MSH3, MBD4) or are expected to play an importantrole during MSI CRC progression [17]. UPF1 depletion withshRNA in non-MSI HeLa cells was recently reported to inducecell cycle arrest in early S phase due to the involvement of thisfactor in DNA repair [24]. In contrast, transient silencing of UPF1and/or UPF2 in MSI and MSS colorectal cancer cells (HCT116,LoVo, Co115, LS174T, SW480, COLO320) did not lead tosignificant alterations of cell growth and/or death in our hands(data not shown). Further studies are now required to determinehow NMD activity may change the repertoire of genes involved inMSI carcinogenesis and impact tumor progression using MMRdeficient mouse models in which UPF1 activity is modified.Our observations concern the most frequent primary tumor

location associated with MSI in human, i.e. colon. They indicatethat NMD deeply influences the expression of numerous mutantswith an expected crucial role in MSI-driven tumorigenesis andnegatively impacts the host immunity against MSI cancer cells.Such a putative oncogenic function of NMD in MSI carcinogen-esis fits well with the fact that we also report here for the first timethat UPF1 is significantly over-expressed in MSI CRCs comparedto matching normal mucosa. This last observation was based onthe measure of the UPF1 mRNA level. As a perspective, it has nowto be confirmed at the protein level through a quantitativeapproach such as Western Blotting that was here not performed

Figure 3. Target gene-related mRNA expression according to mutational status in 44 MSI primary CRC. hCt values are indicated relativeto the mutational status of each gene in the 44 MSI primary CRCs (wild-type and mutated tumor samples are indicated by white circles and blacktriangles, respectively). For each gene, medium values of hCt related to wild-type (white arrow) or mutated (black arrow) tumor samples werecalculated. For all genes except 3 (CDX2, GRB14, TFDP2), a trend for decay of mutant compared to wild-type mRNAs was observed (hCt values areinversely proportional to gene expression). Overall, the data provide evidence for significant decay of PTC-mRNAs compared to wild-type mRNAs invivo in MSI primary CRCs (P,1024, student t-test).doi:10.1371/journal.pone.0002583.g003

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 6 July 2008 | Volume 3 | Issue 7 | e2583

Page 163: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

because of the lack of available additional tumor material. Thedevelopment of clinical trials should now be developed to lookwhether NMD may be considered as a factor of poor prognosis inMSI CRCs or not. Small molecules inhibiting NMD are nowavailable [25] and may be used to gain further insight into theNMD role in cancers. We now plan to use these drugs in MMR-deficient mice developing MSI neoplasms to evaluate whether itmay constitute a new therapeutic target for the treatment of suchtumors.

Materials and Methods

Tumor samples and cell linesThe CRC cell line HCT116 was purchased from the American

Type Culture Collection and maintained in DMEM (LifeTechnologies) containing 10% fetal calf serum (Invitrogen) andGlutamine without antibiotics to allow transient transfectionexperiments with siRNA. Forty-four MSI primary tumors wereobtained from patients undergoing surgery for colorectal cancer;all cases were histopathologically confirmed as being adenocarci-nomas. Collected tumors were systematically formalin-fixed,paraffin-embedded and frozen after surgery without any prior

embedding in liquid nitrogen. The MSI status was determined byfluorescent multiplex PCR comprising 5 quasimonomorphicmononucleotide repeats (BAT-25, BAT-26, NR-21, NR-24 andNR-27), as described [26]. Only tumors with instability at three ormore of these markers were included in the study. The amount ofnormal contaminating DNA was estimated as previously described[27]. In addition, an independent series of 25 MSI and 31 MSSprimary CRC samples were collected in the same conditionstogether with their matching normal mucosa and used to compareUPF1 and UPF2 expression in tumor and normal colonic tissues.

Multiplex PCR and mutation analysisTumor DNA from fromzen samples was extracted using

QIAamp DNA Tissue Kit (Qiagen) according to the manufactur-er’s instructions. A total of 24 genes containing mononucleotiderepeat sequences were chosen either because they were alreadydescribed as targets for MSI-driven mutations in MSI tumors (e.g.ATR, BAX, BLM, CBF2, CDX2, GRB14, GRK4, IGF2R, MBD4,MSH3, MSH6, RAD50, RBBP8, RECQL, RIZ, TCF4, TFDP2, andTGFBR2) or because they were significantly up-regulated in MSIHCT116 cells following UPF1 silencing and mutated in theHCT116 MSI CRC cell line (SLC35F5, ARV1, EFHC1, TTC3,

Figure 4. Relationship between endogenous UPF1 and UPF2 mRNA expression in MSI CRCs and the number of TILs. The overallnumber of CD3e positive-TILs was significantly related to the endogenous expression of UPF1 and UPF2 in this series of 44 MSI primary CRCs (P,0.01;Wald test). Of interest, while tumor samples in which UPF1 and UPF2 expression was low (below the average) presented with variable rates of CD3epositive-TILs, tumor samples in which UPF1 and UPF2 expression was high (above the average) were almost always characterized with low CD3 count(poorly immunogenic CRCs). These data make UPF1 and UPF2 specific markers of poor anti-tumor immunity in MSI primary CRCs. CD3 proteinimmunostaining are presented for 2 MSI primary CRC samples showing either low CD3 count and high UPF1 and UPF2 expression (left) or high CD3count together with low UPF1 and UPF2 expression (right).doi:10.1371/journal.pone.0002583.g004

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 7 July 2008 | Volume 3 | Issue 7 | e2583

Page 164: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

SMAP1, WDR19). Specific primers for each target gene weredesigned using e-primer3 (http: // bioweb.pasteur.fr/seqanal/interfaces/eprimer3.html) so that short fragments (,200 bp) couldbe simultaneously amplified by 6 PCRs using 6-FAM or HEXlabeled primers. PCR reactions were performed in a final volumeof 20 ml containing 100 ng of genomic DNA, 0.15–0.40 mM ofeach pair of primers and 1 unit of HotStarTaq DNA polymerase(Qiagen) (Table S4). Adequate dilutions of the fluorescent PCRproducts were mixed with formamide and GeneScanTM 400HDROXTM Size Standard (Applied Biosystems), heat-denatured andrun on a short capillary containing GS Performance OptimizedPolymer 4, on the ABI 3130 Genetic Analyzer using theGeneMapper 3.7 software (Applied Biosystems).

Real-time Quantitative RT-PCR analysis in primary CRCsDNA and RNA extractions were performed on closely related

regions of each frozen tumor sample. Total RNA was isolatedusing Trizol reagent according to the manufacturer’s instructions(Invitrogen). RNA integrity was evaluated on a 2100 Bioanalyzerusing the RNA 6000 Nano LabChip kit (Agilent). Only sampleswith intact RNAs were used for gene expression analysis (28S/18SRNA ratio .1.6 and absence of aberrant pick on the RNAprofile). cDNAs were synthesized using the High Capacity cDNAArchive Kit according to the manufacturer’s instructions (AppliedBiosystems). For quantitative RT-PCR experiments, expressionvalues of each mRNAs were calculated relatively to 18S ubiquitousRNA as described [14]. Briefly, expression values were obtainedfrom the Ct number at which the increase in signal associated withexponential amplification of PCR products starts to be detectedusing the Applied SDS Biosystems analysis software according tothe manufacturer. Quantification of the 18S ubiquitous RNA wasused as the endogenous reference. Results were expressed as N-fold difference in target gene expression relative to 18S expression(hCt), where hCt was determined in each case by subtracting theaverage Ct value of the target gene from the average Ct value ofthe 18S gene. hCt is inversely correlated to the relative expressionvalues by the formula:

Relative Gene Expression E! "~2{LCt

Primers and internal probes for 18S and the target genes werethose proposed on demand by Applied Biosystems (TaqMan geneexpression assays on demand). For each set of primers, a no-template control and a no-reverse transcriptase control (reversetranscriptase-negative) assays produced negligible signals (usuallyCt .35), and were used to confirm the absence of primer-dimerformation and genomic DNA contamination. PCR reactions wereperformed in triplicate using an ABI Prism 7900 SequenceDetection System and the TaqMan PCR master mix (AppliedBiosystems). The thermal cycling conditions comprised an initialdenaturation step at 95uC for 10 min and 40 cycles at 95uC for15 s and 60uC for 1 min.

Transient transfection assays of cell lines and micro-arrayanalysesThe HCT116 CRC cell line was transiently transfected as

described [14]. Microarray experiments were performed by thePartnerChip Company (Evry-France) on Affymetrix GeneChipHHuman Exon 1.0 ST arrays. Preparation of single-strandbiotinylated cDNA was done according to protocols from themanufacturer (Affymetrix). Briefly, 1 mg of total RNA wassubjected to mRNA enrichment using magnetic beads before

reverse transcription. Double-stranded cDNA was generated usingT7-promoter coupled random hexamers and the Superscript IIReverse Transcriptase. In vitro transcription was then carried out inthe presence of T7 RNA Polymerase for complementary RNAamplification. At the end, cRNA was reverse-transcribed intosingle-strand sense cDNA, fragmented and finally biotinylatedusing terminal deoxynucleotidyl transferase (TdT) before over-night hybridization on Human Exon 1.0 ST arrays. Washes andstreptavidin-phycoerythrin (SAPE) staining procedures wereperformed using Affymetrix Fluidics Station 450 and arrays werefinally scanned into Affymetrix Scanner 3000.

ImmunohistochemistryTissue from 44 MSI tumors was available. Paraffin-embedded

stored tissue was retrieved and fresh 4-mm sections were mountedon silanised slides. Immunohistochemical analysis of CD3 wasperformed using a CD3 antibody (clone SP7, 1:300 fromNeomarkers, Freemont CA) and the commercially available Bondautomated system (BondTM). Quantification of the relativenumber of CD3+ positive cells was performed in all cases byusing a video-assisted measuring system in combination with asoftware package for quantification (Mercator, exploranova).When assessing TILs, a region of interest was established in anarea with cancerous glands which contained the maximal amountof neoplastic cell with minimal stroma or necrotic debris.Automated exploration was done in the region after savingparameters necessary to recognize lymphocytes that reactedpositively to the antibodies. The ratio of TILs to epithelialcancerous cells was based on 500 minimal epithelial cells and theresult was edited in Microsoft Excel.

Statistical analysisNormalization of micro-array data and analyses. Quantile

normalization was performed using the ExACT software fromAffymetrix. Background was calculated and subtracted from mainprobe intensities using the antigenomic probes, as already described[28]. Only probes with a low DAPG p-value in at least oneexperimental was selected [28]. Probes that are tagged as ‘‘cross-hybridizing’’ on the Affymetrix design files were eliminated. A pairedT-test on the corrected intensities of the selected probes between theUPF1 depletion experiment and the control experiment wasperformed. Only gene expression alterations above a 1.5 fold-change (up or down) with a p-value#0.005 were selected.

Testing the effect of the presence of frameshift mutationsin target genes on the relative expression of theircorresponding mRNAs in MSI primary colorectaltumors. For the 18 target genes (ATR, BAX, BLM, CBF2,CDX2, GRB14, GRK4, IGF2R, MBD4, MSH3, MSH6, RAD50,RBBP8, RECQL, RIZ, TCF4, TFDP2, TGFBR2), the hCt valuesmeasured in the 44 primary tumor samples were standardized.The fitted linear mixed-effects model can be expressed, for eachgene g and each tumor sample s, as: hCtStandgs= a+b+ms+egs formutated genes and hCtStandgs = b+ms+egs for wild-type genes,where hCtStand denotes the standardized value of the hCt, ms is arandom effect depending only on the tumor sample s and egs is arandom error depending on the tumor sample s and the gene g.The variance component of the random effect has been estimatedby restricted maximum likelihood, via the EM algorithm, while thevalues of a and b were computed by standard maximum likelihoodestimation. In addition, a Student’s t-test for the null hypothesisH0: the presence of the mutation has no effect on the expression ofthe corresponding mRNA (a=0) versus the alternative H1:a?0was performed.

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 8 July 2008 | Volume 3 | Issue 7 | e2583

Page 165: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

Testing the influence of the endogenous expression ofUPF1 or UPF2 on the overall decay of mutant mRNAs in MSIprimary CRCs. In each tumor sample, the mean of standardizedhCt values of mutated genes, denoted by hCtStand(mut)s, and themean of standardized hCt values of wild-type genes, denoted byhCtStand(wild)s, were computed. To test the effect of the preliminarystandardized hCt values of UPF1 and UPF2, denoted respectively byhCtStand(UPF1)s and hCtStand(UPF2)s, on the difference betweenthe means for mutated genes and for wild-type genes, the followinglinear model has been fitted : hCtStand(mut)s2hCtStand(wild)s = a+b?hCtStand(UPF1)s+c?hCtStand(UPF2)s+es, where againes is a random error depending on the tumor samples. The values ofaand b and c were computed by least-square estimation. Two Studenttests were performed: a test for the null hypothesisH0 : the expressionof UPF1 has no effect on the difference of the means (b=0) versus thealternative H1 : b?0 and a test for the null hypothesis H0 : theexpression of UPF2 has no effect on the difference of the means (c=0)versus the alternativeH1 : c?0.

Testing the influence of the endogenous expression ofUPF1 or UPF2 on the overall number of Tumor InfiltratingLymphocytes (TILs) in MSI primary CRCs. As theresponse variable ‘‘the number of TILs’’ is discrete, a classicallinear model would not have been appropriated to investigate aneffect of UPF1 or UPF2 on it. The most common model in thisparticular case is the Poisson regression with a log link function.We checked that the log was the best link function. As aconsequence, the link between the number of TILs and theexpression of UPF1 and UPF2 is not linear but log-linear and thePearson correlation coefficient is not appropriate. The influenceof UPF1 and UPF2 expression on the numbers of TILs was thusinvestigated via a Wald test. Furthermore, the coefficients in thePoisson regression model were estimated via iteratively re-weighted least squares.

Supporting Information

Table S1 Genes expression data concerning HCT116 cells uponinhibition of UPF1 expression by siRNA. Only genes for which asignificant de-regulation was observed (1.5 fold-change up or downwith a p-value #0.005) in these conditions are listed.Found at: doi:10.1371/journal.pone.0002583.s001 (0.25 MBXLS)

Table S2 List of the target genes containing coding microsat-ellite sequences and up-regulated following UPF1 silencing inHCT116. In each case, the number of the exon containing thelonger coding repeat tract is indicated.Found at: doi:10.1371/journal.pone.0002583.s002 (0.09 MBXLS)

Table S3 Frameshift mutations in 18 target genes whosemRNAs were quantified in 44 MSI primary CRCs. WT: WildType; M: Mutated.Found at: doi:10.1371/journal.pone.0002583.s003 (0.04 MBXLS)

Table S4 List of the primers used for the screening of frameshiftmutations at coding microsatellite sequences contained in 24target genes for MSI in CRCs.Found at: doi:10.1371/journal.pone.0002583.s004 (0.03 MBPDF)

Acknowledgments

We thank Dr. Barry Iacopetta and Francois Petit for critical reading of themanuscript.

Author Contributions

Conceived and designed the experiments: AD. Performed the experiments:JE PD OB. Analyzed the data: AD JE AG FP. Contributed reagents/materials/analysis tools: JF AG EL DM IS Pd DA. Wrote the paper: AD FP.

References

1. Isken O, Maquat LE (2007) Quality control of eukaryotic mRNA: safeguardingcells from abnormal mRNA function. Genes Dev 21(15): 1833–1856.

2. Nagy E, Maquat LE (1998) A rule for termination-codon position within intron-containing genes: when nonsense affects RNA abundance. Trends Biochem Sci23(6): 198–199.

3. Ohnishi T, Yamashita A, Kashima I, Schell T, Anders KR, et al. (2003)Phosphorylation of hUPF1 induces formation of mRNA surveillance complexescontaining hSMG-5 and hSMG-7. Mol Cell 12(5): 1187–1200.

4. Yamashita A, Ohnishi T, Kashima I, Taya Y, Ohno S (2001) Human SMG-1, anovel phosphatidylinositol 3-kinase-related protein kinase, associates withcomponents of the mRNA surveillance complex and is involved in the regulationof nonsense-mediated mRNA decay. Genes Dev 15(17): 2215–2228.

5. Brumbaugh KM, Otterness DM, Geisen C, Oliveira V, Brognard J, et al. (2004)The mRNA surveillance protein hSMG-1 functions in genotoxic stress responsepathways in mammalian cells. Mol Cell 14(5): 585–598.

6. Kunz JB, Neu-Yilik G, Hentze MW, Kulozik AE, Gehring NH (2006) Functionsof hUpf3a and hUpf3b in nonsense-mediated mRNA decay and translation.Rna 12(6): 1015–1022.

7. Gehring NH, Kunz JB, Neu-Yilik G, Breit S, Viegas MH, et al. (2005) Exon-junction complex components specify distinct routes of nonsense-mediatedmRNA decay with differential cofactor requirements. Mol Cell 20(1):65–75.

8. Mendell JT, Sharifi NA, Meyers JL, Martinez-Murillo F, Dietz HC (2004)Nonsense surveillance regulates expression of diverse classes of mammaliantranscripts and mutes genomic noise. Nat Genet 36(10): 1073–1078.

9. Rehwinkel J, Letunic I, Raes J, Bork P, Izaurralde E (2005) Nonsense-mediatedmRNA decay factors act in concert to regulate common mRNA targets. Rna11(10): 1530–1544.

10. Wittmann J, Hol EM, Jack HM (2006) hUPF2 silencing identifies physiologicsubstrates of mammalian nonsense-mediated mRNA decay. Mol Cell Biol 26(4):1272–1287.

11. Pan Q, Saltzman AL, Kim YK, Misquitta C, Shai O, et al. (2006) Quantitativemicroarray profiling provides evidence against widespread coupling ofalternative splicing with nonsense-mediated mRNA decay to control geneexpression. Genes Dev 20(2): 153–158.

12. Holbrook JA, Neu-Yilik G, Hentze MW, Kulozik AE (2004) Nonsense-mediateddecay approaches the clinic. Nat Genet 36(8): 801–808.

13. Noensie EN, Dietz HC (2001) A strategy for disease gene identification throughnonsense-mediated mRNA decay inhibition. Nat Biotechnol 19(5): 434–439.

14. El-Bchiri J, Buhard O, Penard-Lacronique V, Thomas G, Hamelin R, et al.(2005) Differential nonsense mediated decay of mutated mRNAs in mismatchrepair deficient colorectal cancers. Hum Mol Genet 14(16): 2435–2442.

15. Perrin-Vidoz L, Sinilnikova OM, Stoppa-Lyonnet D, Lenoir GM, Mazoyer S(2002) The nonsense-mediated mRNA decay pathway triggers degradation ofmost BRCA1 mRNAs bearing premature termination codons. Hum Mol Genet11(23): 2805–2814.

16. Anczukow O, Ware MD, Buisson M, Zetoune AB, Stoppa-Lyonnet D, et al.(2008) Does the nonsense-mediated mRNA decay mechanism prevent thesynthesis of truncated BRCA1, CHK2, and p53 proteins? Human mutation29(1): 65–73.

17. Duval A, Hamelin R (2002) Mutations at coding repeat sequences in mismatchrepair-deficient human cancers: toward a new concept of target genes forinstability. Cancer Res 62(9): 2447–2454.

18. Saeterdal I, Bjorheim J, Lislerud K, Gjertsen MK, Bukholm IK, et al. (2001)Frameshift-mutation-derived peptides as tumor-specific antigens in inheritedand spontaneous colorectal cancer. Proc Natl Acad Sci U S A 98(23):13255–13260.

19. Ishikawa T, Fujita T, Suzuki Y, Okabe S, Yuasa Y, et al. (2003) Tumor-specificimmunological recognition of frameshift-mutated peptides in colon cancer withmicrosatellite instability. Cancer Res 63(17): 5564–5572.

20. Lothe RA, Peltomaki P, Meling GI, Aaltonen LA, Nystrom-Lahti M, et al.(1993) Genomic instability in colorectal cancer: relationship to clinicopatholog-ical variables and family history. Cancer Res 53(24): 5849–5852.

21. Meyer C, Schneider B, Reichel M, Angermueller S, Strehl S, et al. (2005)Diagnostic tool for the identification of MLL rearrangements includingunknown partner genes. Proc Natl Acad Sci U S A 102(2): 449–454.

22. Ionov Y, Nowak N, Perucho M, Markowitz S, Cowell JK (2004) Manipulationof nonsense mediated decay identifies gene mutations in colon cancer Cells withmicrosatellite instability. Oncogene 23(3): 639–645.

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 9 July 2008 | Volume 3 | Issue 7 | e2583

Page 166: THESE DE DOCTORAT DE L'UNIVERSITE PIERRE ET MARIE

23. You KT, Li LS, Kim NG, Kang HJ, Koh KH, et al. (2007) Selectivetranslational repression of truncated proteins from frameshift mutation-derivedmRNAs in tumors. PLoS Biol 5(5): e109.

24. Azzalin CM, Lingner J (2006) The human RNA surveillance factor UPF1 isrequired for S phase progression and genome stability. Curr Biol 16(4): 433–439.

25. Durand S, Cougot N, Mahuteau-Betzer F, Nguyen CH, Grierson DS, et al.(2007) Inhibition of nonsense-mediated mRNA decay (NMD) by a new chemicalmolecule reveals the dynamic of NMD factors in P-bodies. The Journal of cellbiology 178(7): 1145–1160.

26. Suraweera N, Duval A, Reperant M, Vaury C, Furlan D, et al. (2002)Evaluation of tumor microsatellite instability using five quasimonomorphic

mononucleotide repeats and pentaplex PCR. Gastroenterology 123(6):1804–1811.

27. Brennetot C, Buhard O, Jourdan F, Flejou JF, Duval A, et al. (2005)Mononucleotide repeats BAT-26 and BAT-25 accurately detect MSI-H tumorsand predict tumor content: implications for population screening. Int J Cancer113(3): 446–450.

28. Clark TA, Schweitzer AC, Chen TX, Staples MK, Lu G, et al. (2007) Discoveryof tissue-specific exons using comprehensive human exon microarrays. Genomebiology 8(4): R64.

NMD Role in Colorectal Cancers

PLoS ONE | www.plosone.org 10 July 2008 | Volume 3 | Issue 7 | e2583