![Page 1: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/1.jpg)
INS
ER
M T
AG
C
Diversité des transcrits:Les sites de polyadenylation
« intergéniques »
Daniel Gautheret, 2005INSERM ERM206
Université de la Méditerranée
![Page 2: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/2.jpg)
INS
ER
M T
AG
C
Annotation des génomes
● Humain/souris 2005: 22000 gènes annotés
● Est-on proche de la fin?
● Si peu de différence avec la mouche (15000 gènes) ou C. elegans (18000) ?
Annotation Ensembl
![Page 3: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/3.jpg)
INS
ER
M T
AG
C
Les EST (expressed sequence tags): l’outil No 1 pour l’annotation des
génomes
![Page 4: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/4.jpg)
INS
ER
M T
AG
C
Hier: clustering d’ESTs pour reconstruire les transcrits
Transcrit reconstruit
Cluster d’ESTs
(avant 2001: génomes vertébrés non disponibles)
![Page 5: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/5.jpg)
INS
ER
M T
AG
C
Aujourd’hui: Alignements EST/génome
exons introns
![Page 6: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/6.jpg)
INS
ER
M T
AG
C
Skipped exon
Alignement EST/génome
![Page 7: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/7.jpg)
INS
ER
M T
AG
C
Epissage alternatif
3 gènes de détermination du sexe chez la drosophile, épissés différemment selon le sexe de l'individu:
![Page 8: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/8.jpg)
INS
ER
M T
AG
C
Epissage alternatif via EST
Nombreux travaux réalisés Sociétés créées exclusivement sur le thème (par ex.
Compugen http://www.cgen.com/) Ex: Modrek B, Resch A, Grasso C, Lee C. Genome-wide detection
of alternative splicing in expressed sequences of human genes. Nucleic Acids Res 2001 Jul 1;29(13):2850-9 :
![Page 9: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/9.jpg)
INS
ER
M T
AG
C
ASAP, AltExtron, ASD, SpliceNest…
ASAP interface (Lee et al.
2003)
![Page 10: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/10.jpg)
INS
ER
M T
AG
C
Travaux récents sur la diversité du transcriptome
– Tiling array– Full-length cDNA
![Page 11: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/11.jpg)
INS
ER
M T
AG
C
Rosetta: technologie de spottage d’oligonuléotides par jet d’encre (inkjet)
Le Tiling Array
![Page 12: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/12.jpg)
INS
ER
M T
AG
C
![Page 13: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/13.jpg)
INS
ER
M T
AG
C
Gène bien caractérisé: confirmation des exons « refseq » et apparition de nouvelles régions transcrites (ici correspondant à un cDNA déjà observé)
![Page 14: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/14.jpg)
INS
ER
M T
AG
C
Apparition de nouveaux gènes dans régions intergéniques sans EST ni prédiction bioinformatique.
![Page 15: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/15.jpg)
INS
ER
M T
AG
C
Que trouve-t-on?
– Nouveaux gènes codants● >2000 transcrits avec ORF non existant dans Ensembl
– Nouveaux gènes non-codants● >10000 transcrits
– Transcrits antisens● >5000 gènes ont transcription antisens
– Isoformes de gènes connus● Au moins 40% à 60% des gènes selon auteurs● Comprend également extensions (parfaois très longues) en 3’
– Artefacts● biologiques: « bruit » transcriptionnel● expérimentaux: hybridation non-spécifique, contamination
génomique…
![Page 16: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/16.jpg)
INS
ER
M T
AG
C
Science, 2005
– Technologie: Affymetrix– 25-mères espacés de 5bp– polyA+ et polyA-– Noyau et cytoplasme– 8 lignées cellulaires différentes
Tiling 2
![Page 17: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/17.jpg)
INS
ER
M T
AG
C
Etat de polyadenylation
– Parmi tous les transcrits observés:● 19% polyA+● 44% polyA-● 37% polyA+ et polyA-
● Donc la moitié du transcriptome humain est polyA-
● Important, car les transcrits qu’on regardait jusqu’à présent n’étaient que les polyA+!
![Page 18: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/18.jpg)
INS
ER
M T
AG
C
Position des transcrits
– 60% des loci exprimés présentent des évidences de transcription sur 2 brins
– Beaucoup de transcription dans l’intergénique:● 50% des polyA- cytoplasmiques et 25% des polyA-
nucléaires sont intergéniques● 41% des polyA+ nucléaires sont intergéniques
![Page 19: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/19.jpg)
INS
ER
M T
AG
C
Full length cDNAs
– 100,000 Full length cDNAs– + 1M « CAGE » (sortes de SAGE en 5’)
Science, 2005
![Page 20: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/20.jpg)
INS
ER
M T
AG
C
Utilité des full-lengths
– Etude des promoteurs (impossible avec les EST)
– TSS alternatifs, exons 5’ alternatifs
![Page 21: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/21.jpg)
INS
ER
M T
AG
C
Transcrits et Unités de Transcription
– TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation
![Page 22: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/22.jpg)
INS
ER
M T
AG
C
Conclusion projet « FANTOM3 »
– 32000 transcrits non-codants– 16000 nouveaux transcripts codants– 5000 nouvelles protéines– La majorité du génome est transcrit sur les deux brins– La grande diversité des transcrits dans chaque TU
soulève le problème de la précision des puces ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits
![Page 23: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/23.jpg)
INS
ER
M T
AG
C
Les besoins actuels
– Intégration initiation+épissage+transcription– Caractérisation des nouveaux transcrits
● Etude fonctionnelle (domaines, etc.)● Conservation● Validation expérimentale● Tissu-spécificité
The Alternative Transcript Diversity Project (ATD), 6e PCRD
![Page 24: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/24.jpg)
INS
ER
M T
AG
C
![Page 25: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/25.jpg)
INS
ER
M T
AG
C
La polyadénylation alternative
Coding sequence
To 5' end
AUUAAA
AAAAAAAAA...
AAUAAA CA GUUGU
Cleavage + polyA-addition sitePre-mRNA
mRNA alternative transcripts
3' UTR
PolyAdenylation Signal
CA GUUGU
AAAAAAAAA...
![Page 26: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/26.jpg)
INS
ER
M T
AG
C
PAS Discovery through EST/mRNA Alignment
mRNA or EST-contig
ESTs
5’ESTs
3’ESTs
Gautheret et al. (1998) Genome Res. 8, 524
First observation in 1998: 189 cases of alternative polyadenylation2000: 1000 cases
Beaudoing et al. (2000) Genome Res. 10, 1001
![Page 27: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/27.jpg)
INS
ER
M T
AG
C
EST-based PAS Map 2005
-> 54% human, 32% mouse(accept multiple sites for 1 signal,but refseq UTR only)
human mouse chicken
Tot PAS 66,600 52,300 3,500
PAS <3K from ENSEMBL Gene 31,000 27,900 2,900
PAS >10K from ENSEMBL Gene 29,000 19,400 300
Genes with no PAS 30% 36% 80%
Genes with 2 or more PAS* 50% 43% 7%
*relative to all genes with 1+ PAS
![Page 28: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/28.jpg)
INS
ER
M T
AG
C
Intergenic PAS?
● « Intergenic » PAS are made of– False positives– Long range PAS– PAS from novel genes
stop stop
![Page 29: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/29.jpg)
INS
ER
M T
AG
C
What is the actual reach of 3’UTRs?
● Textbook « Human Molecular Genetics 2 » (1999):
– 3′ UTR Average of about 0.6 kb (see Zhang, 1998) but this is likely to be an underestimate because of underreporting of genes with long 3′ UTRs
● Untranslated Regions of mRNA (Mignone et al. 2003) :
![Page 30: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/30.jpg)
INS
ER
M T
AG
C
Several recent papers mentioning distal PAS
– All rely on EST sampling, but:● Require alignment on refseq gene/fl cdDNA or overlapping
ESTs● Cannot assess all long range PAS
![Page 31: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/31.jpg)
INS
ER
M T
AG
C
1
10
100
1000
10000
100000
0
5000
1000
0
1500
0
2000
0
2500
0
3000
0
3500
0
4000
0
4500
0
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
All sites
background all
5' supported
background
ratio of 5' supported
Site distribution
Distance from STOP
# si
tes
in 5
00n
t w
ind
ow
Rat
io 5
’ s
up
po
rted
-5’ support is significant up to 9kb past Stop codon-May be limited by cloning capacity (few inserts larger than 6kb)
9kb?
![Page 32: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/32.jpg)
INS
ER
M T
AG
C
0
10
20
30
40
50
60
70
80
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Distance of 3’ EST from STOP
Rel
ati
ve
po
siti
on
of
5’
ES
T(%
of
tran
scri
pt)
Position of 5’ EST in transcript
-As distance from Stop increases, 5’ EST are located closer to 3’ end-After >6kb, most 5’ EST are « out of gene »
stop
cDNA5’EST 3’EST
start
![Page 33: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/33.jpg)
INS
ER
M T
AG
C
Classification Trees for PAS prediction
8 Variables:canonical/non canonical signalErpin score for downstream region#supporting ESTsPolyA/T in ESTsESTs overlap previous siteFull-length cDNASingle/multiple EST libraries5’EST from same clone mapping within gene
stop 5kb 10kb 15kb 20kb
Class 1 Class 2
![Page 34: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/34.jpg)
INS
ER
M T
AG
C
Classification tree
+ Voting Procedure -> class 1 / class 2
![Page 35: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/35.jpg)
INS
ER
M T
AG
C
Importance of variables
Canonical/non canonicalErpin score#supporting ESTspolyA/T in ESTsOverlap with previous siteFull-length cDNASingle/multiple EST libraries5’EST from same clone
All variables
No 5’ EST
![Page 36: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/36.jpg)
INS
ER
M T
AG
C
Average P-value vs Distance
P no5'
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
P no5'
Distance from STOP
Rel
ati
ve
po
siti
on
of
5’
ES
T(%
of
tran
scri
pt)
@20k: ave P-value=0.2120% have P-value >0.5
-20% of long distance sites correspond to bona fide PAS
13kb
![Page 37: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/37.jpg)
INS
ER
M T
AG
C
Conclusions
● P-values for polyA sites● 6000 Novel polyA+ genes in intergenic● Average 3’ UTR longer than measured based on 5’
EST mapping: around 2kb mean. – Consequence for ncRNA search in UTRs
![Page 38: INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9d81497959293b8ba8ef/html5/thumbnails/38.jpg)
INS
ER
M T
AG
C
Equipe
● polyA group @TAGC– Matthieu Legendre– William Ritchie– Takeshi Ara– Fabrice Lopez
● Arbres de classification: – Badih Ghattas, Département de Mathématiques, Aix-
Marseille II