localisation sous-cellulaire pourquoi? bio702 bioinfo v2012.pdf · signaux d’adressage er-post...
TRANSCRIPT
Localisation sous-cellulaire
Pourquoi? « attempts to predict sub-cellular localization have become one of the central problems in bioinformatics » PROTEINS: 53:917–930 (2003)
Localisation = fonction
Localisation = interaction
Caveat: localisation dynamique
Important en soi-même
Important pour « cross-check »
(artefacts de prédiction/expérimentes)
Approches expérimentales: surtout levure
(facilité génétique vs difficulté ultrastructure)
Localisation sous-cellulaire le problème général
Signaux d’adressage les voies principaux
noyeau
RE
GOLGI Lysosomes
apical
(baso) latérale
mitochondries
cytosol
Motifs connus
endosomes
Surface extracellulaire
Espaces biologiques et espaces « bioinformatiques »
AA et autres
Compartiments I les faciles et difficiles
Distribution levure (expérimental)
Compartiments I les faciles et difficiles
prediction annotation
Compartiments II moyens de prédiction en générale
• Homologie
– Alignment
– Analyse de texte
• Motifs
• Ab initio
– structure
– sequence
• Protéine/protéine
KDEL
Que manque?
Signaux d’adressage- entrée voie sécrétrice IV prediction de peptide signale
Protein Sci 11,2774
Algorithmes « simples » basés sur propriétés biochimiques
Signaux d’adressage ER-Post golgi
Sequence motif 1 ER/Golgi Non-ER/Golgi
N % N %
Endoplasmic reticulum (ER) motifs 2
KDEL-C-term 56 92 5 8
KDEL 61 7 714 92
HDEL-C-term 45 92 4 8
HDEL 46 15 269 2
HDEF-C-term 2 50 2 50
HDEF 2 2 89 98
Golgi appa ratus motifs 3
YQRL 3 1 270 99
YKG L 5 1 442 99
YHPL 4 5 76 95
YXXZ 477 1 83112 99
NPFKD 0 0 14 100
FXFXD 31 1 3169 99
FQFND 1 25 3 75
PXPXP 65 1 8477 99
X 479 1 80461 99
GRIP-motif 5 1 50 1 50
GRIP-motif (shortened) 6 1 3 28 97
C-term variations 4
PROSITE Pattern 7 134 77 39 23
{KH}DEL 86 78 5 4
{KHR}{DENQ}EL 125 80 32 20
{KHR}{DENQ}L 125 71 49 29
{KHRDENQAS}{DENQIYCV}{DENQ}L 156 25 477 75
{KRDEAVYF}{KRDEVYFMQ}{KHE D}{DK}EL 39 89 5 11
CONTENU
Une liaison peptidique sans liaison hydrogène
1.Compartiments et approches en générale
2.Signaux d’adressages – en générale
3.Adressage en détail
3.1. voie sécrétrice
3.2. adressage mitochondrial
3.3. Adressage nucléaire
4. Prédictions par homologies
4.1. Par structure
4.2. Par annotation
4.3. Synthèse
5. Conclusion et exemple
Signaux d’adressage- signal nucléaire Organelle location du signal type longueur
Noyeau Interne basique ou 7-9 AA
bipartite
Charges ! Large Nombre Connue!
Signaux d’adressage- signal nucléaire
Signaux d’adressage- signal nucléaire
Conclusion intermédiaire
Prédiction adressage: Biochimique/physico-chimique nucléaire peptide signal (et encore …) autres: « pauvres » Donc approches alternatives? -Homologies -Phylogénétiques (mauvaise performance) -Ab initio -Interactions protidiques (intéressant, mais précoce)
Localisation sous-cellulaire prédiction par homologie – approche par structure I
Alignment length
Perc
enta
ge ident
ity
o Vraie + faux - cutoff Problème: Homologie localisation >> Homologie « fold » Environnement locale (ionique, pH) Mais: Composition en AA est en corrélation avec localisation
Localisation sous-cellulaire prédiction par homologie – approche par structure II
Nucléaire Extra cyto
Homology set (>40%) Toutes AA
surface
intérieur
Localisation sous-cellulaire prédiction par homologie –approche par structure III
Représentation moyenne d’AA à la surface
CALIBRATION/ESPECE
Localisation sous-cellulaire prédiction par homologie –approche par structure III
CALIBRATION/ESPECE
Localisation sous-cellulaire prédiction par homologie –approche par structure IV
Prédiction: Par structure possible si surface connu (problème de prédiction de structure secondaire) Seulement testé pour « localisations crues »
Localisation sous-cellulaire prédiction par homologie – approche par annotation I
• Localisation parfois impliqués dans les mots clés
– DNA-binding -> nucleaire Chromatin regulator -> nucleaire Blood coagulation -> extra-cellular
SWISS-PROT: transcription factor E2F-1
Description and origin of the Protein
Description Transcription factor E2F1 (E2F-1) (Retinoblastoma binding protein 3) (RBBP-3)
(PRB-binding protein E2F-1) (PBR3) (Retinoblastoma-associated protein 1)
(RBAP-1).
Gene name(s) E2F1 OR RBBP3.
Organism source Homo sapiens (Human).
Taxonomy Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
Eutheria; Primates; Catarrhini; Hominidae; Homo.
Localisation sous-cellulaire prédiction par homologie – approche par annotation II
LocKey: Localisation par annotation H. sapiens: 65% inconnus C. elegans: 85% inconnus Problème: Annotations correctes? LocKey et homologie!
UNKNOWN
LOCKEY
HOMOLOGY
EXPERIMENTAL
0
10
20
30
40
50
60
70
80
90
100
SWISS-PROT
Nuclear
Extra-cellular
Mitochondrial
Cytoplasmic
Chloroplast
Other Localizations
(entier)
?
Localisation sous-cellulaire approche synthétique III
Exactitude:
http://cubic.bioc.columbia.edu
%
CONCLUSION:
Problème de signaux: Confusion (sp vs globulaire vs tm) Bipartite etc (3D), peu caractérisé Ou commence une protéine ? Absence des sp et/ou délétion des tm Espace cellulaire peu structuré en terme de topologie bioinformatique Fidélité des annotations Plusieurs approches Succès: ca 65% si structure connue (TMS?)
Mais ..