université dangers - maîtrise de biologie cellulaire 1 introduction à la bioinformatique david...
TRANSCRIPT
Université d’Angers - Maîtrise de Biologie Cellulaire 1
Introductionà la
Bioinformatique
David Perret
INSERM U5644, rue Larrey
49033 Angers Cedex 0102.41.35.47.32
2
Qu’est-ce qu’un génôme ?
Des gènes :portions d’ADN codant des protéines
portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, …portions d ’ADN codant des ARN non traduits
Eléments régulateurs : promoteurs, enhancers, …
Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, …
Séquences non fonctionnelles :séquences non codantes
séquences répétéespseudogènes
Université d’Angers - Maîtrise de Biologie Cellulaire
3
Taille des génômes ?
Mycoplasma genitalium : 0,6 Mb
Escherichia coli : 4,7 Mb
Saccharomyces. cerevisiae : 13,5 Mb
C. elegans : 100 Mb
Amoeba dubia : 700 000 Mb
Fugu rubripes : 400 Mb
Homo sapiens : 3400 Mb
Amphibiens : 100 000 Mb
Prokaryotes
Eukaryotes
Université d’Angers - Maîtrise de Biologie Cellulaire
4
Gènes et éléments fonctionnels dans les génomes
H. sapiens
Taille du génôme : x1000Nombre de gènes : x10
E. coli
Gènes protéiques
ARN
Non codant
0
20000
40000
60000
80000E.
coli
S. c
erev
isia
e
D. m
elan
ogas
ter
C. e
lega
ns
H. s
apie
ns
?
Université d’Angers - Maîtrise de Biologie Cellulaire
5
Proportion d’éléments « fonctionnels » dans le génôme humain
51%
34%
2%
1%
12%
ADN intergeniqueIntronsProtéinesARNADN satellites
85 % d’ADN sans fonctions connues
Université d’Angers - Maîtrise de Biologie Cellulaire
6
Gène protéique eucaryote type
promoteur exons introns site de polyadénylation
TRANSCRIPTION
MATURATION
AAAAA
ATG STOP
TraductionRégions non traduites (UTR)
Régions traduites (CDS)
AG GT AG GT
point debranchement
signauxd’épissage
donneur accepteur
ADN
préARNm
ARNm
Protéine
Université d’Angers - Maîtrise de Biologie Cellulaire
7
Structure d’un gène protéique humain
ATGpolyA
STOP
Epissage alternatifdans 30% des gènes
Tailles moyennes
Gène 27 kbCDS 1,1 kbExon (interne) 145 bIntron 3,4 kb5' UTR 300 b3' UTR 700 b
0
5
10
15
20
25
1994
1995
1996
1997
1998
1999
2000
2001
Université d’Angers - Maîtrise de Biologie Cellulaire
8
D’où provient la complexité du génôme humain ?
NOYAUCELLULE
ADN
TRANSCRIPTION
REVERSETRANSCRIPTION
INTEGRATION
RETROVIRUS
Transcriptase inverse
• LINE(s) : long interspersed elements (6-8 kb)
• SINE(s) : short interspersed elements (80-300 bp)
• Rétrovirus endogènes (5-10 kb)
• Rétroéléments
• Pseudogènes : après la duplication d’un gène• Evolution vers une nouvelle fonction• Inactivation d’un gène
gène élément répété
crossing-over inégal
mutation
Université d’Angers - Maîtrise de Biologie Cellulaire
9
D’où provient la complexité du génome humain ?
• Rétropseudogènes• 23000 à 33000 dans le génome humain• dérivé de gènes ubiquitaires
gènepromoteur
AAAA
transcription et maturation
mRNA
ADN
rétrotranscription et intégration
AAAADNA
Université d’Angers - Maîtrise de Biologie Cellulaire
10
L’alignement des séquences biologiques : pourquoi ?
• Identification de gènes homologues ;
• Recherches de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines ;
• Prédictions de fonctions ;
• Prédictions de structures d’ARN et de protéines ;
• Reconstitution des relations évolutives entre séquences (phylogénie) ;
• Choix d’amorces pour la PCR ;
Université d’Angers - Maîtrise de Biologie Cellulaire
11
Prédiction de fonction par homologie ?
SIMILARITE
HOMOLOGIE
CONSERVATIONSTRUCTURALE
FONCTIONCONSERVEE
Prot1 TKRKLCGDSSPDProt2 AKRKSCGDSSPD
Prot1 Prot2
Ancêtre commun
Mais …
• Le concept de fonction est flou :
• Activité biochimique identique ?
• Distribution tissulaire identique ?
• Compartimentation identique ?
• Protéines homologues de fonctions différentes ?
• Homologues ligands d’un même récepteur
• Homologues recrutées pour des fonctions
très différentes
Université d’Angers - Maîtrise de Biologie Cellulaire
12
Histoire
1900 2000
1865 (Mendel)Théorie de l’hérédité
1944 (Avery)ADN, support de
l’information génétique
1951 (Sanger)Séquençage de l’insuline
1951 (Watson & &Crick)L ’ADN est une double hélice
1970Needleman & Wunsch
1970Needleman & Wunsch
1980/1986Création de l’EMBL (1980) ,de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986)
1990 (Altschul)BLAST
1978(Dayhoff)Matrices PAM
2000/20011ier brouillon du génome humain
1990 (Henikoff)Matrices BLOSUM
1981 (Smith & Waterman)Smith & Waterman
Université d’Angers - Maîtrise de Biologie Cellulaire
13
Les banques de données de séquences biologiques : accessibilité sur Internet
Articles et livres 1968 -> 1985
Cassettes informatiques 1982 ->1992
Disquettes 1984 -> 1990
CD-ROM 1989 -> ?
Serveur FTP 1989 -> ?
WWW 1993 -> ?
DVD 2001 -> ?
Université d’Angers - Maîtrise de Biologie Cellulaire
14
Les étapes du séquençage d’un génome
01
2
3
Séquence non-terminée : contigs non-orientés et non-ordonnés, gaps
Séquence non-terminée : contigs orientés et ordonnés, gaps
Séquence terminée
HTG
HUM
Université d’Angers - Maîtrise de Biologie Cellulaire
15
Les banques de données de séquences biologiques : définition
Une collection de données :structurées ;
indexées (table des matières) ;périodiquement mise à jour ;
contenant des références croisées avec d’autres banques.
Elles comportent souvent des outils associés (logiciels) nécessaires pour :l’accession à la banque ;
la mise à jour de la banque ;…
Il existe essentiellement deux catégories de banques de données :généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, …
spéciaisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ...
Université d’Angers - Maîtrise de Biologie Cellulaire
16
Les banques de données de séquences biologiques : structure d’une entrée de la banque
Identification de la séquenceNuméro unique d’accession
(Accession Number - AC)
Références bibliographiques
Données taxinomiques
Mots-clefs
Annotations
Références croisées avecd’autres banques de données
ID IL6_HUMAN STANDARD; PRT; 212 AA.AC P05231;DT 13-AUG-1987 (Rel. 05, Created)DT 13-AUG-1987 (Rel. 05, Last sequence update)DT 01-MAR-2002 (Rel. 41, Last annotation update)DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2)DE (Interferon beta-2) (Hybridoma growth factor).GN IL6 OR IFNB2.OS Homo sapiens (Human).OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606;RN [1]RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE.RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan]RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T.,RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S.,RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.;RT "Complementary DNA for a novel human interleukin (BSF-2) that inducesRT B lymphocytes to produce immunoglobulin.";RL Nature 324:73-76(1986).CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICALCC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATIONCC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA ANDCC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, INCC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS.CC -!- SUBCELLULAR LOCATION: Secreted.CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY.DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]DR EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]..DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB]DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB]...DR Pfam; PF00489; IL6; 1.KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism;KW 3D-structure.
Université d’Angers - Maîtrise de Biologie Cellulaire
17
Les banques de données de séquences biologiques : structure d’une entrée de la banque
Annotation de la séquence
Séquence
FT SIGNAL 1 29 FT CHAIN 30 212 INTERLEUKIN-6.FT DISULFID 72 78 FT DISULFID 101 111 FT CARBOHYD 73 73 N-LINKED (GLCNAC...).FT VARIANT 32 32 P -> S.FT /FTId=VAR_013075.FT VARIANT 162 162 D -> V.FT /FTId=VAR_013076.FT MUTAGEN 173 173 A->V: ALMOST NO LOSS OF ACTIVITY.FT MUTAGEN 185 185 W->R: NO LOSS OF ACTIVITY.FT MUTAGEN 204 204 S->P: 13% ACTIVITY.FT MUTAGEN 210 210 R->K,E,Q,T,A,P: LOSS OF ACTIVITY.FT MUTAGEN 212 212 M->T,N,S,R: LOSS OF ACTIVITY.SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM//Fin de l’entrée
>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYILDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLLEFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQAQNQWLQDMTTHLILRSFKEFLQSSLRALRQM
• La séquence peut être formatée : le format FASTA
Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …)
Université d’Angers - Maîtrise de Biologie Cellulaire
18
Les banques de données de séquences biologiques : laquelle choisir ?
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,
BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD,
CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase,
dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,
ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView,
GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB,
GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC,
HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA,
KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado,
MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,
OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR,
PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP,
SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK,
StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT,
TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT,
WormPep, YEPD, YPD, YPM, etc ...
Université d’Angers - Maîtrise de Biologie Cellulaire
19
Les banques de données de séquences biologiques : accessibilité sur Internet
• Banques généralistes :
• GenBank (Etats-Unis - 1982) : http://www.ncbi.nlm.nih.gov/GenBank/
• DNA DataBank of Japan (Japon - 1986) : http://www.ddbj.nig.ac.jp
• EMBL (Europe - 1980) : http://www.ebi.ac.uk/embl/
•Banques spécialisées :
• ProSite : http://www.expasy.ch/prosite/
• Pfam : http://www.sanger.ac.uk/Software/Pfam/index.shtml
• BrookHaven Protein DataBank (PDB) : http://www.rcsb.org/pdb/
• FlyBase : http://flybase.harvard.edu:7081/
Université d’Angers - Maîtrise de Biologie Cellulaire
20
Une séquence : symboles, structure et fonction
• Alphabet de symboles (acides aminés) :• chaque symbole a une signification propre ;• chaque symbole a une certaine propension à être placé à côté de tel ou tel voisin ;• chaque symbole peut être décrit par un descripteur binaire (1 ou 0) :
d11 d12 d13 d14
AA1 AA2
d21 d22 d23 d24
descripteur binairede l’acide aminé 1
descripteur binairede l’acide aminé 2
di1 : l’acide aminé i est grosdi2 : l’acide aminé i est chargé positivementdi3 : l’acide aminé i est aromatiquedi4 : l’acide aminé i est soufré
Exemple : descripteur binaire de la séquence GCW
G : 0000
W : 1010
C : 00010000 0001 1010
G C W
L’ensemble des descripteurs binaires d’une séquence contient toute l’information nécessaire à la protéine pour adopter sa structure et donc sa fonction.
Université d’Angers - Maîtrise de Biologie Cellulaire
• Alignement global (Needlman & Wunsch, 1970)
21
Alignement global et alignement local
Protéine A
Protéine B
• Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990)
Protéine A
Protéine B
domaine
ARNm
gène
Université d’Angers - Maîtrise de Biologie Cellulaire
• Opérations élémentaires d’édition : opérations permettant de « passer » d’une séquence à une autre ;
• insertions (i) :
• délétions (d) :
• substitutions (s) :
A A - B C A A* * * * * *A A C B C A A
22
Alignement : représentation
A A B C A A* * * * *A A C C A A
INsertion / DELétionINDEL
A A B C A A* * * * *A A - C A A
Université d’Angers - Maîtrise de Biologie Cellulaire
23
Quel est le meilleur alignement ?
GTTACGA*** **GTT-GGA
GTTAC-GA*** **GTT--GGA
GTTACGA*** **GTTG-GA
5 matches1 délétion1 substitution (C>G)
5 matches1 délétion1 substitution (A>G)
5 matches2 délétions1 insertion
Système de score :
spseScore se = score élémentairesp = pénalité d’indel
Université d’Angers - Maîtrise de Biologie Cellulaire
24
Les matrices nucléiques de substitution
• Unitaire et unitaire inverse :
• Matrices évolutives :
A C G T
A 1 0 0 0
C 0 1 0 0
G 0 0 1 0
T 0 0 0 1T
A C G T
A 0 1 1 1
C 1 0 1 1
G 1 1 0 1
T 1 1 1 0T
A C G T
A 3 0 1 0
C 0 3 0 1
G 1 0 3 0
T 0 1 0 3T
Transitions : 1
Transversions : 0
Matches : 3A
TG
C
Université d’Angers - Maîtrise de Biologie Cellulaire
25
Les matrices protéiques de substitution
• Matrice de substitution protéique liée au code génétique• Nombre de mutations nécessaires pour passer du codon d'un acide aminé au codon d'un autre acide aminé
Mutation GLU LYS
d ’ou
GAAGAG
AAAAAG
1 mutation sur la première base du codon
Université d’Angers - Maîtrise de Biologie Cellulaire
26
Les matrices protéiques de substitution
Les matrices liées aux propriétés physico-chimiques :
• hydrophobie / hydrophilie (Levitt, 1976) ;• propension d’un acide aminé à intégrer une structure secondaire précise (Levin, 1986).
Université d’Angers - Maîtrise de Biologie Cellulaire
27
Les matrices protéiques de substitution
• Les matrices liées à l’évolution : matrices PAM• représentent les échanges possibles et acceptables d’un acide aminé par un autre lors de
l’évolution des protéines (Dayhoff, 1978).
• Principe de base : si deux séquences appartiennent au même processus évolutif, et qu’un acide aminé de l’une a été muté pour donner l’autre, alors on peut supposer que les deux acides aminés sont similaires :
• les mutations sont dites acceptées (Point Accepted Mutation)• elles ont été conservées au cours de l’évolution de part leur caractère à ne pas altérer la fonction de la protéine.
Les protéines évoluent via des successions de mutations ponctuelles indépendantes les unes des autres et acceptées dans la population.
Université d’Angers - Maîtrise de Biologie Cellulaire
28
La matrice de substitution PAM250 (Dayhoff, 1978)
A R N D C Q E G H I L K M F P S T W Y VA 2R -2 6N 0 0 2D 0 -1 2 4C -2 -4 -4 -5 4Q 0 1 1 2 -5 4E 0 -1 1 3 -5 2 4G 1 -3 0 1 -3 -1 0 5H -1 2 2 1 -3 3 1 -2 6I -1 -2 -2 -2 -2 -2 -2 -3 -2 5L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6K -1 3 1 0 -5 1 0 -2 0 -2 -3 5M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4
?
?
Université d’Angers - Maîtrise de Biologie Cellulaire
29
Les matrices de substitution PAM (Dayhoff, 1978) : construction (1/4)
Fréquences d’échanges de paires d’acides aminésMutation fixée durablement au cours de l’évolution
unité de distance évolutive1 unité PAM
=une mutation ponctuelle acceptée
entre deux séquences pour 100 résidus
Utilisation de 71 familles (1300 protéines)de protéines à 85% identiques
Construction d’arbres phylogénétiques
Construction des matricespour chaques couples
d’acides aminés échangés
Aij : nombre de mutations i j acceptées observées
Université d’Angers - Maîtrise de Biologie Cellulaire
30
Les matrices de substitution PAM (Dayhoff, 1978) : construction (2/4)
Mutabilité des acides aminés (mj)
• Propension d’un acide aminé a être remplacé par un autre acideaminé• Soit l’alignement suivant :
• Les acides aminés en jeu sont les suivants : A, D, E, F, W et R.
A D E F R EA D D W R E
A D E F W R
Nombre dechangements
0 1 1 1 1 0
Nombred’ocurence
2 3 3 1 1 2
Mutabilité 0 1/3 1/3 1 1 0
Université d’Angers - ISSBA - Option Biotechnologie
Université d’Angers - Maîtrise de Biologie Cellulaire 31
Les matrices de substitution PAM (Dayhoff, 1978) : construction (3/4)
Matrice de probabilité de mutation
• Calcul de la probabilité qu’un acide aminé i de la matrice remplace un acide aminé j :
• La matrice ainsi construite est appelée 1-PAM : elle définit l’unité de changement évolutif, l’unité PAM. Deux séquences sont séparées par une distance évolutive de 1 PAM si il y a eu 1 changement observé et accepté au cours de l'évolution pour 100 acides aminés.
i
ijij p
MR
11
Matrice « odds »• Chaque élément de la matrice est divisé par la fréquence d’occurrence de chaque acide aminé
20
1
1
iij
ijjij
A
AmM
32
Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4)
Matrice « log-odds »• Elle est calculée en prenant le logarithme de la matrice précedente :
• Cette matrice peut être utilisée pour simuler l'évolution en utilisant un générateur de nombres aléatoires afin de prédire le devenir de chaque résidu et ceci en accord avec les probabilités données dans la table. Les opérations suivantes sont équivalentes :- applications successives de 1-PAM sur une séquence ;- multiplication de la matrice 1-PAM par elle-même puis application à une séquence :
- rééchelonnage des éléments de 1-PAM par une constante de proportionnalité suivi de l'application à une séquence :
20
1
1 λ
iij
ijj
A
AmM
ij
n
k
kij
kij
kij
k SSouRRij
1
11 log ijij RS
Université d’Angers - Maîtrise de Biologie Cellulaire
33
Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4)
• Utilisation de la matrice PAM
0 100 200 300 400
5
15
25
35
45
55
65
75
85Twilight Zone
Dis
tanc
es (
en %
de
diff
éren
ces)
PAM
Université d’Angers - Maîtrise de Biologie Cellulaire
34
La matrice de substitution PAM250 (Dayhoff, 1978)
A R N D C Q E G H I L K M F P S T W Y VA 2R -2 6N 0 0 2D 0 -1 2 4C -2 -4 -4 -5 4Q 0 1 1 2 -5 4E 0 -1 1 3 -5 2 4G 1 -3 0 1 -3 -1 0 5H -1 2 2 1 -3 3 1 -2 6I -1 -2 -2 -2 -2 -2 -2 -3 -2 5L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6K -1 3 1 0 -5 1 0 -2 0 -2 -3 5M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4
Les aromatiques sontpeu mutables
L’asparagine et l’alanine sont
plus mutables queles acides aminés
aromatiques
Université d’Angers - Maîtrise de Biologie Cellulaire
35
Les matrices protéiques de substitution
• Les matrices de type BLOSUM (BLOcks Substitution Matrix)• observation de blocs d’acides aminés issus de protéines relativement éloignées ;• chaque bloc provient d’alignements multiples sans insertions / délétions de courtes régions conservées ;• les blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d’identité minimum au sein de leur bloc ;• on en déduit des fréquences de substitution pour chaque paire d’acides aminés ;• on calcule une matrice logarithmique de probabilité ;• à chaque pourcentage d’identité correspond une matrice :
• BLOSUM50 avec un seuil d’identité de 50 % ;• BLOSUM62 avec un seuil d’identité de 62 %.
50%
BLOSUM50
Fréquences desubstitution pour
chaque acide aminé
Université d’Angers - Maîtrise de Biologie Cellulaire
36
Quelle matrice de substitution choisir ?
• Pas de matrice idéale ;• Les matrices dérivées des mutations observées donnent,pour les protéines, de meilleurs résultats que les matricesbasées sur l’identité, le code génétique ou les propriétésphysico-chimiques.• Matrices PAM établies par M. Dayhoff (1978) :
• donnent un trop grand poids aux identités ;• négligent trop les ressemblances structurales ;• PAM250 : séquences éloignées, faible identité ;• PAM125 : séquences proches, identité élevée.
• Matrices BLOSUM (1992) :• construites à partir de plus de données ;• BLOSUM62 : séquences proches, identité élevée ;• BLOSUM30 : séquences éloignées, identité faible.
Barton, G.J. (1996), « Protein Sequence Alignment and Database Scanning », In: Protein Structure Prediction : A Practical Approach (Ed. M.J.E. Sternberg), IRL Press at Oxford University Press.http://barton.ebi.ac.uk/papers/rev93_1/rev93_1.html
Identité
100
0
PAMBLOSUM
30
40
20
90
50
10
80
70
60
90
62
50
30
50
100
120
250
Université d’Angers - Maîtrise de Biologie Cellulaire
nyjetixou
jyetmxiavecyxSjisejiS
1
1,max,,
37
Alignement global et programmation dynamique : Needlemann & Wunsch (1970)
• Soient 2 séquences A et B de longueur respective m et n ;• Soient i et j 2 acides aminés quelconques de A et B.
Construction d’unematrice de comparaison
(m,n)
Matrice transforméepar l’addition
de scores
Chemin desscores
maxima
Université d’Angers - Maîtrise de Biologie Cellulaire
38
Alignement global et programmation dynamique : Needlemann & Wunsch (1970)
nyjetixou
jyetmxiavecyxSjisejiS
1
1,max,,
V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2
Exemple : Alignement global des séquences VTEERDAF et LTSHEAL avec la matrice PAM250
Matrice initiale
ij
i+1j
mj
ij+1
i+1j+1
mj+1
i n
i+1n
m n
x = i+1j<yn
i<xmy = j+1
Transformation de la matrice initiale
i
j
Université d’Angers - Maîtrise de Biologie Cellulaire
39
Alignement global et programmation dynamique : Needlemann & Wunsch (1970)
nyjetixou
jyetmxiavecyxSjisejiS
1
1,max,,
V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2
Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250
Matrice initiale
V T E E R D A FL 0 0 2T 4 3 -2S 4 3 -3H 9 5 1 -2E 3 7 2 -5A 0 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2
Matrice en cours de transformation
S(R,H) = se(R,H) + max S(x,y)
se(R,H) = 2
S(x,y) S(D,E) = 7 S(A,E) = 2 S(F,E) = -5 S(D,A) = 2 S(D,L) = -4
Université d’Angers - Maîtrise de Biologie Cellulaire
40
Alignement global et programmation dynamique : Needlemann & Wunsch (1970)
nyjetixou
jyetmxiavecyxSjisejiS
1
1,max,,
Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250
Matrice transforméeet chemin des scores maxima
V T E E R D A FL 14 7 6 6 4 0 0 2T 10 12 9 9 6 4 3 -2S 8 10 9 9 7 4 3 -3H 6 7 9 8 9 5 1 -2E 2 4 8 8 3 7 2 -5A 2 3 2 2 0 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2
Listing d’édition
substitution insertion dans idélétion dans j
insertion dans jdélétion dans i
V T - E E R D A F
L T S H E - - A L
Université d’Angers - Maîtrise de Biologie Cellulaire
41
Alignement global : limites
• Les deux séquences présentent une similarité que l’alignement global ne révèle pas :
G G C T G A C C A C C - T T| | | | | | | G A - T C A C T T C C A T G
G G C T G A C C A C C T T | | | | | | | G A T C A C - T T C C A T G
• Un alignement local aurait donné le résultat suivant :
Université d’Angers - Maîtrise de Biologie Cellulaire
42
Alignement local : Smith & Waterman (1981)
• N’importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes ;• Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ.
nyjetmxiavec
PyiS
PjxS
jiS
jisejiS
22
,1
1,
1,1
max,,
V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2
Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6
V T E E R D A FL 2 2T 0 3 0 0 0 1S 1 0 0 0 0 1H 1 1 2 1E 0 4 4 3 0A 0 1 0 0 0 2L 2 2
Matrice initiale Matrice dont les scoresnégatifs ont été supprimés
Université d’Angers - Maîtrise de Biologie Cellulaire
43
Alignement local : Smith & Waterman (1981)
V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2
Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6
Matrice initiale
ij
i+1j
mj
ij+1
i+1j+1
i+2j+1
mj+1
i+1j+2
i n
i+1n
m n
x = i+1j+2<y
n
i+2<xm
y = j+1
Transformation de la matrice initiale
i
j
nyjetmxiavec
PyiS
PjxS
jiS
jisejiS
22
,1
1,
1,1
max,,
Université d’Angers - Maîtrise de Biologie Cellulaire
44
Alignement local : Smith & Waterman (1981)
V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2
Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6
Matrice initiale
V T E E R D A FL 0 0 0 2T 0 1 1 0S 1 0 1 0H 9 1 0 0E 0 7 0 0A 0 0 4 0L 2 0 0 0 0 0 0 2
Matrice en cours de transformation
S(R,H) = se(R,H) + max S(x,y)
se(R,H) = 2P = 6
S(x,y) S(D,E) = 7 S(F,E) = -6 S(D,L) = -6
nyjetmxiavec
PyiS
PjxS
jiS
jisejiS
22
,1
1,
1,1
max,,
Université d’Angers - Maîtrise de Biologie Cellulaire
45
Alignement local : Smith & Waterman (1981)
Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6
Matrice transforméeet chemin des scores maxima
V T E E R D A FL 6 7 0 0 0 0 0 2T 6 4 9 1 0 1 1 0S 2 6 1 9 1 0 1 0H 0 0 5 1 9 1 0 0E 0 0 4 4 0 7 0 0A 0 1 0 0 0 0 4 0L 2 0 0 0 0 0 0 2
Listing d’édition
substitution insertion dans idélétion dans j
insertion dans jdélétion dans i
3 : E E R D A F : 8
2 : T S H E A L : 7
nyjetmxiavec
PyiS
PjxS
jiS
jisejiS
22
,1
1,
1,1
max,,
Université d’Angers - Maîtrise de Biologie Cellulaire
46
Alignement local : recherches de similitudes dans les banques de séquences
Pourquoi ?
Savoir si ma séquence ressemble à d'autres déjà connues
Trouver toutes les séquences d'une même famille
Rechercher toutes les séquences qui contiennent un motif donné
Outils
grand volume de texte à traîter
programmes classiques d’alignement inutilisables
utilisation d’heuristiques
programmes BLAST et FASTA
le résultat n ’est pas garanti comme étant le meilleur
Université d’Angers - Maîtrise de Biologie Cellulaire
47
BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990)
• Recherche de régions sans insertions / délétions riches en similarité ;• Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ;• Hachage de la séquence « requête » en mot de taille w
… Liste de mots voisins de longueur w ayant un score supérieur à un seuil Tfixé par rapport au mot m.
Séquence requête
m
Chaque mot similaire au mot m est comparé àchaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré.Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP).
Université d’Angers - Maîtrise de Biologie Cellulaire
48
BLAST : exemple
S L A A L L N K C K T P Q G Q R L V N Q W
m(w=3)
P Q G 18P E G 15P R G 14P K G 14P N G 13P D G 13 P H G 13P M G 13 P S G 13P Q A 12P Q N 12...
Liste
de mots
voisins
Score seuil T = 13
Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310
High Scoring Pairs (HSP)
S(P,P) = 7S(Q,R) = 1S(G,G) = 6X
T
Université d’Angers - Maîtrise de Biologie Cellulaire
49
BLAST : Approche à adopter
• Choix de l’algorithme ;• Matrice de substitution ;• Stratégie de recherche : nucléique ou protéique ;• Traitement du bruit de fond.
BLASTParamètres par défaut
Filtrage
BLASTAdaptation des paramètres
FASTAAdaptation des paramètres
FASTAParamètres par défaut
Université d’Angers - Maîtrise de Biologie Cellulaire
50
BLAST : Choix du programme
SEQUENCE BANQUE
Protéique Protéique
Nucléique NucléiqueT T
T T
BLASTP
BLASTN
TBLASTX
TBLASTNBLASTX
Université d’Angers - Maîtrise de Biologie Cellulaire
51
BLAST sur Internet : Requête(1/8) http://www.ncbi.nlm.nih.gov/blast/
séquence requête
choix de la base de données
Université d’Angers - Maîtrise de Biologie Cellulaire
52
BLAST sur Internet : Paramètres (2/8)
Limiter la rechercheà une espèce
Filtre pour les séquences de faiblecomplexité
E-value limite
Taille w du mot m
Choix de la matrice et gestion des indels
PositionSpecificScoreMatrix
PSI - BLAST
Options supplémentaires
Motif PHI - BLAST
http://www.ncbi.nlm.nih.gov/blast/
Université d’Angers - Maîtrise de Biologie Cellulaire
53
BLAST sur Internet : Format de la sortie (3/8)
Limiter l ’affichagedes résultats à uneespèce
Limiter l’affichage des résultats à une plage de valeur d’E-value
Pour recevoir les résultats par e-mail
http://www.ncbi.nlm.nih.gov/blast/
Université d’Angers - Maîtrise de Biologie Cellulaire
54
BLAST sur Internet : Fichier de sortie (5/8)
Séquence requête
Banques de données choisies
http://www.ncbi.nlm.nih.gov/blast/
Université d’Angers - Maîtrise de Biologie Cellulaire
55
BLAST sur Internet : Fichier de sortie (6/8) http://www.ncbi.nlm.nih.gov/blast/
Répartition des hits enfonction du score
Nombres de hits
Université d’Angers - Maîtrise de Biologie Cellulaire
56
BLAST sur Internet : Fichier de sortie (7/8) http://www.ncbi.nlm.nih.gov/blast/
Université d’Angers - Maîtrise de Biologie Cellulaire
57
BLAST sur Internet : Fichier de sortie (8/8) http://www.ncbi.nlm.nih.gov/blast/
Université d’Angers - Maîtrise de Biologie Cellulaire