université dangers - maîtrise de biologie cellulaire 1 introduction à la bioinformatique david...

Université d’Angers - Maîtrise de Biologie Cellulaire 1

Introductionà la

Bioinformatique

David Perret

INSERM U5644, rue Larrey

49033 Angers Cedex 0102.41.35.47.32

[email protected]

2

Qu’est-ce qu’un génôme ?

Des gènes :portions d’ADN codant des protéines

portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, …portions d ’ADN codant des ARN non traduits

Eléments régulateurs : promoteurs, enhancers, …

Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, …

Séquences non fonctionnelles :séquences non codantes

séquences répétéespseudogènes

Université d’Angers - Maîtrise de Biologie Cellulaire

3

Taille des génômes ?

Mycoplasma genitalium : 0,6 Mb

Escherichia coli : 4,7 Mb

Saccharomyces. cerevisiae : 13,5 Mb

C. elegans : 100 Mb

Amoeba dubia : 700 000 Mb

Fugu rubripes : 400 Mb

Homo sapiens : 3400 Mb

Amphibiens : 100 000 Mb

Prokaryotes

Eukaryotes


4

Gènes et éléments fonctionnels dans les génomes

H. sapiens

Taille du génôme : x1000Nombre de gènes : x10

E. coli

Gènes protéiques

ARN

Non codant

0

20000

40000

60000

80000E.

coli

S. c

erev

isia

e

D. m

elan

ogas

ter

C. e

lega

ns

H. s

apie

ns

?


5

Proportion d’éléments « fonctionnels » dans le génôme humain

51%

34%

2%

1%

12%

ADN intergeniqueIntronsProtéinesARNADN satellites

85 % d’ADN sans fonctions connues


6

Gène protéique eucaryote type

promoteur exons introns site de polyadénylation

TRANSCRIPTION

MATURATION

AAAAA

ATG STOP

TraductionRégions non traduites (UTR)

Régions traduites (CDS)

AG GT AG GT

point debranchement

signauxd’épissage

donneur accepteur

ADN

préARNm

ARNm

Protéine


7

Structure d’un gène protéique humain

ATGpolyA

STOP

Epissage alternatifdans 30% des gènes

Tailles moyennes

Gène 27 kbCDS 1,1 kbExon (interne) 145 bIntron 3,4 kb5' UTR 300 b3' UTR 700 b

0

5

10

15

20

25

1994

1995

1996

1997

1998

1999

2000

2001


8

D’où provient la complexité du génôme humain ?

NOYAUCELLULE

ADN

TRANSCRIPTION

REVERSETRANSCRIPTION

INTEGRATION

RETROVIRUS

Transcriptase inverse

• LINE(s) : long interspersed elements (6-8 kb)

• SINE(s) : short interspersed elements (80-300 bp)

• Rétrovirus endogènes (5-10 kb)

• Rétroéléments

• Pseudogènes : après la duplication d’un gène• Evolution vers une nouvelle fonction• Inactivation d’un gène

gène élément répété

crossing-over inégal

mutation


9

D’où provient la complexité du génome humain ?

• Rétropseudogènes• 23000 à 33000 dans le génome humain• dérivé de gènes ubiquitaires

gènepromoteur

AAAA

transcription et maturation

mRNA

ADN

rétrotranscription et intégration

AAAADNA


10

L’alignement des séquences biologiques : pourquoi ?

• Identification de gènes homologues ;

• Recherches de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines ;

• Prédictions de fonctions ;

• Prédictions de structures d’ARN et de protéines ;

• Reconstitution des relations évolutives entre séquences (phylogénie) ;

• Choix d’amorces pour la PCR ;


11

Prédiction de fonction par homologie ?

SIMILARITE

HOMOLOGIE

CONSERVATIONSTRUCTURALE

FONCTIONCONSERVEE

Prot1 TKRKLCGDSSPDProt2 AKRKSCGDSSPD

Prot1 Prot2

Ancêtre commun

Mais …

• Le concept de fonction est flou :

• Activité biochimique identique ?

• Distribution tissulaire identique ?

• Compartimentation identique ?

• Protéines homologues de fonctions différentes ?

• Homologues ligands d’un même récepteur

• Homologues recrutées pour des fonctions

très différentes


12

Histoire

1900 2000

1865 (Mendel)Théorie de l’hérédité

1944 (Avery)ADN, support de

l’information génétique

1951 (Sanger)Séquençage de l’insuline

1951 (Watson & &Crick)L ’ADN est une double hélice

1970Needleman & Wunsch

1970Needleman & Wunsch

1980/1986Création de l’EMBL (1980) ,de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986)

1990 (Altschul)BLAST

1978(Dayhoff)Matrices PAM

2000/20011ier brouillon du génome humain

1990 (Henikoff)Matrices BLOSUM

1981 (Smith & Waterman)Smith & Waterman


13

Les banques de données de séquences biologiques : accessibilité sur Internet

Articles et livres 1968 -> 1985

Cassettes informatiques 1982 ->1992

Disquettes 1984 -> 1990

CD-ROM 1989 -> ?

Serveur FTP 1989 -> ?

WWW 1993 -> ?

DVD 2001 -> ?


14

Les étapes du séquençage d’un génome

01

2

3

Séquence non-terminée : contigs non-orientés et non-ordonnés, gaps

Séquence non-terminée : contigs orientés et ordonnés, gaps

Séquence terminée

HTG

HUM


15

Les banques de données de séquences biologiques : définition

Une collection de données :structurées ;

indexées (table des matières) ;périodiquement mise à jour ;

contenant des références croisées avec d’autres banques.

Elles comportent souvent des outils associés (logiciels) nécessaires pour :l’accession à la banque ;

la mise à jour de la banque ;…

Il existe essentiellement deux catégories de banques de données :généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, …

spéciaisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ...


16

Les banques de données de séquences biologiques : structure d’une entrée de la banque

Identification de la séquenceNuméro unique d’accession

(Accession Number - AC)

Références bibliographiques

Données taxinomiques

Mots-clefs

Annotations

Références croisées avecd’autres banques de données

ID IL6_HUMAN STANDARD; PRT; 212 AA.AC P05231;DT 13-AUG-1987 (Rel. 05, Created)DT 13-AUG-1987 (Rel. 05, Last sequence update)DT 01-MAR-2002 (Rel. 41, Last annotation update)DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2)DE (Interferon beta-2) (Hybridoma growth factor).GN IL6 OR IFNB2.OS Homo sapiens (Human).OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606;RN [1]RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE.RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan]RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T.,RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S.,RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.;RT "Complementary DNA for a novel human interleukin (BSF-2) that inducesRT B lymphocytes to produce immunoglobulin.";RL Nature 324:73-76(1986).CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICALCC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATIONCC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA ANDCC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, INCC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS.CC -!- SUBCELLULAR LOCATION: Secreted.CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY.DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]DR EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]..DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB]DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB]...DR Pfam; PF00489; IL6; 1.KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism;KW 3D-structure.


17

Les banques de données de séquences biologiques : structure d’une entrée de la banque

Annotation de la séquence

Séquence

FT SIGNAL 1 29 FT CHAIN 30 212 INTERLEUKIN-6.FT DISULFID 72 78 FT DISULFID 101 111 FT CARBOHYD 73 73 N-LINKED (GLCNAC...).FT VARIANT 32 32 P -> S.FT /FTId=VAR_013075.FT VARIANT 162 162 D -> V.FT /FTId=VAR_013076.FT MUTAGEN 173 173 A->V: ALMOST NO LOSS OF ACTIVITY.FT MUTAGEN 185 185 W->R: NO LOSS OF ACTIVITY.FT MUTAGEN 204 204 S->P: 13% ACTIVITY.FT MUTAGEN 210 210 R->K,E,Q,T,A,P: LOSS OF ACTIVITY.FT MUTAGEN 212 212 M->T,N,S,R: LOSS OF ACTIVITY.SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM//Fin de l’entrée

>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYILDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLLEFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQAQNQWLQDMTTHLILRSFKEFLQSSLRALRQM

• La séquence peut être formatée : le format FASTA

Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …)


18

Les banques de données de séquences biologiques : laquelle choisir ?

AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,

BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD,

CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase,

dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,

ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView,

GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB,

GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC,

HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA,

KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado,

MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,

OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR,

PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP,

SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK,

StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT,

TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT,

WormPep, YEPD, YPD, YPM, etc ...


19

Les banques de données de séquences biologiques : accessibilité sur Internet

• Banques généralistes :

• GenBank (Etats-Unis - 1982) : http://www.ncbi.nlm.nih.gov/GenBank/

• DNA DataBank of Japan (Japon - 1986) : http://www.ddbj.nig.ac.jp

• EMBL (Europe - 1980) : http://www.ebi.ac.uk/embl/

•Banques spécialisées :

• ProSite : http://www.expasy.ch/prosite/

• Pfam : http://www.sanger.ac.uk/Software/Pfam/index.shtml

• BrookHaven Protein DataBank (PDB) : http://www.rcsb.org/pdb/

• FlyBase : http://flybase.harvard.edu:7081/


20

Une séquence : symboles, structure et fonction

• Alphabet de symboles (acides aminés) :• chaque symbole a une signification propre ;• chaque symbole a une certaine propension à être placé à côté de tel ou tel voisin ;• chaque symbole peut être décrit par un descripteur binaire (1 ou 0) :

d11 d12 d13 d14

AA1 AA2

d21 d22 d23 d24

descripteur binairede l’acide aminé 1

descripteur binairede l’acide aminé 2

di1 : l’acide aminé i est grosdi2 : l’acide aminé i est chargé positivementdi3 : l’acide aminé i est aromatiquedi4 : l’acide aminé i est soufré

Exemple : descripteur binaire de la séquence GCW

G : 0000

W : 1010

C : 00010000 0001 1010

G C W

L’ensemble des descripteurs binaires d’une séquence contient toute l’information nécessaire à la protéine pour adopter sa structure et donc sa fonction.


• Alignement global (Needlman & Wunsch, 1970)

21

Alignement global et alignement local

Protéine A

Protéine B

• Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990)

Protéine A

Protéine B

domaine

ARNm

gène


• Opérations élémentaires d’édition : opérations permettant de « passer » d’une séquence à une autre ;

• insertions (i) :

• délétions (d) :

• substitutions (s) :

A A - B C A A* * * * * *A A C B C A A

22

Alignement : représentation

A A B C A A* * * * *A A C C A A

INsertion / DELétionINDEL

A A B C A A* * * * *A A - C A A


23

Quel est le meilleur alignement ?

GTTACGA*** **GTT-GGA

GTTAC-GA*** **GTT--GGA

GTTACGA*** **GTTG-GA

5 matches1 délétion1 substitution (C>G)

5 matches1 délétion1 substitution (A>G)

5 matches2 délétions1 insertion

Système de score :

spseScore se = score élémentairesp = pénalité d’indel


24

Les matrices nucléiques de substitution

• Unitaire et unitaire inverse :

• Matrices évolutives :

A C G T

A 1 0 0 0

C 0 1 0 0

G 0 0 1 0

T 0 0 0 1T

A C G T

A 0 1 1 1

C 1 0 1 1

G 1 1 0 1

T 1 1 1 0T

A C G T

A 3 0 1 0

C 0 3 0 1

G 1 0 3 0

T 0 1 0 3T

Transitions : 1

Transversions : 0

Matches : 3A

TG

C


25

Les matrices protéiques de substitution

• Matrice de substitution protéique liée au code génétique• Nombre de mutations nécessaires pour passer du codon d'un acide aminé au codon d'un autre acide aminé

Mutation GLU LYS

d ’ou

GAAGAG

AAAAAG

1 mutation sur la première base du codon


26


Les matrices liées aux propriétés physico-chimiques :

• hydrophobie / hydrophilie (Levitt, 1976) ;• propension d’un acide aminé à intégrer une structure secondaire précise (Levin, 1986).


27


• Les matrices liées à l’évolution : matrices PAM• représentent les échanges possibles et acceptables d’un acide aminé par un autre lors de

l’évolution des protéines (Dayhoff, 1978).

• Principe de base : si deux séquences appartiennent au même processus évolutif, et qu’un acide aminé de l’une a été muté pour donner l’autre, alors on peut supposer que les deux acides aminés sont similaires :

• les mutations sont dites acceptées (Point Accepted Mutation)• elles ont été conservées au cours de l’évolution de part leur caractère à ne pas altérer la fonction de la protéine.

Les protéines évoluent via des successions de mutations ponctuelles indépendantes les unes des autres et acceptées dans la population.


28

La matrice de substitution PAM250 (Dayhoff, 1978)

A R N D C Q E G H I L K M F P S T W Y VA 2R -2 6N 0 0 2D 0 -1 2 4C -2 -4 -4 -5 4Q 0 1 1 2 -5 4E 0 -1 1 3 -5 2 4G 1 -3 0 1 -3 -1 0 5H -1 2 2 1 -3 3 1 -2 6I -1 -2 -2 -2 -2 -2 -2 -3 -2 5L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6K -1 3 1 0 -5 1 0 -2 0 -2 -3 5M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4

?

?


29

Les matrices de substitution PAM (Dayhoff, 1978) : construction (1/4)

Fréquences d’échanges de paires d’acides aminésMutation fixée durablement au cours de l’évolution

unité de distance évolutive1 unité PAM

=une mutation ponctuelle acceptée

entre deux séquences pour 100 résidus

Utilisation de 71 familles (1300 protéines)de protéines à 85% identiques

Construction d’arbres phylogénétiques

Construction des matricespour chaques couples

d’acides aminés échangés

Aij : nombre de mutations i j acceptées observées


30


Mutabilité des acides aminés (mj)

• Propension d’un acide aminé a être remplacé par un autre acideaminé• Soit l’alignement suivant :

• Les acides aminés en jeu sont les suivants : A, D, E, F, W et R.

A D E F R EA D D W R E

A D E F W R

Nombre dechangements

0 1 1 1 1 0

Nombred’ocurence

2 3 3 1 1 2

Mutabilité 0 1/3 1/3 1 1 0

Université d’Angers - ISSBA - Option Biotechnologie

Université d’Angers - Maîtrise de Biologie Cellulaire 31


Matrice de probabilité de mutation

• Calcul de la probabilité qu’un acide aminé i de la matrice remplace un acide aminé j :

• La matrice ainsi construite est appelée 1-PAM : elle définit l’unité de changement évolutif, l’unité PAM. Deux séquences sont séparées par une distance évolutive de 1 PAM si il y a eu 1 changement observé et accepté au cours de l'évolution pour 100 acides aminés.

i

ijij p

MR

11

Matrice « odds »• Chaque élément de la matrice est divisé par la fréquence d’occurrence de chaque acide aminé

20

1

1

iij

ijjij

A

AmM

32


Matrice « log-odds »• Elle est calculée en prenant le logarithme de la matrice précedente :

• Cette matrice peut être utilisée pour simuler l'évolution en utilisant un générateur de nombres aléatoires afin de prédire le devenir de chaque résidu et ceci en accord avec les probabilités données dans la table. Les opérations suivantes sont équivalentes :- applications successives de 1-PAM sur une séquence ;- multiplication de la matrice 1-PAM par elle-même puis application à une séquence :

- rééchelonnage des éléments de 1-PAM par une constante de proportionnalité suivi de l'application à une séquence :

20

1

1 λ

iij

ijj

A

AmM

ij

n

k

kij

kij

kij

k SSouRRij

1

11 log ijij RS


33


• Utilisation de la matrice PAM

0 100 200 300 400

5

15

25

35

45

55

65

75

85Twilight Zone

Dis

tanc

es (

en %

de

diff

éren

ces)

PAM


34

La matrice de substitution PAM250 (Dayhoff, 1978)

A R N D C Q E G H I L K M F P S T W Y VA 2R -2 6N 0 0 2D 0 -1 2 4C -2 -4 -4 -5 4Q 0 1 1 2 -5 4E 0 -1 1 3 -5 2 4G 1 -3 0 1 -3 -1 0 5H -1 2 2 1 -3 3 1 -2 6I -1 -2 -2 -2 -2 -2 -2 -3 -2 5L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6K -1 3 1 0 -5 1 0 -2 0 -2 -3 5M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4

Les aromatiques sontpeu mutables

L’asparagine et l’alanine sont

plus mutables queles acides aminés

aromatiques


35


• Les matrices de type BLOSUM (BLOcks Substitution Matrix)• observation de blocs d’acides aminés issus de protéines relativement éloignées ;• chaque bloc provient d’alignements multiples sans insertions / délétions de courtes régions conservées ;• les blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d’identité minimum au sein de leur bloc ;• on en déduit des fréquences de substitution pour chaque paire d’acides aminés ;• on calcule une matrice logarithmique de probabilité ;• à chaque pourcentage d’identité correspond une matrice :

• BLOSUM50 avec un seuil d’identité de 50 % ;• BLOSUM62 avec un seuil d’identité de 62 %.

50%

BLOSUM50

Fréquences desubstitution pour

chaque acide aminé


36

Quelle matrice de substitution choisir ?

• Pas de matrice idéale ;• Les matrices dérivées des mutations observées donnent,pour les protéines, de meilleurs résultats que les matricesbasées sur l’identité, le code génétique ou les propriétésphysico-chimiques.• Matrices PAM établies par M. Dayhoff (1978) :

• donnent un trop grand poids aux identités ;• négligent trop les ressemblances structurales ;• PAM250 : séquences éloignées, faible identité ;• PAM125 : séquences proches, identité élevée.

• Matrices BLOSUM (1992) :• construites à partir de plus de données ;• BLOSUM62 : séquences proches, identité élevée ;• BLOSUM30 : séquences éloignées, identité faible.

Barton, G.J. (1996), « Protein Sequence Alignment and Database Scanning », In: Protein Structure Prediction : A Practical Approach (Ed. M.J.E. Sternberg), IRL Press at Oxford University Press.http://barton.ebi.ac.uk/papers/rev93_1/rev93_1.html

Identité

100

0

PAMBLOSUM

30

40

20

90

50

10

80

70

60

90

62

50

30

50

100

120

250


nyjetixou

jyetmxiavecyxSjisejiS

1

1,max,,

37

Alignement global et programmation dynamique : Needlemann & Wunsch (1970)

• Soient 2 séquences A et B de longueur respective m et n ;• Soient i et j 2 acides aminés quelconques de A et B.

Construction d’unematrice de comparaison

(m,n)

Matrice transforméepar l’addition

de scores

Chemin desscores

maxima


38


nyjetixou


1

1,max,,

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2

Exemple : Alignement global des séquences VTEERDAF et LTSHEAL avec la matrice PAM250

Matrice initiale

ij

i+1j

mj

ij+1

i+1j+1

mj+1

i n

i+1n

m n

x = i+1j<yn

i<xmy = j+1

Transformation de la matrice initiale

i

j


39


nyjetixou


1

1,max,,


Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250

Matrice initiale

V T E E R D A FL 0 0 2T 4 3 -2S 4 3 -3H 9 5 1 -2E 3 7 2 -5A 0 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2

Matrice en cours de transformation

S(R,H) = se(R,H) + max S(x,y)

se(R,H) = 2

S(x,y) S(D,E) = 7 S(A,E) = 2 S(F,E) = -5 S(D,A) = 2 S(D,L) = -4


40


nyjetixou


1

1,max,,

Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250

Matrice transforméeet chemin des scores maxima

V T E E R D A FL 14 7 6 6 4 0 0 2T 10 12 9 9 6 4 3 -2S 8 10 9 9 7 4 3 -3H 6 7 9 8 9 5 1 -2E 2 4 8 8 3 7 2 -5A 2 3 2 2 0 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2

Listing d’édition

substitution insertion dans idélétion dans j

insertion dans jdélétion dans i

V T - E E R D A F

L T S H E - - A L


41

Alignement global : limites

• Les deux séquences présentent une similarité que l’alignement global ne révèle pas :

G G C T G A C C A C C - T T| | | | | | | G A - T C A C T T C C A T G

G G C T G A C C A C C T T | | | | | | | G A T C A C - T T C C A T G

• Un alignement local aurait donné le résultat suivant :


42

Alignement local : Smith & Waterman (1981)

• N’importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes ;• Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ.

nyjetmxiavec

PyiS

PjxS

jiS

jisejiS

22

,1

1,

1,1

max,,


Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6

V T E E R D A FL 2 2T 0 3 0 0 0 1S 1 0 0 0 0 1H 1 1 2 1E 0 4 4 3 0A 0 1 0 0 0 2L 2 2

Matrice initiale Matrice dont les scoresnégatifs ont été supprimés


43




Matrice initiale

ij

i+1j

mj

ij+1

i+1j+1

i+2j+1

mj+1

i+1j+2

i n

i+1n

m n

x = i+1j+2<y

n

i+2<xm

y = j+1

Transformation de la matrice initiale

i

j

nyjetmxiavec

PyiS

PjxS

jiS

jisejiS

22

,1

1,

1,1

max,,


44




Matrice initiale

V T E E R D A FL 0 0 0 2T 0 1 1 0S 1 0 1 0H 9 1 0 0E 0 7 0 0A 0 0 4 0L 2 0 0 0 0 0 0 2

Matrice en cours de transformation

S(R,H) = se(R,H) + max S(x,y)

se(R,H) = 2P = 6

S(x,y) S(D,E) = 7 S(F,E) = -6 S(D,L) = -6

nyjetmxiavec

PyiS

PjxS

jiS

jisejiS

22

,1

1,

1,1

max,,


45



Matrice transforméeet chemin des scores maxima

V T E E R D A FL 6 7 0 0 0 0 0 2T 6 4 9 1 0 1 1 0S 2 6 1 9 1 0 1 0H 0 0 5 1 9 1 0 0E 0 0 4 4 0 7 0 0A 0 1 0 0 0 0 4 0L 2 0 0 0 0 0 0 2

Listing d’édition

substitution insertion dans idélétion dans j

insertion dans jdélétion dans i

3 : E E R D A F : 8

2 : T S H E A L : 7

nyjetmxiavec

PyiS

PjxS

jiS

jisejiS

22

,1

1,

1,1

max,,


46

Alignement local : recherches de similitudes dans les banques de séquences

Pourquoi ?

Savoir si ma séquence ressemble à d'autres déjà connues

Trouver toutes les séquences d'une même famille

Rechercher toutes les séquences qui contiennent un motif donné

Outils

grand volume de texte à traîter

programmes classiques d’alignement inutilisables

utilisation d’heuristiques

programmes BLAST et FASTA

le résultat n ’est pas garanti comme étant le meilleur


47

BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990)

• Recherche de régions sans insertions / délétions riches en similarité ;• Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ;• Hachage de la séquence « requête » en mot de taille w

… Liste de mots voisins de longueur w ayant un score supérieur à un seuil Tfixé par rapport au mot m.

Séquence requête

m

Chaque mot similaire au mot m est comparé àchaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré.Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP).


48

BLAST : exemple

S L A A L L N K C K T P Q G Q R L V N Q W

m(w=3)

P Q G 18P E G 15P R G 14P K G 14P N G 13P D G 13 P H G 13P M G 13 P S G 13P Q A 12P Q N 12...

Liste

de mots

voisins

Score seuil T = 13

Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310

High Scoring Pairs (HSP)

S(P,P) = 7S(Q,R) = 1S(G,G) = 6X

T


49

BLAST : Approche à adopter

• Choix de l’algorithme ;• Matrice de substitution ;• Stratégie de recherche : nucléique ou protéique ;• Traitement du bruit de fond.

BLASTParamètres par défaut

Filtrage

BLASTAdaptation des paramètres

FASTAAdaptation des paramètres

FASTAParamètres par défaut


50

BLAST : Choix du programme

SEQUENCE BANQUE

Protéique Protéique

Nucléique NucléiqueT T

T T

BLASTP

BLASTN

TBLASTX

TBLASTNBLASTX


51

BLAST sur Internet : Requête(1/8) http://www.ncbi.nlm.nih.gov/blast/

séquence requête

choix de la base de données


52

BLAST sur Internet : Paramètres (2/8)

Limiter la rechercheà une espèce

Filtre pour les séquences de faiblecomplexité

E-value limite

Taille w du mot m

Choix de la matrice et gestion des indels

PositionSpecificScoreMatrix

PSI - BLAST

Options supplémentaires

Motif PHI - BLAST

http://www.ncbi.nlm.nih.gov/blast/


53

BLAST sur Internet : Format de la sortie (3/8)

Limiter l ’affichagedes résultats à uneespèce

Limiter l’affichage des résultats à une plage de valeur d’E-value

Pour recevoir les résultats par e-mail



54

BLAST sur Internet : Fichier de sortie (5/8)

Séquence requête

Banques de données choisies



55

BLAST sur Internet : Fichier de sortie (6/8) http://www.ncbi.nlm.nih.gov/blast/

Répartition des hits enfonction du score

Nombres de hits


56



57



université dangers - maîtrise de biologie cellulaire 1 introduction à la bioinformatique david...

Documents

biologie cellulaire

pcr universit dangers

gnme humain

coli gnes protiques

protines portions d

portions dadn codant

squences biologiques

gnome humain driv