université dangers - maîtrise de biologie cellulaire 1 introduction à la bioinformatique david...

57
Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32 [email protected]

Upload: jehan-hoffmann

Post on 03-Apr-2015

107 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

Université d’Angers - Maîtrise de Biologie Cellulaire 1

Introductionà la

Bioinformatique

David Perret

INSERM U5644, rue Larrey

49033 Angers Cedex 0102.41.35.47.32

[email protected]

Page 2: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

2

Qu’est-ce qu’un génôme ?

Des gènes :portions d’ADN codant des protéines

portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, …portions d ’ADN codant des ARN non traduits

Eléments régulateurs : promoteurs, enhancers, …

Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, …

Séquences non fonctionnelles :séquences non codantes

séquences répétéespseudogènes

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 3: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

3

Taille des génômes ?

Mycoplasma genitalium : 0,6 Mb

Escherichia coli : 4,7 Mb

Saccharomyces. cerevisiae : 13,5 Mb

C. elegans : 100 Mb

Amoeba dubia : 700 000 Mb

Fugu rubripes : 400 Mb

Homo sapiens : 3400 Mb

Amphibiens : 100 000 Mb

Prokaryotes

Eukaryotes

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 4: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

4

Gènes et éléments fonctionnels dans les génomes

H. sapiens

Taille du génôme : x1000Nombre de gènes : x10

E. coli

Gènes protéiques

ARN

Non codant

0

20000

40000

60000

80000E.

coli

S. c

erev

isia

e

D. m

elan

ogas

ter

C. e

lega

ns

H. s

apie

ns

?

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 5: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

5

Proportion d’éléments « fonctionnels » dans le génôme humain

51%

34%

2%

1%

12%

ADN intergeniqueIntronsProtéinesARNADN satellites

85 % d’ADN sans fonctions connues

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 6: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

6

Gène protéique eucaryote type

promoteur exons introns site de polyadénylation

TRANSCRIPTION

MATURATION

AAAAA

ATG STOP

TraductionRégions non traduites (UTR)

Régions traduites (CDS)

AG GT AG GT

point debranchement

signauxd’épissage

donneur accepteur

ADN

préARNm

ARNm

Protéine

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 7: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

7

Structure d’un gène protéique humain

ATGpolyA

STOP

Epissage alternatifdans 30% des gènes

Tailles moyennes

Gène 27 kbCDS 1,1 kbExon (interne) 145 bIntron 3,4 kb5' UTR 300 b3' UTR 700 b

0

5

10

15

20

25

1994

1995

1996

1997

1998

1999

2000

2001

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 8: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

8

D’où provient la complexité du génôme humain ?

NOYAUCELLULE

ADN

TRANSCRIPTION

REVERSETRANSCRIPTION

INTEGRATION

RETROVIRUS

Transcriptase inverse

• LINE(s) : long interspersed elements (6-8 kb)

• SINE(s) : short interspersed elements (80-300 bp)

• Rétrovirus endogènes (5-10 kb)

• Rétroéléments

• Pseudogènes : après la duplication d’un gène• Evolution vers une nouvelle fonction• Inactivation d’un gène

gène élément répété

crossing-over inégal

mutation

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 9: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

9

D’où provient la complexité du génome humain ?

• Rétropseudogènes• 23000 à 33000 dans le génome humain• dérivé de gènes ubiquitaires

gènepromoteur

AAAA

transcription et maturation

mRNA

ADN

rétrotranscription et intégration

AAAADNA

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 10: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

10

L’alignement des séquences biologiques : pourquoi ?

• Identification de gènes homologues ;

• Recherches de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines ;

• Prédictions de fonctions ;

• Prédictions de structures d’ARN et de protéines ;

• Reconstitution des relations évolutives entre séquences (phylogénie) ;

• Choix d’amorces pour la PCR ;

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 11: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

11

Prédiction de fonction par homologie ?

SIMILARITE

HOMOLOGIE

CONSERVATIONSTRUCTURALE

FONCTIONCONSERVEE

Prot1 TKRKLCGDSSPDProt2 AKRKSCGDSSPD

Prot1 Prot2

Ancêtre commun

Mais …

• Le concept de fonction est flou :

• Activité biochimique identique ?

• Distribution tissulaire identique ?

• Compartimentation identique ?

• Protéines homologues de fonctions différentes ?

• Homologues ligands d’un même récepteur

• Homologues recrutées pour des fonctions

très différentes

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 12: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

12

Histoire

1900 2000

1865 (Mendel)Théorie de l’hérédité

1944 (Avery)ADN, support de

l’information génétique

1951 (Sanger)Séquençage de l’insuline

1951 (Watson & &Crick)L ’ADN est une double hélice

1970Needleman & Wunsch

1970Needleman & Wunsch

1980/1986Création de l’EMBL (1980) ,de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986)

1990 (Altschul)BLAST

1978(Dayhoff)Matrices PAM

2000/20011ier brouillon du génome humain

1990 (Henikoff)Matrices BLOSUM

1981 (Smith & Waterman)Smith & Waterman

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 13: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

13

Les banques de données de séquences biologiques : accessibilité sur Internet

Articles et livres 1968 -> 1985

Cassettes informatiques 1982 ->1992

Disquettes 1984 -> 1990

CD-ROM 1989 -> ?

Serveur FTP 1989 -> ?

WWW 1993 -> ?

DVD 2001 -> ?

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 14: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

14

Les étapes du séquençage d’un génome

01

2

3

Séquence non-terminée : contigs non-orientés et non-ordonnés, gaps

Séquence non-terminée : contigs orientés et ordonnés, gaps

Séquence terminée

HTG

HUM

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 15: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

15

Les banques de données de séquences biologiques : définition

Une collection de données :structurées ;

indexées (table des matières) ;périodiquement mise à jour ;

contenant des références croisées avec d’autres banques.

Elles comportent souvent des outils associés (logiciels) nécessaires pour :l’accession à la banque ;

la mise à jour de la banque ;…

Il existe essentiellement deux catégories de banques de données :généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, …

spéciaisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ...

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 16: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

16

Les banques de données de séquences biologiques : structure d’une entrée de la banque

Identification de la séquenceNuméro unique d’accession

(Accession Number - AC)

Références bibliographiques

Données taxinomiques

Mots-clefs

Annotations

Références croisées avecd’autres banques de données

ID IL6_HUMAN STANDARD; PRT; 212 AA.AC P05231;DT 13-AUG-1987 (Rel. 05, Created)DT 13-AUG-1987 (Rel. 05, Last sequence update)DT 01-MAR-2002 (Rel. 41, Last annotation update)DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2)DE (Interferon beta-2) (Hybridoma growth factor).GN IL6 OR IFNB2.OS Homo sapiens (Human).OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606;RN [1]RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE.RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan]RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T.,RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S.,RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.;RT "Complementary DNA for a novel human interleukin (BSF-2) that inducesRT B lymphocytes to produce immunoglobulin.";RL Nature 324:73-76(1986).CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICALCC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATIONCC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA ANDCC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, INCC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS.CC -!- SUBCELLULAR LOCATION: Secreted.CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY.DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]DR EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]..DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB]DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB]...DR Pfam; PF00489; IL6; 1.KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism;KW 3D-structure.

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 17: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

17

Les banques de données de séquences biologiques : structure d’une entrée de la banque

Annotation de la séquence

Séquence

FT SIGNAL 1 29 FT CHAIN 30 212 INTERLEUKIN-6.FT DISULFID 72 78 FT DISULFID 101 111 FT CARBOHYD 73 73 N-LINKED (GLCNAC...).FT VARIANT 32 32 P -> S.FT /FTId=VAR_013075.FT VARIANT 162 162 D -> V.FT /FTId=VAR_013076.FT MUTAGEN 173 173 A->V: ALMOST NO LOSS OF ACTIVITY.FT MUTAGEN 185 185 W->R: NO LOSS OF ACTIVITY.FT MUTAGEN 204 204 S->P: 13% ACTIVITY.FT MUTAGEN 210 210 R->K,E,Q,T,A,P: LOSS OF ACTIVITY.FT MUTAGEN 212 212 M->T,N,S,R: LOSS OF ACTIVITY.SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM//Fin de l’entrée

>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYILDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLLEFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQAQNQWLQDMTTHLILRSFKEFLQSSLRALRQM

• La séquence peut être formatée : le format FASTA

Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …)

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 18: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

18

Les banques de données de séquences biologiques : laquelle choisir ?

AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,

BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD,

CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase,

dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,

ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView,

GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB,

GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC,

HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA,

KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado,

MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,

OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR,

PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP,

SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK,

StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT,

TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT,

WormPep, YEPD, YPD, YPM, etc ...

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 19: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

19

Les banques de données de séquences biologiques : accessibilité sur Internet

• Banques généralistes :

• GenBank (Etats-Unis - 1982) : http://www.ncbi.nlm.nih.gov/GenBank/

• DNA DataBank of Japan (Japon - 1986) : http://www.ddbj.nig.ac.jp

• EMBL (Europe - 1980) : http://www.ebi.ac.uk/embl/

•Banques spécialisées :

• ProSite : http://www.expasy.ch/prosite/

• Pfam : http://www.sanger.ac.uk/Software/Pfam/index.shtml

• BrookHaven Protein DataBank (PDB) : http://www.rcsb.org/pdb/

• FlyBase : http://flybase.harvard.edu:7081/

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 20: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

20

Une séquence : symboles, structure et fonction

• Alphabet de symboles (acides aminés) :• chaque symbole a une signification propre ;• chaque symbole a une certaine propension à être placé à côté de tel ou tel voisin ;• chaque symbole peut être décrit par un descripteur binaire (1 ou 0) :

d11 d12 d13 d14

AA1 AA2

d21 d22 d23 d24

descripteur binairede l’acide aminé 1

descripteur binairede l’acide aminé 2

di1 : l’acide aminé i est grosdi2 : l’acide aminé i est chargé positivementdi3 : l’acide aminé i est aromatiquedi4 : l’acide aminé i est soufré

Exemple : descripteur binaire de la séquence GCW

G : 0000

W : 1010

C : 00010000 0001 1010

G C W

L’ensemble des descripteurs binaires d’une séquence contient toute l’information nécessaire à la protéine pour adopter sa structure et donc sa fonction.

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 21: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

• Alignement global (Needlman & Wunsch, 1970)

21

Alignement global et alignement local

Protéine A

Protéine B

• Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990)

Protéine A

Protéine B

domaine

ARNm

gène

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 22: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

• Opérations élémentaires d’édition : opérations permettant de « passer » d’une séquence à une autre ;

• insertions (i) :

• délétions (d) :

• substitutions (s) :

A A - B C A A* * * * * *A A C B C A A

22

Alignement : représentation

A A B C A A* * * * *A A C C A A

INsertion / DELétionINDEL

A A B C A A* * * * *A A - C A A

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 23: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

23

Quel est le meilleur alignement ?

GTTACGA*** **GTT-GGA

GTTAC-GA*** **GTT--GGA

GTTACGA*** **GTTG-GA

5 matches1 délétion1 substitution (C>G)

5 matches1 délétion1 substitution (A>G)

5 matches2 délétions1 insertion

Système de score :

spseScore se = score élémentairesp = pénalité d’indel

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 24: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

24

Les matrices nucléiques de substitution

• Unitaire et unitaire inverse :

• Matrices évolutives :

A C G T

A 1 0 0 0

C 0 1 0 0

G 0 0 1 0

T 0 0 0 1T

A C G T

A 0 1 1 1

C 1 0 1 1

G 1 1 0 1

T 1 1 1 0T

A C G T

A 3 0 1 0

C 0 3 0 1

G 1 0 3 0

T 0 1 0 3T

Transitions : 1

Transversions : 0

Matches : 3A

TG

C

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 25: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

25

Les matrices protéiques de substitution

• Matrice de substitution protéique liée au code génétique• Nombre de mutations nécessaires pour passer du codon d'un acide aminé au codon d'un autre acide aminé

Mutation GLU LYS

d ’ou

GAAGAG

AAAAAG

1 mutation sur la première base du codon

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 26: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

26

Les matrices protéiques de substitution

Les matrices liées aux propriétés physico-chimiques :

• hydrophobie / hydrophilie (Levitt, 1976) ;• propension d’un acide aminé à intégrer une structure secondaire précise (Levin, 1986).

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 27: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

27

Les matrices protéiques de substitution

• Les matrices liées à l’évolution : matrices PAM• représentent les échanges possibles et acceptables d’un acide aminé par un autre lors de

l’évolution des protéines (Dayhoff, 1978).

• Principe de base : si deux séquences appartiennent au même processus évolutif, et qu’un acide aminé de l’une a été muté pour donner l’autre, alors on peut supposer que les deux acides aminés sont similaires :

• les mutations sont dites acceptées (Point Accepted Mutation)• elles ont été conservées au cours de l’évolution de part leur caractère à ne pas altérer la fonction de la protéine.

Les protéines évoluent via des successions de mutations ponctuelles indépendantes les unes des autres et acceptées dans la population.

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 28: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

28

La matrice de substitution PAM250 (Dayhoff, 1978)

A R N D C Q E G H I L K M F P S T W Y VA 2R -2 6N 0 0 2D 0 -1 2 4C -2 -4 -4 -5 4Q 0 1 1 2 -5 4E 0 -1 1 3 -5 2 4G 1 -3 0 1 -3 -1 0 5H -1 2 2 1 -3 3 1 -2 6I -1 -2 -2 -2 -2 -2 -2 -3 -2 5L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6K -1 3 1 0 -5 1 0 -2 0 -2 -3 5M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4

?

?

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 29: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

29

Les matrices de substitution PAM (Dayhoff, 1978) : construction (1/4)

Fréquences d’échanges de paires d’acides aminésMutation fixée durablement au cours de l’évolution

unité de distance évolutive1 unité PAM

=une mutation ponctuelle acceptée

entre deux séquences pour 100 résidus

Utilisation de 71 familles (1300 protéines)de protéines à 85% identiques

Construction d’arbres phylogénétiques

Construction des matricespour chaques couples

d’acides aminés échangés

Aij : nombre de mutations i j acceptées observées

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 30: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

30

Les matrices de substitution PAM (Dayhoff, 1978) : construction (2/4)

Mutabilité des acides aminés (mj)

• Propension d’un acide aminé a être remplacé par un autre acideaminé• Soit l’alignement suivant :

• Les acides aminés en jeu sont les suivants : A, D, E, F, W et R.

A D E F R EA D D W R E

A D E F W R

Nombre dechangements

0 1 1 1 1 0

Nombred’ocurence

2 3 3 1 1 2

Mutabilité 0 1/3 1/3 1 1 0

Université d’Angers - ISSBA - Option Biotechnologie

Page 31: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

Université d’Angers - Maîtrise de Biologie Cellulaire 31

Les matrices de substitution PAM (Dayhoff, 1978) : construction (3/4)

Matrice de probabilité de mutation

• Calcul de la probabilité qu’un acide aminé i de la matrice remplace un acide aminé j :

• La matrice ainsi construite est appelée 1-PAM : elle définit l’unité de changement évolutif, l’unité PAM. Deux séquences sont séparées par une distance évolutive de 1 PAM si il y a eu 1 changement observé et accepté au cours de l'évolution pour 100 acides aminés.

i

ijij p

MR

11

Matrice « odds »• Chaque élément de la matrice est divisé par la fréquence d’occurrence de chaque acide aminé

20

1

1

iij

ijjij

A

AmM

Page 32: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

32

Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4)

Matrice « log-odds »• Elle est calculée en prenant le logarithme de la matrice précedente :

• Cette matrice peut être utilisée pour simuler l'évolution en utilisant un générateur de nombres aléatoires afin de prédire le devenir de chaque résidu et ceci en accord avec les probabilités données dans la table. Les opérations suivantes sont équivalentes :- applications successives de 1-PAM sur une séquence ;- multiplication de la matrice 1-PAM par elle-même puis application à une séquence :

- rééchelonnage des éléments de 1-PAM par une constante de proportionnalité suivi de l'application à une séquence :

20

1

1 λ

iij

ijj

A

AmM

ij

n

k

kij

kij

kij

k SSouRRij

1

11 log ijij RS

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 33: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

33

Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4)

• Utilisation de la matrice PAM

0 100 200 300 400

5

15

25

35

45

55

65

75

85Twilight Zone

Dis

tanc

es (

en %

de

diff

éren

ces)

PAM

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 34: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

34

La matrice de substitution PAM250 (Dayhoff, 1978)

A R N D C Q E G H I L K M F P S T W Y VA 2R -2 6N 0 0 2D 0 -1 2 4C -2 -4 -4 -5 4Q 0 1 1 2 -5 4E 0 -1 1 3 -5 2 4G 1 -3 0 1 -3 -1 0 5H -1 2 2 1 -3 3 1 -2 6I -1 -2 -2 -2 -2 -2 -2 -3 -2 5L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6K -1 3 1 0 -5 1 0 -2 0 -2 -3 5M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4

Les aromatiques sontpeu mutables

L’asparagine et l’alanine sont

plus mutables queles acides aminés

aromatiques

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 35: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

35

Les matrices protéiques de substitution

• Les matrices de type BLOSUM (BLOcks Substitution Matrix)• observation de blocs d’acides aminés issus de protéines relativement éloignées ;• chaque bloc provient d’alignements multiples sans insertions / délétions de courtes régions conservées ;• les blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d’identité minimum au sein de leur bloc ;• on en déduit des fréquences de substitution pour chaque paire d’acides aminés ;• on calcule une matrice logarithmique de probabilité ;• à chaque pourcentage d’identité correspond une matrice :

• BLOSUM50 avec un seuil d’identité de 50 % ;• BLOSUM62 avec un seuil d’identité de 62 %.

50%

BLOSUM50

Fréquences desubstitution pour

chaque acide aminé

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 36: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

36

Quelle matrice de substitution choisir ?

• Pas de matrice idéale ;• Les matrices dérivées des mutations observées donnent,pour les protéines, de meilleurs résultats que les matricesbasées sur l’identité, le code génétique ou les propriétésphysico-chimiques.• Matrices PAM établies par M. Dayhoff (1978) :

• donnent un trop grand poids aux identités ;• négligent trop les ressemblances structurales ;• PAM250 : séquences éloignées, faible identité ;• PAM125 : séquences proches, identité élevée.

• Matrices BLOSUM (1992) :• construites à partir de plus de données ;• BLOSUM62 : séquences proches, identité élevée ;• BLOSUM30 : séquences éloignées, identité faible.

Barton, G.J. (1996), « Protein Sequence Alignment and Database Scanning », In: Protein Structure Prediction : A Practical Approach (Ed. M.J.E. Sternberg), IRL Press at Oxford University Press.http://barton.ebi.ac.uk/papers/rev93_1/rev93_1.html

Identité

100

0

PAMBLOSUM

30

40

20

90

50

10

80

70

60

90

62

50

30

50

100

120

250

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 37: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

nyjetixou

jyetmxiavecyxSjisejiS

1

1,max,,

37

Alignement global et programmation dynamique : Needlemann & Wunsch (1970)

• Soient 2 séquences A et B de longueur respective m et n ;• Soient i et j 2 acides aminés quelconques de A et B.

Construction d’unematrice de comparaison

(m,n)

Matrice transforméepar l’addition

de scores

Chemin desscores

maxima

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 38: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

38

Alignement global et programmation dynamique : Needlemann & Wunsch (1970)

nyjetixou

jyetmxiavecyxSjisejiS

1

1,max,,

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2

Exemple : Alignement global des séquences VTEERDAF et LTSHEAL avec la matrice PAM250

Matrice initiale

ij

i+1j

mj

ij+1

i+1j+1

mj+1

i n

i+1n

m n

x = i+1j<yn

i<xmy = j+1

Transformation de la matrice initiale

i

j

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 39: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

39

Alignement global et programmation dynamique : Needlemann & Wunsch (1970)

nyjetixou

jyetmxiavecyxSjisejiS

1

1,max,,

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2

Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250

Matrice initiale

V T E E R D A FL 0 0 2T 4 3 -2S 4 3 -3H 9 5 1 -2E 3 7 2 -5A 0 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2

Matrice en cours de transformation

S(R,H) = se(R,H) + max S(x,y)

se(R,H) = 2

S(x,y) S(D,E) = 7 S(A,E) = 2 S(F,E) = -5 S(D,A) = 2 S(D,L) = -4

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 40: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

40

Alignement global et programmation dynamique : Needlemann & Wunsch (1970)

nyjetixou

jyetmxiavecyxSjisejiS

1

1,max,,

Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250

Matrice transforméeet chemin des scores maxima

V T E E R D A FL 14 7 6 6 4 0 0 2T 10 12 9 9 6 4 3 -2S 8 10 9 9 7 4 3 -3H 6 7 9 8 9 5 1 -2E 2 4 8 8 3 7 2 -5A 2 3 2 2 0 2 4 -4L 2 -2 -3 -3 -3 -4 -2 2

Listing d’édition

substitution insertion dans idélétion dans j

insertion dans jdélétion dans i

V T - E E R D A F

L T S H E - - A L

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 41: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

41

Alignement global : limites

• Les deux séquences présentent une similarité que l’alignement global ne révèle pas :

G G C T G A C C A C C - T T| | | | | | | G A - T C A C T T C C A T G

G G C T G A C C A C C T T | | | | | | | G A T C A C - T T C C A T G

• Un alignement local aurait donné le résultat suivant :

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 42: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

42

Alignement local : Smith & Waterman (1981)

• N’importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes ;• Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ.

nyjetmxiavec

PyiS

PjxS

jiS

jisejiS

22

,1

1,

1,1

max,,

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2

Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6

V T E E R D A FL 2 2T 0 3 0 0 0 1S 1 0 0 0 0 1H 1 1 2 1E 0 4 4 3 0A 0 1 0 0 0 2L 2 2

Matrice initiale Matrice dont les scoresnégatifs ont été supprimés

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 43: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

43

Alignement local : Smith & Waterman (1981)

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2

Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6

Matrice initiale

ij

i+1j

mj

ij+1

i+1j+1

i+2j+1

mj+1

i+1j+2

i n

i+1n

m n

x = i+1j+2<y

n

i+2<xm

y = j+1

Transformation de la matrice initiale

i

j

nyjetmxiavec

PyiS

PjxS

jiS

jisejiS

22

,1

1,

1,1

max,,

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 44: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

44

Alignement local : Smith & Waterman (1981)

V T E E R D A FL 2 -2 -3 -3 -3 -4 -2 2T 0 3 0 0 -1 0 1 -2S -1 1 0 0 0 0 1 -3H -2 -1 1 1 2 1 -1 -2E -2 0 4 4 -1 3 0 -5A 0 1 0 0 -2 0 2 -4L 2 -2 -3 -3 -3 -4 -2 2

Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6

Matrice initiale

V T E E R D A FL 0 0 0 2T 0 1 1 0S 1 0 1 0H 9 1 0 0E 0 7 0 0A 0 0 4 0L 2 0 0 0 0 0 0 2

Matrice en cours de transformation

S(R,H) = se(R,H) + max S(x,y)

se(R,H) = 2P = 6

S(x,y) S(D,E) = 7 S(F,E) = -6 S(D,L) = -6

nyjetmxiavec

PyiS

PjxS

jiS

jisejiS

22

,1

1,

1,1

max,,

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 45: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

45

Alignement local : Smith & Waterman (1981)

Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6

Matrice transforméeet chemin des scores maxima

V T E E R D A FL 6 7 0 0 0 0 0 2T 6 4 9 1 0 1 1 0S 2 6 1 9 1 0 1 0H 0 0 5 1 9 1 0 0E 0 0 4 4 0 7 0 0A 0 1 0 0 0 0 4 0L 2 0 0 0 0 0 0 2

Listing d’édition

substitution insertion dans idélétion dans j

insertion dans jdélétion dans i

3 : E E R D A F : 8

2 : T S H E A L : 7

nyjetmxiavec

PyiS

PjxS

jiS

jisejiS

22

,1

1,

1,1

max,,

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 46: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

46

Alignement local : recherches de similitudes dans les banques de séquences

Pourquoi ?

Savoir si ma séquence ressemble à d'autres déjà connues

Trouver toutes les séquences d'une même famille

Rechercher toutes les séquences qui contiennent un motif donné

Outils

grand volume de texte à traîter

programmes classiques d’alignement inutilisables

utilisation d’heuristiques

programmes BLAST et FASTA

le résultat n ’est pas garanti comme étant le meilleur

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 47: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

47

BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990)

• Recherche de régions sans insertions / délétions riches en similarité ;• Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ;• Hachage de la séquence « requête » en mot de taille w

… Liste de mots voisins de longueur w ayant un score supérieur à un seuil Tfixé par rapport au mot m.

Séquence requête

m

Chaque mot similaire au mot m est comparé àchaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré.Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP).

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 48: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

48

BLAST : exemple

S L A A L L N K C K T P Q G Q R L V N Q W

m(w=3)

P Q G 18P E G 15P R G 14P K G 14P N G 13P D G 13 P H G 13P M G 13 P S G 13P Q A 12P Q N 12...

Liste

de mots

voisins

Score seuil T = 13

Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310

High Scoring Pairs (HSP)

S(P,P) = 7S(Q,R) = 1S(G,G) = 6X

T

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 49: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

49

BLAST : Approche à adopter

• Choix de l’algorithme ;• Matrice de substitution ;• Stratégie de recherche : nucléique ou protéique ;• Traitement du bruit de fond.

BLASTParamètres par défaut

Filtrage

BLASTAdaptation des paramètres

FASTAAdaptation des paramètres

FASTAParamètres par défaut

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 50: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

50

BLAST : Choix du programme

SEQUENCE BANQUE

Protéique Protéique

Nucléique NucléiqueT T

T T

BLASTP

BLASTN

TBLASTX

TBLASTNBLASTX

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 51: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

51

BLAST sur Internet : Requête(1/8) http://www.ncbi.nlm.nih.gov/blast/

séquence requête

choix de la base de données

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 52: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

52

BLAST sur Internet : Paramètres (2/8)

Limiter la rechercheà une espèce

Filtre pour les séquences de faiblecomplexité

E-value limite

Taille w du mot m

Choix de la matrice et gestion des indels

PositionSpecificScoreMatrix

PSI - BLAST

Options supplémentaires

Motif PHI - BLAST

http://www.ncbi.nlm.nih.gov/blast/

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 53: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

53

BLAST sur Internet : Format de la sortie (3/8)

Limiter l ’affichagedes résultats à uneespèce

Limiter l’affichage des résultats à une plage de valeur d’E-value

Pour recevoir les résultats par e-mail

http://www.ncbi.nlm.nih.gov/blast/

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 54: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

54

BLAST sur Internet : Fichier de sortie (5/8)

Séquence requête

Banques de données choisies

http://www.ncbi.nlm.nih.gov/blast/

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 55: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

55

BLAST sur Internet : Fichier de sortie (6/8) http://www.ncbi.nlm.nih.gov/blast/

Répartition des hits enfonction du score

Nombres de hits

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 56: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

56

BLAST sur Internet : Fichier de sortie (7/8) http://www.ncbi.nlm.nih.gov/blast/

Université d’Angers - Maîtrise de Biologie Cellulaire

Page 57: Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32

57

BLAST sur Internet : Fichier de sortie (8/8) http://www.ncbi.nlm.nih.gov/blast/

Université d’Angers - Maîtrise de Biologie Cellulaire