modélisation moléculaire : modélisation par homologiem · pdf...

Click here to load reader

Post on 15-Sep-2018

218 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Modlisation Molculaire : Modlisation par homologie

    GIRAUD Sandra

    MERLET Benjamin

    MERLET-BILLON Maryvonne

    GB5 BIMB

    11 Fvrier 2013

  • Introduction

    La modlisation molculaire est un ensemble de techniques permettant la modlisation

    prdictive notamment de protines. Ces techniques sont courantes dans diffrents domaines et

    en particulier en chimie et en biologie (pharmaceutique).

    Ces techniques sont trs utilises dans plusieurs cas lorsque lexprience est :

    - Trop difficile

    - Trop dangereuse

    - Trop couteuse

    - Trop longue (ou trop rapide)

    - Impossible raliser

    - Difficilement acceptable au niveau thique (protection humaine par exemple)

    Deux techniques sont trs utilises : la modlisation molculaire dynamique et la modlisation

    molculaire par homologie. Au cours de ce TP cest cette dernire que nous utiliserons via

    diffrents outils et notamment le logiciel Modeller.

    La modlisation par homologie a pour principe de partir dune squence protique connue et

    de rechercher des squences homologues dont la structure tridimensionnelle a dj t prdite.

    De nombreux critres sont utiliss pour tudier cette squence par rapport celles dont la

    structure est connue, ceci dans le but de rassemble des informations thoriques qui aideront

    modliser sa structure tridimensionnelle.

    Lobjectif de ce TP est donc, partir dune squence donne, de modliser la protine via la

    modlisation molculaire par homologie.

  • Matriel et Mthodes

    Au cours de ce TP nous avons utilis les outils suivants :

    - NCBI protein blast afin de trouver des squences homologues celle que nous tudions

    - Base de donne PDB afin de trouver les fichiers structures des squences

    - NCBI psiBlast et MUSCLE (phylogeny.fr) pour aligner les squences

    - NPSA afin de prdire des caractristiques de structure secondaire

    - ProtScale afin de dterminer et comparer les profils dhydrophobicit

    - CulstalW dans le but de faire un alignement multiple

    - Modeller afin de modliser, partir des donnes prcdemment tablies, la protine

    inconnue

  • Informations sur la protine

    La premire tape de la modlisation par homologie est de trouver des squences homologues

    celle que lon souhaite modliser.

    Notre squence est la suivante et comporte 320 acides amins :

    MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGLS

    LSVSERRQVAEEWVTKGKDKLDQVIIHVGALSLKESQELAQHAAEIGADGIAVIAPFF

    LKPWTKDILINFLKEVAAAAPALPFYYYHIPALTGVKIRAEELLDGILDKIPTFQGLKF

    SDTDLLDFGQCVDQNRQQQFAFLFGVDEQLLSALVMGATGAVGSTYNYLGKKTNQ

    MLEAFEQKDFSLALNYQFCIQRFINFVVKLGFGVSQTKAIMTLVSGIPMGPPRLPLQK

    ASREFTDSAEAKLKSLDFLSFTDLKDGNLEAGS

    Recherche de squence homologues

    Nous avons rentr cette squence dans loutil BLAST de NCBI. Partant dune squence

    protique nous avons ralis un protein Blast via la base de donnes PDB. De trs nombreuses

    protines ont t trouves comme homologues de notre squence. Nous avons choisi deux

    squences homologues en slectionnant le plus grand Max score et la plus petite e-value

    (respectivement 127, 126 et 9e-34, 2e-33). Aucune squence ne prsentait un query

    coverage de 100%, cest pourquoi nous navons pas bas notre slection sur ce critre.

    1NAL : N-ACETYLNEURAMINATE 2 LYASE FROM ESCHERICHIA COLI

    2WO5 : WILD TYPE E. COLI N-ACETYLNEURAMINIC ACID 2 LYASE IN SPACE

    GROUP P21 CRYSTAL FORM I

    Ces deux squences proviennent du mme organisme : Escherichia coli et correspondent

    deux enzymes trs proches de la famille des N-actylneuraminate lyase. Cette famille

    denzyme catalyse une raction aldol rversible qui mne la formation dacide sialique. Ces

    enzymes font partie dune famille plus grande : les dihydripicolinates synthases.

    Alignement de squences

    Nous avons ensuite rcupr les fichiers PDB correspondant et align notre squence

    inconnue avec les deux squences homologues slectionnes via le psiBlast de NCBI et

    MUSCLE de phyloegny.fr (Figure 1 3) en laissant les paramtres par dfaut.

  • >seq query

    MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGL

    SLSVSERRQVAEEWVTKGKDKLDQVIIHVGALSLKESQELAQHAAEIGADGIAVIAP

    FFLKPWTKDILINFLKEVAAAAPALPFYYYHIPALTGVKIRAEELLDGILDKIPTFQG

    LKFSDTDLLDFGQCVDQNRQQQFAFLFGVDEQLLSALVMGATGAVGSTYNYLGK

    KTNQMLEAFEQKDFSLALNYQFCIQRFINFVVKLGFGVSQTKAIMTLVSGIPMGPPR

    LPLQKASREFTDSAEAKLKSLDFLSFTDLKDGNLEAGS

    >gi|11513504|pdb|1F6P|A_Chain_A,_Crystal_Structure_Analysis_Of_N-Acetylneuramina

    ----MRDLKGIFSALLVSFNEDGTINEKGLRQIIRHNIDKMKVDGLYVGGSTGENFML

    STEEKKEIFRIAKDEAKDQI-ALIAQVGSVNLKEAVELGKYATELGYDCLSAVTPFY

    Y-KFSFPEIKHYYDTIIAET-GSNMIVYSIPFLTGVNMGIEQFGELYKNPKVLGVKF

    TAGDFYLLERLKKAYPNHLIWAGFDEMMLPAASLGVDGAIGSTFNVNGVRARQI

    FELTKAGKLKEALEIQHVTNDLIEGILANGLYLT-IKELLKL-EGVDAGYCREPMTSK

    ATAE-QVAKAK----------DLKAKFLS---

    >gi|1127100|pdb|1NAL|1_Chain_1,_The_Three-Dimensional_Structure_Of_N-Acetylneura

    ---MNSNLRGVMAALLTPFDQQQALDKASLRRLVQFNI-QQGIDGLYVGGSTGEAFV

    QSLSEREQVLEIVAEEGKGKI-KLIAHVGCVTTAESQQLAASAKRYGFDAVSAVTPF

    YY-PFSFEEHCDHYRAIIDSADGLPMVVYNIPALSGVKLTLDQINTLVTLPGVGAL

    KQTSGDLYQMEQIRREHPDLVLYNGYDEIFASGLLAGADGGIGSTYNIMGWRYQ

    GIVKALKEGDIQTAQKLQTECNKVIDLLIKTGVFRG-LKTVLHYMDVVSVPLCRKPF

    GPVDEKY-Q-PELK----------ALAQQLMQERG

    Figure 1 : Alignement MUSCLE

  • Nous pouvons dj observer que lalignement via psiBlast est beaucoup plus lisible.

    Figure 3 : Alignement psiBlast squence inconnue/2WO5

    En rouge certaines parties alignes entre les deux squences. En vert les glycines conserves et en

    bleu les prolines conserves On observe 30% didentit et 4% de gap.

    Figure 2 : Alignement psiBlast squence inconnue/1NAL

    En rouge certaines parties alignes entre les deux squences. En vert les glycines conserves

    et en bleu les prolines conserves. On observe 30% didentit et 3% de gap

  • Aprs analyse les alignements sont lgrement diffrents : Dune part lalignement via

    psiBlast ne commence pas au premier acide amin de notre squence inconnue , ce qui est

    un facteur de diffrence important dans les rsultats que nous obtenons. Dautre part nous

    observons la prsence de gap plus nombreux avec lalignement MUSCLE.

    Nous pouvons observer que sur les 22 glycines prsentes dans notre squence, 15 sont

    conserves avec 1NAL et 2WO5. A Part une glycine, ce sont les mmes qui sont conserves

    dans les deux cas. Nous pouvons supposer que ces glycines (qui apportent de la souplesse la

    structure de la protine) sont trs importante dans la relation structure/fonction de la protine.

    Sur les 8 prolines prsentes dans la squence, 7 sont conserves avec 1NAL et 2WO5. Les

    prolines sont connues pour favoriser la formation dhlices .

    Prdiction de la structure secondaire

    Afin dobtenir des informations sur la structure secondaire nous avons dans un premier temps

    tabli les profils dhydrophobicit laide de PlotScale (Figure 4 6)

    Figure 4 : Profil dhydrophobicit de 1NAL

  • Figure 6 : Profil dhydrophobicit de la squence inconnue

    Figure 5 : Profil dhydrophobicit de 2WO5

  • Le profil dhydrophobicit de la squence permet dobserver les zones hydrophobes

    /hydrophiles. Nous avons pour cela utilis le logiciel ProtScale qui utilise lchelle de Kyte et

    Doolittle (hydrophobicit) : les valeurs positives indiquent une position hydrophobe et les

    valeurs ngatives une position hydrophile.

    Notre protine fait partie de la famille des N-actylneuraminate lyase. Ces protines sont

    prsentes au niveau du cytosol. Cette localisation explique la prsence de zones hydrophobes

    et hydrophiles au sein de cette protine.

    Nous avons utilis loutil HCA de Mobyle pour analyser la squence primaire (Figure 7)

    Lutilisation de loutil NPSA nous a permis danalyser la structure secondaire de notre

    protine (Figure 8)

    Nous pouvons observer la prdiction de nombreuses hlices par tous les prdicteurs utiliss.

    Ces hlices voient leur longueur varier en fonction du prdicteur. En gras sont reprsentes

    les prolines conserves lors des psiBlast. Nous pouvons observer quelles ne se situent pas

    lintrieur dhlices prdites juste en amont ou en aval de ces dernires.

    Figure 7 : Analyse de la squence primaire de la squence inconnue

    Les zones vertes reprsentent de potentiels feuillets et les zones rouges de potentielles hlices

    . Les toiles reprsentent les prolines contraignant le plus la chane polypeptidique. Les

    losanges reprsentent les glycines qui au contraire donnent le plus de libert la chaine. Les

    carrs (vides et pleins) reprsentent respectivement les thronines et srines (deux petits acides

    amins polaires) qui peuvent masquer leur polarit via des liaisons H

    Explication daprs Callebaut et al, 1997

  • 10 20 30 40 50 60

    | | | | | |

    UNK_99930 MAFPKKKLQGLVAATITPMTENGEINFSVIGQYVDYLVKEQGVKNIFVNGTTGEGLSLSV DPM cchchcchhchehhcecccccccccceceecceecceehhccecceeecccctcccccce

    DSC cccchhhhhhhhhhhccccccccccchhhhhhhhhhhhhccccceeeeccccccchhhhh

    HNNC cccchhcccceeeeeeeccccccceeeeeehhhhhhhhhcccceeeeeecccccccceeh

    MLRC ccccchccceeeeeeecccccccccchhhhhhhhhhhhhhccceeeeeeccccccceeeh

    PHD cccccccccceeeeeccccccccccchhhhhhhhhhhhhhccceeeeeecccchhhccch

    Predator cccchhhhhhhhhhhccccccccceeeeeeecceeeeeecccceeeeecccccccccccc

    Sec.Cons. cccchhc??c?e??e?cccccccccc?h??hhhhhhhhh?ccceeeee?ccccccccc

View more