Семейства белков

29
Семейства белков Pfam ens: Holy Family with St Elizabeth

Upload: tejano

Post on 05-Jan-2016

61 views

Category:

Documents


2 download

DESCRIPTION

Семейства белков. Pfam. Rubens: Holy Family with St Elizabeth. Что такое “ семейство ” ?. Родство белков. Последовательность? Структура? Функция?. Гомология и аналогия. Гомология белков - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Семейства  белков

Семейства белковPfam

Rubens: Holy Family with St Elizabeth

Page 2: Семейства  белков

Что такое “семейство”?

Page 3: Семейства  белков

Родство белков

• Последовательность?• Структура?• Функция?

Page 4: Семейства  белков

Гомология и аналогия

• Гомология белков• родство (общность происхождения) белков, которое можно

установить по сходству последовательностей, иногда - структур

• Аналогия

Page 5: Семейства  белков

Гомология аминокислотных остатков

• Кодоны происходят из одного и того же кодона общего предка белков

• напрямую проверить нельзя!• можно угадать по сходству последовательностей участков

полипептидной цепи, содержащих остатки

• При совмещении структур C_alpha атомы расположены рядом

• нужны 3D структуры, а их мало• свои проблемы (подвижность частей белков, например)

• Одинаковая роль остатков в структуре и функции белка

• нужны эксперименты и/или структура

Page 6: Семейства  белков

Как установить консервативность участка множественного выравнивания

• Критерии не являются законом природы или “юридическим”

законом Приведены ориентиры из личного опыта. • Можно говорить о консервативности и предположительной

гомологичности, если длина участка во множественном

выравнивании не менее 4-5 остатков! • Критерии сходства зависят от длины участка:

– длина 4 – все позиции функционально консервативны– длина 5 – не менее 3х функционально консервативных позиций, нет

символов пропуска “-”– длина 10 – не менее 50% функционально консервативных позиций, нет

символов пропуска “-” или есть не более, чем в одной колонке– длина 100 – содержит, по крайней мере, несколько коротких

консервативных участков

Page 7: Семейства  белков

Выравнивание – способ выявления гомологичных остатков

Красным выделены консервативные и функционально консервативные остатки

Множественное выравнивание гомеодоменов

Page 8: Семейства  белков

* 240 * 260 * 280 1zjh:A : FG-VEQDVDMVFASFIRKASDVHEVRKVLGE-KGKNIKIISKIENHEGVRRFDEIL : 2601a3x:B : FG-VKNGVHMVFASFIRTANDVLTIREVLGE-QGKDVKIIVKIENQQGVNNFDEIL : 2543eoe:B : NFgIPMGCNFIAASFVQSADDVRYIRGLLGP-RGRHIRIIPKIENVEGLVNFDEIL : 2491aqf:B : FG-VEQDVDMVFASFIRKAADVHEVRKILGE-KGKNIKIISKIENHEGVRRFDEIL : 2721pkl:G : FG-VEQGVDMIFASFIRSAEQVGDVRKALGP-KGRDIMIICKIENHQGVQNIDSII : 2521e0t:A : FG-CEQGVDFVAASFIRKRSDVIEIREHLKAhGGENIHIISKIENQEGLNNFDEIL : 230 fg v ASFir a dV R Lg G i II KIEN G fDeIl * 300 * 320 * 1zjh:A : EASDGIMVARGDLGIEIpA-EKVFLAQKMMIGRCNRAGKPVICATQmlesmikkpR : 3151a3x:B : KVTDGVMVARGDLGIEIpA-PEVLAVQKKLIAKSNLAGKPVICATQmlesmtynpR : 3093eoe:B : AEADGIMIARGDLGMEIpP-EKVFLAQKMMIAKCNVVGKPVITATQmlesmiknpR : 3041aqf:B : EASDGIMVARGDLGIEIpA-EKVFLAQKMIIGRCNRAGKPVICATQmlesmikkpR : 3271pkl:G : EESDGIMVARGDLGVEI-PaEKVVVAQKILISKCNVAGKPVICATQmlesmtynpR : 3071e0t:A : EASDGIMVARGDLGVEIpV-EEVIFAQKMMIEKCIRARKVVITATM---------R : 276 DGiMvARGDLG EIp e V aQK I cn agKpVI ATqmlesm pR 340 * 360 * 380 * 1zjh:A : PTRAEGSDVANAVLDGADCIMLSGEtakgdyPLEAVRMQHLIAREAEAaiyhlqlf : 3711a3x:B : PTRAEVSDVGNAILDGADCVMLSGEtakgnyPINAVTTMAETAVIAEQaiaylpny : 3653eoe:B : PTRAEAADVANAVLDGTDCVMLSGEtangefPVITVETMARICYEAETcvdypaly : 3601aqf:B : PTRAEGSDVANAVLDGADCIMLSGEtakgdyPLEAVRMQHLIAREAEAamfhrklf : 3831pkl:G : PTRAEVSDVANAVFNGADCVMLSGEtakgkyPNEVVQYMARICLEAQSalneyvff : 3631e0t:A : PTDAEAGDVANAILDGTDAVMLSGE------PLEAVSIMATICERTDR-------- : 318 PTrAE DVaNA ldG Dc MLSGEta g P V i a

Пример выравнивания

Page 9: Семейства  белков

Определение 1.

• Белки гомологичны, если содержат гомологичный участок

Page 10: Семейства  белков

Пример 1: гомеобелки

Белки гомологичны или нет?

Page 11: Семейства  белков

Пример 2: триптофансинтазы

Выравнивание продолжается на следующем слайде

* 20 * 40 * 60 * 80 * TRPA_CHLTR : MSKLTQVFKQTK-----LCIGYLTAGDGGTSYTIEAAKALIQGGVDILELGFPFSDPVADNPEIQVSHDRALAENLTSETLLEIVEGIRAFNQEV : 90TRPA_ECOLI : MERYESLFAQLKERKEGAFVPFVTLGDPGIEQSLKIIDTLIEAGADALELGIPFSDPLADGPTIQNATLRAFAAGVTPAQCFEMLALIRQKHPTI : 95TRPA_VIBCH : MNRYQALFQRLSAAQQGAFVPFVTIGDPNPEQSLAIMQTLIDAGADALELGMPFSDPLADGPTIQGANLRALAAKTTPDICFELIAQIRARNPET : 95TRP_COPCI : MEAIKKVFEQKKAQDATAFVAFVTAGYPKKEDTVPVLLALQAGGADIIELGIPFSDPIADGPVIQEANTVALKNDIDYPTVLGQIREARQQGLTA : 95TRP_NEUCR : MEGIKQTFQRCKAQNRAALVTYVTAGFPHPEQTPDILLAMEKGGADVIELGVPFTDPIADGPTIQTANTIALQHGVTLQSTLQMVRDARQRGLKA : 95A1C701_ASPCL : MEDIKSTFAKCKEQKRAALVAYITAGYPTVEETVDILLGLENGGADIIELGIPFTDPIADGPTIQKANTKALANGVTVTIVLQMVRTARSRGLKA : 95TRPB_CHLTR : ----------------------------------------------------------------------------------------------- : -TRPB_ECOLI : ----------------------------------------------------------------------------------------------- : -TRPB_VIBCH : ----------------------------------------------------------------------------------------------- : - 100 * 120 * 140 * 160 * 180 * TRPA_CHLTR : PLILYSYYNPLLQRDLD-YLRRLKDAGINGVCVIDLPAPLSHGEKSPFFEDLLAVGLDPILLISAGTTPERMSLIQEYARGFLYYIPCQATRDSE : 184TRPA_ECOLI : PIGLLMYANLVFNKGIDEFYAQCEKVGVDSVLVADVPVE----ESAPFRQAALRHNVAPIFICPPNADDDLLRQIASYGRGYTYLLSRAGVTGAE : 186TRPA_VIBCH : PIGLLMYANLVYARGIDDFYQRCQKAGVDSVLIADVPTN----ESQPFVAAAEKFGIQPIFIAPPTASDETLRAVAQLGKGYTYLLSRAGVTGAE : 186TRP_COPCI : PVLLMGYYNPMLAYGEDKAIQDAAEAGANGFIMVDLPPE----EAIAFRQKCAASNLSYVPLIAPSTTLKRIQFLASIADSFIYVVSKMGTTGSS : 186TRP_NEUCR : PVMLMGYYNPLLSYGEERLLNDCKEAGVNGFIIVDLPPE----EAVSFRQLCTRGGLSYVPLIAPATSDARMRVLCQLADSFIYVVSRQGVTGAS : 186A1C701_ASPCL : PLLLMGYYNPLLRYGEERMLKDCKEAGVNGFIMVDLPPE----EAVRFRDLCASNGLSYVPLIAPATSESRMKLLCKIADSFIYVVSRMGVTGAT : 186TRPB_CHLTR : ----------------------------------------------------------------------------------------------- : -TRPB_ECOLI : ----------------------------------------------------------------------------------------------- : -TRPB_VIBCH : ----------------------------------------------------------------------------------------------- : - 200 * 220 * 240 * 260 * 280 TRPA_CHLTR : VG------IKEEFRKVREHF-DLPIVDRRDICDKKEAAHVLNY-SDG-FIVKTAFVHQTT--MDSSV-------ETLTALAQTVIPG-------- : 253TRPA_ECOLI : NRAALP--LNHLVAKLKEYN-AAPPLQGFGISAPDQVKAAIDAGAAG-AISGSAIVKIIEQHINEPE-------KMLAALKVFVQPMKAATRS-- : 268TRPA_VIBCH : TKANMP--VHALLERLQQFD-APPALLGFGISEPAQVKQAIEAGAAG-AISGSAVVKIIETHLDNPA-------KQLTELANFTQAMKKATKI-- : 268TRP_COPCI : ANVAVNEELPTILSRIREYT-HVPLAVEFGVATRDQFNYVADAGADGVVVIGSRIVNAIKAAGEGQVPQFVENYCREVSGKG------------- : 267TRP_NEUCR : GTLNAN--LPELLARVKKYSGNKPAAVGFGVSTHDHFTQVGAI-ADG-VVVGSMIITTIQKAAKGEEVKAVQEYCSYLCGRNFEQSA-----HEL : 272A1C701_ASPCL : GKLSSN--LPELLKRVHQWSGNVPAALGFGVSTREHFLDVQEL-AEG-VVIGSQIITTLAQAPAGQAAKQAEEYLSSVTGRRRERDAQGALTHEI : 277TRPB_CHLTR : ----------------------------------------------------------------------------------------------- : -TRPB_ECOLI : ----------------------------------------------------------------------------------------------- : -TRPB_VIBCH : ----------------------------------------------------------------------------------------------- : - * 300 * 320 * 340 * 360 * 380 TRPA_CHLTR : ----------------------------------------------------------------------------------------------- : -TRPA_ECOLI : ----------------------------------------------------------------------------------------------- : -TRPA_VIBCH : ----------------------------------------------------------------------------------------------- : -TRP_COPCI : ----EPSRVRSPGAAQRTPSQLTPNAETA-------------KGVENILPARFGQFGGQYVPESLVDALAELEEAHKSAIEDPAFWEEVRSLY-T : 344TRP_NEUCR : NMGEALEAAKEPVGTATVDGVITEADIDA-----------QLAALHGTIPKRFGEFGGQYVPEALMDCLSELEEGFNKIKDDPAFWEEYRSYY-P : 355A1C701_ASPCL : NVLEAVEKVQTPAVSQPTD-VITDADTPAGPGLADQIEALNGAGNPAAQPSRFGEFGGQYVPESLMDCLAELERGFQQALNDPKFWEEFRSYY-P : 370TRPB_CHLTR : -----------------------------------------------MFKHKH-PFGGAFLPEELLAPIQNLKAEWEILKTQQSFLSELDCILKN : 47TRPB_ECOLI : --------------------------------------------MTTLLNPYFGEFGGMYVPQILMPALRQLEEAFVSAQKDPEFQAQFNDLLKN : 51TRPB_VIBCH : ---------------------------------------------MAKLNAYFGEFGGQFVPQILVPALDQLEQAFIDAQQDDAFRAEFMSLLQE : 50

Page 12: Семейства  белков

Пример 2.

Белки гомологичны или нет?

* 300 * 320 * 340 * 360 * 380 TRPA_CHLTR : ----------------------------------------------------------------------------------------------- : -TRPA_ECOLI : ----------------------------------------------------------------------------------------------- : -TRPA_VIBCH : ----------------------------------------------------------------------------------------------- : -TRP_COPCI : ----EPSRVRSPGAAQRTPSQLTPNAETA-------------KGVENILPARFGQFGGQYVPESLVDALAELEEAHKSAIEDPAFWEEVRSLY-T : 344TRP_NEUCR : NMGEALEAAKEPVGTATVDGVITEADIDA-----------QLAALHGTIPKRFGEFGGQYVPEALMDCLSELEEGFNKIKDDPAFWEEYRSYY-P : 355A1C701_ASPCL : NVLEAVEKVQTPAVSQPTD-VITDADTPAGPGLADQIEALNGAGNPAAQPSRFGEFGGQYVPESLMDCLAELERGFQQALNDPKFWEEFRSYY-P : 370TRPB_CHLTR : -----------------------------------------------MFKHKH-PFGGAFLPEELLAPIQNLKAEWEILKTQQSFLSELDCILKN : 47TRPB_ECOLI : --------------------------------------------MTTLLNPYFGEFGGMYVPQILMPALRQLEEAFVSAQKDPEFQAQFNDLLKN : 51TRPB_VIBCH : ---------------------------------------------MAKLNAYFGEFGGQFVPQILVPALDQLEQAFIDAQQDDAFRAEFMSLLQE : 50 * 400 * 420 * 440 * 460 * TRPA_CHLTR : ----------------------------------------------------------------------------------------------- : -TRPA_ECOLI : ----------------------------------------------------------------------------------------------- : -TRPA_VIBCH : ----------------------------------------------------------------------------------------------- : -TRP_COPCI : YSNRPSNLYLAENLTKEAGGANIWLKREDLNHTGSHKINNALGQILLAKRIGKTRIIAETGAGQHGVATATVCAKFGLECVIYMGAEDVRRQALK : 439TRP_NEUCR : WMGRPGQLHKAERLTEYAGGANIWLKREDLNHTGSHKINNALGQLLLARRLGKKKIIAETGAGQHGVATATVCAKFGMECTVFMGAEDVRRQALN : 450A1C701_ASPCL : YMGRPSSMHLANRLTEHVGGANIWLKREDLNHTGSHKINNALGQILIARRLGKTRIIAETGAGQHGVATATVCAKFGMKCVVYMGAEDVRRQALN : 465TRPB_CHLTR : YAGRQTPLTEVKNFARAIDGPRVFLKREDLLHTGAHKLNNALGQCLLAKYLGKTRVVAETGAGQHGVATATACAYLGLDCVVYMGAKDVERQKPN : 142TRPB_ECOLI : YAGRPTALTKCQNITAGTN-TTLYLKREDLLHGGAHKTNQVLGQALLAKRMGKTEIIAETGAGQHGVASALASALLGLKCRIYMGAKDVERQSPN : 145TRPB_VIBCH : YAGRPTALTLTQNITKGTK-TKLYLKREDLLHGGAHKTNQVLGQALLAKRMGKHEIIAETGAGQHGVATALACALLGLKCRVYMGAKDVERQSPN : 144 480 * 500 * 520 * 540 * 560 * TRPA_CHLTR : ----------------------------------------------------------------------------------------------- : -TRPA_ECOLI : ----------------------------------------------------------------------------------------------- : -TRPA_VIBCH : ----------------------------------------------------------------------------------------------- : -TRP_COPCI : LFRIEMLGGKAWVIPVHSGSCTLKDAVNEAMRDWVTNLSTTHYLVGSAIGPHPFPTIVRDFQKVIGEEIKAQLKEVRGKLPDVVVACVGGGSNAI : 534TRP_NEUCR : VFRMKLLGAK--VVAVEAGSRTLRDAVNEALRYWVVNLADTHYIIGSAIGPHPFPTIVRTFQSVIGNETKQQMLEKRGKLPDAVVACVGGGSNAV : 543A1C701_ASPCL : VFRMKLLGAS--VVAVDAGSRTLRDAVNEALRAWVVDLDTTHYIIGSAIGPHPFPTIVRTFQSVIGEETKQQMKEAIGKLPDAVVACVGGGSNAV : 558TRPB_CHLTR : VEKMRFLGAE--VVSVTKGSCGLKDAVNQALQDWATTHSFTHYCLGSALGPLPYPDIVRFFQSVISAEVKEQIHAVAGRDPDILIACIGGGSNAI : 235TRPB_ECOLI : VFRMRLMGAE--VIPVHSGSATLKDACNEALRDWSGSYETAHYMLGTAAGPHPYPTIVREFQRMIGEETKAQILEREGRLPDAVIACVGGGSNAI : 238TRPB_VIBCH : VFRMRLMGAT--VIPVHSGSATLKDACNEALRDWSASYETAHYLLGTAAGPHPFPTIVREFQRIIGEETKNQILAREGRLPDAVIACVGGGSNAI : 237 580 * 600 * 620 * 640 * 660 TRPA_CHLTR : ----------------------------------------------------------------------------------------------- : -TRPA_ECOLI : ----------------------------------------------------------------------------------------------- : -TRPA_VIBCH : ----------------------------------------------------------------------------------------------- : -TRP_COPCI : GTFYDFIPDKSVRLVGVEAGGEGIDGHKHSATLSMGQPGVLHGVRTYILQDKAGQIIETHSISAGLDYPGVGPEHAWLKDSGRADYVVCTDEDAL : 629TRP_NEUCR : GMFYPFSNDPSVKLLGVEAGGDGVDTPRHSATLTAGSKGVLHGVRTYILQNQYGQIEDTHSISAGLDYPGVGPELSNWKDTERAKFVAATDAQAF : 638A1C701_ASPCL : GMFYPFAKDTSVKLVGVEAGGDGIDTNRHSATLSGGSKGVLHGVRTYVLQDEHGQISDTHSISAGLDYPGVGPELSSWKDSDRAHFIAATDAQAL : 653TRPB_CHLTR : GFFHHFIPNPKVQLIGVEGGGLGISSGKHAARFATGRPGVFHGFYSYLLQDDDGQVLQTHSISAGLDYPSVGPDHAEMHESGRAFYTLATDEEAL : 330TRPB_ECOLI : GMFADFINETNVGLIGVEPGGHGIETGEHGAPLKHGRVGIYFGMKAPMMQTEDGQIEESYSISAGLDFPSVGPQHAYLNSTGRADYVSITDDEAL : 333TRPB_VIBCH : GMFADFIEEESVRLIGIEPAGKGIHTHQHGAPLKHGKTGIFFGMKAPLMQDEHGQVEESYSVSAGLDFPSVGPQHAYLNAIGRAEYESITDDEAL : 332 * 680 * 700 * 720 * 740 TRPA_CHLTR : ----------------------------------------------------------------------------- : -TRPA_ECOLI : ----------------------------------------------------------------------------- : -TRPA_VIBCH : ----------------------------------------------------------------------------- : -TRP_COPCI : RGFRMLTQKEGIIPALESSHAIWEGVKIAKSLP-KDKDIVICLSGRGDKDVEQISELLPKWADKLDWHVSSNAIPSK : 705TRP_NEUCR : EGFRLMSQLEGIIPALESSHGIWGALELAKTMK-PDEDVVICLSGRGDKDVQSVADELPIIGPKIGWDLRF------ : 708A1C701_ASPCL : IGFRTLAQTEGIIPALESSHAVWGAMELAKSM--KTGDIVLNLSGRGDKDVQSVADELPRLGPQIGWDLRF------ : 722TRPB_CHLTR : RAFFLLTRNEGIIPALESSHALAHLVSIAPSLP-KEQIVIVNLSGRGDKDLPQIIRRNRGIYE-------------- : 392TRPB_ECOLI : EAFKTLCLHEGIIPALESSHALAHALKMMRENPDKEQLLVVNLSGRGDKDIFTVHDILKARGEI------------- : 397TRPB_VIBCH : DAFQALARNEGIIPALESSHALAHAIKMAYAEPDKEQLLVVNLSGRGDKDIFTVHKLLEDKGAL------------- : 396

Page 13: Семейства  белков

Пример 3: регуляторы транскрипции семейства Ars

Белки гомологичны или нет?

* 20 * 40 * 60 * 80 * 10 A9B833_HERA2 : MQSLGLEPPVV-LKLLSHDLRWRLLQLLVHSDYRVHECVAALQAPMNVVSYHLRLLREAALVIERRSEADGRDVYYHLDLPSLQTAYQASAQALHPDLD : 98A9W9R6_CHLAA : MNSQPSSSALNGLRLLTDETRWKIIQSLRDSDRQVSELVTTLGLAQNLVSYHLHVLRQAGLVRAHRSDADGRVVYYSLDLAAMAALLTGIGDEL----- : 94B8G408_CHLAD : MKTPNLSSAFTGLRLLADETRWKLISELRESDRQVAELVARTGLAQNLVSYHLHVLRQSELVNTHRSDADGRVVYYSLSLTALARLLAQVSEEL----- : 94Q47YT6_COLP3 : --------------------------------------------------------------------------------------------------- : -Q5QVD7_IDILO : --------------------------------------------------------------------------------------------------- : -Q6LQ20_PHOPR : --------------------------------------------------------------------------------------------------- : - 0 * 120 * 140 * 160 * 180 * 2 A9B833_HERA2 : PFAAKTTSQAYQ--LSKPVRILYLCTHNSARSQLAEAITRHLGGSMLDVVSAGTQPAEVNPLVLATLEEKKISSAGLYSKTLQPYLEQDFDYVITVCDR : 195A9W9R6_CHLAA : ---ALPGTRPLE--LPA-VKVAFLCRANSARSQIAEAWLRVLSDGQVQAMSAGTHPQAVHPLAITVMAEVGIPIDQQVSKSITMIIDQRPDLIVTVCDI : 187B8G408_CHLAD : ---AIPTTPPPS--LPH-VKVAFLCRANSARSQMAEGWLRVLSNGQVVALSAGTHPQPVHPLAIAVMQEAGVPIDRHVAKPIDAILNQKPDVIVTVCDI : 187Q47YT6_COLP3 : ------------MTNTSRQKVLFLCTGNSARSQMAEALLKHKAGEHFEVHSAGTQPDAVDVRAIDALVKFGVDTKGLVSKNVTTFEGIPFDYVITLCNK : 87Q5QVD7_IDILO : -------------MMPMTKKVLFLCTANSARSLMAEAILRQFGNDELEVYSAGTEPTQPEPKALEALQALGVSTEGLSSKAVSDLSIDEFDYVISLCDR : 86Q6LQ20_PHOPR : --------------------------------------MRHMADDSYEVMSAGMSPETVDERVYTVLTKYDVNSDNLQSISVEALHDQHFDVVITLCDK : 61 lc nsars ae 4 5 SAGt P v 5 5 5 sk 5 5 D55535C1 00 * 220 * 240 * 260 * 280 * A9B833_HERA2 : AREQCPTLAGHPTSMHWSFADP--LRETSELAQAATIETTAQQLMTRIRFLLTTIERQQREGSK----------------------------------- : 257A9W9R6_CHLAA : AREECPVWPEAARHIHWSVADPVAIQGTADQRHAAFV-AAREELRERVRGLLALLPRWFGGGASHDT-------------------------------- : 253B8G408_CHLAD : ARETCPVWPEATRSIHWSIADPAAVVGSEEECRAAFV-AARDTIHERVRGLLALLPRWFADQSPSAVR------------------------------- : 254Q47YT6_COLP3 : ANNECRSYPNAVKQLAWDFPDPKERAGNN-----PFS-TTLTELNSRLSMFLSVEKNAISPESTPQINSITEVNNQLTDFEPISFYKCLTDDIRLKALM : 180Q5QVD7_IDILO : ARSECQLQYKENHFIAWDFPDPVSSKKTN-----AFK-KTAHELSDRIKMFLLILRKNSDKPHLFN--------------APEDFFKIMADPLRLTMIS : 165Q6LQ20_PHOPR : ASNECGLFPESDALIHWDFKDPKPLEGDQ-----GFV-DTYEGLKARIALFLMLNGEDQSDAVG-----------------PVELFKIMGDPLRLRILM : 137 A C 5 W 5 DP f 5 R5 5L 300 * 320 * 340 * 360 * 380 * A9B833_HERA2 : ------------------------------------------------------------------------------------------------- : -A9W9R6_CHLAA : ------------------------------------------------------------------------------------------------- : -B8G408_CHLAD : ------------------------------------------------------------------------------------------------- : -Q47YT6_COLP3 : LTHYHGELCVCELMEAMEEGSQPKVSRNLAVLKKAKVITDRKHGQWVFYRINPELPLWAKSVIAETTENNISQIHNELQRLAKMQNRPDRANFCK-- : 275Q5QVD7_IDILO : LLAKHKELCVCEFVDATAM-SQPKVSRHLAQLREYGLLIDRKDQRWVYYQLNPALPDWMRKIIITTADYNPQLIK-DIDNGCV-------------- : 246Q6LQ20_PHOPR : LIEDEFALSVGDLTKALSV-SQPKVSRHLALLRDAGILKDQREGLWVFYRLPENLPVWIHHILTTVRNGNPGLINNEKLKLSQIKDR-KKPGFSKKK : 232

* 20 * 40 * 60 A9B833_HERA2 : MQSLGLEPPV-VLKLLSHDLRWRLLQLL-VHSDYRVHECVAALQA-PMNVVSYHLRLLREAALVIER : 64A9W9R6_CHLAA : MNSQPSSSALNGLRLLTDETRWKIIQSL-RDSDRQVSELVTTLGL-AQNLVSYHLHVLRQAGLVRAH : 65B8G408_CHLAD : MKTPNLSSAFTGLRLLADETRWKLISEL-RESDRQVAELVARTGL-AQNLVSYHLHVLRQSELVNTH : 65Q47YT6_COLP3 : --------PISFYKCLTDDIRLKALMLTHYHGELCVCELMEAMEEGSQPKVSRNLAVLKKAKVITDR : 59Q5QVD7_IDILO : --------PEDFFKIMADPLRLTMISLLAKHKELCVCEFVDATAM-SQPKVSRHLAQLREYGLLIDR : 58Q6LQ20_PHOPR : --------PVELFKIMGDPLRLRILMLIEDEFALSVGDLTKALSV-SQPKVSRHLALLRDAGILKDQ : 58 54 5 d R5 5 V 1 q VS hL L4 55 * 80 * 100 * 120 A9B833_HERA2 : RSEADGRDVYYHL--DLPSLQTAYQASAQALH-PDLDPFAAKTTSQAYQ---------- : 110A9W9R6_CHLAA : RSDADGRVVYYSL--DLAAMAALLTGIGDELALPGTRPLE------------------- : 103B8G408_CHLAD : RSDADGRVVYYSL--SLTALARLLAQVSEELAIPTTPPPS------------------- : 103Q47YT6_COLP3 : K---HGQWVFYRINPELPLWAKSVIAETTENNISQIHNELQRLAKMQNRPDRANFCK-- : 113Q5QVD7_IDILO : K---DQRWVYYQLNPALPDWMRKIIITTADYN-PQLIKDIDNGCV-------------- : 99Q6LQ20_PHOPR : R---EGLWVFYRLPENLPVWIHHILTTVRNGN-PGLINNEKLKLSQIKDRKKPGFSKKK : 113 4 g V5Y 5 L 5 5 p

Выравнивание участков 1-111 и 279-394 (середина выкинута!)

Белки гомологичны или нет?

Page 14: Семейства  белков

Как описать то, что обнаруживается в трех примерах?

Page 15: Семейства  белков

Эволюционный домен белка – это консервативный фрагмент его последовательности. Точнее – см. следующий слайд.

Совокупность фрагментов называется семейством доменов, или просто доменом.

С каждым доменом (семейством) связаны:- название - идентификаторы - набор сходных фрагментов последовательностей белков и их выравнивание- аннотация домена- способ идентификации домена в последовательности (паттерн, профиль)

Page 16: Семейства  белков

Как найти домен

• Для нахождения домена нужно собрать все последовательности, имеющие общий консервативный участок и построить выравнивание

• например, с помощью паттерна • более прогрессивная технология – т.н. “профили”

• Доменом называется достаточно длинный консервативный участок в выравнивании, выделяющийся на фоне неконсервативных участков

• достаточно длинный – например, более 20 остатков; строгой границы нет

• Подтверждением того, что домен выделен правильно, служит наблюдение явления перетасовки доменов.

nitrogen fixation positive activator protein

Пример белка со сложной доменной архитектурой

Page 17: Семейства  белков

Гомеодомены активно перемешивались в эволюции.• Об этом можно судить по 125 различным

доменным архитектурам гомеобелков, представленным в банке Pfam

Гомеодомен

Парный домен и гомеодомен Lim домены и гомеодомен Гомеодомен, продолженный лейциновой молниейPOU домен и гомеодомен

Два гомеодомена

PBX-домен и гомеодомен

Page 18: Семейства  белков

Примеры перетасовки доменов (domain shuffling)

• 25 белков

• 9 белков

• 2 белка

• 12 белков

223 белка

243 белка

507 белков

Page 19: Семейства  белков

Определение 1.• Белки гомологичны, если содержат

гомологичный участок

Определение 2.• Фрагменты последовательностей белков,

принадлежащие одному семейству доменов, гомологичны

• Белки, имеющие одинаковые домены идущие в одинаковом порядке, гомологичны

Говорят также о гомологичности белков по основному – несущему основную функцию белка - домену

Page 20: Семейства  белков

Эволюционные домены часто, но не всегда совпадают со структурными доменами.

Page 21: Семейства  белков

Домены часто, но не всегда, имеют одинаковую функцию. Например:

– HTH_5 - ДНК- связывающий домен ряда транскрипционных факторов

– TrpA – цепочка А триптофансинтазы– Homeobox, он же гомеодомен, – ДНК-

связывающий домен множества эукариотических транскрипционных факторов

Page 22: Семейства  белков

Словарик

• Сайт – чем-либо знаменитый набор остатков• остатки сближены в структуре, но не обязаны идти подряд в

последовательности• например, сайт связывания ДНК• например, сайт связывания иона кальция

• Мотив – короткий консервативный участок• короткий – меньше 20 (это не мировая константа!)

• Домен (эволюционный)• Повтор – повторяющийся в данной последовательности

мотив или домен• Клан – набор семейств доменов, предположительно,

родственных, но таких, что стандартными методами построения выравниваний родство доказать не удается

Page 23: Семейства  белков

Базы семейств доменов

• Pfam• Prosite• Prints• SMART• Superfamilies• Prodom• TIGERFAM

• Interpro

Page 24: Семейства  белков

Pfam• http://pfam.sanger.ac.uk

• Большая коллекция семейств доменов Для каждого семейства есть множественное выравнивание и профиль-HMM .

• Состоит из 2-х частей:

PfamA – курируемая часть, покрывает 76% UniProt

PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов, не вошедших в PfamA (раньше – ProDom, теперь – ADDA) .

• Удобна для анализа доменной структуры белков.

Page 25: Семейства  белков

Язык Pfam :

Семейство – коллекция гомологичных белков.

Домен – структурная единица, которую можно найти во множественном выравнивании.

Повтор – короткая единица, нестабильная сама по себе, но образует стабильные структуры, если есть много копий.

Мотив – короткая единица структуры вне глобулярных доменов.

Клан – группа родственных записей.

Page 26: Семейства  белков

Какая информация закодирована в картинке доменов белка

• Прямоугольники с закругленными краями – найден домен целиком.• Край прямоугольника зубчатый – найден только фрагмент домена, за

зубчиками домен не продолжается, хотя должен был бы быть.• Прямоугольник с острыми краями – мотив, трансмебранный участок,

участок малой сложности (например, десять остатков A) и т.п. – не является эволюционным доменом!

• Цветная полоска – домен из PfamB, т.е. найденные программой, автоматически выровненные, но не проанализированные экспертом, сходные по последовательности фрагменты разных белков.

• Домен, имеющий ID вида DUF… с номером - Domain of Unknown Function

Page 27: Семейства  белков

PfamProsite PrintsBlocks

Smart

(ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown)

Example: ENTK_HUMAN (Enteropeptidase precursor)

Сравнение

Page 28: Семейства  белков

Домен внутри другого домена!

• В нижней последовательности – всего 2 домена из PfamA плюс домен из PfamB (разноцветная полоска). Домен Hom_end встроен внутрь домена Hom_end_hint. Это значит, что если из нижней последовательности вырезать фрагмент от начала зеленого до конца второго зеленого а потом удалить красный кусочек и склеить то, что осталось, то полученная последовательность целиком гомологична зеленому фрагменту из верхней последовательности.

Page 29: Семейства  белков

Создание интегрированной базы данных InterPro

InterPro entries

IPR000001-

IPR011000

Интегрирование

родственных подписей

«вручную»

PROSITE

PFAM

PRINTS

ProDom

SMARTTIGRFAMs

PIRSF

SUPERFAMILY

InterPro- an integrated resource of protein families, domains and functional sites.