Сравнительный анализ последовательностей ДНК
DESCRIPTION
Сравнительный анализ последовательностей ДНК. БиБи 4 курс Осень 2005. Идентификация генов. Новый геном = > нет обучающей выборки «Псевдообучение» Длинные открытые рамки считывания (ОРС) Открытые рамки, гомологичные известным генам «Самосогласование» - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/1.jpg)
Сравнительный анализ последовательностей ДНК
БиБи 4 курс
Осень 2005
![Page 2: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/2.jpg)
Идентификация генов• Новый геном => нет обучающей выборки• «Псевдообучение»
– Длинные открытые рамки считывания (ОРС)– Открытые рамки, гомологичные известным генам
• «Самосогласование»– Режем на фрагменты, делим на два кластера, обучаемся– Предсказываем– Переобучаемся– Etc.
• Сравнение с родственными геномами– CRITICA: (пара) ОРС=ген, если сходство на уровне
аминокислотных последовательностей выше, чем можно было бы ожидать для формальных транслятов при заданном уровне сходства нуклеотидных последовательностей
![Page 3: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/3.jpg)
rbsD в энтеробактериях
Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCSen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCStm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCEco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGCYpe TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGSen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGStm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGEco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTGYpe GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *
![Page 4: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/4.jpg)
rbsD в энтеробактериях: ответ
Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCSen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCStm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCEco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGCYpe TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGSen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGStm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGEco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTGYpe GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *
![Page 5: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/5.jpg)
Паттерн нуклеотидных заменв белок-кодирующих областях:
pdxB в энтеробактериях
Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTStm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTSen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTEco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATTKpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATGYpe TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * *
Sty AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGGStm AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGGSen AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGGEco ACGTATCCTTATAC----------CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGGKpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAGYpe ATGTTTCAGCAAATAT--------CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** **
Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCStm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCSen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCEco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGCKpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGTYpe CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** 123123123123123123123123123123123123123
![Page 6: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/6.jpg)
Белковое выравнивание (ribD)
Eco V_____QDEYYMARALKLAQRGRFTTHPNPNVGCVIVKDGEIVGEGYHQRAGEPHAEVHA QD +M RAL LA +G +TT PNP VGCV VK+GEIVGEG+H +AG+PHAE A Hin MLEFSSQDCVFMQRALDLAAKGQYTTTPNPSVGCVLVKNGEIVGEGFHFKAGQPHAERVA
Eco GCGCGCCTGGAGGACTAA----G----------CCGTGCAGGAC-GAGTATTACATGGCGCGGGCGCTAA
Hin GAAAAATTAAAGGATTAATTATGCTTGAATTTTCCTCACAAGATTGCGTATTT-ATGCAACGTGCCTTAG * * **** *** * ** ** ** * ***** *** ** ** **
![Page 7: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/7.jpg)
Множественное выравнивание
REC06584 109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRECO04717 109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRECS04752 109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRTY01088 51 tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaatRSY05814 51 tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaatREO01497 66 atagcgcctgtttgatttcattgaattggggaaggcgtgtctacggcggaagtattgaatRYPK00397 45 gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaacRYP04048 45 gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaacRYE04903 44 aaccggcctgtgcagatctcatagttggggaatagtgtgtcaaccgcagcagtgataaatRVFI01204 0 ........tattattgatgagttttttatgtccagcatgatcgcagagcaaccaatggaaREC06584 f l f q a i g v n = = = V A Q A E V L N RECO04717 f l f q a i g v n = = = V A Q A E V L N RECS04752 f l f q a i g v n = = = V A Q A E V L N RTY01088 * r l f * f m v n g v n V A Q A E V L N RSY05814 * r l f * f m v n g v n V A Q A E V L N REO01497 i a p v * f h * i g e g V S T A E V L N RYPK00397 a g l c r s n s w g k s V S T A A V I N RYP04048 a g l c r s n s w g k s V S T A A V I N RYE04903 n r p v q i s * l g n s V S T A A V I N RVFI01204 . . . i i d e f f m s s M I A E Q P M E
![Page 8: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/8.jpg)
![Page 9: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/9.jpg)
Эукариоты: сплайсированное выравнивание
• Ген с известными гомологами (Procrustes, GeneWise)– Операция вставки интрона– Блочная модель
• Использование сходства (BLAST) как дополнительного параметра (GenomeScan)– Отступление: динамическое программирование в задаче
распознавания генов• Вершины – сайты, ребра – экзоны и интроны
– Квадратичное количество ребер, линейное время оценки веса ребра• Вершины – сайты («рельсовый граф»)
– Линейное количество ребер
• Ген без известных гомологов, но в двух геномах– Экзон-интронная структура в нуклеотидном выравнивании
(Rosetta, SGP) – Геномное сплайсированное выравнивание (Pro-Gene –
динамическое программирование, DoubleScan – HMM распознавание+выравнивание, SLAM).
![Page 10: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/10.jpg)
Динамическое программирование
Четвертая степень, если всякий раз выбирать оптимальный интрон, но внутри прямоугольника это делается один раз
![Page 11: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/11.jpg)
HMM (DoubleScan)
Match in exon
Insertion in exon
Match in exon
Match in intron
Match in intron
Insertion in intron
Match in exon
Match in intron
Match in exon
Match in exon
Inserted intron
Matching
intergenic re
gion
Matching
intergenic interval
![Page 12: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/12.jpg)
Регуляция транскрипции
• Phylogenetic footprinting – прокариоты. MENTERIC, Gibbs samplers
• Phylogenetic footprinting – эукариоты. rVISTA
• Phylogenetic shadowing
• Проверка соответствия (consistency check). Регулоги
![Page 13: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/13.jpg)
Low conservation in upstream region
yjcD
ST AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG---CCACEC AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA----CCACYP AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACATCTGC *** * *** * *** ***** * * **** ** ************* ** * * *
ST CC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G-TTGTCGTAAEC CC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-AATTGTCGCAAYP CCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATGAGTCAGGGAG ** * *** * ** ** ****** ******** **** * *** * * *
ST ATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATACCGACGAATAATAAATEC ACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCTTGACGAAAATTAAACYP AGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGCTATTTTAAAATGA-C * * * ** * * * **** * * ** * * ** * * * *
ST TCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACTCGACGCCTGGTTTAAAATTTEC TCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACTCGACGCCTGGTTTAAAATTTYP ACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCTTGATGCATTCTTTAAGCTTA * ******* * * ****** * ** *** * * ** * ** ** ** * ***** **
![Page 14: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/14.jpg)
High conservation in upstream region
purL
ST AGCGGCATTTTGCGTAACAATGCGCCAGTTGGCAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGCEC AGCGGCATTTTGCGTAAACCTGCGCCAGATGGCAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGATYP AGTGGCATTTTGCGCAACAAAACGCCAGTGTGCAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGC ** *********** ** ****** ******* *** * ** * * * *
ST GG-TGATT---------TTATTTCT-------ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGTEC GG-TGATT---------TTATTTCC-------ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTYP GGCTGTTTCTGACTGAATTATTAATAATAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGT ** ** ** ***** ***************** *** ******** ******* ** ***
ST TTCCCCCC-------------------TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA--EC TTCCCCCCC------------------TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA--YP TTTGCCCTGTTGTTGCGCCAATGAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGA ** *** *** * ** ** **** ************ ****
ST TGATGGAAATTCTGCGTGGTTCGCCTGCACTGTCTGCATTCCGTATCAATAAACTGCTGGCGCGCTTTCAGGCTGCCAACEC TGATGGAAATTCTGCGTGGTTCGCCTGCACTGTCGGCATTCCGAATCAACAAACTGCTGGCACGTTTTCAGGCTGCCAGGYP TTATGGAAATACTGCGTGGTTCACCCGCTTTGTCGGCTTTTCGTATCACCAAACTGTTGTCCCGTTGCCAGGATGCTCAC * ******** *********** ** ** **** ** ** ** **** ****** ** * ** * **** ***
![Page 15: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/15.jpg)
Menteric
![Page 16: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/16.jpg)
Multiple sites (nrd genes): FNR, DnaA, NrdR
![Page 17: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/17.jpg)
nrdD:пром.DnaAFNR NrdR
![Page 18: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/18.jpg)
Phylogenetic Shadowing (E.Rubin’s lab)
![Page 19: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/19.jpg)
Ген apo(a) есть
только у приматов
![Page 20: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/20.jpg)
Consistency filtering: the basic procedure
Genome 2Genome 2Genome 1Genome 1
Set of known sitesSet of known sites ProfileProfile
Genome NGenome N
![Page 21: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/21.jpg)
Accounting for the operon structure
«Old» genome «New» genome
A
A
BC
BC
D
XD
EF
E
F
X
X
X
X
![Page 22: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/22.jpg)
Regulogger (W.Wasserman)
Упражнение: чем это плохо?
![Page 23: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/23.jpg)
микроРНК
• ~22 нуклеотида• Комплементарны мРНК (неточно, 3’-конец –
животные; точно, кодирующая область - растения)• Подавляют трансляцию или способствуют
деградации мРНК (растения)• Предшественник – шпилька специального вида,
длина ~70 нт.• Человек – минимум 800 (экспериментально > 200),
дрозофила – 200, нематода – 100, растения – минимум сотня
• Независимые гены (м.б. полицистронные) или в интронах
• Регулируют минимум треть генов человека• В основном – гены развития?
![Page 24: Сравнительный анализ последовательностей ДНК](https://reader036.vdocuments.net/reader036/viewer/2022062518/56814560550346895db23450/html5/thumbnails/24.jpg)
Как искать
• Экспериментально• Консервативность
– В далеких геномах– В близких геномах – shadowing
• Наличие и консервативность мишеней (трудно, если в белок-кодирующей области)
• Синтения, кластеризация генов• Кластеризация сайтов в мРНК-мишенях• Проверка функции