Построение множественных выравниваний

32
Построение множественн ых выравниваний ФББ МГУ, 2014г. Аксянов Е.А.

Upload: stacy-gay

Post on 02-Jan-2016

40 views

Category:

Documents


1 download

DESCRIPTION

Построение множественных выравниваний. ФББ МГУ, 2014г. Аксянов Е.А. Постановка биологической задачи Постановка математической задачи Почему задача не решается “ в лоб ” Понятие эвристического алгоритма Источники ошибок Построение множественного выравнивания снизу Современные программы - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Построение  множественных выравниваний

Построение множественных

выравниванийФББ МГУ, 2014г.

Аксянов Е.А.

Page 2: Построение  множественных выравниваний

Выравнивания – 2014 2

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 3: Построение  множественных выравниваний

Выравнивания – 2014 3

Биологическая задача• Дано: N последовательностей• Найти: правильное множественное

выравнивание, отражающее гомологию остатков

то есть

кластеры, где есть гомология между остатками

участки, где гомологии между остатками нет

Page 4: Построение  множественных выравниваний

Выравнивания – 2014 4

Биологическая задача

то есть нам надо1. Расставить в последовательностях гэпы2. Отметить участки гомологии

кластеры, где есть гомология между остатками

участки, где гомологии между остатками нет

Page 5: Построение  множественных выравниваний

Выравнивания – 2014 5

Разумеется,никакая программа

окончательного ответао гомологии остатков не даст

То есть никакая программа не может построить множественное

выравнивание

Page 6: Построение  множественных выравниваний

Выравнивания – 2014 6

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 7: Построение  множественных выравниваний

Выравнивания – 2014 7

Математическая задача• Дано: N последовательностей• Найти: множественное “выравнивание”, то

есть расставить гэпы• Как их правильно расставить?

Page 8: Построение  множественных выравниваний

Выравнивания – 2014 8

Математическая задача• Можно придумать очень много разных

“выравниваний”• Надо выбрать наилучшее• То есть, нужна некая мера качества

конкретного “выравнивания” (score)

• Надо выбрать выравнивание с наибольшим весом

Page 9: Построение  множественных выравниваний

Выравнивания – 2014 9

Математическая задача• Задание: придумать вес для множественного

выравнивания• Например: сумма весов всех парных

выравниваний, которые можно получить из множественного

Page 10: Построение  множественных выравниваний

Выравнивания – 2014 10

Математическая задача• Задание: придумать вес для множественного

выравнивания• Например: сумма весов всех парных

выравниваний, которые можно получить из множественного

Возможные выравнивания Score

S12

S13

S16

Page 11: Построение  множественных выравниваний

Выравнивания – 2014 11

Математическая задача• Задание: придумать вес для множественного

выравнивания• Например: сумма весов всех парных

выравниваний, которые можно получить из множественного

Score = S12 + S13 + … + S1N + S23 + S24 + … + SN-1N

Score =∑𝑖 , 𝑗

𝑆𝑖𝑗

Page 12: Построение  множественных выравниваний

Выравнивания – 2014 12

Математическая задача• Дано: N последовательностей• Найти: множественное “выравнивание” с

максимальным весом

Score =∑𝑖 , 𝑗

𝑆𝑖𝑗

Из опыта известно, что кластеры в таком выравнивании примерно

совпадают с участками гомологии

Page 13: Построение  множественных выравниваний

Выравнивания – 2014 13

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 14: Построение  множественных выравниваний

Выравнивания – 2014 14

Эвристические алгоритмы• Наивный алгоритм: перебрать все возможные

“выравнивания”, конечно, так не получится – их слишком много• Не получится даже применить алгоритм,

аналогичный алгоритмам парного выравнивания

для множественного выравнивания возможных вариантов сильно больше, чем для парного• Применяют, т.н. эвристические алгоритмы

Page 15: Построение  множественных выравниваний

Выравнивания – 2014 15

Эвристические алгоритмы• Эвристический алгоритм – такой алгоритм,

который не гарантирует получение точного решения математической задачи, зато работает достаточно быстро

• Их применяют, т.к. из опыта известно, что конкретный алгоритм дает неплохой результат

Примеры: PDBeFold, BLAST, Muscle

Page 16: Построение  множественных выравниваний

Выравнивания – 2014 16

Ошибки при построении множественного выравнивания

возникают так как

1. Математическая задача не эквивалентна биологической

2. Математическая задача решается не точно, а

приблизительно

Page 17: Построение  множественных выравниваний

Выравнивания – 2014 17

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 18: Построение  множественных выравниваний

Выравнивания – 2014 18

Построение множественного выравнивания

• Идея: соберем выравнивание из его частей Построим парное выравнивание последовательностей 1 и 2, например ANK-KG AQKTKA Построим парное выравнивание последовательностей 3 и 4, например AQRKA AQRKA

Page 19: Построение  множественных выравниваний

Выравнивания – 2014 19

Построение множественного выравнивания

И соберем их вместе ANK-KG AQKTKA A

AAQAQ

AQRKAAQRKA

AQRAQRAQR-KAQR-KAQR-KAAQR-KA

Требуется уметь выравнивать два выравнивания.Это вы попробуете сделать на практикуме

Page 20: Построение  множественных выравниваний

Выравнивания – 2014 20

Построение множественного выравнивания

ANK-KGAQKTKA AQRKA-AQRKA-

Выравнивание выравниваний – это способ расстановки гэпов (гэп всегда добавляется во все последовательности одного из исходных выравниваний). Два выравнивания можно выровнять многими способами, нам надо выбрать наилучший

ANK-KGAQKTKA AQR-KAAQR-KA

A-NK-KGA-QKTKA AQR--KAAQR--KA

Page 21: Построение  множественных выравниваний

Выравнивания – 2014 21

Построение множественного выравнивания

ANK-KGAQKTKA AQRKA-AQRKA-

Задание: придумать меру сходства между колонками в выравнивании.Например: Среднее значение в матрице BLOSUM62 для всех пар аминокислот в данной колонке (из разных исходных выравниваний)

ANK-KGAQKTKA AQR-KAAQR-KA

A-NK-KGA-QKTKA AQR--KAAQR--KA

Page 22: Построение  множественных выравниваний

Выравнивания – 2014 22

Построение множественного выравнивания

ANK-KGAQKTKA AQRKA-AQRKA-

Выравнивание можно рассматривать как “последовательность колонок”. Тогда все что нам нужно для выравнивания выравниваний – уметь оценить сходство между колонками. Далее можно применить те же методы, что и для построения парных выравниваний.

ANK-KGAQKTKA AQR-KAAQR-KA

A-NK-KGA-QKTKA AQR--KAAQR--KA

Page 23: Построение  множественных выравниваний

Выравнивания – 2014 23

Построение множественного выравнивания

Еще надо знать порядок объединения последовательностей в одно выравнивание.Например, даны последовательности:1 DDKKRAA2 DDKRRAA3 DDKRAA4 DDKKRRAA

1+2 DDKKRAA DDKRRAA

3+4 DDK--RAA DDKKRRAA

DDKK-RAA DDKR-RAA

+ = DDK--RAA DDKKRRAA

1+3 DDKKRAA DDK-RAA

2+4 DD-KRRAA DDKKRRAA

DD-KKRAA DD-K-RAA

+ = DD-KRRAA DDKKRRAA

Page 24: Построение  множественных выравниваний

Выравнивания – 2014 24

Построение множественного выравнивания

• Этап 1: Построение guide tree. Например, – построить все парные выравнивания,

оценить сходство всех пар последовательностей– объединять в дереве сначала близкие

последовательности, потом все более и более далекие

XP 803743.1 EDP32935.1 XP 764698.1 XP 001709567.1 EDS88818.1 XP 001710113.1 XP 001324059.1 AAC24668.2 2I1AA XP 820363.1

5

Page 25: Построение  множественных выравниваний

Выравнивания – 2014 25

Построение множественного выравнивания

• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания

XP 803743.1 EDP32935.1 XP 764698.1 XP 001709567.1 EDS88818.1 XP 001710113.1 XP 001324059.1 AAC24668.2 2I1AA XP 820363.1

5

Сначала строим парное выравнивание этих последовательностей

Затем добавляем эту

Потом парное выравнивание этих

И т.д.

Page 26: Построение  множественных выравниваний

Выравнивания – 2014 26

Построение множественного выравнивания

• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания

последовательности остаются выровненными также, как в парных выравниваниях, что не всегда корректно.

Вообще говоря, такой алгоритм вовсе не гарантирует решения математической задачи –

отыскания выравнивания с максимальным весом. Для улучшения выравнивания применяют оптимизацию.

Page 27: Построение  множественных выравниваний

Выравнивания – 2014 27

Построение множественного выравнивания

• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания

последовательности остаются выровненными также, как в парных выравниваниях, что не всегда корректно

• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностей

Page 28: Построение  множественных выравниваний

Выравнивания – 2014 28

Построение множественного выравнивания

• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностейDD-KKRAADD-K-RAADD-KRRAADDKKRRAA

DD-KKRAADDKKRRAA

DD-K-RAADD-KRRAA

DD-KKRAADD-KRRAADDKKRRAA

DD-K-RAA

DD-KKRAADD-KRRAADDKKRRAA

DD--KRAA

DD-KKRAADD--KRAADD-KRRAADDKKRRAA !

DD-KKRAADDKKRRAA

DD-K-RAADD-KRRAA

Page 29: Построение  множественных выравниваний

Выравнивания – 2014 29

Построение множественного выравнивания

• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностей

Конечно, оптимизация тоже не гарантирует решения математической задачи. Но из опыта известно, что результат получается лучше, чем без нее.

Page 30: Построение  множественных выравниваний

Выравнивания – 2014 30

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 31: Построение  множественных выравниваний

Выравнивания – 2014 31

Современные программы• ClustalW – устаревшая, не использует

оптимизацию

• ClustalO• Muscle• Mafft• T-coffee• отличаются деталями реализации,

все работают прилично

Page 32: Построение  множественных выравниваний

Выравнивания – 2014 32

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD