3 встреча — Биоинформатика (продолжение) (А. Фединцев)
DESCRIPTION
3 встреча Smolensk Computer Science Club Презентация Александра Фединцева про биоинформатику (продолжение) ВКонтакте: http://vk.com/scsc3 Видео: https://www.youtube.com/watch?v=sSr3zhFzUgIv=b3TZEeeIQ1cTRANSCRIPT
![Page 1: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/1.jpg)
Операции преобразования строк
Подстановка kill bill
Вставка kill skill
Удаление fear ear
![Page 2: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/2.jpg)
1. Расстояние Хэмминга (подстановка)
dH(GCAT,CGAT) = 2
2. Расстояние Левенштейна (удаление, вставка, подстановка) dE(CGACG, GTCGA) = 3
![Page 3: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/3.jpg)
Рекуррентная формула для расстояния Левенштейна
![Page 4: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/4.jpg)
Подсчет расстояния Левенштейна
“ T E S T
“
S
E
T
i
j
![Page 5: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/5.jpg)
“ T E S T
“ 0
S
E
T
Подсчет расстояния Левенштейна
0
0
![Page 6: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/6.jpg)
“ T E S T
“ 0
S 1
E
T
Подсчет расстояния Левенштейна
![Page 7: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/7.jpg)
Подсчет расстояния Левенштейна
“ T E S T
“ 0
S 1
E 2
T
![Page 8: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/8.jpg)
Подсчет расстояния Левенштейна
“ T E S T
“ 0
S 1
E 2
T 3
![Page 9: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/9.jpg)
Подсчет расстояния Левенштейна
“ T E S T
“ 0 1 2 3 4
S 1
E 2
T 3
![Page 10: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/10.jpg)
Подсчет расстояния Левенштейна
“ T E S T
“ 0 1 2 3 4
S 1 1
E 2
T 3
![Page 11: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/11.jpg)
Восстановление редакционного предписания
1) вертикальный переход — удаление символа из s1;
2) горизонтальный переход — вставка символа из s2 в s1;
3) диагональный переход — совпадение или замена.
![Page 12: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/12.jpg)
Подсчет расстояния Левенштейна
“ T E S T
“ 0 1 2 3 4
S 1 1 2 2 3
E 2 2 1 2 3
T 3 2 2 2 2
![Page 13: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/13.jpg)
Алгоритм в виде, описанном выше, требует O(n*m) операций и такую же память. Последнее может быть неприятным: так, для сравнения файлов длиной в 10^5 строк потребуется около 40 гигабайт памяти.
Если требуется только расстояние, легко уменьшить требуемую память до O(min(n, m)) . Для этого надо учесть, что после вычисления любой строки предыдущая строка больше не нужна.
![Page 14: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/14.jpg)
Взвешенный редакционный граф
![Page 15: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/15.jpg)
Цели выравнивания двух последовательностей:
- соизмерить их сходство и установить соответствие между остатками;
- отметить консервативные и вариабельные участки;
- высказать соображения об эволюционных взаимосвязях.
![Page 16: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/16.jpg)
Схожие трехмерные структуры белков
Вставка в «синей» последовательности
![Page 17: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/17.jpg)
Типы выравнивания
- Локальное – поиск фрагментов наиболее похожих друг на друга
домовой домовой домовойскупидом водомерка водомерка
- Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару
лесовоз ---лесо---воз ледоход лед---оход---
![Page 18: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/18.jpg)
Рекуррентная формула алгоритма Нидлмана-Вунша
![Page 19: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/19.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1
R -2
T -3
T -4
E -5
I -6
N -7
![Page 20: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/20.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2
T -3
T -4
E -5
I -6
N -7
![Page 21: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/21.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3
T -4
E -5
I -6
N -7
![Page 22: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/22.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4
E -5
I -6
N -7
![Page 23: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/23.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5
I -6
N -7
![Page 24: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/24.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -3
I -6
N -7
![Page 25: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/25.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7
![Page 26: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/26.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 27: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/27.jpg)
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 28: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/28.jpg)
NY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 29: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/29.jpg)
INTY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 30: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/30.jpg)
EIN-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 31: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/31.jpg)
TEINT-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 32: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/32.jpg)
TTEINET-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 33: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/33.jpg)
RTTEINRET-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 34: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/34.jpg)
PRTTEINPRET-TY
_ P R E T T Y
_ 0 -1 -2 -3 -4 -5 -6
P -1 0 -1 -2 -3 -4 -5
R -2 -1 0 -1 -2 -3 -4
T -3 -2 -1 -1 -1 -2 -3
T -4 -3 -2 -2 -1 -1 -2
E -5 -4 -3 -2 -2 -2 -2
I -6 -5 -4 -3 -3 -3 -3
N -7 -6 -5 -4 -4 -4 -4
![Page 35: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/35.jpg)
Все замены аминокислот не являются равновероятными и в ходе эволюции чаще происходят замены на сходные по физико-химическим свойствам аминокислоты!!!
Так в ходе эволюции гидрофобный изолейцин достаточно часто заменяется на гидрофобный валин и редко на гидрофильный цистеин. Исследования эволюционных изменений различных белковых семейств позволили установить частоты фиксированных мутаций аминокислот и нуклеотидов и обобщить полученную информацию в виде матриц. В настоящее время используются серии белковых матриц Blosum и PAM.
![Page 36: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/36.jpg)
Матрица РАМ 250
![Page 37: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/37.jpg)
Матрица Blosum 45
![Page 38: 3 встреча — Биоинформатика (продолжение) (А. Фединцев)](https://reader037.vdocuments.net/reader037/viewer/2022103017/557f657bd8b42af1298b4876/html5/thumbnails/38.jpg)
Отличия матриц
Основными отличиями матриц РАМ и Blosum являются: 1) использование матрицами РАМ простой эволюционной модели (подсчет замен на ветвях филогенетического древа); 2) матрицы РАМ основаны на учете мутаций по принципу глобального выравнивания (в высококонсервативных и высокомутабельных участках), а матрицы Blosum – локального (только высококонсервативных участков); 3) для матриц РАМ замены в группах последовательностей подсчитываются сходным образом.