"Распределённые вычисления в биоинформатике на...
DESCRIPTION
В докладе речь пойдёт об алгоритмических задачах в области анализа генома человека, а также о том, почему для более эффективного их решения необходимы распределённые вычисления. Более подробно мы остановимся на подходах к решению задач сборки генома и выявления наследственных заболеваний. Затем я расскажу, как для решения этих задач используется платформа YT, и каковы её преимущества. Доклад будет интересен всем, кто хочет больше узнать о применении распределённых вычислений в биологии и об анализе генома в целом.TRANSCRIPT
Биоиформатика с использованием YT
Колесниченко Игнат
ДНК
Ген
Гомозиготы и гетерозиготы
Аллель
Терминология
3
Белок
Экзон
Мутация
Терминология
4
Задачи решаемые iBinom
Определение наследственных заболеваний:
– Поиск мутаций– Задача мать-плод– Trio-анализ– Подсчет количества хромосом
5
Поиск наследственных заболеваний
Секвенировение
Сборка генома
Поиск и анализ мутаций
6
Сборка геномаИсходные данные:
Длина генома человека примерно 3 млрд. нуклеотидов
На каждые 100-1000 символов прибор делает одну ошибку
Секвенирование делается с покрытием >30
Итого на входе 200 Гб данных.
Сборка De Novo - надо собрать одну последовательность.
7
Сборка генома
Геномы разных людей очень похожи
Сборка выравниванием
Виды отличий
– Точечные мутации– Инделы (вставки и удаления)– Транслокации (перестановки)
8
Сборка геномаАлгоритмическая постановка задачи:
Есть текст длины n (~3млрд) и много (~2млрд) коротких строк (длины 50-100), которые надо найти в тексте с учетом ошибок (замен, вставок и удалений).
Особенности:
– Много равноправных вхождений– Ошибки могут быть вызваны как мутациями, так и прибором – Необходимо учитывать качество
9
Сборка геномаРешения:
– SOAP, Bowtie, BWA – BLAT, SSAHA2
Особенности:
– Риды обрабатываются независимо– Длинные риды искать тяжелее и дольше– Многие не умеют находить инделы– Скорость работы 100Кб/с – 2Мб/с
10
Поиск точечных мутаций
Определение патогенности мутацииТребуется определить приведет ли мутация к заболеванию.
Две части:
– Мутация -> дисфункции белка– Дисфункция белка -> заболевание
Методы решения:
– Статистический– Физический
12
YT + MapReduce
13
Риды
200 Gb
Выравнивание
Shuffle
200 Gb
Поиск мутаций+
аннотация
Мутации
10 Mb
Результаты
Время анализа генома сократилось с 80 часов до 40 минут
Экономное хранение данных благодаря Erasure Coding
Анализ очень дешевый по меркам рынка
14
Спасибо за внимание!
16
Колесниченко ИгнатРазработчик YTОснователь iBinom
+7-‐903-‐166-‐51-‐64
[email protected]@yandex-team.ru
© !!! «"#$%&'», 2013