diploma work
TRANSCRIPT
1
Дипломная работа
Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов
Научные руководители:
Елена Михайловна Смекалова, к.х.н., ХПСПётр Владимирович Сергиев, д.х.н., доцент, ХПС
Научный куратор:
Головин Андрей Викторович, к.х.н., ФББ
«Анализ мотивов в больших массивах данных»
Задача поиска и анализа мотивов
● Поиска генов в геномах в т.ч. для нкРНК
● Идентификации цис-регуляторных элементов генов
● Анализа, в т.ч. статистического, как наборов генов, так и генома в целом
● .......
В данной работе:● Применён поиск по
паттернам для нахождения низкогомологичных генов нкРНК — TER
● Анализ распределений последовательностей Шайн-Дальгарно и их регуляторных элементов
актуальна для
2
Мотив — характерное сочетание остатков в цепях биополимеров.Паттерн — поисковый шаблон для мотивов.
Часть 1
Универсальный поиск по паттернам,поиск теломеразных РНК
3
4
Web BLAST:● Нет поддержки паттернов● Нет набора выборки● Длина запроса не менее 7 нт● Только для близких генов● Низкая скорость и стабильность
Существующие инструменты ?
fragrep2, web MEME, HMMer● Высокая сложность редактированя● Невозможность построения
шаблонов de novo● Ошибки авто-построения● Преимущественно для белков● Зависимость от гомологов● Низкая скорость
Позиционные весовыематрицы
Скрытые модели
Маркова
Построенные на гомологах математические модели усреднённой последовательности.
5
Создать универсальный инструмент для поиска генов с произвольно задаваемыми паттернами и возможностью формирования выборок с адаптацией под некодирующие РНК
Задачи:
Выполнить поиск теломеразных РНК (TER) в организмах с известными геномами, где эти гены неизвестны
6
Теломеразные РНК● Крайне низкая
гомология● Значительная
вариабельность длины
● Матричный участок теломерного повтора
● Общие элементы вторичной структуры
● Общие элементы в пределах группы
● Нет длинных рамок считывания для консервативных белков
Сложности поиска:
Критерии поиска:
Общая топология TER
7
Схема работы инструмента mfilterВыборка
● По короткой последовательности формируется выборка кандидатов
● Фильтрация по произвольно заданным паттернам с диапазонами
● Отбор кандидатов, содержащих известные белки - pfilter
● Сравнение каждого кандидата с пробной последовательностью
http://93.180.63.163/mfilter/man_rus.html
8
Проверка работоспособности mfilter
http://93.180.63.163/mfilter/
Поиски TER в модельных организмах
организм матрица итого
Положительный контроль
AAATCCGTACACCACATACCTAA
240 1 1 1
CATCCGTAC
58 45 3 3 3 3
CTAACCCTAA
9005 8987 8 1 1
Отрицательный контроль
CAATCCCA
5987 5965 0 0
TGACTAACCC
5 5 0 0 0
граничныеусловия
Est1консенсус
псевдоузелSm сайт
илипсевдоузел
.{100,600}<псевдоузел>
K. lactis
.{100,300}gaatg
.{100,600}<псевдоузел>
.{100,1500}at{3,6}g
C. albicans
.{20,40}TGT{4}.{5,15}CT{3}
.{10,50}AAAAA
Danio rerio
.{20,40}TGT{4}.{5,15}CT{3}
D.melanogaster
.{100,300}gaatg
.{100,600}<псевдоузел>
E. coli
9
Проверка
http://93.180.63.163/mfilter/
Danio rerio
BLAST
PWM
10
Выбор организмов:Дрожжи: Yarowia lipolytica основной объект
http://93.180.63.163/mfilter/
11
● Теломерный повтор: GGGTTAGTCA
Конструирование паттернов
● Sm сайт: at{3,6}g
● Est1 связывающая шпилька: gaatg
● ПсевдоузелTGACTAACCCGACTAACCCTACTAACCCTGCTAACCCTGATAACCCTGACAACCCTGACTACCCTGACTACCCTGACTAACCTGACTAACCTGACTAACC
TGACTAACCCМатричный участок:
http://93.180.63.163/mfilter/
?
12
● Получение выборки со всеми вариантами минимальной матрицы● Отбор по паттерну псевдоузла● Удаление дубликатов кандидатов● Разметка паттернов● Исключение кандидатов с известными генами (базы CDD, Rfam и NR/NT)● Выравнивание псевдоузла с псевдоузлами рода Candida● Картирование начала, конца и консервативных доменов TER рода Candida● Детекция структур Смыкания трёх спиралей и Est1-шпильки● Ручное сворачивание псевдоузла
http://93.180.63.163/mfilter/
Алгоритм поиска гена ylTER
13
ylTER16 кандидатов гена ylTER с ранжировкой (диапазоны, паттерны, дополнительные нуклеотиды) :
Кандидат 071: картировано начало и 2 консервативных домена, 7+3 доп.нт. Матрицы, длина около 1600, псевдоузел выравнивается, найдены структуры, близкие к Est1 и TWJ. Консенсуса Est1 не найдено.
Кандидат 033:картировано начало и конец, псевдоузел выравнивается, консенсус Est1 есть (но не найдено структуры), детектирован кандидат TWJ, матрица имеет 4 близких доп. нт. Длина кандидата - 2870нт.
http://93.180.63.163/mfilter/
6 плохих6 средник2 хороших2 отличных
14
● Выполнены выравнивание и анализ последовательности гена с ближайшими родственниками и человеком
● Проведён анализ промотерной области
● Определены полиморфизмы
http://93.180.63.163/mfilter/
голый землекоп(Тестирование и калибровка mfilter)
Heterocephalus glaber
CR2 -p3
CR7 -p8b
15
Промотерная область hgTER
Делеция характерна для
всех грызунов
Сбой Sp1.2Характерен для родственных видов: морской свинки и шиншиллы
Не выявлено отличий структурной и промотерной области гена TER у организма Heterocephalus glaber между ближайшими родственными видами.
http://93.180.63.163/mfilter/
Выявлены 2 полиморфизма:A->G в CR2-p3 (111 нт в hTER) — в первой петле псевдоузла, характерный для некоторых грызунов.G->A в CR7-p8b (422 нт в hTER) — в стебеле шпильки между H и ACA боксами, характерный для некоторых амфибий.
Матрица
Начало транскрипта
Часть 2
Статистический анализ последовательностей Шайн-Дальгарно
16
17
Последовательности Шайн-Дальгарно
● Консервативные последовательности в бактериальных генах для эффективного связывания мРНК с рибосомой при инициации трансляции.
● Могут иметь [AU] богатые энхансеры в 5' стороне.
18
Задача: Построение распределений числа генов по:
● Размеру блока ШД● Расстоянию до старта● Размеру [AU] блока● Расстоянию до [AU] блока● Расстоянию до пред. гена● Доле [AU] перед геном+Учёт данных транскриптома
Объект: E. coliAcc: U00096.2
4,6 Млн. нт.> 4500 аннотаций генов и стр. транскриптома
[AU] - состав
19
1) Независимость распределения длин ШД от длин стартовых спейсеров.
2) Повышение доли AU в областях перед ШД для первых в оперонах и одиночных генах относительно всего генома.
Результаты
20
http://93.180.63.163/mfilter/
21
Выводы:1) Создан веб-сервис для универсального поиска генов по
паттернам, кодирующим областям и пробным последовательностям — mfilter (http://93.180.63.163/mfilter/) и адаптация его для поиска теломеразных РНК (http://93.180.63.163/cgi-bin/tab_tr.pl).
2) Найдены биоинформатическими методами кандидаты на роль гена теломеразной РНК в организме Yarrowia lipolytica и оценён массив кандидатов аналогичного гена в организме Caenorhabditis elegans.
3) Найдены и проанализированы in silico последовательности структурной и промотерной части гена теломеразной РНК организма Heterocephalus glaber.
4) Выполнены анализы распределений последовательностей Шайн-Дальгарно для генома E. coli по их размерам, AU-составу энхансерных участков, случаям реинициации и расположения в оперонах при учёте данных секвенирования транскриптома.
22
22
23
24
Текущий интерфейс
25
Выводимые данные
26
aatccc.{100,200}tgac(g|t)tgat
Паттерновый шаблон и грамматика вводаЦепи из паттернов — нуклеотидных консенсусов в грамматике регулярных выражений с диапазонами расстояний друг между другом.
На основе первичного паттерна BLAST формирует пул первичных кандидатов, далее они проверяются на совпадение с шаблоном
27
071
033
28
t{0,6}([agc].?)?[agc]?t{2,4}[agc]?t{1,4}
.{0,9}a[tg]t.{0,3}gat.{0,7}
t{1,5}[agc]{0,2}t{1,4}[agc]{0,4}t{2,4}
a{0,5}([tgc].?)?[tgc]?a{2,4}[tgc]?a{2,5}
29
30
31
Общий тип: большинство организмов
Quoll-тип: Quoll, H. glaber
delAA, MD, leukem.
Суслики, Полёвки - с полиморфизмом по этой букве, но структурный тип как у
человека
32
Человек Шиншилла
H. glaberМорская свинка
DCC→G
Мышь
Жаба
33
Nucleic Acids Res. 2008,36(Database issue):D339-43. Epub 2007 Dec 11.
34
Транскриптом
34