nanopores sequencing

58
Секвенирование нанопорами Михаил Колмогоров University of California San Diego Институт биоинформатики, Санкт-Петербург, 2016

Upload: bioinformaticsinstitute

Post on 20-Feb-2017

81 views

Category:

Science


1 download

TRANSCRIPT

Секвенирование нанопорами

Михаил КолмогоровUniversity of California San Diego

Институт биоинформатики, Санкт-Петербург, 2016

Методы секвенирования

● Sanger○ Риды длиной < 1000○ Малый выход эксперимента => дорого

● NGS○ Illumina, 454, Ion torrent○ Большой выход, но риды короче (50-500)

● Pacific Biosciences○ Риды средней длины 15,000○ 11-15% ошибок○ Дорогой секвенатор/химия

Методы секвенирования

● Текущие технологии:○ Клонирование○ Амплификация○ Дорогостоящие энзимы

● Основаны на физических и химических особенностях цепочек ДНК

Методы секвенирования

● Текущие технологии:○ Клонирование○ Амплификация○ Дорогостоящие энзимы

● Основаны на физических и химических особенностях цепочек ДНК

● Физические различия между отдельными нуклеотидами?

Секвенирование наносенсорами: идея

● Макромолекула проходит через пору● Транслокация модулирует сигнал, который можно

детектировать

Различные типы наносенсоров

● Биологические○ -hemolysin (1.4 nm)

● Искуственные (solid-state)○ До 0.5 nm в диаметре

Методы детектирования сигнала

● Молекула блокирует ионный ток через пору● Помещается несколько нуклеотидов

Branton et al., 2008

Методы детектирования сигнала

● Нуклеотиды отрезаются экзонуклеазойBranton et al., 2008

Методы детектирования сигнала

● Поперечный туннелирующий токBranton et al., 2008

Дополнительные сложности

● Денатурация / расплетение ДНК● “Протягивание” через пору● Контроль скорости транслокации

Oxford Nanopores: MinION

● Первый коммерческий секвенатор на основе нанопор● Стоимость

○ 1000$ - секвенатор○ Дополнительные наборы пор - 500$ - 900$○ 90$ - реагенты на ран

● Выход: 500Mb - 1Gb на пору

Image by Oxford Nanopores

MinION

● Пора на основе CsgG из E. Coli● “Heaviliy engineered motor enzyme”

○ Замедление с 106 до 200 баз в секунду Image by Oxford Nanopores

MinION II

Image by Oxford Nanopores

2D чтение

Image by Oxford Nanopores

От сигнала к ДНК

● Как декодировать сингал с поры?

University of Washington

От сигнала к ДНК

● Как декодировать сингал с поры?○ Фрагментация на отдельные события

University of Washington

От сигнала к ДНК

● Как декодировать сингал с поры?○ Фрагментация на отдельные события○ Каждому событию соответсвует k-мер

University of Washington Timp et al., 2012

Алгоритм Витерби

● Состояния - все возможные 3-меры● Наблюдения - фрагментированный сигнал● Разреженная матрица переходов: только

перекрывающиеся 3-меры

Timp et al., 2012

De Novo сборка: Nanocorrect + Celera

● Две итерации коррекции ошибок● Celera● Nanopolish

Loman et al., 2015

De Novo сборка: ABruijn

● Сборка сырых ридов, без коррекции ошибок● Риды перекрываются с помощью A-Bruijn графа● Коррекция ошибок уже собранного генома

Lin et al., 2016

Стоимость секвенирования

● MinION - 500$ за 1 Gb?

Oxford Nanopores: MinION

● Ошибки: 13-19% (до 5% 2D R9)● Проблемы с гомополимерами● Сборка E. Coli в одну хромосому, точность 99.5%● Поиск структурных вариаций / SNP

Секвенирование белков

Два нобелевских приза Фредерика Сэнгера

1977: ДНК секвенирование

Два нобелевских приза Фредерика Сэнгера

1958: Секвенирование белков

1958: Секвенирование белков - сложно, ДНК - невозможноToday: Секвенирование белков - сложно, ДНК- тривиально

1977: ДНК секвенирование

Зачем секвенировать белки?

● Белки, не закодированные явно в геноме (антитела)

● Короткие гены которые сложно предсказать

● Пост-трансляционные модификации и мутации

● ...

Image from http://www.novimmune.com/science/antibodies.html

История секвенирования белков

Edman degradation

First protein sequencing technique

1950s 1980s 2000s now

Nobel prize1958

История секвенирования белков

Bottom-up mass spectrometry

Proteins digested into peptides ~15 aaEdman

degradationFirst protein

sequencing technique

1950s 1980s 2000s now

Nobel prize2002

Nobel prize1958

Top-down mass spectrometryIntact proteins of

length ~100aa

Bottom-up mass spectrometry

Proteins digested into peptides ~15 aaEdman

degradationFirst protein

sequencing technique

1950s 1980s 2000s now

Nobel prize2002

Nobel prize1958

История секвенирования белков

История секвенирования белков

Top-down mass spectrometryIntact proteins of

length ~100aa

Bottom-up mass spectrometry

Proteins digested into peptides ~15 aaEdman

degradationFirst protein

sequencing technique

Nanopore sequencing?

1950s 1980s 2000s now

Nobel prize2002

Nobel prize1958

Сложности анализа белков

● Амионкислоты меньше нуклеотидов● Проведение через пору

○ Энзимы для ДНК не работают○ Неравномерный зарад вдоль белка

Sigalov, Nano Lett., 2008Li et al., Protein Pept. Lett., 2014

Суб-нанопора

● Пора размером меньше нанометра в тонкой неорганической кремниевой мембране○ Объем до 0.3 nm3

Kennedy et al., 2016

Сигнал с нанопоры

● Флуктуации измеренные на 250 KHz● Транслокации белков уменьшают ионный ток

Nanospectrum ->

Time (seconds)

Сигнал с нанопоры

● Флуктуации измеренные на 250 KHz● Транслокации белков уменьшают ионный ток

Сигнал →

Time (seconds)

Time (miliseconds)

От сигнала к белку

de novo секвенирование?

Сигнал

От сигнала и базы данных к белку

+идентификацияСигнал

База данных

Идентификация vs секвенирование

● Какие известные белки представлены в образце? ● В масс-спектрометрии, идентификация белков против

базы данных гораздно более надежна чем de novo секвенирование

● Надо уметь генерировать теоретический сигнал белка

Идентификация vs секвенирование

● Какие известные белки представлены в образце? ● В масс-спектрометрии, идентификация белков против

базы данных гораздно более надежна чем de novo секвенирование

● Надо уметь генерировать теоретический сигнал белка

?

Сигнал

Mean Volume модель● Сигнал пропорционален занятому объему поры● Пора вмещает насколько аминокислот (k)

Kennedy et. al., 2016

Mean Volume модель● Сигнал пропорционален занятому объему поры● Пора вмещает насколько аминокислот (k)● Сигнал пропорционален их среднему объему

Kennedy et. al., 2016

● Согласно экспериментам k=4

Mean Volume: пример

● Маленький коэффициент корреляции (0.25 - 0.45)● Регионы с сильными отклонениями от модели содержат

маленькие амонокислоты

Ошибка в зависимости от объема

● Ошибка со знаком: теоретический - эмпирический сигнал

SVR модель

● Уже доступно много сигналов с известных белков● Можно построить регрессионную модель● Для квадромера qi соответствующего сигналу ei

○ Преобразовать qi в вектор фич fi○ Разделить все сигналы на пары (fi , ei) ○ Тренируется SVR регрессор

● Как определить вектор фич fi?

Сокращенный алфавит

● Проблема: много аминокислот с похожими объемами● Тяжело различить по сигнал● Разобьем на категории: Micro, Smal, Intermediate, Large

SVR модель: пример

● SVR меодаль дает в 1.5 - 2x лучшую точность (коэффициент корреляции 0.38-0.68)

MV-model SVR-model

Ошибка в зависимости от гидрофильности

● Ошибка со знаком: теоретический - эмпирический сигнал

Регрессия с помощью Random Forest

● Необходимо включить гидрофильность аминокислот в модель

● Random Forest○ Нет оверфиттинга○ Более робастный к шуму

● Фича - вектор из объемов и гидрофильностей● Проблема: малое покрытие треировочных датасетов

Регрессия с помощью Random Forest

● Необходимо включить гидрофильность аминокислот в модель

● Random Forest○ Нет оверфиттинга○ Более робастный к шуму

● Фича - вектор из объемов и гидрофильностей● Проблема: малое покрытие треировочных датасетов

○ Расширим датасеты, перемешивая аминокислоты в 4-мерах

Кластеризация сигналов

● Много побочных факторов, влияющих на ток через пору:○ Зависимый от времени шум в ионном токе○ Инструментальный шум○ Ренавномерное прохождение белка

● Шумный сигнал● Консенсус из нескольких сигналов существенно

уменьшает уровень шума

Идентификация белков

● Для сингала S выбирается белок P из DB с лучшим R2

для данной модели○ Protein-Nanospectrum Match (PrNM)

● P-value для PrNM(P, S): вероятность того, что случайный белок такой же длины будет иметь R2 выше чем P

Сигнал Кластер сигналов S

Кластеризация

Сравнение

База данных DB

MASKAVA...

PACKAFV...

MPCGADC...

MCHDYFI...Наиболее похожий белок P

Датасеты

Результаты: точность идентификации

● Точность, в зависимости от размера консенсуса

Результаты: точность идентификации II

● Точность, в зависимости от размера консенсуса

Результаты: реальные данные

● Все белки человеческого протеома длиной 100-160

Анализ смесей белков

● В реальных данных будет представлена смесь из белков○ Сложно кластеризовать

● Можно ли разделить смесь на кластеры, соответствующие разным белкам?

Анализ смесей белков

● В реальных данных будет представлена смесь из белков○ Сложно кластеризовать

● Можно ли разделить смесь на кластеры, соответствующие разным белкам?

Благодарности

● Gregory Timp’s lab at University of Notre Dame

● Pavel Pevzner’s lab at UC San DiegoEamonn Kennedy Zhuxin Dong Gregory Timp

Pavel Pevzner

Спасибо за внимание!

● Нанопоры для ДНК○ Zlowak, Di Ventra, “Colloquium: Physical approaches to DNA

sequencing and detection”, Reviews of modern physics, 2008○ Branton et al., “The potential and challenges of nanopore

sequencing”, Nature Biotechnology, 2008○ Oxford Nanopres presentation video “No thanks, I’ve already

got one”● Нанопоры для белков

○ Kennedy et al., “Reading the primary structure of a protein with 0.07 nm3 resolution using a subnanometre-diameter pore”, Nature Nanotechnology 2016

○ Kolmogorov et al., “Single-Molecule Protein Identification b Sub-Nanopore Sensors”, submitted