nanopores sequencing
TRANSCRIPT
Секвенирование нанопорами
Михаил КолмогоровUniversity of California San Diego
Институт биоинформатики, Санкт-Петербург, 2016
Методы секвенирования
● Sanger○ Риды длиной < 1000○ Малый выход эксперимента => дорого
● NGS○ Illumina, 454, Ion torrent○ Большой выход, но риды короче (50-500)
● Pacific Biosciences○ Риды средней длины 15,000○ 11-15% ошибок○ Дорогой секвенатор/химия
Методы секвенирования
● Текущие технологии:○ Клонирование○ Амплификация○ Дорогостоящие энзимы
● Основаны на физических и химических особенностях цепочек ДНК
Методы секвенирования
● Текущие технологии:○ Клонирование○ Амплификация○ Дорогостоящие энзимы
● Основаны на физических и химических особенностях цепочек ДНК
● Физические различия между отдельными нуклеотидами?
Секвенирование наносенсорами: идея
● Макромолекула проходит через пору● Транслокация модулирует сигнал, который можно
детектировать
Различные типы наносенсоров
● Биологические○ -hemolysin (1.4 nm)
● Искуственные (solid-state)○ До 0.5 nm в диаметре
Методы детектирования сигнала
● Молекула блокирует ионный ток через пору● Помещается несколько нуклеотидов
Branton et al., 2008
Дополнительные сложности
● Денатурация / расплетение ДНК● “Протягивание” через пору● Контроль скорости транслокации
Oxford Nanopores: MinION
● Первый коммерческий секвенатор на основе нанопор● Стоимость
○ 1000$ - секвенатор○ Дополнительные наборы пор - 500$ - 900$○ 90$ - реагенты на ран
● Выход: 500Mb - 1Gb на пору
Image by Oxford Nanopores
MinION
● Пора на основе CsgG из E. Coli● “Heaviliy engineered motor enzyme”
○ Замедление с 106 до 200 баз в секунду Image by Oxford Nanopores
От сигнала к ДНК
● Как декодировать сингал с поры?○ Фрагментация на отдельные события
University of Washington
От сигнала к ДНК
● Как декодировать сингал с поры?○ Фрагментация на отдельные события○ Каждому событию соответсвует k-мер
University of Washington Timp et al., 2012
Алгоритм Витерби
● Состояния - все возможные 3-меры● Наблюдения - фрагментированный сигнал● Разреженная матрица переходов: только
перекрывающиеся 3-меры
Timp et al., 2012
De Novo сборка: Nanocorrect + Celera
● Две итерации коррекции ошибок● Celera● Nanopolish
Loman et al., 2015
De Novo сборка: ABruijn
● Сборка сырых ридов, без коррекции ошибок● Риды перекрываются с помощью A-Bruijn графа● Коррекция ошибок уже собранного генома
Lin et al., 2016
Oxford Nanopores: MinION
● Ошибки: 13-19% (до 5% 2D R9)● Проблемы с гомополимерами● Сборка E. Coli в одну хромосому, точность 99.5%● Поиск структурных вариаций / SNP
Два нобелевских приза Фредерика Сэнгера
1958: Секвенирование белков
1958: Секвенирование белков - сложно, ДНК - невозможноToday: Секвенирование белков - сложно, ДНК- тривиально
1977: ДНК секвенирование
Зачем секвенировать белки?
● Белки, не закодированные явно в геноме (антитела)
● Короткие гены которые сложно предсказать
● Пост-трансляционные модификации и мутации
● ...
Image from http://www.novimmune.com/science/antibodies.html
История секвенирования белков
Edman degradation
First protein sequencing technique
1950s 1980s 2000s now
Nobel prize1958
История секвенирования белков
Bottom-up mass spectrometry
Proteins digested into peptides ~15 aaEdman
degradationFirst protein
sequencing technique
1950s 1980s 2000s now
Nobel prize2002
Nobel prize1958
Top-down mass spectrometryIntact proteins of
length ~100aa
Bottom-up mass spectrometry
Proteins digested into peptides ~15 aaEdman
degradationFirst protein
sequencing technique
1950s 1980s 2000s now
Nobel prize2002
Nobel prize1958
История секвенирования белков
История секвенирования белков
Top-down mass spectrometryIntact proteins of
length ~100aa
Bottom-up mass spectrometry
Proteins digested into peptides ~15 aaEdman
degradationFirst protein
sequencing technique
Nanopore sequencing?
1950s 1980s 2000s now
Nobel prize2002
Nobel prize1958
Сложности анализа белков
● Амионкислоты меньше нуклеотидов● Проведение через пору
○ Энзимы для ДНК не работают○ Неравномерный зарад вдоль белка
Sigalov, Nano Lett., 2008Li et al., Protein Pept. Lett., 2014
Суб-нанопора
● Пора размером меньше нанометра в тонкой неорганической кремниевой мембране○ Объем до 0.3 nm3
Kennedy et al., 2016
Сигнал с нанопоры
● Флуктуации измеренные на 250 KHz● Транслокации белков уменьшают ионный ток
Nanospectrum ->
Time (seconds)
Сигнал с нанопоры
● Флуктуации измеренные на 250 KHz● Транслокации белков уменьшают ионный ток
Сигнал →
Time (seconds)
Time (miliseconds)
Идентификация vs секвенирование
● Какие известные белки представлены в образце? ● В масс-спектрометрии, идентификация белков против
базы данных гораздно более надежна чем de novo секвенирование
● Надо уметь генерировать теоретический сигнал белка
Идентификация vs секвенирование
● Какие известные белки представлены в образце? ● В масс-спектрометрии, идентификация белков против
базы данных гораздно более надежна чем de novo секвенирование
● Надо уметь генерировать теоретический сигнал белка
?
Сигнал
Mean Volume модель● Сигнал пропорционален занятому объему поры● Пора вмещает насколько аминокислот (k)
Kennedy et. al., 2016
Mean Volume модель● Сигнал пропорционален занятому объему поры● Пора вмещает насколько аминокислот (k)● Сигнал пропорционален их среднему объему
Kennedy et. al., 2016
● Согласно экспериментам k=4
Mean Volume: пример
● Маленький коэффициент корреляции (0.25 - 0.45)● Регионы с сильными отклонениями от модели содержат
маленькие амонокислоты
SVR модель
● Уже доступно много сигналов с известных белков● Можно построить регрессионную модель● Для квадромера qi соответствующего сигналу ei
○ Преобразовать qi в вектор фич fi○ Разделить все сигналы на пары (fi , ei) ○ Тренируется SVR регрессор
● Как определить вектор фич fi?
Сокращенный алфавит
● Проблема: много аминокислот с похожими объемами● Тяжело различить по сигнал● Разобьем на категории: Micro, Smal, Intermediate, Large
SVR модель: пример
● SVR меодаль дает в 1.5 - 2x лучшую точность (коэффициент корреляции 0.38-0.68)
MV-model SVR-model
Регрессия с помощью Random Forest
● Необходимо включить гидрофильность аминокислот в модель
● Random Forest○ Нет оверфиттинга○ Более робастный к шуму
● Фича - вектор из объемов и гидрофильностей● Проблема: малое покрытие треировочных датасетов
Регрессия с помощью Random Forest
● Необходимо включить гидрофильность аминокислот в модель
● Random Forest○ Нет оверфиттинга○ Более робастный к шуму
● Фича - вектор из объемов и гидрофильностей● Проблема: малое покрытие треировочных датасетов
○ Расширим датасеты, перемешивая аминокислоты в 4-мерах
Кластеризация сигналов
● Много побочных факторов, влияющих на ток через пору:○ Зависимый от времени шум в ионном токе○ Инструментальный шум○ Ренавномерное прохождение белка
● Шумный сигнал● Консенсус из нескольких сигналов существенно
уменьшает уровень шума
Идентификация белков
● Для сингала S выбирается белок P из DB с лучшим R2
для данной модели○ Protein-Nanospectrum Match (PrNM)
● P-value для PrNM(P, S): вероятность того, что случайный белок такой же длины будет иметь R2 выше чем P
Сигнал Кластер сигналов S
Кластеризация
Сравнение
База данных DB
MASKAVA...
PACKAFV...
MPCGADC...
MCHDYFI...Наиболее похожий белок P
Анализ смесей белков
● В реальных данных будет представлена смесь из белков○ Сложно кластеризовать
● Можно ли разделить смесь на кластеры, соответствующие разным белкам?
Анализ смесей белков
● В реальных данных будет представлена смесь из белков○ Сложно кластеризовать
● Можно ли разделить смесь на кластеры, соответствующие разным белкам?
Благодарности
● Gregory Timp’s lab at University of Notre Dame
● Pavel Pevzner’s lab at UC San DiegoEamonn Kennedy Zhuxin Dong Gregory Timp
Pavel Pevzner
Спасибо за внимание!
● Нанопоры для ДНК○ Zlowak, Di Ventra, “Colloquium: Physical approaches to DNA
sequencing and detection”, Reviews of modern physics, 2008○ Branton et al., “The potential and challenges of nanopore
sequencing”, Nature Biotechnology, 2008○ Oxford Nanopres presentation video “No thanks, I’ve already
got one”● Нанопоры для белков
○ Kennedy et al., “Reading the primary structure of a protein with 0.07 nm3 resolution using a subnanometre-diameter pore”, Nature Nanotechnology 2016
○ Kolmogorov et al., “Single-Molecule Protein Identification b Sub-Nanopore Sensors”, submitted