Теория геномной сборки. Графы. Источники артефактов...

ТЕОРИЯ ГЕНОМНОЙ СБОРКИ. ГРАФЫ. ИСТОЧНИКИ АРТЕФАКТОВ ПРИ СБОРКЕКасьянов Артем01.10.2014

Что такое геном?

• Полный набор ДНК, содержащийся в организме:– Хромосомы– Органеллы(митохондрии,

хлоропласты и т.д.)– Плазмиды– ДНК-вирусы– Бактериофаги• Без потери общности можно

представить в виде набора строк из четырехбуквенного алфавита(A,G,C,T).

2

Размеры геномов

3

• Вирусы, плазмиды– От 1 т.п.н. до 100 т.п.н. …HIV 9181 п.н.

• Бактерии, археи– От 1 м.п.н. до 10 м.п.н. …E.coli 4.6 м.п.н.

• Простейшие эукариоты – От 10 м.п.н. до 100 м.п.н. …Malaria 23 м.п.н.

• Животные, растения– От 100 м.п.н. до 150 млрд.п.н. …Human 3.2

млрд. п.н.

WGS секвенирование

4

Несколько копий ДНК молекулФрагменты длиной 200 - 200,000 п.н.

Не остается информации из какой части генома взят тот или иной фрагмент

WGS секвенирование: фрагменты

5

Секвенатор считывает по 100-1000 п.н. с конца/концов фрагмента. Размеры фрагментов известны с точностью ± 10-20%.

CAAGCTGAT...

Пары чтений

Неизвестная последовательность…GTTTGGAAC

Геномные чтения

• Короткие поддпоследовательности генома– Неизвестно из какого места генома

они получены.– Неизвестно с какой нити они взяты

• Перекрываются друг с другом• Содержат ошибки

6

Сборка генома

7[http://cseweb.ucsd.edu/~ppevzner/B4B/excerpts/Compeau-Pevzner.pdf]

Что такое граф• Граф G — это упорядоченная пара

G := (V, E), где V — это непустое множество вершин или узлов, а E — множество пар (в случае неориентированного графа — неупорядоченных) вершин, называемых рёбрами.

• Путем в графе называют конечную последовательность вершин, в которой каждая вершина (кроме последней) соединена со следующей в последовательности вершиной ребром.

8[http://ru.wikipedia.org/wiki/Граф_(математика)]

Алгоритмы сборки

• OLC(overlap-layout-consensus) алгоритмы

• Алгоритмы, основанные на de Bruijn графах

• «Жадные» алгоритмы

9

OLC алгоритмы

10

1)Вычисление перекрытий2) Построение графа перекрытий и нахождение гамильтонового пути3)Вычисление множественного выравнивания4)Построение консенсус последовательности

Гамильтонов путь

11

Гамильтонов путь — путь, содержащий каждую вершину графа ровно один раз.

Нахождение такого пути NP-полная задача

Уильям Гамильтон, 1856

OLC алгоритмы• Staden, R. A new computer method for the storage and

manipulation of DNA gel reading data(1982) Nucleic Acids Research 10, 4731-4751. – Построен на основе жадного подхода– Предложен термин контиг

• 1984 – SEQAID– Peltola, H., Söderlund, H., and Ukkonen, E. 1984. SEQAID:

A DNA sequence assembly program based on a mathematical model. Nucleic Acids Res. 12, 307-321.

– Первый OLC сборщик• 1992 – CAP

– Huang, X. 1992. A contig assembly program based on sensitive detection of fragment overlaps. Genomics 14, 18-25.

13

OLC алгоритмы

Название Технологии Авторы Presented

Edena Illumina D. Hernandez et al. 2008

Celera WGA Assembler / CABOG

Sanger, 454, Illumina

Myers, G. et al.; Miller G. et al.

2004

MIRA

Sanger, 454, Illumina, SOLiD,

IonTor, PacBio

Chevreux, B 1998

PCAP Sanger, 454 Huang et al. 2003

14

De Bruijn граф

15

AGCTATCGTGACG

AGCTAT GCTATC CTATCG TATCGT

ATCGTG TCGTGA CGTGAC GTGACG

AGCTATC GCTATCG CTATCGT TATCGTG

ATCGTGA TCGTGAC CGTGACG

ATCGTG

AGCTAT GCTATCAGCTATC

CTATCGGCTATCG

TATCGTCTATCGT

TATCGTG

TCGTGA

CGTGACGTGACGATCGTGATCGTGACCGTGACG

De Bruijn граф

16AGCTATCGTGACG

AGCTATC GCTATCG

CTATCGTTATCGTGATCGTGA

TCGTGACCGTGACG

Эйлеров путь

17

Эйлеров путь в графе — это путь, проходящий по всем рёбрам графа и притом только по одному разу.

Граф Кёнигсбергских мостов.

Каждая вершина этого графа имеет чётную степень, поэтому этот граф — эйлеров. Обход рёбер в алфавитном порядке даёт эйлеров цикл.

De Bruijn граф

18

TGTACTATGTCCTA

TGT GTA TAC ACT CTA TAT ATG TGT GTC TCC CCT CTA

TGTA GTAC TACT

ACTA

CTAT TATG ATGT TGTC GTCC TCCT CCTA

TGT

GTA TAC ACT

GTC TCC CCT

CTA

ATG TAT

TGTAGTAC TACT

ACTA

CTAT

TATG

ATGT

TGTCGTCC TCCT

CCTA

De Bruijn граф

19

TGTAGTAC

TACT

CTATTATGATGT

TGTCGTCC

TCCTCCTA

ACTA

TGTACTATGTCCTA

TGTCGTCC

TCCT

CTATTATGATGT

TGTAGTAC

TACTACTA

CCTA

TGTCCTATGTACTA

De Bruijn graph algorithms

1) Построение хэша и deBruijn граф

2) Упрощение линейных участков

3) Удаление «пузырей» и «хвостиков»

20

[Daniel R. Zerbino and Ewan Birney, Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. May 2008; 18(5): 821–829. ]

De Bruijn graph

21

Klow

Kmid

Khigh

De Bruijn граф

22

1)Сильная зависимость от выбора параметра k. Не существует формальной методики позволяющей выбрать этот параметр оптимальным образом.2)Сильная зависимость от наличия ошибок в чтениях.

Алгоритмы, основанные на De Bruijn графах

Наименование

Технологии Авторы Разработан

ABySS Illumina, SOLiD Simpson, J. et al. 2008

CLC Genomics Workbench

Sanger, 454, Illumina, SOLiD

CLC bio 2008

Euler Sanger, 454 Pevzner, P. et al 2001

Euler-sr 454, Illumina Chaisson, MJ. et al. 2008

IDBA (Iterative De Bruijn graph short read Assembler)

Illumina,454,Solexa

Yu Peng, Henry C. M. Leung, Siu-Ming Yiu, Francis Y. L. Chin

2010

Velvet Sanger, 454, Illumina, SOLiD

Zerbino, D. et al 2007

SPAdes Illumina, Ion Torrent, PacBio

Bankevich, A et al. 2012

23

String graph

24

Алгоритмы, основанные на String graph методологии

Наименование

Технологии Авторы Разработан

SGA Illumina, Ion Torrent

Simpson, J. et al. 2011

Newbler Sanger, 454, Illumina, Ion

Torrent

454/Roche 2009

25

Более реалистичный пример графа

26

[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

Что усложняет графы

• Ошибки в чтениях– Приводят к появлению в графе

ошибочных ребер и вершин.

• Диплоидные и полиплоидные организмы– Приводит к появлению

дополнительных путей в графе

• Повторы

27

Что такое повтор?

• Участок ДНК, который встречается более одного раза в геномной последовательности.

• Наиболее частые– Транспозоны– Сателлитные повторы– Дуплицированные гены(паралоги)

28

Как повторы влияют на сборку

29

Повторяющиеся элементы сливаются в один контиг.[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

Как повторы влияют на сборку

30

Слияние тандемных повторовИсключение участка между повторами

Перестановка

[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

OLC vs DBG• DBG

– Очень чувствителен к повторам и ошибкам в чтениях

– Одна ошибка в чтении создает k ошибочных узлов

– Ключевой параметр: размер k.• OLC

– Менее чувствительны к повторам и ошибкам в чтениях

– Построение графа требует больше вычислительных ресурсов

– Плохо масштабируется при увеличении числа чтений

– Ключевой параметр: minOverlapLen, %.31

Скаффолдинг

32

Скаффолдинг

• Парные чтения– известно расстояние между парными

чтениями – неизвестна последовательность между

парными чтениями• Большинство пар чтений будет в одном

контиге– если длина большинства контигов больше

длины чтений• Часть парных чтений будет в разных контигах

– эти контиги возможно связаны

33

От контигов к скаффолдам

34

Парные чтения

Контиги

Скаффолд Гэпы Гэпы[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

Параметры набора данных

•Длина рида•Покрытие•Качество•Тип библиотеки: SE,PE,MP.

35

Технологии секвенированияКомпания Платформа Технология Длина рида, п.н.

ABI/Lifetechnologies

3130xL-3730xL CE-Sanger 600-1000

Beckman GeXP GeneticAnalysis System

CE-Sanger 600-1000

Roche/454 Genome SequencerFLX System

Pyrosequencing 230-400

Illumina HiSeq 2000/miSeq Reversible terminatorsequencing bysynthesis

2 x 150

ABI/SOLiD 5500xl SOLiDSystem

Sequencing by ligation

25 - 35

Helicos HeliScope Single-moleculesequencing bysynthesis

25 - 30

PacificBiosciences

PacBio RS Single Molecule Real Time

964

ABI/Lifetechnologies

Ion PGM™ Sequencer

Semiconductor Sequencing

35 - 200

36

Что такое длина вставки?

37

Если вы подписались на длинный геном

38

Требуйте набор библиотек с разной длиной вставки Геном мухоловки - 1.1 Gb

Библиотеки:1)~200 4)~500 7)~51002)~300 5)~2400 8)~180003)~400 6)~4100 9)~21000[Ellegren H et al. , The genomic landscape of species divergence in Ficedula flycatchers.Nature 2012, 491.]

Что такое покрытие?

39

• Это сколько раз в среднем нуклеотид генома покрыт ридами

[http://http://gcat.davidson.edu/phast/]

Необходимое покрытие дляde Novo сборки

Длина чтения Необходимое покрытие

<400 п.н.(Illumina, SOLiD, Helicos, Ion Torrent)

30x-60x

>400 п.н.(454,PacBio) 20x-40x

40

Форматы файлов• FASTA формат>SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTC

ACAGTTT

• FASTQ формат@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTC

ACAGTTT+!''*((((***+))%%%++)(%%%%).1***-

+*''))**55CCF>>>>>>CCCCCCC65

De novo сборка генома

• ПредобработкаFASTQC, prinseq, trimmomatic,

kmc2,kmernator2…

• СборкаNewbler, Spades, Velvet…

• Оценка качества сборкиQUAST, BLAST, Prinseq, Bowtie…

42

Предобработка

• Оценка качества набора чтений.(FASTQC)

• Триммирование ридов.(trimmomatic…)43

Предобработка• Фильтрация по кмерам.

(kmernator2…)

44

Как оценить качество сборки?• Число контигов

– Чем меньше тем лучше.

• Размер контигов– Средняя длина, максимальная длина,

медиана, N50

• Суммарная длина– Должна быть близка к ожидаемой

• Число “N”– Чем меньше, тем лучше

45

Что такое N50?N50 показывает качество сборкиСкаффолды располагают по убыванию длиныСуммируют длину, начиная с самого большого скаффолда.На каком скаффолде покроем половину генома?Длина этого скаффолда называется N50.

46[http://www.discoveryandinnovation.com/BIOL202/notes/lecture25.html]

Верификация сборки

• Картировать чтения на сборку.• Определить места в которых чтения картируются с

большим числом замен, вставок/делеций.• Оценка покрытия областей сборки в соотвествие с

GC контентом. По сборке определяется эмпирическое распредление покрытия от GC контента и маркируются области в которых наблюдается отклонение покрытия.

• -Оценка корректности картирования парных чтений по длинам вставки. По сборке определяется эмпирическое распределение длин вставок и на его основе маркируются области с некорректными значениями длин вставок, картирующихся на них пар чтений.

47

Верификация сборки

• ALE(Assembly Likelihood Evaluation)[Clark et al.,2013]

• FRC(Feature Response Curve)[Vezzi et al. 2012]

• Amosvalidate[Phillippy et al., 2008]

48

Почему тяжело собирать геномы?• Биологические причины

– Высокая плоидность, гетерозиготность,повторы

• Трудности, свзяанные ссеквенированием

– Очень большие геномы, неточное секвенирование

• Вычислительные трудности– Очень большие геномы, сложность структуры

• Оценка качества– Очень трудно оценивать качество

49

Что нужно для хорошей сборки

50

Длина чтений Покрытие Качество

Длина чтений или хотя бы длины вставок должны быть больше чем длина повторов

Требуется высокий уровень покрытия

Ошибки могутскрывать перекрытия

[Current challenges in de novo plant genome sequencing and assemblySchatz MC., Witkowski, McCombie, WR(2012) Genome biology,12:243]

Виды сборок

51[Chain at el. Genome Project Standards in a New Era of Sequencing. Science. 2009. 326.]

Виды сборок• Standard draft – просто запустили ассемблер• High-Quality Draft – покрывает 90% целевого

генома, удалялись загрязнения. Годится для аннотации.

• Improved High-Quality Draft – поиск ошибок сборки, закрытие гэпов в скаффолдах. Годится для сравнительной геномики.

• Annotation-Directed Improvement – проделана аннотация, ошибки в белок кодирующих последовательностях сведены к минимуму.

• Noncontigous finished – предприняты усилия для закрытия большинства гэпов, ошибок сборки и областей с повторами(досеквенирование).

• Finished – менее 1 ошибки на 100 000 нуклеотидов.

52

ВОПРОСЫ?

При подготовке презентации использовались материалы лекции Сергея Науменко врамках курса «Обработка данных NGS» в ФББ МГУ, материалы с сайтов http://www.vicbioinformatics.com 53

De novo секвенирование транскриптома vs de novo секвенирование генома• Геномы не модельных организмов могут быть

достаточно сложными для восстановления(большое число повторов, полиплоидность, большой размер).

• Секвенирование транскриптома позволяет быстро получить доступ к информации о генах и белках, использующихся для функционирования организма.

• В большинстве случаев для более точной аннотации генома все равно потребуются транскриптомные данные.

• Секвенирование траснкриптома дешевле полногеномного секвенирования.

• Вследствие развития технологий секвенирования растет длина рида. На данный момент «слитые» риды Illumina Miseq достигают трети средней длины транскрипта, что значительно упрощает сборку и позволяет использовать OLC сборщики. 54

De novo секвенирование транскриптома vs de novo секвенирование генома• Транскриптомы различных тканей взятые

в разныепромежутки времени могут очень сильно

отличаться.• 20% генов дают 80% ридов.

55[O'Neil et al. BMC Genomics 2010, 11:310]

De novo секвенирование транскриптома vs de novo секвенирование генома• Неравномерность покрытия

транскриптов.

56[Zhong Wang et al. Nat. Rev. Gen. 2009, Vol.10]

Программы для сборки геномов ожидают более-менее равномерное распределение покрытия.Собранные регионы для которых наблюдается возрастание покрытия принимаются за повторы.

Но индивидуальные гены внутри транскриптома могут иметь очень разное покрытие.

Сборка транскриптомов vs сборка геномов

57[http://training.bioinformatics.ucdavis.edu/docs/2013/09/short-course-2013/_downloads/MB_RNASeq_Trans_Assembly_SC_2013.pdf]

Splicing graph

58[http://proline.bic.nus.edu.sg/dedb/methodology.html]

Общая схема de novo сборки транскриптома

59

[Martin & Wang (2011) Nat. Rev. Gen. 12,671]


60



61


Транскриптомные сборщики

62

Сборщики, основанные на DeBruijn графах.(Illumina,SOLiD,IonTorrent )

Сборщики, основанные на OLC подходе(454, Sanger, PacBio)

• Trinity(Broad)• Velevet(Oases)• TransAbyss• SOAPtrans

• Mira3• Est2assembly• GS/Newbler(Roche)• SMRT Pipe(PacBio)

Оценка качества сборки• Картирование чтений обратно на сборку.

– >60% ридов картируется - норма.– >80% ридов картируется - очень хороший результат.

• Оценка числа контигов.– Должно быть в пределах размера транскриптома.

( A.Thaliana ~25 000 генов, H.sapiens ~30 000 генов)

• Оценка среднего покрытия контигов.• Оценка числа уникальных п.н..

– чем больше тем лучше.

• Оценка N50 контигов. Должно соответствовать N50 транскриптома. (A. Thaliana ~1900 п.н., H.sapiens ~2500 п.н.)

• Оценка числа контигов >1 т.п.н..– Чем больше тем лучше.

63

Постобработка транскриптомной сборки

• Многие транскриптомные сборщики(в частности Trinity) дают большое количество контигов(>100K)

• Возникает вопрос, как уменьшить число контигов.• Можно сформулировать следующее правило:Не нужно кластеризовать, нужно фильтровать.• Кластеризация приведет к схлопыванию паралогов,

альтернативных изоформ и семейств генов.• Кластеризация приводит к возникновению химер.• Фильтруйте по % изоформ, покрытию, ORF,

бластовым хитам и т. д. Оценивать насколько велики потери данных в результате фильтрации можно картируя риды на контиги.

64

«У меня слишком много контигов, что делать дальше?»

Velvet

• Автор: Zerbino, D.• Представлен: 2007• Поддерживаемые технологии:

Sanger, 454, Solexa, SOLiD• Текущая версия: 1.2.10• http://www.ebi.ac.uk/~zerbino/

velvet/

65

Velvet

• velveth - обрабатывает файлы с последовательностями и конструирует хэштаблицу, на основании этого создает два файла, Sequences и Roadmaps, которые необходимы для velvetg.

• velvetg – ядро Velvetа, создает de Bruijn граф и на основании него конструирует контиги.

• Поддерживаемые форматы:fasta(по умолчанию); fastq; fasta.gz;

fastq.gz; sam; bam; eland; gerald

66

velveth

• ./velveth <output_directory> <hash_length>

[[-<file_format>][-<read_type>] <filename>]

• read_type – short(по умолчанию); shortPaired; short2; shortPaired2; long; longPaired

67

velvetg(одиночные чтения)• ./velvetg <output_directory>

[<parameters>]• -cov_cutoff• -min_contig_lgth• -max_coverage• -exp_cov

68

velvetg(парные чтения)

• ./velvetg <output_directory> [<parameters>]

• ./shuffleSequences_fasta.pl forward_reads.fa reverse_reads.fa output.fa

• -ins_length• -ins_length_sd• -ins_length2• -ins_length2_sd• -ins_length_long• -ins_length_long_sd

69

Velvet файлы с результатами сборки• contigs.fa• stats.txt• LastGraph• Final graph has 3623771 nodes and

n50 of 7, max 99, total 13230514, using 0/1650370 reads

70

Теория геномной сборки. Графы. Источники артефактов...

Documents