Теория геномной сборки. Графы. Источники артефактов...

70
ТЕОРИЯ ГЕНОМНОЙ СБОРКИ. ГРАФЫ. ИСТОЧНИКИ АРТЕФАКТОВ ПРИ СБОРКЕ Касьянов Артем 01.10.2014

Upload: lucky

Post on 07-Jan-2016

131 views

Category:

Documents


8 download

DESCRIPTION

Теория геномной сборки. Графы. Источники артефактов при сборке. Касьянов Артем 01.10.2014. Что такое геном ?. Полный набор ДНК , содержащийся в организме : Хромосомы Органеллы(митохондрии, хлоропласты и т.д.) Плазмиды ДНК-вирусы Бактериофаги - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Теория геномной сборки. Графы. Источники артефактов при сборке

ТЕОРИЯ ГЕНОМНОЙ СБОРКИ. ГРАФЫ. ИСТОЧНИКИ АРТЕФАКТОВ ПРИ СБОРКЕКасьянов Артем01.10.2014

Page 2: Теория геномной сборки. Графы. Источники артефактов при сборке

Что такое геном?

• Полный набор ДНК, содержащийся в организме:– Хромосомы– Органеллы(митохондрии,

хлоропласты и т.д.)– Плазмиды– ДНК-вирусы– Бактериофаги• Без потери общности можно

представить в виде набора строк из четырехбуквенного алфавита(A,G,C,T).

2

Page 3: Теория геномной сборки. Графы. Источники артефактов при сборке

Размеры геномов

3

• Вирусы, плазмиды– От 1 т.п.н. до 100 т.п.н. …HIV 9181 п.н.

• Бактерии, археи– От 1 м.п.н. до 10 м.п.н. …E.coli 4.6 м.п.н.

• Простейшие эукариоты – От 10 м.п.н. до 100 м.п.н. …Malaria 23 м.п.н.

• Животные, растения– От 100 м.п.н. до 150 млрд.п.н. …Human 3.2

млрд. п.н.

Page 4: Теория геномной сборки. Графы. Источники артефактов при сборке

WGS секвенирование

4

Несколько копий ДНК молекулФрагменты длиной 200 - 200,000 п.н.

Не остается информации из какой части генома взят тот или иной фрагмент

Page 5: Теория геномной сборки. Графы. Источники артефактов при сборке

WGS секвенирование: фрагменты

5

Секвенатор считывает по 100-1000 п.н. с конца/концов фрагмента. Размеры фрагментов известны с точностью ± 10-20%.

CAAGCTGAT...

Пары чтений

Неизвестная последовательность…GTTTGGAAC

Page 6: Теория геномной сборки. Графы. Источники артефактов при сборке

Геномные чтения

• Короткие поддпоследовательности генома– Неизвестно из какого места генома

они получены.– Неизвестно с какой нити они взяты

• Перекрываются друг с другом• Содержат ошибки

6

Page 7: Теория геномной сборки. Графы. Источники артефактов при сборке

Сборка генома

7[http://cseweb.ucsd.edu/~ppevzner/B4B/excerpts/Compeau-Pevzner.pdf]

Page 8: Теория геномной сборки. Графы. Источники артефактов при сборке

Что такое граф• Граф G — это упорядоченная пара

G := (V, E), где V — это непустое множество вершин или узлов, а E — множество пар (в случае неориентированного графа — неупорядоченных) вершин, называемых рёбрами.

• Путем в графе называют конечную последовательность вершин, в которой каждая вершина (кроме последней) соединена со следующей в последовательности вершиной ребром. 

8[http://ru.wikipedia.org/wiki/Граф_(математика)]

Page 9: Теория геномной сборки. Графы. Источники артефактов при сборке

Алгоритмы сборки

• OLC(overlap-layout-consensus) алгоритмы

• Алгоритмы, основанные на de Bruijn графах

• «Жадные» алгоритмы

9

Page 10: Теория геномной сборки. Графы. Источники артефактов при сборке

OLC алгоритмы

10

1)Вычисление перекрытий2) Построение графа перекрытий и нахождение гамильтонового пути3)Вычисление множественного выравнивания4)Построение консенсус последовательности

Page 11: Теория геномной сборки. Графы. Источники артефактов при сборке

Гамильтонов путь

11

Гамильтонов путь — путь, содержащий каждую вершину графа ровно один раз.

Нахождение такого пути NP-полная задача

Уильям Гамильтон, 1856

Page 12: Теория геномной сборки. Графы. Источники артефактов при сборке
Page 13: Теория геномной сборки. Графы. Источники артефактов при сборке

OLC алгоритмы• Staden, R. A new computer method for the storage and

manipulation of DNA gel reading data(1982) Nucleic Acids Research 10, 4731-4751. – Построен на основе жадного подхода– Предложен термин контиг

• 1984 – SEQAID– Peltola, H., Söderlund, H., and Ukkonen, E. 1984. SEQAID:

A DNA sequence assembly program based on a mathematical model. Nucleic Acids Res. 12, 307-321.

– Первый OLC сборщик• 1992 – CAP

– Huang, X. 1992. A contig assembly program based on sensitive detection of fragment overlaps. Genomics 14, 18-25.

13

Page 14: Теория геномной сборки. Графы. Источники артефактов при сборке

OLC алгоритмы

Название Технологии Авторы Presented

Edena Illumina D. Hernandez et al. 2008

Celera WGA Assembler / CABOG

Sanger, 454, Illumina

Myers, G. et al.; Miller G. et al.

2004

MIRA

Sanger, 454, Illumina, SOLiD,

IonTor, PacBio

Chevreux, B 1998

PCAP Sanger, 454 Huang et al. 2003

14

Page 15: Теория геномной сборки. Графы. Источники артефактов при сборке

De Bruijn граф

15

AGCTATCGTGACG

AGCTAT GCTATC CTATCG TATCGT

ATCGTG TCGTGA CGTGAC GTGACG

AGCTATC GCTATCG CTATCGT TATCGTG

ATCGTGA TCGTGAC CGTGACG

ATCGTG

AGCTAT GCTATCAGCTATC

CTATCGGCTATCG

TATCGTCTATCGT

TATCGTG

TCGTGA

CGTGACGTGACGATCGTGATCGTGACCGTGACG

Page 16: Теория геномной сборки. Графы. Источники артефактов при сборке

De Bruijn граф

16AGCTATCGTGACG

AGCTATC GCTATCG

CTATCGTTATCGTGATCGTGA

TCGTGACCGTGACG

Page 17: Теория геномной сборки. Графы. Источники артефактов при сборке

Эйлеров путь

17

Эйлеров путь в графе — это путь, проходящий по всем рёбрам графа и притом только по одному разу.

Граф Кёнигсбергских мостов.

Каждая вершина этого графа имеет чётную степень, поэтому этот граф — эйлеров. Обход рёбер в алфавитном порядке даёт эйлеров цикл.

Page 18: Теория геномной сборки. Графы. Источники артефактов при сборке

De Bruijn граф

18

TGTACTATGTCCTA

TGT GTA TAC ACT CTA TAT ATG TGT GTC TCC CCT CTA

TGTA GTAC TACT

ACTA

CTAT TATG ATGT TGTC GTCC TCCT CCTA

TGT

GTA TAC ACT

GTC TCC CCT

CTA

ATG TAT

TGTAGTAC TACT

ACTA

CTAT

TATG

ATGT

TGTCGTCC TCCT

CCTA

Page 19: Теория геномной сборки. Графы. Источники артефактов при сборке

De Bruijn граф

19

TGTAGTAC

TACT

CTATTATGATGT

TGTCGTCC

TCCTCCTA

ACTA

TGTACTATGTCCTA

TGTCGTCC

TCCT

CTATTATGATGT

TGTAGTAC

TACTACTA

CCTA

TGTCCTATGTACTA

Page 20: Теория геномной сборки. Графы. Источники артефактов при сборке

De Bruijn graph algorithms

1) Построение хэша и deBruijn граф

2) Упрощение линейных участков

3) Удаление «пузырей» и «хвостиков»

20

[Daniel R. Zerbino and Ewan Birney, Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. May 2008; 18(5): 821–829. ]

Page 21: Теория геномной сборки. Графы. Источники артефактов при сборке

De Bruijn graph

21

Klow

Kmid

Khigh

Page 22: Теория геномной сборки. Графы. Источники артефактов при сборке

De Bruijn граф

22

1)Сильная зависимость от выбора параметра k. Не существует формальной методики позволяющей выбрать этот параметр оптимальным образом.2)Сильная зависимость от наличия ошибок в чтениях.

Page 23: Теория геномной сборки. Графы. Источники артефактов при сборке

Алгоритмы, основанные на De Bruijn графах

Наименование

Технологии Авторы Разработан

ABySS Illumina, SOLiD Simpson, J. et al. 2008

CLC Genomics Workbench

Sanger, 454, Illumina, SOLiD

CLC bio 2008

Euler Sanger, 454 Pevzner, P. et al 2001

Euler-sr 454, Illumina Chaisson, MJ. et al. 2008

IDBA (Iterative De Bruijn graph short read Assembler)

Illumina,454,Solexa

Yu Peng, Henry C. M. Leung, Siu-Ming Yiu, Francis Y. L. Chin

2010

Velvet Sanger, 454, Illumina, SOLiD

Zerbino, D. et al 2007

SPAdes Illumina, Ion Torrent, PacBio

Bankevich, A et al. 2012

23

Page 24: Теория геномной сборки. Графы. Источники артефактов при сборке

String graph

24

Page 25: Теория геномной сборки. Графы. Источники артефактов при сборке

Алгоритмы, основанные на String graph методологии

Наименование

Технологии Авторы Разработан

SGA Illumina, Ion Torrent

Simpson, J. et al. 2011

Newbler Sanger, 454, Illumina, Ion

Torrent

454/Roche 2009

25

Page 26: Теория геномной сборки. Графы. Источники артефактов при сборке

Более реалистичный пример графа

26

[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

Page 27: Теория геномной сборки. Графы. Источники артефактов при сборке

Что усложняет графы

• Ошибки в чтениях– Приводят к появлению в графе

ошибочных ребер и вершин.

• Диплоидные и полиплоидные организмы– Приводит к появлению

дополнительных путей в графе

• Повторы

27

Page 28: Теория геномной сборки. Графы. Источники артефактов при сборке

Что такое повтор?

• Участок ДНК, который встречается более одного раза в геномной последовательности.

• Наиболее частые– Транспозоны– Сателлитные повторы– Дуплицированные гены(паралоги)

28

Page 29: Теория геномной сборки. Графы. Источники артефактов при сборке

Как повторы влияют на сборку

29

Повторяющиеся элементы сливаются в один контиг.[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

Page 30: Теория геномной сборки. Графы. Источники артефактов при сборке

Как повторы влияют на сборку

30

Слияние тандемных повторовИсключение участка между повторами

Перестановка

[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

Page 31: Теория геномной сборки. Графы. Источники артефактов при сборке

OLC vs DBG• DBG

– Очень чувствителен к повторам и ошибкам в чтениях

– Одна ошибка в чтении создает k ошибочных узлов

– Ключевой параметр: размер k.• OLC

– Менее чувствительны к повторам и ошибкам в чтениях

– Построение графа требует больше вычислительных ресурсов

– Плохо масштабируется при увеличении числа чтений

– Ключевой параметр: minOverlapLen, %.31

Page 32: Теория геномной сборки. Графы. Источники артефактов при сборке

Скаффолдинг

32

Page 33: Теория геномной сборки. Графы. Источники артефактов при сборке

Скаффолдинг

• Парные чтения– известно расстояние между парными

чтениями – неизвестна последовательность между

парными чтениями• Большинство пар чтений будет в одном

контиге– если длина большинства контигов больше

длины чтений• Часть парных чтений будет в разных контигах

– эти контиги возможно связаны

33

Page 34: Теория геномной сборки. Графы. Источники артефактов при сборке

От контигов к скаффолдам

34

Парные чтения

Контиги

Скаффолд Гэпы Гэпы[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

Page 35: Теория геномной сборки. Графы. Источники артефактов при сборке

Параметры набора данных

•Длина рида•Покрытие•Качество•Тип библиотеки: SE,PE,MP.

35

Page 36: Теория геномной сборки. Графы. Источники артефактов при сборке

Технологии секвенированияКомпания Платформа Технология Длина рида, п.н.

ABI/Lifetechnologies

3130xL-3730xL CE-Sanger 600-1000

Beckman GeXP GeneticAnalysis System

CE-Sanger 600-1000

Roche/454 Genome SequencerFLX System

Pyrosequencing 230-400

Illumina HiSeq 2000/miSeq Reversible terminatorsequencing bysynthesis

2 x 150

ABI/SOLiD 5500xl SOLiDSystem

Sequencing by ligation

25 - 35

Helicos HeliScope Single-moleculesequencing bysynthesis

25 - 30

PacificBiosciences

PacBio RS Single Molecule Real Time

964

ABI/Lifetechnologies

Ion PGM™ Sequencer

Semiconductor Sequencing

35 - 200

36

Page 37: Теория геномной сборки. Графы. Источники артефактов при сборке

Что такое длина вставки?

37

Page 38: Теория геномной сборки. Графы. Источники артефактов при сборке

Если вы подписались на длинный геном

38

Требуйте набор библиотек с разной длиной вставки Геном мухоловки - 1.1 Gb

Библиотеки:1)~200 4)~500 7)~51002)~300 5)~2400 8)~180003)~400 6)~4100 9)~21000[Ellegren H et al. , The genomic landscape of species divergence in Ficedula flycatchers.Nature 2012, 491.]

Page 39: Теория геномной сборки. Графы. Источники артефактов при сборке

Что такое покрытие?

39

• Это сколько раз в среднем нуклеотид генома покрыт ридами

[http://http://gcat.davidson.edu/phast/]

Page 40: Теория геномной сборки. Графы. Источники артефактов при сборке

Необходимое покрытие дляde Novo сборки

Длина чтения Необходимое покрытие

<400 п.н.(Illumina, SOLiD, Helicos, Ion Torrent)

30x-60x

>400 п.н.(454,PacBio) 20x-40x

40

Page 41: Теория геномной сборки. Графы. Источники артефактов при сборке

Форматы файлов• FASTA формат>SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTC

ACAGTTT

• FASTQ формат@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTC

ACAGTTT+!''*((((***+))%%%++)(%%%%).1***-

+*''))**55CCF>>>>>>CCCCCCC65

Page 42: Теория геномной сборки. Графы. Источники артефактов при сборке

De novo сборка генома

• ПредобработкаFASTQC, prinseq, trimmomatic,

kmc2,kmernator2…

• СборкаNewbler, Spades, Velvet…

• Оценка качества сборкиQUAST, BLAST, Prinseq, Bowtie…

42

Page 43: Теория геномной сборки. Графы. Источники артефактов при сборке

Предобработка

• Оценка качества набора чтений.(FASTQC)

• Триммирование ридов.(trimmomatic…)43

Page 44: Теория геномной сборки. Графы. Источники артефактов при сборке

Предобработка• Фильтрация по кмерам.

(kmernator2…)

44

Page 45: Теория геномной сборки. Графы. Источники артефактов при сборке

Как оценить качество сборки?• Число контигов

– Чем меньше тем лучше.

• Размер контигов– Средняя длина, максимальная длина,

медиана, N50

• Суммарная длина– Должна быть близка к ожидаемой

• Число “N”– Чем меньше, тем лучше

45

Page 46: Теория геномной сборки. Графы. Источники артефактов при сборке

Что такое N50?N50 показывает качество сборкиСкаффолды располагают по убыванию длиныСуммируют длину, начиная с самого большого скаффолда.На каком скаффолде покроем половину генома?Длина этого скаффолда называется N50.

46[http://www.discoveryandinnovation.com/BIOL202/notes/lecture25.html]

Page 47: Теория геномной сборки. Графы. Источники артефактов при сборке

Верификация сборки

• Картировать чтения на сборку.• Определить места в которых чтения картируются с

большим числом замен, вставок/делеций.• Оценка покрытия областей сборки в соотвествие с

GC контентом. По сборке определяется эмпирическое распредление покрытия от GC контента и маркируются области в которых наблюдается отклонение покрытия.

• -Оценка корректности картирования парных чтений по длинам вставки. По сборке определяется эмпирическое распределение длин вставок и на его основе маркируются области с некорректными значениями длин вставок, картирующихся на них пар чтений.

47

Page 48: Теория геномной сборки. Графы. Источники артефактов при сборке

Верификация сборки

• ALE(Assembly Likelihood Evaluation)[Clark et al.,2013]

• FRC(Feature Response Curve)[Vezzi et al. 2012]

• Amosvalidate[Phillippy et al., 2008]

48

Page 49: Теория геномной сборки. Графы. Источники артефактов при сборке

Почему тяжело собирать геномы?• Биологические причины

– Высокая плоидность, гетерозиготность,повторы

• Трудности, свзяанные ссеквенированием

– Очень большие геномы, неточное секвенирование

• Вычислительные трудности– Очень большие геномы, сложность структуры

• Оценка качества– Очень трудно оценивать качество

49

Page 50: Теория геномной сборки. Графы. Источники артефактов при сборке

Что нужно для хорошей сборки

50

Длина чтений Покрытие Качество

Длина чтений или хотя бы длины вставок должны быть больше чем длина повторов

Требуется высокий уровень покрытия

Ошибки могутскрывать перекрытия

[Current challenges in de novo plant genome sequencing and assemblySchatz MC., Witkowski, McCombie, WR(2012) Genome biology,12:243]

Page 51: Теория геномной сборки. Графы. Источники артефактов при сборке

Виды сборок

51[Chain at el. Genome Project Standards in a New Era of Sequencing. Science. 2009. 326.]

Page 52: Теория геномной сборки. Графы. Источники артефактов при сборке

Виды сборок• Standard draft – просто запустили ассемблер• High-Quality Draft – покрывает 90% целевого

генома, удалялись загрязнения. Годится для аннотации.

• Improved High-Quality Draft – поиск ошибок сборки, закрытие гэпов в скаффолдах. Годится для сравнительной геномики.

• Annotation-Directed Improvement – проделана аннотация, ошибки в белок кодирующих последовательностях сведены к минимуму.

• Noncontigous finished – предприняты усилия для закрытия большинства гэпов, ошибок сборки и областей с повторами(досеквенирование).

• Finished – менее 1 ошибки на 100 000 нуклеотидов.

52

Page 53: Теория геномной сборки. Графы. Источники артефактов при сборке

ВОПРОСЫ?

При подготовке презентации использовались материалы лекции Сергея Науменко врамках курса «Обработка данных NGS» в ФББ МГУ, материалы с сайтов http://www.vicbioinformatics.com 53

Page 54: Теория геномной сборки. Графы. Источники артефактов при сборке

De novo секвенирование транскриптома vs de novo секвенирование генома• Геномы не модельных организмов могут быть

достаточно сложными для восстановления(большое число повторов, полиплоидность, большой размер).

• Секвенирование транскриптома позволяет быстро получить доступ к информации о генах и белках, использующихся для функционирования организма.

• В большинстве случаев для более точной аннотации генома все равно потребуются транскриптомные данные.

• Секвенирование траснкриптома дешевле полногеномного секвенирования.

• Вследствие развития технологий секвенирования растет длина рида. На данный момент «слитые» риды Illumina Miseq достигают трети средней длины транскрипта, что значительно упрощает сборку и позволяет использовать OLC сборщики. 54

Page 55: Теория геномной сборки. Графы. Источники артефактов при сборке

De novo секвенирование транскриптома vs de novo секвенирование генома• Транскриптомы различных тканей взятые

в разныепромежутки времени могут очень сильно

отличаться.• 20% генов дают 80% ридов.

55[O'Neil et al. BMC Genomics 2010, 11:310]

Page 56: Теория геномной сборки. Графы. Источники артефактов при сборке

De novo секвенирование транскриптома vs de novo секвенирование генома• Неравномерность покрытия

транскриптов.

56[Zhong Wang et al. Nat. Rev. Gen. 2009, Vol.10]

Page 57: Теория геномной сборки. Графы. Источники артефактов при сборке

Программы для сборки геномов ожидают более-менее равномерное распределение покрытия.Собранные регионы для которых наблюдается возрастание покрытия принимаются за повторы.

Но индивидуальные гены внутри транскриптома могут иметь очень разное покрытие.

Сборка транскриптомов vs сборка геномов

57[http://training.bioinformatics.ucdavis.edu/docs/2013/09/short-course-2013/_downloads/MB_RNASeq_Trans_Assembly_SC_2013.pdf]

Page 58: Теория геномной сборки. Графы. Источники артефактов при сборке

Splicing graph

58[http://proline.bic.nus.edu.sg/dedb/methodology.html]

Page 59: Теория геномной сборки. Графы. Источники артефактов при сборке

Общая схема de novo сборки транскриптома

59

[Martin & Wang (2011) Nat. Rev. Gen. 12,671]

Page 60: Теория геномной сборки. Графы. Источники артефактов при сборке

Общая схема de novo сборки транскриптома

60

[Martin & Wang (2011) Nat. Rev. Gen. 12,671]

Page 61: Теория геномной сборки. Графы. Источники артефактов при сборке

Общая схема de novo сборки транскриптома

61

[Martin & Wang (2011) Nat. Rev. Gen. 12,671]

Page 62: Теория геномной сборки. Графы. Источники артефактов при сборке

Транскриптомные сборщики

62

Сборщики, основанные на DeBruijn графах.(Illumina,SOLiD,IonTorrent )

Сборщики, основанные на OLC подходе(454, Sanger, PacBio)

• Trinity(Broad)• Velevet(Oases)• TransAbyss• SOAPtrans

• Mira3• Est2assembly• GS/Newbler(Roche)• SMRT Pipe(PacBio)

Page 63: Теория геномной сборки. Графы. Источники артефактов при сборке

Оценка качества сборки• Картирование чтений обратно на сборку.

– >60% ридов картируется - норма.– >80% ридов картируется - очень хороший результат.

• Оценка числа контигов.– Должно быть в пределах размера транскриптома.

( A.Thaliana ~25 000 генов, H.sapiens ~30 000 генов)

• Оценка среднего покрытия контигов.• Оценка числа уникальных п.н..

– чем больше тем лучше.

• Оценка N50 контигов. Должно соответствовать N50 транскриптома. (A. Thaliana ~1900 п.н., H.sapiens ~2500 п.н.)

• Оценка числа контигов >1 т.п.н..– Чем больше тем лучше.

63

Page 64: Теория геномной сборки. Графы. Источники артефактов при сборке

Постобработка транскриптомной сборки

• Многие транскриптомные сборщики(в частности Trinity) дают большое количество контигов(>100K)

• Возникает вопрос, как уменьшить число контигов.• Можно сформулировать следующее правило:Не нужно кластеризовать, нужно фильтровать.• Кластеризация приведет к схлопыванию паралогов,

альтернативных изоформ и семейств генов.• Кластеризация приводит к возникновению химер.• Фильтруйте по % изоформ, покрытию, ORF,

бластовым хитам и т. д. Оценивать насколько велики потери данных в результате фильтрации можно картируя риды на контиги.

64

«У меня слишком много контигов, что делать дальше?»

Page 65: Теория геномной сборки. Графы. Источники артефактов при сборке

Velvet

• Автор: Zerbino, D.• Представлен: 2007• Поддерживаемые технологии:

Sanger, 454, Solexa, SOLiD• Текущая версия: 1.2.10• http://www.ebi.ac.uk/~zerbino/

velvet/

65

Page 66: Теория геномной сборки. Графы. Источники артефактов при сборке

Velvet

• velveth - обрабатывает файлы с последовательностями и конструирует хэштаблицу, на основании этого создает два файла, Sequences и Roadmaps, которые необходимы для velvetg.

• velvetg – ядро Velvetа, создает de Bruijn граф и на основании него конструирует контиги.

• Поддерживаемые форматы:fasta(по умолчанию); fastq; fasta.gz;

fastq.gz; sam; bam; eland; gerald

66

Page 67: Теория геномной сборки. Графы. Источники артефактов при сборке

velveth

• ./velveth <output_directory> <hash_length>

[[-<file_format>][-<read_type>] <filename>]

• read_type – short(по умолчанию); shortPaired; short2; shortPaired2; long; longPaired

67

Page 68: Теория геномной сборки. Графы. Источники артефактов при сборке

velvetg(одиночные чтения)• ./velvetg <output_directory>

[<parameters>]• -cov_cutoff• -min_contig_lgth• -max_coverage• -exp_cov

68

Page 69: Теория геномной сборки. Графы. Источники артефактов при сборке

velvetg(парные чтения)

• ./velvetg <output_directory> [<parameters>]

• ./shuffleSequences_fasta.pl forward_reads.fa reverse_reads.fa output.fa

• -ins_length• -ins_length_sd• -ins_length2• -ins_length2_sd• -ins_length_long• -ins_length_long_sd

69

Page 70: Теория геномной сборки. Графы. Источники артефактов при сборке

Velvet файлы с результатами сборки• contigs.fa• stats.txt• LastGraph• Final graph has 3623771 nodes and

n50 of 7, max 99, total 13230514, using 0/1650370 reads

70