analiza danych ngs (i) bioinformatyka wykład...
TRANSCRIPT
ANALIZA DANYCH NGS (I) Bioinformatyka
wykład 4
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 1
GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS)1. Detekcja mutacji i polimorfizmów genetycznych
2. Poznawanie nowych genomów (de novo genome assembly)
3. RNA-Seq: profilowanie transkryptomu
4. Chip-Seq: Interakcje na linii białko-DNA
5. Methyl-Seq: Epigenomika i metylacja DNA
6. Metagenomika
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 2
GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS)1. Detekcja mutacji i polimorfizmów genetycznych
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 3
ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS
Detection of genomic variation among individuals of a population is amongthe most frequent applications of next-generation sequencing (NGS).
Locating genomic sequence variations that correlate with diseasepredisposition or drug response, and esablishing a genotypic basis of variousphonotypes become common focuses of many NGS studies in biomedical and life sciences reserach.
Besides variations carried through the germline for generations, NGS has alsobeen applied to identify de novo germline and somatic mutations, which occurmore frequently than previously expected and underlie numerous humandiseases including various types of cancer.
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 4
ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS
Detecting the various forms of genetic variations/mutations from NGS (…) isnot an easy task. The primary challange is to differentiate true sequencevariations/mutations from false positives caused by sequencing errors and artifacts generated in (…) sequnce alignment.
It is, therefore, important to generate high-quality sequence data data beforeperforming data analysis. Equally important, sensitive and yet specificvariant/mutant calling algorithms are required to achieve high accuracy in genomic ariation and mutation discovery.
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 5
ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS
Roche (454)
700-400 bp; pirosekwencjonowanie
Illumina (Solexa)
100-150 bp; sekwencjonowanie przez syntezę
Pacific Biosciences (PacBio)
>20 000 bp; sekwencjonowanie przez syntezę;
… i inne
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 6
ANALIZA CAŁEGO GENOMU/TRANSKRYPTOMU
Funkcjonalna adnotacja początkowych i końcowych pozycji CNV w genomie bydła mlecznego
Wpływ polimorfizmów strukturalnych na ekspresję genów
Wyjaśnienie genetycznego podłoża mastitis
Porównanie programów do składania sekwencji de novo
… i inne
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 7
PRACOWNIA BIOSTATYSTYKI# PROJEKTY
MAGDA MIELCZAREK 8BIOINFORMATYKA 2018/2019
PRACOWNIA BIOSTATYSTYKI# DANE
Mielczarek et al. 2018
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 9
PRZECHOWYWANIE DANYCH
surowe dane pliki pośrednie pliki końcowe
6,1 TB 4,9 TB 44,8 GB + dane dodatkowe
1 genom
PRACOWNIA BIOSTATYSTYKI# DANE
Pipeline = łańcuch przetwarzania danych
Uproszczony schemat
Jedno z podstawowych zagadnień w analizie danych NGS przyrównanie do genomu referencyjnego oraz detekcja mutacji/polimorfizmów
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
PIPELINE
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 10
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
SUROWE DANE
AGAAATG…
Read 1Single-end
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
Read 1
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 11
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
SUROWE DANE
AGAAATG…
Read 1
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
Read 1
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 2:N:0:ACAGTG
TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT
+
DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD
(…)
Read 2
... GGCTGAA
Read 2Paired-end
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 12
MAGDA MIELCZAREK 13
SRR988073_1.fas
tq
SRR988073_2.fastq
BIOINFORMATYKA 2018/2019
MAGDA MIELCZAREK 14
http://en.wikipedia.org/wiki/FASTQ_format
BIOINFORMATYKA 2018/2019
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
www.illumina.com
KODOWANIE JAKOŚCI
MAGDA MIELCZAREK 15
http://en.wikipedia.org/wiki/FASTQ_format
BIOINFORMATYKA 2018/2019
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
KONTROLA JAKOŚCI
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
Read 1
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 2:N:0:ACAGTG
TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT
+
DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD
(…)
Read 2
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 16
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
Kontrola jakości
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!
(…)
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 17
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
Kontrola jakości
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIII^DD?GDDGDD
(…)
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 18
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
Kontrola jakości
KONTROLA JAKOŚCI
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 19
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
Kontrola jakości
FASTQC
MAGDA MIELCZAREK 20
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Kontrola jakości danych
Graficzne przedstawienie sekwencji
Tworzenie raportu
Brak możliwości filtracji danych
BIOINFORMATYKA 2018/2019
FASTQC - PRZYKŁADY
MAGDA MIELCZAREK 21
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
BASIC STATISTICS
MAGDA MIELCZAREK 22
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
PER BASE SEQUENCE QUALITY
MAGDA MIELCZAREK 23
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – pierwszy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25
Awaria – pierwszy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20
BIOINFORMATYKA 2018/2019
PER TILE SEQUENCE QUALITY
MAGDA MIELCZAREK 24
www.bioinformatics.babraham.ac.uk/projects/fastqc/
...if there was a loss in quality associated with only one part of the flowcell
BIOINFORMATYKA 2018/2019
PER SEQUENCE QUALITY SCORES
MAGDA MIELCZAREK 25
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – najczęściej obserwowane średnia jakość <27
Awaria – najczęściej obserwowane średnia jakość< 20
BIOINFORMATYKA 2018/2019
PER BASE SEQUENCE CONTENT
MAGDA MIELCZAREK 26
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – różnica między A i T lub G i C > 10%, w którejkolwiek pozycji
Awaria – różnica między A i T lub G i C > 20%, w którejkolwiek pozycji
BIOINFORMATYKA 2018/2019
PER SEQUENCE GC CONTENT
MAGDA MIELCZAREK 27
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
PER BASE N CONTENT
MAGDA MIELCZAREK 28
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%.
Awaria – dowolna pozycja pokazuje zawartość N> 20%.
BIOINFORMATYKA 2018/2019
SEQUENCE LENGTH DISTRIBUTION
MAGDA MIELCZAREK 29
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – sekwencje nie są tej samej długości
Awaria – którakolwiek sekwencja ma długość 0
BIOINFORMATYKA 2018/2019
SEQUENCE DUPLICATION LEVELS
MAGDA MIELCZAREK 30
www.bioinformatics.babraham.ac.uk/projects/fastqc/
Ostrzeżenie – sekwencje nieunikalne > 20%
Awaria – sekwencje nieunikalne > 50%
BIOINFORMATYKA 2018/2019
OVERREPRESENTED SEQUENCES
MAGDA MIELCZAREK 31
www.bioinformatics.babraham.ac.uk/projects/fastqc/
No overrepresented sequences
Ostrzeżenie – którakolwiek sekwencja występuje > 0,1%
Awaria – którakolwiek sekwencja występuje > 1%
BIOINFORMATYKA 2018/2019
ADAPTER CONTENT
MAGDA MIELCZAREK 32
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
KMER CONTENT
MAGDA MIELCZAREK 33
www.bioinformatics.babraham.ac.uk/projects/fastqc/
BIOINFORMATYKA 2018/2019
Błędne dane mogą prowadzić do:
wolniejszego działania oprogramowania
zużywania więcej pamięci RAM
generowania słabej jakości/niewłaściwych wyników
Czyszczenie danych:
zwiększa średnią jakość krótkich sekwencji
daje lepsze rezultaty przyrównania
redukuje rozmiar danych
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
EDYCJA SEKWENCJI MOTYWACJA
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 34
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
EDYCJA SEKWENCJI
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 35
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
AGAAATGCCAGGCTAGATGAGTTACAATCNAGTATCAAGATAGGC
+
@@@FFDFFGHGHHFDDDGHHHDDDD44#$%&‚344+400/01234
(…)
MAGDA MIELCZAREK 36
@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG
GTTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA
+
@@@FFDFFGHHHFDDDGHHHDDDD44#$%&‚344+400/01234222211
(…)
Oryginalny odczyt = 51 bp
1. Homopolimery?
TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA
2. Nieznane zasady?
TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA
3. Jakość poniżej 20?
TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA
Sekwencja po czyszczeniu = 26 bp
BIOINFORMATYKA 2018/2019
Name OS Input Output Supported
platforms
Report Tag removal Filtering Trimming
FastQC Lin, Mac, Win (CS) FASTQ,
SAM, BAM
HTML Illumina,
ABI SOLiD
yes no no no
FASTX-Toolkit Lin, Mac,
web interface
FASTA, FASTQ FASTA, FASTQ Illumina yes yes yes yes
Galaxy Lin, Mac,
web interface,
Cloud instance
FASTQ FASTQ Illumina yes yes yes yes
htSeqTools Lin, Mac, Win FASTQ Graphs Illumina yes no no no
PRINSEQ Lin, Mac, Win,
web interface
FASTA, FASTQ,
QUAL FASTA
FASTA, FASTQ,
QUAL FASTA,
HTML
Illumina, 454 yes no yes yes
SolexaQA Lin, Mac FASTQ FASTQ, PNG Illumina, 454 yes no no yes
TagCleaner Lin, Mac,
web interface
FASTA, FASTQ FASTA 454 no yes no no
TileQC Lin, Mac Eland output Graphs Illumina yes no no no
MAGDA MIELCZAREK 37
Programy do oceny jakości i edycji danych (Pabinger et. al 2013) BIOINFORMATYKA 2018/2019
MAGDA MIELCZAREK 38BIOINFORMATYKA 2018/2019
PRINSEQ AMBIGUOUS BASES
Sequences can contain the ambiguous base N for positions that could not be identified as a particular base. A high number of Ns can be a sign for a low quality sequence or even dataset.
Ambiguous bases can cause problems during downstream analysis. The different programs deal with the problem in different ways. Some programs replace ambiguous bases with a random base (e.g. BWA) and others with a fixed base (e.g. SHAHA2 and Velvet replace Ns with As). This can result in misassemblies or false mapping of sequences to a reference sequence and therefore, sequences with a high number of Ns should be removed before downstream analysis.
Filtering reads containing more than 1% of ambiguous bases is advised.
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 39
PRINSEQ MINIMUM AND MAXIMUM READ LENGTH
Short sequences are more likely to match at a random position by chance than longer sequences and may therefore result in false positive functional or taxonomical assignments.
In some cases, sequences can be much longer than several standard deviations above the mean length (e.g. 1,500+ bp for a 500 bp mean length with a sd100 bp). Those sequences should be used with caution as they likely contain long stretches of homopolymer runs. Homopolymers are a known issue of pyrosequencing technologies such as 454/Roche.
A rule of thumb for sequence length thresholds of longer-read datasets is to filter sequences shorter than 60 bp (20 amino acids) and longer than twice the mean length.
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 40
MAGDA MIELCZAREK 41
http://prinseq.sourceforge.net/manual.html
Jakość satysfakcjonująca - 20
Dopuszczalna długość sekwencji - 60 pzBIOINFORMATYKA 2018/2019
MAGDA MIELCZAREK 42BIOINFORMATYKA 2018/2019
GALAXY
WYBRANE NARZĘDZIA:
NGS: QC and manipulation:
FastQC Read Quality reports
Filter FASTQ
Trim sequences
Trimmomatic
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 43
www.usegalaxy.org
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 44
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
READS MAPPING
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 45
After the data is cleaned up, the next step is to align, the reads to a reference genome if it is available, or conduct de novo assembly.
Most NGS applications require reads mapping to a reference genome prior to conducting further analysis.
The purpose of this mapping process is to locate origins of the reads in the genome.
Simultaneous mapping of millions of NGS reads, sometimes very short, to a genome is not trivial. A challenge comes from the fact that any particular genome from which NGS reads are derived deviates from the reference genome at many sites because of polymorphisms and mutation. Sequencing errors are often indistinguishable from true sequence deviations.
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO
GGTGGGAAAAA
GGGACTGATTCC
GGGAACCTTTCTGAACCTTTCTTC
GAAAAAATTTCA
ACTGGTGGGAA
TGGGAAAAATTCCTTTCTTCGGA
GAGAACCTTTCT
AAAGGGAACCT
AGAGAGATTTGGACTGATTCCGA
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
Genom referencyjny
ACTGGTGGGAA AAAGGGAACCT
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 46
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
GAGAACCTTTCTAGAGAGATTTG
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO
GGTGGGAAAAA
GGGACTGATTCC
GGGAACCTTTCTGAACCTTTCTTT
GAAAAAATTTCA
ACTGGTGGGAA
TGGGAAAAAATCCTTTCTTTGGA
GAGAACCTTTCT
AAAGGGAACCT
AGAGAGATTTGGACTGATTCCGA
…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…
GGTGGGAAAAAGGGACTACTGA
GGGAACCTTTCCGAACCTTTCCTC
GAAAAAATTTCA
ACTGGTGGGAA
TGGGAAAAAATCCTTTCCTCGGA
AAAGGGAACCT
GACTACTGATTC
ACTGGTGGGAA AAAGGGAACCT
ACTGGTGGGAA AAAGGGAACCT
Genom referencyjnyBIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 47
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 48
POKRYCIE GENOMU
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 49
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 50
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 51
FASTA
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 52
PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO
KROKI:
1. Obróbka genomu referencyjnego/odczytów
2. Przyrównanie do genomu referencyjnego
ALGORYTMY:
1. Tablica z haszowaniem: „Hash table on the set of input reads”
„Hash table on the reference genome”
2. Transformata Burrowsa-Wheelera (BWT)
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 53
BURROWS-WHEELER TRANSFORMTo increase speed and reduce demands on computational resources, a novel approach
is developed on the basis of Burrows-Wheeler transform and suffix trees (or arrays).
BWT achieves better reference genome compression to enable more efficient indexing
and faster searching.
The human genome indexed with BWT only takes 2-3 GB of computer memory,
whereas the spaced-seed indexing approach can take over 50 GB memory. Through
the use of BWT and suffix trees (or arrays), the run time needed for aligning million of
reads to a large and complex genome, like the human genome, is cut from hours to
minutes.
Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 54
PROGRAM BWA
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 55http://bio-bwa.sourceforge.net/
CZAS DZIAŁANIA
Soap2
Bowtie 2
SHRiMP 2
56MAGDA MIELCZAREK
Ruffalo et al. 2011
% PRZYRÓWNANYCH ODCZYTÓW
57MAGDA MIELCZAREK
BWA + SAMtools flagstat
% PRZYRÓWNANYCH ODCZYTÓW
58MAGDA MIELCZAREK
Name IndexingOutput
formatsPE
Gapped
alignmentSupported platforms Operating System
Multi-
threadedAdditional information
Bowtie genome SAM + - Illumina, ABI SOLiD Linux, Macintosh, Windows +alignments containg ambiguous
characters (e.g. Ns) are not allowed
Bowtie2 genome SAM + +Illumina, 454, Ion
TorrentLinux, Macintosh, Windows +
no upper limit on read length; alignments
containg ambiguous characters (e.g. Ns)
are allowed
BWA genome SAM + +Illumina, 454, Ion
TorrentLinux +
three algorithms are available: BT, SW,
MEM
Segemehl genome SAM + + Illumina, 454 Linux + not limited to a specific read length
SOAP2
(SOAPaligner)genome SOAP + + Illumina Linux +
SOAP to SAM format convertor can be
downloaded separately
SOAP3 genomebinary/plain
text, SAM+ - Illumina Linux + GPU-accelerated version
SOAP3-db genomeplain text,
SAM, BAM+ + Illumina Linux +
GPU-accelerated version; mismatches,
InDels, and small gaps are allowed, read
length longer than 500 bp is not
recommended
Table 1. The characteristics of BWA based alignment to the reference genome software (Mielczarek & Szyda 2015)
Name IndexingOutput
formatsPE
Gapped
alignmen
t
Supported
platforms
Operating
System
Multi-
threadedAdditional information
BFAST genome SAM + + Illumina, 454, ABI SOLiD Linux + detailed manual is available
MAQ reads MAQ + - Illumina, ABI SOLiD (partial) Linux - upper limit on read length 63bp
Mosaik genomeBAM, SAM,
BED, ELAND+ +
Illumina, ABI SOLiD, 454,
Helicos Heliscope
(experimental)
Linux,
Macintosh,
Windows, Solaris
+detailed manual is available; FASTA/FASTQ files
compressed using gzip are acceptable
mrFAST genome SAM, DIVET + + Illumina Linux -
designed to map short reads to reference genome
with an emphasis on the discovery of structural
variation and segmental duplications.
mrsFAST genome SAM + - Illumina Linux - mistmatches are allowed, InDels not
SHRiMP2 genomeSAM,
SHRIMP+ + Illumina, ABI SOLiD, 454 Linux, Macintosh + updated version of the original SHRiMP
SOAP genome SOAP + - Illumina Linux +SOAP to SAM format convertor can be downloaded
separately
SMALT genome
SAM, BAM,
CIGAR,
others
+ +Illumina, ABI SOLiD, 454, Ion
Torrent, PacBioLinux +
FASTA/FASTQ files compressed using gzip are
acceptable; many output formats are supported
Table 2. The characteristics of hash table based alignment to the reference genome software (Mielczarek & Szyda 2015)
SAM (SEQUENCE ALIGNMENT/MAP FORMAT)
MAGDA MIELCZAREK 61
header section
alignment section
http://chagall.med.cornell.edu/NGScourse/SAM.pdf
ANALIZA DANYCH NGS 2017/2018
MAGDA MIELCZAREK 62
SAM/BAM
MAGDA MIELCZAREK 63
SAM/BAM
HWI-1KL157:58:D2FVAACXX:2:2313:3871:71331 147 Chr15 33794413 50 101M = 33794252 -262 GCTCAGCTTTCTTCACAGTCCAACTCTCACATCCATACATGACCACTGGAAAAACCATAGCCTTGACTGGACGGACCTTTGTTAGAGGTTGCTAAAGACTG DBACCDDCDDDDCC>DECDDC@;?3?3HAHGEJHHEFHDAF@CF=EDEEGDGG@IGF@HEHGCGIIIJIGGDIHFGIJIJIEIIJIGG?FHHHFDDDD@@@ NM:i:2 AS:i:91 XS:i:83 RG:Z:D2FVAACXX_2
ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 64
FORMAT BAM
Binary Alignment/Map Format:
binarny odpowiednik formatu SAM
zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM)
MAGDA MIELCZAREK 65
KONIEC CZĘŚCI I
BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 66
Surowe Dane
Przyrównanie do
genomu
referencyjnego
Detekcja
polimorfizmów
Kontrola jakości
Sens biologiczny