analiza danych ngs (i) bioinformatyka wykład...

ANALIZA DANYCH NGS (I) Bioinformatyka

wykład 4

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 1

GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS)1. Detekcja mutacji i polimorfizmów genetycznych

2. Poznawanie nowych genomów (de novo genome assembly)

3. RNA-Seq: profilowanie transkryptomu

4. Chip-Seq: Interakcje na linii białko-DNA

5. Methyl-Seq: Epigenomika i metylacja DNA

6. Metagenomika

Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS


GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS)1. Detekcja mutacji i polimorfizmów genetycznych


ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS

Detection of genomic variation among individuals of a population is amongthe most frequent applications of next-generation sequencing (NGS).

Locating genomic sequence variations that correlate with diseasepredisposition or drug response, and esablishing a genotypic basis of variousphonotypes become common focuses of many NGS studies in biomedical and life sciences reserach.

Besides variations carried through the germline for generations, NGS has alsobeen applied to identify de novo germline and somatic mutations, which occurmore frequently than previously expected and underlie numerous humandiseases including various types of cancer.




Detecting the various forms of genetic variations/mutations from NGS (…) isnot an easy task. The primary challange is to differentiate true sequencevariations/mutations from false positives caused by sequencing errors and artifacts generated in (…) sequnce alignment.

It is, therefore, important to generate high-quality sequence data data beforeperforming data analysis. Equally important, sensitive and yet specificvariant/mutant calling algorithms are required to achieve high accuracy in genomic ariation and mutation discovery.




Roche (454)

700-400 bp; pirosekwencjonowanie

Illumina (Solexa)

100-150 bp; sekwencjonowanie przez syntezę

Pacific Biosciences (PacBio)

>20 000 bp; sekwencjonowanie przez syntezę;

… i inne


ANALIZA CAŁEGO GENOMU/TRANSKRYPTOMU

Funkcjonalna adnotacja początkowych i końcowych pozycji CNV w genomie bydła mlecznego

Wpływ polimorfizmów strukturalnych na ekspresję genów

Wyjaśnienie genetycznego podłoża mastitis

Porównanie programów do składania sekwencji de novo

… i inne


PRACOWNIA BIOSTATYSTYKI# PROJEKTY

MAGDA MIELCZAREK 8BIOINFORMATYKA 2018/2019

PRACOWNIA BIOSTATYSTYKI# DANE

Mielczarek et al. 2018


PRZECHOWYWANIE DANYCH

surowe dane pliki pośrednie pliki końcowe

6,1 TB 4,9 TB 44,8 GB + dane dodatkowe

1 genom

PRACOWNIA BIOSTATYSTYKI# DANE

Pipeline = łańcuch przetwarzania danych

Uproszczony schemat

Jedno z podstawowych zagadnień w analizie danych NGS przyrównanie do genomu referencyjnego oraz detekcja mutacji/polimorfizmów

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

PIPELINE


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

SUROWE DANE

AGAAATG…

Read 1Single-end

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!

(…)

Read 1


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

SUROWE DANE

AGAAATG…

Read 1



+


(…)

Read 1


TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT

+

DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD

(…)

Read 2

... GGCTGAA

Read 2Paired-end


MAGDA MIELCZAREK 13

SRR988073_1.fas

tq

SRR988073_2.fastq

BIOINFORMATYKA 2018/2019

MAGDA MIELCZAREK 14

http://en.wikipedia.org/wiki/FASTQ_format




+


(…)

www.illumina.com

KODOWANIE JAKOŚCI

MAGDA MIELCZAREK 15

http://en.wikipedia.org/wiki/FASTQ_format


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

KONTROLA JAKOŚCI



+


(…)

Read 1


TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT

+

DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD

(…)

Read 2


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Kontrola jakości

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny



+


(…)


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Kontrola jakości

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny



+

@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIII^DD?GDDGDD

(…)


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Kontrola jakości

KONTROLA JAKOŚCI


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Kontrola jakości

FASTQC

MAGDA MIELCZAREK 20

www.bioinformatics.babraham.ac.uk/projects/fastqc/

Kontrola jakości danych

Graficzne przedstawienie sekwencji

Tworzenie raportu

Brak możliwości filtracji danych


FASTQC - PRZYKŁADY

MAGDA MIELCZAREK 21



BASIC STATISTICS

MAGDA MIELCZAREK 22



PER BASE SEQUENCE QUALITY

MAGDA MIELCZAREK 23


Ostrzeżenie – pierwszy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25

Awaria – pierwszy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20


PER TILE SEQUENCE QUALITY

MAGDA MIELCZAREK 24


...if there was a loss in quality associated with only one part of the flowcell


PER SEQUENCE QUALITY SCORES

MAGDA MIELCZAREK 25


Ostrzeżenie – najczęściej obserwowane średnia jakość <27

Awaria – najczęściej obserwowane średnia jakość< 20


PER BASE SEQUENCE CONTENT

MAGDA MIELCZAREK 26


Ostrzeżenie – różnica między A i T lub G i C > 10%, w którejkolwiek pozycji

Awaria – różnica między A i T lub G i C > 20%, w którejkolwiek pozycji


PER SEQUENCE GC CONTENT

MAGDA MIELCZAREK 27



PER BASE N CONTENT

MAGDA MIELCZAREK 28


Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%.

Awaria – dowolna pozycja pokazuje zawartość N> 20%.


SEQUENCE LENGTH DISTRIBUTION

MAGDA MIELCZAREK 29


Ostrzeżenie – sekwencje nie są tej samej długości

Awaria – którakolwiek sekwencja ma długość 0


SEQUENCE DUPLICATION LEVELS

MAGDA MIELCZAREK 30


Ostrzeżenie – sekwencje nieunikalne > 20%

Awaria – sekwencje nieunikalne > 50%


OVERREPRESENTED SEQUENCES

MAGDA MIELCZAREK 31


No overrepresented sequences

Ostrzeżenie – którakolwiek sekwencja występuje > 0,1%

Awaria – którakolwiek sekwencja występuje > 1%


ADAPTER CONTENT

MAGDA MIELCZAREK 32



KMER CONTENT

MAGDA MIELCZAREK 33



Błędne dane mogą prowadzić do:

wolniejszego działania oprogramowania

zużywania więcej pamięci RAM

generowania słabej jakości/niewłaściwych wyników

Czyszczenie danych:

zwiększa średnią jakość krótkich sekwencji

daje lepsze rezultaty przyrównania

redukuje rozmiar danych

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

EDYCJA SEKWENCJI MOTYWACJA


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

EDYCJA SEKWENCJI



AGAAATGCCAGGCTAGATGAGTTACAATCNAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDD44#$%&‚344+400/01234

(…)

MAGDA MIELCZAREK 36


GTTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA

+

@@@FFDFFGHHHFDDDGHHHDDDD44#$%&‚344+400/01234222211

(…)

Oryginalny odczyt = 51 bp

1. Homopolimery?

TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA

2. Nieznane zasady?


3. Jakość poniżej 20?


Sekwencja po czyszczeniu = 26 bp


Name OS Input Output Supported

platforms

Report Tag removal Filtering Trimming

FastQC Lin, Mac, Win (CS) FASTQ,

SAM, BAM

HTML Illumina,

ABI SOLiD

yes no no no

FASTX-Toolkit Lin, Mac,

web interface

FASTA, FASTQ FASTA, FASTQ Illumina yes yes yes yes

Galaxy Lin, Mac,

web interface,

Cloud instance

FASTQ FASTQ Illumina yes yes yes yes

htSeqTools Lin, Mac, Win FASTQ Graphs Illumina yes no no no

PRINSEQ Lin, Mac, Win,

web interface

FASTA, FASTQ,

QUAL FASTA

FASTA, FASTQ,

QUAL FASTA,

HTML

Illumina, 454 yes no yes yes

SolexaQA Lin, Mac FASTQ FASTQ, PNG Illumina, 454 yes no no yes

TagCleaner Lin, Mac,

web interface

FASTA, FASTQ FASTA 454 no yes no no

TileQC Lin, Mac Eland output Graphs Illumina yes no no no

MAGDA MIELCZAREK 37

Programy do oceny jakości i edycji danych (Pabinger et. al 2013) BIOINFORMATYKA 2018/2019

PRINSEQ AMBIGUOUS BASES

Sequences can contain the ambiguous base N for positions that could not be identified as a particular base. A high number of Ns can be a sign for a low quality sequence or even dataset.

Ambiguous bases can cause problems during downstream analysis. The different programs deal with the problem in different ways. Some programs replace ambiguous bases with a random base (e.g. BWA) and others with a fixed base (e.g. SHAHA2 and Velvet replace Ns with As). This can result in misassemblies or false mapping of sequences to a reference sequence and therefore, sequences with a high number of Ns should be removed before downstream analysis.

Filtering reads containing more than 1% of ambiguous bases is advised.


PRINSEQ MINIMUM AND MAXIMUM READ LENGTH

Short sequences are more likely to match at a random position by chance than longer sequences and may therefore result in false positive functional or taxonomical assignments.

In some cases, sequences can be much longer than several standard deviations above the mean length (e.g. 1,500+ bp for a 500 bp mean length with a sd100 bp). Those sequences should be used with caution as they likely contain long stretches of homopolymer runs. Homopolymers are a known issue of pyrosequencing technologies such as 454/Roche.

A rule of thumb for sequence length thresholds of longer-read datasets is to filter sequences shorter than 60 bp (20 amino acids) and longer than twice the mean length.


MAGDA MIELCZAREK 41

http://prinseq.sourceforge.net/manual.html

Jakość satysfakcjonująca - 20

Dopuszczalna długość sekwencji - 60 pzBIOINFORMATYKA 2018/2019

GALAXY

WYBRANE NARZĘDZIA:

NGS: QC and manipulation:

FastQC Read Quality reports

Filter FASTQ

Trim sequences

Trimmomatic


www.usegalaxy.org

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

READS MAPPING

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 45

After the data is cleaned up, the next step is to align, the reads to a reference genome if it is available, or conduct de novo assembly.

Most NGS applications require reads mapping to a reference genome prior to conducting further analysis.

The purpose of this mapping process is to locate origins of the reads in the genome.

Simultaneous mapping of millions of NGS reads, sometimes very short, to a genome is not trivial. A challenge comes from the fact that any particular genome from which NGS reads are derived deviates from the reference genome at many sites because of polymorphisms and mutation. Sequencing errors are often indistinguishable from true sequence deviations.


PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO

GGTGGGAAAAA

GGGACTGATTCC

GGGAACCTTTCTGAACCTTTCTTC

GAAAAAATTTCA

ACTGGTGGGAA

TGGGAAAAATTCCTTTCTTCGGA

GAGAACCTTTCT

AAAGGGAACCT

AGAGAGATTTGGACTGATTCCGA

…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…

Genom referencyjny

ACTGGTGGGAA AAAGGGAACCT


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

GAGAACCTTTCTAGAGAGATTTG


GGTGGGAAAAA

GGGACTGATTCC

GGGAACCTTTCTGAACCTTTCTTT

GAAAAAATTTCA

ACTGGTGGGAA

TGGGAAAAAATCCTTTCTTTGGA

GAGAACCTTTCT

AAAGGGAACCT

AGAGAGATTTGGACTGATTCCGA

…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…

GGTGGGAAAAAGGGACTACTGA

GGGAACCTTTCCGAACCTTTCCTC

GAAAAAATTTCA

ACTGGTGGGAA

TGGGAAAAAATCCTTTCCTCGGA

AAAGGGAACCT

GACTACTGATTC



Genom referencyjnyBIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 47

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny


POKRYCIE GENOMU

FASTA



KROKI:

1. Obróbka genomu referencyjnego/odczytów

2. Przyrównanie do genomu referencyjnego

ALGORYTMY:

1. Tablica z haszowaniem: „Hash table on the set of input reads”

„Hash table on the reference genome”

2. Transformata Burrowsa-Wheelera (BWT)


BURROWS-WHEELER TRANSFORMTo increase speed and reduce demands on computational resources, a novel approach

is developed on the basis of Burrows-Wheeler transform and suffix trees (or arrays).

BWT achieves better reference genome compression to enable more efficient indexing

and faster searching.

The human genome indexed with BWT only takes 2-3 GB of computer memory,

whereas the spaced-seed indexing approach can take over 50 GB memory. Through

the use of BWT and suffix trees (or arrays), the run time needed for aligning million of

reads to a large and complex genome, like the human genome, is cut from hours to

minutes.



PROGRAM BWA

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 55http://bio-bwa.sourceforge.net/

CZAS DZIAŁANIA

Soap2

Bowtie 2

SHRiMP 2

56MAGDA MIELCZAREK

Ruffalo et al. 2011

% PRZYRÓWNANYCH ODCZYTÓW

57MAGDA MIELCZAREK

BWA + SAMtools flagstat

% PRZYRÓWNANYCH ODCZYTÓW

58MAGDA MIELCZAREK

Name IndexingOutput

formatsPE

Gapped

alignmentSupported platforms Operating System

Multi-

threadedAdditional information

Bowtie genome SAM + - Illumina, ABI SOLiD Linux, Macintosh, Windows +alignments containg ambiguous

characters (e.g. Ns) are not allowed

Bowtie2 genome SAM + +Illumina, 454, Ion

TorrentLinux, Macintosh, Windows +

no upper limit on read length; alignments

containg ambiguous characters (e.g. Ns)

are allowed

BWA genome SAM + +Illumina, 454, Ion

TorrentLinux +

three algorithms are available: BT, SW,

MEM

Segemehl genome SAM + + Illumina, 454 Linux + not limited to a specific read length

SOAP2

(SOAPaligner)genome SOAP + + Illumina Linux +

SOAP to SAM format convertor can be

downloaded separately

SOAP3 genomebinary/plain

text, SAM+ - Illumina Linux + GPU-accelerated version

SOAP3-db genomeplain text,

SAM, BAM+ + Illumina Linux +

GPU-accelerated version; mismatches,

InDels, and small gaps are allowed, read

length longer than 500 bp is not

recommended

Table 1. The characteristics of BWA based alignment to the reference genome software (Mielczarek & Szyda 2015)

Name IndexingOutput

formatsPE

Gapped

alignmen

t

Supported

platforms

Operating

System

Multi-

threadedAdditional information

BFAST genome SAM + + Illumina, 454, ABI SOLiD Linux + detailed manual is available

MAQ reads MAQ + - Illumina, ABI SOLiD (partial) Linux - upper limit on read length 63bp

Mosaik genomeBAM, SAM,

BED, ELAND+ +

Illumina, ABI SOLiD, 454,

Helicos Heliscope

(experimental)

Linux,

Macintosh,

Windows, Solaris

+detailed manual is available; FASTA/FASTQ files

compressed using gzip are acceptable

mrFAST genome SAM, DIVET + + Illumina Linux -

designed to map short reads to reference genome

with an emphasis on the discovery of structural

variation and segmental duplications.

mrsFAST genome SAM + - Illumina Linux - mistmatches are allowed, InDels not

SHRiMP2 genomeSAM,

SHRIMP+ + Illumina, ABI SOLiD, 454 Linux, Macintosh + updated version of the original SHRiMP

SOAP genome SOAP + - Illumina Linux +SOAP to SAM format convertor can be downloaded

separately

SMALT genome

SAM, BAM,

CIGAR,

others

+ +Illumina, ABI SOLiD, 454, Ion

Torrent, PacBioLinux +

FASTA/FASTQ files compressed using gzip are

acceptable; many output formats are supported

Table 2. The characteristics of hash table based alignment to the reference genome software (Mielczarek & Szyda 2015)

SAM (SEQUENCE ALIGNMENT/MAP FORMAT)

MAGDA MIELCZAREK 61

header section

alignment section

http://chagall.med.cornell.edu/NGScourse/SAM.pdf

ANALIZA DANYCH NGS 2017/2018

MAGDA MIELCZAREK 62

SAM/BAM

MAGDA MIELCZAREK 63

SAM/BAM

HWI-1KL157:58:D2FVAACXX:2:2313:3871:71331 147 Chr15 33794413 50 101M = 33794252 -262 GCTCAGCTTTCTTCACAGTCCAACTCTCACATCCATACATGACCACTGGAAAAACCATAGCCTTGACTGGACGGACCTTTGTTAGAGGTTGCTAAAGACTG DBACCDDCDDDDCC>DECDDC@;?3?3HAHGEJHHEFHDAF@CF=EDEEGDGG@IGF@HEHGCGIIIJIGGDIHFGIJIJIEIIJIGG?FHHHFDDDD@@@ NM:i:2 AS:i:91 XS:i:83 RG:Z:D2FVAACXX_2

FORMAT BAM

Binary Alignment/Map Format:

binarny odpowiednik formatu SAM

zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM)

MAGDA MIELCZAREK 65

KONIEC CZĘŚCI I


Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

analiza danych ngs (i) bioinformatyka wykład...

Documents