analiza danych ngs (i) bioinformatyka wykład...

66
ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4 BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 1

Upload: dinhphuc

Post on 18-Oct-2018

220 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA DANYCH NGS (I) Bioinformatyka

wykład 4

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 1

Page 2: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS)1. Detekcja mutacji i polimorfizmów genetycznych

2. Poznawanie nowych genomów (de novo genome assembly)

3. RNA-Seq: profilowanie transkryptomu

4. Chip-Seq: Interakcje na linii białko-DNA

5. Methyl-Seq: Epigenomika i metylacja DNA

6. Metagenomika

Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 2

Page 3: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS)1. Detekcja mutacji i polimorfizmów genetycznych

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 3

Page 4: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS

Detection of genomic variation among individuals of a population is amongthe most frequent applications of next-generation sequencing (NGS).

Locating genomic sequence variations that correlate with diseasepredisposition or drug response, and esablishing a genotypic basis of variousphonotypes become common focuses of many NGS studies in biomedical and life sciences reserach.

Besides variations carried through the germline for generations, NGS has alsobeen applied to identify de novo germline and somatic mutations, which occurmore frequently than previously expected and underlie numerous humandiseases including various types of cancer.

Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 4

Page 5: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS

Detecting the various forms of genetic variations/mutations from NGS (…) isnot an easy task. The primary challange is to differentiate true sequencevariations/mutations from false positives caused by sequencing errors and artifacts generated in (…) sequnce alignment.

It is, therefore, important to generate high-quality sequence data data beforeperforming data analysis. Equally important, sensitive and yet specificvariant/mutant calling algorithms are required to achieve high accuracy in genomic ariation and mutation discovery.

Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 5

Page 6: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA ZMIENNOŚCI GENETYCZNEJ ZA POMOCĄ WGS

Roche (454)

700-400 bp; pirosekwencjonowanie

Illumina (Solexa)

100-150 bp; sekwencjonowanie przez syntezę

Pacific Biosciences (PacBio)

>20 000 bp; sekwencjonowanie przez syntezę;

… i inne

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 6

Page 7: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA CAŁEGO GENOMU/TRANSKRYPTOMU

Funkcjonalna adnotacja początkowych i końcowych pozycji CNV w genomie bydła mlecznego

Wpływ polimorfizmów strukturalnych na ekspresję genów

Wyjaśnienie genetycznego podłoża mastitis

Porównanie programów do składania sekwencji de novo

… i inne

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 7

PRACOWNIA BIOSTATYSTYKI# PROJEKTY

Page 8: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 8BIOINFORMATYKA 2018/2019

PRACOWNIA BIOSTATYSTYKI# DANE

Mielczarek et al. 2018

Page 9: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 9

PRZECHOWYWANIE DANYCH

surowe dane pliki pośrednie pliki końcowe

6,1 TB 4,9 TB 44,8 GB + dane dodatkowe

1 genom

PRACOWNIA BIOSTATYSTYKI# DANE

Page 10: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Pipeline = łańcuch przetwarzania danych

Uproszczony schemat

Jedno z podstawowych zagadnień w analizie danych NGS przyrównanie do genomu referencyjnego oraz detekcja mutacji/polimorfizmów

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

PIPELINE

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 10

Page 11: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

SUROWE DANE

AGAAATG…

Read 1Single-end

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!

(…)

Read 1

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 11

Page 12: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

SUROWE DANE

AGAAATG…

Read 1

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!

(…)

Read 1

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 2:N:0:ACAGTG

TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT

+

DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD

(…)

Read 2

... GGCTGAA

Read 2Paired-end

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 12

Page 13: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 13

SRR988073_1.fas

tq

SRR988073_2.fastq

BIOINFORMATYKA 2018/2019

Page 14: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 14

http://en.wikipedia.org/wiki/FASTQ_format

BIOINFORMATYKA 2018/2019

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!

(…)

www.illumina.com

Page 15: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

KODOWANIE JAKOŚCI

MAGDA MIELCZAREK 15

http://en.wikipedia.org/wiki/FASTQ_format

BIOINFORMATYKA 2018/2019

Page 16: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

KONTROLA JAKOŚCI

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!

(…)

Read 1

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 2:N:0:ACAGTG

TTAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGCT

+

DD@FF@@FGHGHH01DDGHHHDDDDHIIIJJJDIIIGDDJGDDGDD

(…)

Read 2

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 16

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Kontrola jakości

Page 17: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIIIGDDJGDDGD!

(…)

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 17

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Kontrola jakości

Page 18: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

AGAAATGCCAGGCTAGATGAGTTACAATCTAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDDHIIIJJDDIII^DD?GDDGDD

(…)

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 18

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Kontrola jakości

Page 19: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

KONTROLA JAKOŚCI

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 19

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Kontrola jakości

Page 20: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

FASTQC

MAGDA MIELCZAREK 20

www.bioinformatics.babraham.ac.uk/projects/fastqc/

Kontrola jakości danych

Graficzne przedstawienie sekwencji

Tworzenie raportu

Brak możliwości filtracji danych

BIOINFORMATYKA 2018/2019

Page 21: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

FASTQC - PRZYKŁADY

MAGDA MIELCZAREK 21

www.bioinformatics.babraham.ac.uk/projects/fastqc/

BIOINFORMATYKA 2018/2019

Page 22: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

BASIC STATISTICS

MAGDA MIELCZAREK 22

www.bioinformatics.babraham.ac.uk/projects/fastqc/

BIOINFORMATYKA 2018/2019

Page 23: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PER BASE SEQUENCE QUALITY

MAGDA MIELCZAREK 23

www.bioinformatics.babraham.ac.uk/projects/fastqc/

Ostrzeżenie – pierwszy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25

Awaria – pierwszy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20

BIOINFORMATYKA 2018/2019

Page 24: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PER TILE SEQUENCE QUALITY

MAGDA MIELCZAREK 24

www.bioinformatics.babraham.ac.uk/projects/fastqc/

...if there was a loss in quality associated with only one part of the flowcell

BIOINFORMATYKA 2018/2019

Page 25: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PER SEQUENCE QUALITY SCORES

MAGDA MIELCZAREK 25

www.bioinformatics.babraham.ac.uk/projects/fastqc/

Ostrzeżenie – najczęściej obserwowane średnia jakość <27

Awaria – najczęściej obserwowane średnia jakość< 20

BIOINFORMATYKA 2018/2019

Page 26: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PER BASE SEQUENCE CONTENT

MAGDA MIELCZAREK 26

www.bioinformatics.babraham.ac.uk/projects/fastqc/

Ostrzeżenie – różnica między A i T lub G i C > 10%, w którejkolwiek pozycji

Awaria – różnica między A i T lub G i C > 20%, w którejkolwiek pozycji

BIOINFORMATYKA 2018/2019

Page 27: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PER SEQUENCE GC CONTENT

MAGDA MIELCZAREK 27

www.bioinformatics.babraham.ac.uk/projects/fastqc/

BIOINFORMATYKA 2018/2019

Page 28: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PER BASE N CONTENT

MAGDA MIELCZAREK 28

www.bioinformatics.babraham.ac.uk/projects/fastqc/

Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%.

Awaria – dowolna pozycja pokazuje zawartość N> 20%.

BIOINFORMATYKA 2018/2019

Page 29: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

SEQUENCE LENGTH DISTRIBUTION

MAGDA MIELCZAREK 29

www.bioinformatics.babraham.ac.uk/projects/fastqc/

Ostrzeżenie – sekwencje nie są tej samej długości

Awaria – którakolwiek sekwencja ma długość 0

BIOINFORMATYKA 2018/2019

Page 30: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

SEQUENCE DUPLICATION LEVELS

MAGDA MIELCZAREK 30

www.bioinformatics.babraham.ac.uk/projects/fastqc/

Ostrzeżenie – sekwencje nieunikalne > 20%

Awaria – sekwencje nieunikalne > 50%

BIOINFORMATYKA 2018/2019

Page 31: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

OVERREPRESENTED SEQUENCES

MAGDA MIELCZAREK 31

www.bioinformatics.babraham.ac.uk/projects/fastqc/

No overrepresented sequences

Ostrzeżenie – którakolwiek sekwencja występuje > 0,1%

Awaria – którakolwiek sekwencja występuje > 1%

BIOINFORMATYKA 2018/2019

Page 32: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ADAPTER CONTENT

MAGDA MIELCZAREK 32

www.bioinformatics.babraham.ac.uk/projects/fastqc/

BIOINFORMATYKA 2018/2019

Page 33: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

KMER CONTENT

MAGDA MIELCZAREK 33

www.bioinformatics.babraham.ac.uk/projects/fastqc/

BIOINFORMATYKA 2018/2019

Page 34: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Błędne dane mogą prowadzić do:

wolniejszego działania oprogramowania

zużywania więcej pamięci RAM

generowania słabej jakości/niewłaściwych wyników

Czyszczenie danych:

zwiększa średnią jakość krótkich sekwencji

daje lepsze rezultaty przyrównania

redukuje rozmiar danych

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

EDYCJA SEKWENCJI MOTYWACJA

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 34

Page 35: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

EDYCJA SEKWENCJI

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 35

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

AGAAATGCCAGGCTAGATGAGTTACAATCNAGTATCAAGATAGGC

+

@@@FFDFFGHGHHFDDDGHHHDDDD44#$%&‚344+400/01234

(…)

Page 36: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 36

@HWI-1KL157:109:C448WACXX:7:1311:12007:37445 1:N:0:ACAGTG

GTTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA

+

@@@FFDFFGHHHFDDDGHHHDDDD44#$%&‚344+400/01234222211

(…)

Oryginalny odczyt = 51 bp

1. Homopolimery?

TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA

2. Nieznane zasady?

TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA

3. Jakość poniżej 20?

TTAGCGCGCGGCTAGATGAGTTACAATCNAGTATCAAGATAGGAAAAAA

Sekwencja po czyszczeniu = 26 bp

BIOINFORMATYKA 2018/2019

Page 37: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Name OS Input Output Supported

platforms

Report Tag removal Filtering Trimming

FastQC Lin, Mac, Win (CS) FASTQ,

SAM, BAM

HTML Illumina,

ABI SOLiD

yes no no no

FASTX-Toolkit Lin, Mac,

web interface

FASTA, FASTQ FASTA, FASTQ Illumina yes yes yes yes

Galaxy Lin, Mac,

web interface,

Cloud instance

FASTQ FASTQ Illumina yes yes yes yes

htSeqTools Lin, Mac, Win FASTQ Graphs Illumina yes no no no

PRINSEQ Lin, Mac, Win,

web interface

FASTA, FASTQ,

QUAL FASTA

FASTA, FASTQ,

QUAL FASTA,

HTML

Illumina, 454 yes no yes yes

SolexaQA Lin, Mac FASTQ FASTQ, PNG Illumina, 454 yes no no yes

TagCleaner Lin, Mac,

web interface

FASTA, FASTQ FASTA 454 no yes no no

TileQC Lin, Mac Eland output Graphs Illumina yes no no no

MAGDA MIELCZAREK 37

Programy do oceny jakości i edycji danych (Pabinger et. al 2013) BIOINFORMATYKA 2018/2019

Page 38: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 38BIOINFORMATYKA 2018/2019

Page 39: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PRINSEQ AMBIGUOUS BASES

Sequences can contain the ambiguous base N for positions that could not be identified as a particular base. A high number of Ns can be a sign for a low quality sequence or even dataset.

Ambiguous bases can cause problems during downstream analysis. The different programs deal with the problem in different ways. Some programs replace ambiguous bases with a random base (e.g. BWA) and others with a fixed base (e.g. SHAHA2 and Velvet replace Ns with As). This can result in misassemblies or false mapping of sequences to a reference sequence and therefore, sequences with a high number of Ns should be removed before downstream analysis.

Filtering reads containing more than 1% of ambiguous bases is advised.

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 39

Page 40: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PRINSEQ MINIMUM AND MAXIMUM READ LENGTH

Short sequences are more likely to match at a random position by chance than longer sequences and may therefore result in false positive functional or taxonomical assignments.

In some cases, sequences can be much longer than several standard deviations above the mean length (e.g. 1,500+ bp for a 500 bp mean length with a sd100 bp). Those sequences should be used with caution as they likely contain long stretches of homopolymer runs. Homopolymers are a known issue of pyrosequencing technologies such as 454/Roche.

A rule of thumb for sequence length thresholds of longer-read datasets is to filter sequences shorter than 60 bp (20 amino acids) and longer than twice the mean length.

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 40

Page 41: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 41

http://prinseq.sourceforge.net/manual.html

Jakość satysfakcjonująca - 20

Dopuszczalna długość sekwencji - 60 pzBIOINFORMATYKA 2018/2019

Page 42: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 42BIOINFORMATYKA 2018/2019

Page 43: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

GALAXY

WYBRANE NARZĘDZIA:

NGS: QC and manipulation:

FastQC Read Quality reports

Filter FASTQ

Trim sequences

Trimmomatic

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 43

www.usegalaxy.org

Page 44: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 44

Page 45: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

READS MAPPING

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 45

After the data is cleaned up, the next step is to align, the reads to a reference genome if it is available, or conduct de novo assembly.

Most NGS applications require reads mapping to a reference genome prior to conducting further analysis.

The purpose of this mapping process is to locate origins of the reads in the genome.

Simultaneous mapping of millions of NGS reads, sometimes very short, to a genome is not trivial. A challenge comes from the fact that any particular genome from which NGS reads are derived deviates from the reference genome at many sites because of polymorphisms and mutation. Sequencing errors are often indistinguishable from true sequence deviations.

Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS

Page 46: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO

GGTGGGAAAAA

GGGACTGATTCC

GGGAACCTTTCTGAACCTTTCTTC

GAAAAAATTTCA

ACTGGTGGGAA

TGGGAAAAATTCCTTTCTTCGGA

GAGAACCTTTCT

AAAGGGAACCT

AGAGAGATTTGGACTGATTCCGA

…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…

Genom referencyjny

ACTGGTGGGAA AAAGGGAACCT

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 46

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Page 47: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

GAGAACCTTTCTAGAGAGATTTG

PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO

GGTGGGAAAAA

GGGACTGATTCC

GGGAACCTTTCTGAACCTTTCTTT

GAAAAAATTTCA

ACTGGTGGGAA

TGGGAAAAAATCCTTTCTTTGGA

GAGAACCTTTCT

AAAGGGAACCT

AGAGAGATTTGGACTGATTCCGA

…ACTGGTGGGGAAAAATTTCAAAAGGGAACCTTTCTTTGGAGCGGGACTGATTCCGAGAGAGA…

GGTGGGAAAAAGGGACTACTGA

GGGAACCTTTCCGAACCTTTCCTC

GAAAAAATTTCA

ACTGGTGGGAA

TGGGAAAAAATCCTTTCCTCGGA

AAAGGGAACCT

GACTACTGATTC

ACTGGTGGGAA AAAGGGAACCT

ACTGGTGGGAA AAAGGGAACCT

Genom referencyjnyBIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 47

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny

Page 48: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 48

POKRYCIE GENOMU

Page 49: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 49

Page 50: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 50

Page 51: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 51

Page 52: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

FASTA

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 52

Page 53: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO

KROKI:

1. Obróbka genomu referencyjnego/odczytów

2. Przyrównanie do genomu referencyjnego

ALGORYTMY:

1. Tablica z haszowaniem: „Hash table on the set of input reads”

„Hash table on the reference genome”

2. Transformata Burrowsa-Wheelera (BWT)

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 53

Page 54: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

BURROWS-WHEELER TRANSFORMTo increase speed and reduce demands on computational resources, a novel approach

is developed on the basis of Burrows-Wheeler transform and suffix trees (or arrays).

BWT achieves better reference genome compression to enable more efficient indexing

and faster searching.

The human genome indexed with BWT only takes 2-3 GB of computer memory,

whereas the spaced-seed indexing approach can take over 50 GB memory. Through

the use of BWT and suffix trees (or arrays), the run time needed for aligning million of

reads to a large and complex genome, like the human genome, is cut from hours to

minutes.

Xinkun Wang. Next Generation Sequencing Data Analysis. 2016, CRC PRESS

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 54

Page 55: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

PROGRAM BWA

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 55http://bio-bwa.sourceforge.net/

Page 56: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

CZAS DZIAŁANIA

Soap2

Bowtie 2

SHRiMP 2

56MAGDA MIELCZAREK

Ruffalo et al. 2011

Page 57: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

% PRZYRÓWNANYCH ODCZYTÓW

57MAGDA MIELCZAREK

BWA + SAMtools flagstat

Page 58: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

% PRZYRÓWNANYCH ODCZYTÓW

58MAGDA MIELCZAREK

Page 59: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Name IndexingOutput

formatsPE

Gapped

alignmentSupported platforms Operating System

Multi-

threadedAdditional information

Bowtie genome SAM + - Illumina, ABI SOLiD Linux, Macintosh, Windows +alignments containg ambiguous

characters (e.g. Ns) are not allowed

Bowtie2 genome SAM + +Illumina, 454, Ion

TorrentLinux, Macintosh, Windows +

no upper limit on read length; alignments

containg ambiguous characters (e.g. Ns)

are allowed

BWA genome SAM + +Illumina, 454, Ion

TorrentLinux +

three algorithms are available: BT, SW,

MEM

Segemehl genome SAM + + Illumina, 454 Linux + not limited to a specific read length

SOAP2

(SOAPaligner)genome SOAP + + Illumina Linux +

SOAP to SAM format convertor can be

downloaded separately

SOAP3 genomebinary/plain

text, SAM+ - Illumina Linux + GPU-accelerated version

SOAP3-db genomeplain text,

SAM, BAM+ + Illumina Linux +

GPU-accelerated version; mismatches,

InDels, and small gaps are allowed, read

length longer than 500 bp is not

recommended

Table 1. The characteristics of BWA based alignment to the reference genome software (Mielczarek & Szyda 2015)

Page 60: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

Name IndexingOutput

formatsPE

Gapped

alignmen

t

Supported

platforms

Operating

System

Multi-

threadedAdditional information

BFAST genome SAM + + Illumina, 454, ABI SOLiD Linux + detailed manual is available

MAQ reads MAQ + - Illumina, ABI SOLiD (partial) Linux - upper limit on read length 63bp

Mosaik genomeBAM, SAM,

BED, ELAND+ +

Illumina, ABI SOLiD, 454,

Helicos Heliscope

(experimental)

Linux,

Macintosh,

Windows, Solaris

+detailed manual is available; FASTA/FASTQ files

compressed using gzip are acceptable

mrFAST genome SAM, DIVET + + Illumina Linux -

designed to map short reads to reference genome

with an emphasis on the discovery of structural

variation and segmental duplications.

mrsFAST genome SAM + - Illumina Linux - mistmatches are allowed, InDels not

SHRiMP2 genomeSAM,

SHRIMP+ + Illumina, ABI SOLiD, 454 Linux, Macintosh + updated version of the original SHRiMP

SOAP genome SOAP + - Illumina Linux +SOAP to SAM format convertor can be downloaded

separately

SMALT genome

SAM, BAM,

CIGAR,

others

+ +Illumina, ABI SOLiD, 454, Ion

Torrent, PacBioLinux +

FASTA/FASTQ files compressed using gzip are

acceptable; many output formats are supported

Table 2. The characteristics of hash table based alignment to the reference genome software (Mielczarek & Szyda 2015)

Page 61: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

SAM (SEQUENCE ALIGNMENT/MAP FORMAT)

MAGDA MIELCZAREK 61

header section

alignment section

http://chagall.med.cornell.edu/NGScourse/SAM.pdf

ANALIZA DANYCH NGS 2017/2018

Page 62: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 62

SAM/BAM

Page 63: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

MAGDA MIELCZAREK 63

SAM/BAM

HWI-1KL157:58:D2FVAACXX:2:2313:3871:71331 147 Chr15 33794413 50 101M = 33794252 -262 GCTCAGCTTTCTTCACAGTCCAACTCTCACATCCATACATGACCACTGGAAAAACCATAGCCTTGACTGGACGGACCTTTGTTAGAGGTTGCTAAAGACTG DBACCDDCDDDDCC>DECDDC@;?3?3HAHGEJHHEFHDAF@CF=EDEEGDGG@IGF@HEHGCGIIIJIGGDIHFGIJIJIEIIJIGG?FHHHFDDDD@@@ NM:i:2 AS:i:91 XS:i:83 RG:Z:D2FVAACXX_2

Page 64: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

ANALIZA DANYCH NGS 2017/2018 MAGDA MIELCZAREK 64

Page 65: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

FORMAT BAM

Binary Alignment/Map Format:

binarny odpowiednik formatu SAM

zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM)

MAGDA MIELCZAREK 65

Page 66: ANALIZA DANYCH NGS (I) Bioinformatyka wykład 4theta.edu.pl/wp-content/uploads/2018/10/Wykład-4.pdf · GŁÓWNE ZASTOSOWANIA SEKWENCJONOWANIA NASTĘPNEJ GENERACJI (NGS) 1. Detekcja

KONIEC CZĘŚCI I

BIOINFORMATYKA 2018/2019 MAGDA MIELCZAREK 66

Surowe Dane

Przyrównanie do

genomu

referencyjnego

Detekcja

polimorfizmów

Kontrola jakości

Sens biologiczny