high-quality human genomes achieved through hifi …

Post on 19-Nov-2021

3 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

High-quality human genomes achieved through HiFi sequence data and FALCON-Unzip AssemblyZ.N. Kronenberg1, I. Sovic1, C. Dunn1, S.B. Kingan1, G.T. Concepcion1, J. Drake1, J. Korlach1, P. Peluso1, A.M. Wenger1, J. Mountcastle2,3, B. Haase2,3, O. Fedrigo2,3, E.D. Jarvis2,3

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 X Y

homSap1 homSap2 homSap3

HiFi Contigs (>1 Mb) Mapped on GRCh38 Ideogram

Abstract HiFi Assembly Statistics

1Pacific Biosciences, Menlo Park, CA, USA; 2Laboratory of Neurogenetics of Language, Box 54, The Rockefeller University, New York, NY 10065, USA; 3Howard Hughes Medical Institute, Chevy Chase, MD, USA.

Basepair Accuracy of HiFi Contigs

25

30

35

40

45

50

HiF

i A

ss

em

bly

CL

R A

ss

em

bly

Ba

se

Ac

cu

rac

y (

Ph

red

) 45.08

50.6–HiFi assembly of HG002 has higher basepair

accuracy than Long Read assembly for the same

sample.–Median quality across 100 kb windows

(N=25,789) is 5.5 Phred QV points, which

translates to 3.5-fold fewer errors (Figure 3).

–Both primary and haplotigs are nearly QV50

(Table 2).

Highly Accurate Phasing Achieved Through FALCON-Unzip

homSap1

homSap2

homSap3

OMIM Alleles

ClinVar Short Variants

HGMD Variants

Segmental Dups

GENCODE v29 Comprehensive Transcript Set (only Basic displayed by default)

OMIM Allelic Variants

ClinVar Variants

Human Gene Mutation Database Public Variants

OMIM Genes - Dark Green Can Be Disease-causing

Duplications of >1000 Bases of Non-RepeatMasked Sequence

FALCON-Unzip Phase Blocks

DIS3L2

DIS3L2

DIS3L2

ALPP

AC068134.1

AC068134.1

ALPG

AC068134.2

ALPI

ECEL1

ECEL1

PRSS56

PRSS56

CHRND

CHRND

CHRNG

CHRNG

TIGD1

EIF4E2

MIR5001

EIF4E2

EIF4E2

EIF4E2

EIF4E2

EIF4E2

EIF4E2

AC073254.1

AC073254.1

AC073254.1

AC073254.1

AC073254.1

AC073254.1

614184 171800

171810

171740

605896

613858

100720

100730

612972

605895

208 Kbp phased region spanning

disease associated variants

phased in all indviduals

99.9%

phasing accuracy

Figure 4. Haplotig Phasing Accuracy. Each point represents a hap-

lotig, the size of the point denotes haplotig size. Points along the ver-

tical and horizontal axis are enriched for either maternal or paternal

kmers. The overall accuracy is listed within each pane.

Figure 3. Comparison of Base QV

between HiFi and CLR. The box and

whisker diagram shows the distribution

of Phred qualities in 100 kb windows

across the HG002 de novo assembly.

Figure 2. Contigs >1 Mb from the HiFi assemblies cover most of the reference

genome. HiFi primary contigs for the homSap trio were aligned to GRCh38 using

minimap2. Only contigs greater than 1Mb are shown. Breaks in the alignments do not

always correspond to contig boundaries.

Table 2. Base Quality values for HiFi

primary/haplotig contigs. The mean,

median and number of 100 kb windows

greater than QV40 are shown.

–FALCON-Unzip phased between

56.2-68.8% of the genomes we assembled

(Table1).

–Average haplotig phasing accuracy was ~

99.9% (Figure 4).

–Haplotigs (phase blocks) contiguity,

measured as N50, ranged from 93-150 kb

and increases with HiFi insert size.

–Phase blocks can span many genes. For

example, in Figure 5, several genes are

phased, including those with clinically

relevant variants (OMIM; ClinVar)

Figure 5. Example of haplotigs phasing clinically relevant genes. A) The top panel of genome browser shows the

haplotigs/phased regions aligned to GRCh38. Genes tracks and clinical variants are shown below. B) Haplotype

transmission in the HomSap trio, for the same region shown in Figure 5A.

FALCON-Unzip produces highly accurate, well phased, human assemblies at 20 fold HiFi

coverage. Here we have demonstrated the accuracy of FALCON-Unzip on five human

genomes across three different trios.

–FALCON-Unzip now natively supports HiFi data.

–FALCON-Unzip is available at: https://github.com/PacificBiosciences/pbbioconda

–FALCON-Unzip HiFi user guide is available at:

https://github.com/PacificBiosciences/pbbioconda/wiki/HiFi-:--FALCON-Unzip3-User-Guide

For further reading:

Wenger, Aaron M., et al. "Accurate circular consensus long-read sequencing improves

variant detection and assembly of a human genome." Nature biotechnology (2019): 1-8.

Vollger, Mitchell R., et al. "Improved assembly and variant detection of a haploid human

genome using single-molecule, high-fidelity long reads." BioRxiv (2019): 635037.

Table 1. Summary statistics for the five HiFi human de

novo genome assemblies. Library preparation, depth of

coverage, and chemistries varied, however, the resulting

assemblies have similar statistics.

Figure 1. Primary contig sizes shown against the length of the

genome assembly. Contigs are sorted from largest to smallest.

For Research Use Only. Not for use in diagnostic procedures. © Copyright 2019 by Pacific Biosciences of California, Inc. All rights reserved. Pacific Biosciences, the Pacific Biosciences logo, PacBio, SMRT, SMRTbell, Iso-Seq, and Sequel are trademarks of Pacific Biosciences. Pacific Biosciences does not sell a kit for carrying out the overall No-Amp Targeted Sequencing method.

Use of the No-Amp method may require rights to third-party owned intellectual property. BluePippin and SageELF are trademarks of Sage Science. NGS-go and NGSengine are trademarks of GenDx. FEMTO Pulse and Fragment Analyzer are trademarks of Agilent Technologies Inc. All other trademarks are the sole property of their respective owners

HG002 HG005 homSap

1 2

3

Samples:

HiFi library prep

10-15 kb

Sequel II system

3-8 SMRT Cells 8M

per library

Subreads

(passes)

Circular Consensus Sequence

HiFi FALCON-Unzip

Assembly

N50 > 20 Mb

QV50 base

quality

99.9%

phase

accuracy

99.9%

phasing accuracy

99.9%

phasing accuracy

Haplotype transmission in HomSap Trio

380 kb inversion

1 2

3

ECEL1P2 ALPPL2

232,380 kb 232,390 kb 232,400 kb 232,410 kb 232,420 kb 232,430 kb

46 kb

chr2

p25.1 p24.1 p22.3 p21 p16.2 p15 p13.2 p11.2 q11.2 q13 q14.2 q21.1 q22.2 q24.1 q31.1 q32.1 q33.1 q34 q36.1 q37.1

Genes

Segdups

Repeats

��

� �

� �

� ��

�� �

� ��

��

� � � � � � � � ���

�����

�����������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��

��

��

��

��� � �

��

� � � ��� � � �

��

�����������

�����������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��

� �

� �

�������� �

� � �� � � �

�����

��

����������

�����������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

� �

��

��

� �

��

� ��� �

� � � ���� � � � � � �

����

���������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��

��

� �

� ��

� �� �

� � � � �

� �

�������������

���������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������0

25

50

75

100

125

0 25 50 75 100

Percent of Assembly

co

ntig

le

ng

th (

Mb

)

hg002

hg005

homSap1

homSap2

homSap3

30 Mb

10 Mb

1 Mb

A. B.Conclusions

Sequence Resolved Structural Variation

top related