high-quality human genomes achieved through hifi …

1
High-quality human genomes achieved through HiFi sequence data and FALCON-Unzip Assembly Z.N. Kronenberg 1 , I. Sovic 1 , C. Dunn 1 , S.B. Kingan 1 , G.T. Concepcion 1 , J. Drake 1 , J. Korlach 1 , P. Peluso 1 , A.M. Wenger 1 , J. Mountcastle 2,3 , B. Haase 2,3 , O. Fedrigo 2,3 , E.D. Jarvis 2,3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 X Y homSap1 homSap2 homSap3 HiFi Contigs (>1 Mb) Mapped on GRCh38 Ideogram Abstract HiFi Assembly Statistics 1 Pacific Biosciences, Menlo Park, CA, USA; 2 Laboratory of Neurogenetics of Language, Box 54, The Rockefeller University, New York, NY 10065, USA; 3 Howard Hughes Medical Institute, Chevy Chase, MD, USA. Basepair Accuracy of HiFi Contigs 25 30 35 40 45 50 HiFi Assembly CLR Assembly Base Accuracy (Phred) 45.08 50.6 HiFi assembly of HG002 has higher basepair accuracy than Long Read assembly for the same sample. Median quality across 100 kb windows (N=25,789) is 5.5 Phred QV points, which translates to 3.5-fold fewer errors (Figure 3). Both primary and haplotigs are nearly QV50 (Table 2). Highly Accurate Phasing Achieved Through FALCON-Unzip homSap1 homSap2 homSap3 OMIM Alleles ClinVar Short Variants HGMD Variants Segmental Dups GENCODE v29 Comprehensive Transcript Set (only Basic displayed by default) OMIM Allelic Variants ClinVar Variants Human Gene Mutation Database Public Variants OMIM Genes - Dark Green Can Be Disease-causing Duplications of >1000 Bases of Non-RepeatMasked Sequence FALCON-Unzip Phase Blocks DIS3L2 DIS3L2 DIS3L2 ALPP AC068134.1 AC068134.1 ALPG AC068134.2 ALPI ECEL1 ECEL1 PRSS56 PRSS56 CHRND CHRND CHRNG CHRNG TIGD1 EIF4E2 MIR5001 EIF4E2 EIF4E2 EIF4E2 EIF4E2 EIF4E2 EIF4E2 AC073254.1 AC073254.1 AC073254.1 AC073254.1 AC073254.1 AC073254.1 614184 171800 171810 171740 605896 613858 100720 100730 612972 605895 208 Kbp phased region spanning disease associated variants phased in all indviduals 99.9% phasing accuracy Figure 4. Haplotig Phasing Accuracy. Each point represents a hap- lotig, the size of the point denotes haplotig size. Points along the ver- tical and horizontal axis are enriched for either maternal or paternal kmers. The overall accuracy is listed within each pane. Figure 3. Comparison of Base QV between HiFi and CLR. The box and whisker diagram shows the distribution of Phred qualities in 100 kb windows across the HG002 de novo assembly. Figure 2. Contigs >1 Mb from the HiFi assemblies cover most of the reference genome. HiFi primary contigs for the homSap trio were aligned to GRCh38 using minimap2. Only contigs greater than 1Mb are shown. Breaks in the alignments do not always correspond to contig boundaries. Table 2. Base Quality values for HiFi primary/haplotig contigs. The mean, median and number of 100 kb windows greater than QV40 are shown. FALCON-Unzip phased between 56.2-68.8% of the genomes we assembled (Table1). Average haplotig phasing accuracy was ~ 99.9% (Figure 4). Haplotigs (phase blocks) contiguity, measured as N50, ranged from 93-150 kb and increases with HiFi insert size. Phase blocks can span many genes. For example, in Figure 5, several genes are phased, including those with clinically relevant variants (OMIM; ClinVar) Figure 5. Example of haplotigs phasing clinically relevant genes. A) The top panel of genome browser shows the haplotigs/phased regions aligned to GRCh38. Genes tracks and clinical variants are shown below. B) Haplotype transmission in the HomSap trio, for the same region shown in Figure 5A. FALCON-Unzip produces highly accurate, well phased, human assemblies at 20 fold HiFi coverage. Here we have demonstrated the accuracy of FALCON-Unzip on five human genomes across three different trios. FALCON-Unzip now natively supports HiFi data. FALCON-Unzip is available at: https://github.com/PacificBiosciences/pbbioconda FALCON-Unzip HiFi user guide is available at: https://github.com/PacificBiosciences/pbbioconda/wiki/HiFi-:--FALCON-Unzip3-User-Guide For further reading: Wenger, Aaron M., et al. "Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome." Nature biotechnology (2019): 1-8. Vollger, Mitchell R., et al. "Improved assembly and variant detection of a haploid human genome using single-molecule, high-fidelity long reads." BioRxiv (2019): 635037. Table 1. Summary statistics for the five HiFi human de novo genome assemblies. Library preparation, depth of coverage, and chemistries varied, however, the resulting assemblies have similar statistics. Figure 1. Primary contig sizes shown against the length of the genome assembly. Contigs are sorted from largest to smallest. For Research Use Only. Not for use in diagnostic procedures. © Copyright 2019 by Pacific Biosciences of California, Inc. All rights reserved. Pacific Biosciences, the Pacific Biosciences logo, PacBio, SMRT, SMRTbell, Iso-Seq, and Sequel are trademarks of Pacific Biosciences. Pacific Biosciences does not sell a kit for carrying out the overall No-Amp Targeted Sequencing method. Use of the No-Amp method may require rights to third-party owned intellectual property. BluePippin and SageELF are trademarks of Sage Science. NGS-go and NGSengine are trademarks of GenDx. FEMTO Pulse and Fragment Analyzer are trademarks of Agilent Technologies Inc. All other trademarks are the sole property of their respective owners HG002 HG005 homSap 1 2 3 Samples: HiFi library prep 10-15 kb Sequel II system 3-8 SMRT Cells 8M per library Subreads (passes) Circular Consensus Sequence HiFi FALCON-Unzip Assembly N50 > 20 Mb QV50 base quality 99.9% phase accuracy 99.9% phasing accuracy 99.9% phasing accuracy Haplotype transmission in HomSap Trio 380 kb inversion 1 2 3 ECEL1P2 ALPPL2 232,390 kb 232,400 kb 232,410 kb 232,420 kb 232,430 kb 46 kb chr2 p25.1 p24.1 p22.3 p21 p16.2 p15 p13.2 p11.2 q11.2 q13 q14.2 q21.1 q22.2 q24.1 q31.1 q32.1 q33.1 q34 q36.1 q37.1 Genes Segdups Repeats 0 25 50 75 100 125 0 25 50 75 100 Percent of Assembly contig length (Mb) hg002 hg005 homSap1 homSap2 homSap3 30 Mb 10 Mb 1 Mb A. B. Conclusions Sequence Resolved Structural Variation

Upload: others

Post on 19-Nov-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

High-quality human genomes achieved through HiFi sequence data and FALCON-Unzip AssemblyZ.N. Kronenberg1, I. Sovic1, C. Dunn1, S.B. Kingan1, G.T. Concepcion1, J. Drake1, J. Korlach1, P. Peluso1, A.M. Wenger1, J. Mountcastle2,3, B. Haase2,3, O. Fedrigo2,3, E.D. Jarvis2,3

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 X Y

homSap1 homSap2 homSap3

HiFi Contigs (>1 Mb) Mapped on GRCh38 Ideogram

Abstract HiFi Assembly Statistics

1Pacific Biosciences, Menlo Park, CA, USA; 2Laboratory of Neurogenetics of Language, Box 54, The Rockefeller University, New York, NY 10065, USA; 3Howard Hughes Medical Institute, Chevy Chase, MD, USA.

Basepair Accuracy of HiFi Contigs

25

30

35

40

45

50

HiF

i A

ss

em

bly

CL

R A

ss

em

bly

Ba

se

Ac

cu

rac

y (

Ph

red

) 45.08

50.6–HiFi assembly of HG002 has higher basepair

accuracy than Long Read assembly for the same

sample.–Median quality across 100 kb windows

(N=25,789) is 5.5 Phred QV points, which

translates to 3.5-fold fewer errors (Figure 3).

–Both primary and haplotigs are nearly QV50

(Table 2).

Highly Accurate Phasing Achieved Through FALCON-Unzip

homSap1

homSap2

homSap3

OMIM Alleles

ClinVar Short Variants

HGMD Variants

Segmental Dups

GENCODE v29 Comprehensive Transcript Set (only Basic displayed by default)

OMIM Allelic Variants

ClinVar Variants

Human Gene Mutation Database Public Variants

OMIM Genes - Dark Green Can Be Disease-causing

Duplications of >1000 Bases of Non-RepeatMasked Sequence

FALCON-Unzip Phase Blocks

DIS3L2

DIS3L2

DIS3L2

ALPP

AC068134.1

AC068134.1

ALPG

AC068134.2

ALPI

ECEL1

ECEL1

PRSS56

PRSS56

CHRND

CHRND

CHRNG

CHRNG

TIGD1

EIF4E2

MIR5001

EIF4E2

EIF4E2

EIF4E2

EIF4E2

EIF4E2

EIF4E2

AC073254.1

AC073254.1

AC073254.1

AC073254.1

AC073254.1

AC073254.1

614184 171800

171810

171740

605896

613858

100720

100730

612972

605895

208 Kbp phased region spanning

disease associated variants

phased in all indviduals

99.9%

phasing accuracy

Figure 4. Haplotig Phasing Accuracy. Each point represents a hap-

lotig, the size of the point denotes haplotig size. Points along the ver-

tical and horizontal axis are enriched for either maternal or paternal

kmers. The overall accuracy is listed within each pane.

Figure 3. Comparison of Base QV

between HiFi and CLR. The box and

whisker diagram shows the distribution

of Phred qualities in 100 kb windows

across the HG002 de novo assembly.

Figure 2. Contigs >1 Mb from the HiFi assemblies cover most of the reference

genome. HiFi primary contigs for the homSap trio were aligned to GRCh38 using

minimap2. Only contigs greater than 1Mb are shown. Breaks in the alignments do not

always correspond to contig boundaries.

Table 2. Base Quality values for HiFi

primary/haplotig contigs. The mean,

median and number of 100 kb windows

greater than QV40 are shown.

–FALCON-Unzip phased between

56.2-68.8% of the genomes we assembled

(Table1).

–Average haplotig phasing accuracy was ~

99.9% (Figure 4).

–Haplotigs (phase blocks) contiguity,

measured as N50, ranged from 93-150 kb

and increases with HiFi insert size.

–Phase blocks can span many genes. For

example, in Figure 5, several genes are

phased, including those with clinically

relevant variants (OMIM; ClinVar)

Figure 5. Example of haplotigs phasing clinically relevant genes. A) The top panel of genome browser shows the

haplotigs/phased regions aligned to GRCh38. Genes tracks and clinical variants are shown below. B) Haplotype

transmission in the HomSap trio, for the same region shown in Figure 5A.

FALCON-Unzip produces highly accurate, well phased, human assemblies at 20 fold HiFi

coverage. Here we have demonstrated the accuracy of FALCON-Unzip on five human

genomes across three different trios.

–FALCON-Unzip now natively supports HiFi data.

–FALCON-Unzip is available at: https://github.com/PacificBiosciences/pbbioconda

–FALCON-Unzip HiFi user guide is available at:

https://github.com/PacificBiosciences/pbbioconda/wiki/HiFi-:--FALCON-Unzip3-User-Guide

For further reading:

Wenger, Aaron M., et al. "Accurate circular consensus long-read sequencing improves

variant detection and assembly of a human genome." Nature biotechnology (2019): 1-8.

Vollger, Mitchell R., et al. "Improved assembly and variant detection of a haploid human

genome using single-molecule, high-fidelity long reads." BioRxiv (2019): 635037.

Table 1. Summary statistics for the five HiFi human de

novo genome assemblies. Library preparation, depth of

coverage, and chemistries varied, however, the resulting

assemblies have similar statistics.

Figure 1. Primary contig sizes shown against the length of the

genome assembly. Contigs are sorted from largest to smallest.

For Research Use Only. Not for use in diagnostic procedures. © Copyright 2019 by Pacific Biosciences of California, Inc. All rights reserved. Pacific Biosciences, the Pacific Biosciences logo, PacBio, SMRT, SMRTbell, Iso-Seq, and Sequel are trademarks of Pacific Biosciences. Pacific Biosciences does not sell a kit for carrying out the overall No-Amp Targeted Sequencing method.

Use of the No-Amp method may require rights to third-party owned intellectual property. BluePippin and SageELF are trademarks of Sage Science. NGS-go and NGSengine are trademarks of GenDx. FEMTO Pulse and Fragment Analyzer are trademarks of Agilent Technologies Inc. All other trademarks are the sole property of their respective owners

HG002 HG005 homSap

1 2

3

Samples:

HiFi library prep

10-15 kb

Sequel II system

3-8 SMRT Cells 8M

per library

Subreads

(passes)

Circular Consensus Sequence

HiFi FALCON-Unzip

Assembly

N50 > 20 Mb

QV50 base

quality

99.9%

phase

accuracy

99.9%

phasing accuracy

99.9%

phasing accuracy

Haplotype transmission in HomSap Trio

380 kb inversion

1 2

3

ECEL1P2 ALPPL2

232,380 kb 232,390 kb 232,400 kb 232,410 kb 232,420 kb 232,430 kb

46 kb

chr2

p25.1 p24.1 p22.3 p21 p16.2 p15 p13.2 p11.2 q11.2 q13 q14.2 q21.1 q22.2 q24.1 q31.1 q32.1 q33.1 q34 q36.1 q37.1

Genes

Segdups

Repeats

��

� �

� �

� ��

�� �

� ��

��

� � � � � � � � ���

�����

�����������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��

��

��

��

��� � �

��

� � � ��� � � �

��

�����������

�����������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��

� �

� �

�������� �

� � �� � � �

�����

��

����������

�����������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

� �

��

��

� �

��

� ��� �

� � � ���� � � � � � �

����

���������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��

��

� �

� ��

� �� �

� � � � �

� �

�������������

���������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������0

25

50

75

100

125

0 25 50 75 100

Percent of Assembly

co

ntig

le

ng

th (

Mb

)

hg002

hg005

homSap1

homSap2

homSap3

30 Mb

10 Mb

1 Mb

A. B.Conclusions

Sequence Resolved Structural Variation