curso de genómica - uat (vhir) 2012 - aplicaciones de las tecnologías de alto rendimiento

43
UAT APLICACIONES DE LAS TECNOLOGÍAS DE NGS Rosa M. Prieto UAT

Upload: vhir-vall-dhebron-institut-de-recerca

Post on 14-Jun-2015

1.090 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

APLICACIONES DE LAS TECNOLOGÍAS DE NGS

Rosa M. Prieto UAT

Page 2: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

1. ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO

AMPLICONES

2. ESTUDIOS DE METAGENÓMICA

3. SECUENCIACIÓN DE GENOMAS COMPLETOS

4. RNAseq

5. ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA

APLICACIONES DE LAS TECNOLOGÍAS DE NGS

Page 3: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

In an infected patient the population of viruses presents high rates of mutation and replication. It is a complex mixing of different mutants. Goal of the study:

Detection and quantification of mutations or combination of mutations that could confer resistance to viral inhibitors in

samples from infected patients.

Special interest in mutations at a low rate (minor variants).

HCV, HBV, HIV virus populations has special characteristics:

ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES.

1

Page 4: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

Minor variants often play an important role in the development of resistance to antiviral treatments in patients, even if they are present in a very low percentage in the population.

Minor variants may not be detected by classical sequencing methods You obtain hundreds of sequences with much effort and high cost

NextGen sequencing allow to detect efficiently variants at a very low rate You obtain thousands of sequences with relatively low cost

ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES.

1

WHY IS NGS APPROPIATED FOR THIS KIND OF STUDY?

Page 5: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

Las lecturas largas (hasta 600 pb) permiten identificar de forma inequívoca varias mutaciones presentes en un mismo amplicón. De hecho, este tipo de estudios no puede hacerse con otras plataformas que generen secuencias más cortas que necesiten ser ensambladas.

454 (Roche GS FLX/GS Junior)

ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES.

1

¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA?

VENTAJAS DE LA NGS Para poder detectar variantes poco frecuentes es necesario hacer una cantidad ingente de secuenciación Sanger → las técnicas de NGS generan un número muy alto de secuencias en paralelo con menos esfuerzo y menos coste por secuencia. La secuenciación de amplicones permite la “multiplexación”: secuenciación simultánea de muchas muestras añadiendo a cada amplicón una etiqueta (MID) para poder identificarlo.

Rendimiento medio de la carrera: 700.000 secuencias, 450.000 bases Longitud del amplicón a secuenciar: 450 pb

50 pacientes (cada uno con un MID) Total a secuenciar = 450 pb/amplicón * 50 amplicones = 22.500 pb

Cobertura media por paciente = 450.000 / 22.500 = 20x (20 lecturas del mismo amplicón) Nº secuencias por paciente = 14.000

Page 6: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES.

1

2. Obtención de muestras de suero de pacientes infectados y tratados en las diferentes condiciones a incluir en el estudio.

HBV polymerase (P) and surface (S) ORFs

1. Diseño experimental apropiado: variables (n, controles, tratamientos, tiempos....)

3. Generación de la librería de amplicones. El amplicón debe contener las regiones susceptibles de contener las mutaciones de interés, más la secuencia del MID (si se hace “multiplex”) y las secuencias “clave” y “adaptadora”. La secuenciación es bidireccional.

anillamiento de beads de captura, cebadores de emPCR y de secuenciación “clave” para la pirosecuenciación (TCAG para amplicones)

Page 7: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

• UDPS detected minor variants comprising less than 0.1% of the HBV viral quasispecies • Identification of mutations in extremely low percentages with an acceptable degree of confidence is limited by: -the number of independent template molecules obtained from the sample analyzed -the coverage or number of reads obtained per base -the number of artifactual errors generated during PCR amplification and pyrosequencing • For these reasons, all the samples selected for the current study carried a high HBV viral load (>105 IU/mL) and the high-fidelity DNA polymerase Pfu turbo was used to bypass the artifactual errors. With this approach, variants comprising as little as 0.03% of the HBV quasispecies could be detected.

Ultra-Deep Pyrosequencing Detects Conserved Genomic Sites and Quantifies Linkage of Drug-Resistant Amino Acid Changes in the Hepatitis B Virus Genome PLoS One, Rodríguez-Frías et al., 2012

ESTUDIO DE QUASIESPECIES VIRALES (HEPATITIS B Y C) UTILIZANDO AMPLICONES.

1

Page 8: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

Metagenomics is the study of a collection of genetic material (genomes) from a mixed community of organisms. Metagenomics usually refers to the study of microbial communities.

ESTUDIOS DE METAGENÓMICA. 2

What can we study?

•The biosphere contains between 1030 and 1031 microbial genomes, at least 2–3 orders of magnitude more than the number of plant and animal cells combined. •Microbes associated with the human body outnumber human cells by at least a factor of ten. •The vast majority cannot be cultured.

Page 9: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ESTUDIOS DE METAGENÓMICA. 2

(16S rRNA)

The 16S rRNA gene is comprised of highly conserved regions interspersed with more variable regions, allowing PCR primers to be designed that are complementary to universally conserved regions flanking variable regions.

Wu et al. BMC Microbiol. 2010; 10: 206.

Unidirectional sequencing

Page 10: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

Shotgun: ¿qué organismos hay y cómo funciona la comunidad? ¿variaciones en respuesta a modificaciones ambientales, p.ej, contaminación? Aplicaciones: -identificación y clasificación taxonómica de microorganismos presentes -ensamblaje de genomas -predicción y anotación de genes, estudio funcional -comparación de múltiples muestras Inconvenientes: -los organismos más abundantes son los más ampliamente representados en la secuenciación, enmascarando los menos abundantes -necesidad de cobertura alta para encontrar microorganismos poco abundantes → caro

ESTUDIOS DE METAGENÓMICA. 2

Amplicones 16S rRNA: identificación de microorganismos presentes en la muestra (estudio taxonómico). Inconvenientes: -es posible que la región estudiada no permita asignar una secuencia de forma inequívoca -generación de quimeras durante la amplificación, que hay que eliminar durante el análisis bioinformático

Page 11: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

454 (Roche GS FLX/GS Junior) ¿QUÉ TECNOLOGÍA ES LA MÁS APROPIADA?

ESTUDIOS DE METAGENÓMICA. 2

With the recently capability to sequence >400 nt, it will be possible to span most hypervariable regions, multiple adjacent hypervariable regions, or possibly combinations of non-adjacent hypervariable regions through paired-end sequencing strategies (Huse et al., PLoS Genetics 2008)

VENTAJAS DE LA NGS -Secuenciación directa de muestras (la mayoría de los microorganismos no pueden ser cultivados). Muchas comunidades de muestras bacterianas no cultivadas se han estudiado mediante Sanger para determinar las secuencias 16SrRNA. -Las técnicas de NGS permiten obtener un número muy alto de secuencias en paralelo, lo que permite obtener una representación de la diversidad microbiana presente en la muestra con menor esfuerzo que usando secuenciación Sanger.

Page 12: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ESTUDIOS DE METAGENÓMICA. 2

Sampling and pyrosequencing methods for characterizing bacterial communities in the human gut using 16S sequence tags. Wu et al. BMC Microbiol. 2010; 10: 206. This is a study of methods for surveying bacterial communities in human feces using 454/Roche pyrosequencing of 16S rRNA gene tags. Comparison of different methods of sample storage (no effect), DNA extraction and purification (great effect), set of primers for amplification of several variable regions (effect) and GS FLX vs. GS FLX Titanium sequencing (no effect).

Composition of the gut microbiome in the ten subjects studied.

We did find that the choice of 16S rRNA gene region used for analysis had a noticeable effect, with the V6-V9 region representing an outlier. The V6-V9 primers consistently showed the lowest percentage of taxonomic assignments at the genus level. We note that our choice of V6-V9 primer and sequencing direction did not cover the V6 regions efficiently.

Page 13: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ESTUDIOS DE METAGENÓMICA. 2

NIH Human Microbiome Project

Page 14: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

•To establish associations between the genes of the human intestinal microbiota and our health and disease.

• Focused on two disorders of increasing importance in Europe, Inflammatory Bowel Disease (IBD) and obesity.

ESTUDIOS DE METAGENÓMICA. 2

Page 15: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

¿Cómo se secuencia un genoma completo?

Caso A: no existe un genoma de referencia (secuenciación “de novo”)

Caso B: existe un genoma de referencia (resecuenciación)

Page 16: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

Secuenciación “de novo” (por ejemplo, bacterias, plantas....): 1) GS FLX de Roche, usando librerías de PE+librerías de shotgun: “andamio” con baja cobertura 2) Illumina o SOLiD: secuenciación con cobertura alta 3) “Rellenar huecos” mediante secuenciación Sanger 4) Análisis bioninformático (ensamblaje, anotación funcional, búsqueda de variantes, etc.) 5) Validación mediante tecnologías complementarias (ej. arrays de SNPs)

1 2 2

3 3

4

Page 17: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

DNA genómico de alto peso molecular

500 ng mínimo 15 µg

Resecuenciación

Secuenciación de novo

Page 18: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

Secuenciación de la cepa bacteriana E. coli O104:H4 con GS Junior, MiSeq, PGM.

1. Creación de un ensamblaje de referencia (Roche GS FLX+ shotgun + 8 Kb

PE, coverage 32x). Contiene 1 cromosoma (5.3 kb) y 2 plásmidos. Quedan 153 gaps correspondientes a regiones repetitivas sin resolver.

2. Secuenciación de la misma cepa usando: • 2 runs del 454 GS Junior • 2 chips 316 del Ion Torrent PGM • 1 run del MiSeq (2x150 bases)

Performance comparison of benchtop high-troughput sequencing platforms. Nat. Biotechn. 30 (5): 434-441 (2012)

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

Page 19: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

Conclusions: “One important conclusion from this evaluation is that saying that one has “sequenced a bacterial genome” means different things on different benchtop sequencing platforms”

MiSeq GS Junior IonTorrent

Throughput/run The highest The lowest The fastest

Errors The lowest Intermediate(indels) Many, specially in homopolymers

Read length Intermediate (2x150bp)

The longest (520 bp) The shortest (100bp)

Run time The longest (27 hr)

Intermediate (9 hr) The shortest (3 hr)

Price per Mb The cheapest The most expensive Intermediate

Other considerations

Unfillable gaps Errors in homopolymers The worstest performance

Performance comparison of benchtop high-troughput sequencing platforms. Nat. Biotechn. 30 (5): 434-441 (2012)

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

Page 20: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

Resecuenciación, por ejemplo de genomas humanos: 1) Secuenciación:

• Illumina o SOLiD: recomendados por su rendimiento elevado (en Gb de secuencia obtenidos), precio por secuencia bajo. Tiempo de carrera largo. • Roche: no recomendado por su rendimiento medio-bajo y por su elevado coste (sólo es abordable para genomas pequeños, p.ej. microbianos). Tiempo de carrera corto. •Ion Proton: recomendado por su rendimiento medio-alto (previsto hasta 10 Gb), precio por secuencia bajo, tiempo de carrera corto. Rápidos avances en la tecnología.

2) “Rellenar huecos” mediante secuenciación Sanger.

3) Análisis bioinformático (ensamblaje, anotación funcional, variantes....)

4) Validación mediante tecnologías complementarias

Page 21: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

• La pequeña fracción del genoma con variaciones entre los individuos puede explicar diferencias en la

susceptibilidad a una enfermedad, en la respuesta a fármacos o en la reacción a factores ambientales. El

“Proyecto de los 1000 genomas” tratará de establecer un mapa del genoma humano que incluya la descripción de

la mayor cantidad posible de variaciones en el mismo, mejorando de forma espectacular la información obtenida

con el proyecto HapMap.

• El proyecto se realiza con el soporte principal de tres instituciones: el Wellcome Trust Sanger Institute (Hinxton,

Inglaterra), el Beijing Genomics Institute (Shenzen, China) y el National Human Genome Research Institute, que

forma parte del NIH (National Institutes of Health, USA).

Page 22: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

Methods: 1-Low coverage (5x) sequencing: SOLiD+Illumina 2-Whole exome sequencing (80× average coverage across a consensus target of 24 Mb spanning more than 15,000 genes)): SeqCap EZHuman Exome Library, Nimblegen, and SureSelect All Exon V2 Target Enrichment kit from Agilent. 3-SNP genotyping: Initially all samples were typed using a Sequenom MassArray SNP Genotyping panel of 23 SNPs and one gender determining assay to establish a genetic fingerprint. After gender concordance was verified the samples were placed on 96 well plates using the llumina HumanOmni2.5OQuad v1.0 B SNP array.

Page 23: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

El proyecto publicará el genotipo de los voluntarios, junto con información detallada de su fenotipo: registros médicos, varios análisis, imágenes RM, etc. Toda la información estará disponible para cualquiera en Internet, para que investigadores puedan probar varias hipótesis acerca de las relaciones entre el genotipo, el ambiente y el fenotipo.

Page 24: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

Page 25: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

What is ClinVar? The goal of ClinVar is to provide a freely accessible, public archive of reports of the relationships among human variations and phenotypes along with supporting evidence. By so doing, ClinVar will facilitate access to and communication about the relationships asserted between human variation and observed health status. ClinVar collects reports of variants found in patient samples, assertions made regarding their clinical significance, information about the submitter, and other supporting data. The alleles described in the submissions are mapped to reference sequences, and reported according to the HGVS standard.

Page 26: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

(human-sized genome: 3 Gb)

COSTS include: •Labor, administration, management, utilities, reagents, and consumables •Sequencing instruments and other large equipment (amortized over three years) •Informatics activities directly related to sequence production •Shotgun library construction (required for preparing DNA to be sequenced) •Submission of data to a public database •Indirect Costs

‘Sequence coverage' values used in calculating the cost per genome: • Sanger-based sequencing (average read length=500-600 bases): 6-fold coverage • 454 sequencing (average read length=300-400 bases): 10-fold coverage • Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage

1ª generación 2ª generación

resequencing projects

1ª generación 2ª generación

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

¿Cuánto cuesta secuenciar un genoma humano completo?

Page 27: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

SECUENCIACIÓN DE GENOMAS COMPLETOS. 3

Page 28: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

RNAseq 4

Todas las especies de RNA:

-RNA total (mRNA o especies de RNA no codificantes)

-mRNA (análisis del transcriptoma)

-small RNA (p.ej. microRNA)

Sitios de inicio de la transcripción RNA-Seq específico de cadena Patrones de procesamiento alternativo Fusiones génicas Perfil de RNAs de pequeño tamaño Secuenciación directa de RNA (Helicos Bioscience)

¿Qué podemos estudiar?

¿Cuál es el material de partida?

Page 29: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

RNAseq 4 Total RNA

Construcción de librerías para RNA sequencing

Reference genome/transcriptome

“De novo” assembly

RNA fragmentation+cDNA synthesis Small RNAs

Direct RNA sequencing (Helicos)

Page 30: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

• El mRNA se transcribe a partir de exones que están separados por intrones de un tamaño mucho mayor: mapear las lecturas

sobre un genoma puede ser complicado, especialmente si se utilizan lecturas cortas.

• El rango dinámico de los niveles de expresión génica es muy amplio, por tanto la abundancia relativa de las especies de RNA es

muy variable, de 105 a 107 órdenes de magnitud.

• Debido a la particularidad anterior, podemos encontrarnos con que al secuenciar una librería de cDNA la mayoría de las lecturas

corresponden a una pequeña fracción de genes altamente expresados, por ejemplo, genes ribosomales. Por ello puede ser

recomendable “normalizar” la librería antes de secuenciarla, es decir, reducir el rango de las especies más abundantes al de las

menos abundantes con el fin de obtener una mejor representación de todos los RNAs presentes.

• Los diferentes tipos de RNA tienen particularidades y tamaños muy diferentes:

– Para aislar los RNAs de pequeño tamaño hay que utilizar protocolos específicos

– La construcción de las librerías de cDNA puede introducir un “bias”

• El RNA se degrada más fácilmente que el DNA. Hay protocolos para extracción de RNA de muestras parafinadas y para

comenzar la ultrasecuenciación con muy poca cantidad de RNA y de baja calidad (teniendo en cuenta que “garbage in=garbage

out”.

RNAseq 4 Consideraciones a tener en cuenta

Page 31: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT Normalización de una librería de cDNA

RNAseq 4

(DSN)

Tránscritos muy expresados: reducción 10x Tránscritos poco expresados: enriquecimiento 10x

Desventaja: en una librería normalizada no se pueden cuantificar niveles de expresión de los tránscritos.

Page 32: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

Comparación RNAseq. vs. microarrays para el análisis del transcriptoma

Wang et al., Nat. Rev. Genetics 10 (2009)

RNAseq 4

Lecturas largas (Roche/454) Lecturas cortas (SOLiD, Illumina)

Ensamblaje de transcriptomas “de novo”, identificación de tránscritos de fusión (ej. en cáncer), detección de variantes de splicing

Resecuenciación de transcriptomas, secuenciación “de novo” en combinación con la tecnología de Roche

Util para transcriptomas pequeños o para generar un “andamio” inicial que se rellene con lecturas cortas

Por su alto rendimiento, estas plataformas proporcionan una profundidad de lectura muy alta

Para transcriptomas grandes (ej. humano), el coste es prohibitivo

Mucho más económicas por base que la tecnología 454

500 pg RNAt 100 pg RNAt (Illumina), 500 pg (Roche)

Page 33: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

La secuenciación de un genoma completo es complejo y caro, y puede ser innecesario, p. ej. en aquellos casos donde se sospecha cuál es la región génica responsable de un determinado fenotipo. En estos casos se puede “capturar” la región de interés antes de secuenciarla. VENTAJAS: -sistema flexible: existen arrays prediseñados (exoma) o se pueden hacer “a la carta” a partir de las coordenadas génicas de la región de interés -más barato y más sencillo que secuenciar el genoma completo (tanto técnicamente como desde el punto de vista bioinformático). Por el mismo precio se pueden secuenciar más muestras. -tamaño del genoma a secuenciar menor: permite aumentar el “coverage” PLATAFORMAS DE ARRAYS DE CAPTURA DE SECUENCIA: -Nimblegen -Sistema SureSelect (Agilent) -FebIt

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

Page 34: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

Nimblegen Capture Arrays Format

ARRAY DISEÑO

Exome array v3.0 Exones codificantes y miRNAs(64 Mb total)

Exome array v2.0 Exones codificantes y miRNAs(44,1 Mb total)

Exome +UTR Exones codificantes y miRNAs(64 Mb total), más 32 Mb de 5’ y 3’-UTRs

Exome plus Exones codificantes y miRNAs(64 Mb total), más 50 Mb a la carta

Choice library Captura a la carta de regiones de entre 100 Kb y 7 Mb

Choice library XL Captura a la carta de regiones de entre 7 y 50 Mb

Developer library Captura a la carta de regiones de interés de hasta 50 Mb en especies diferentes a la humana

Paneles prediseñados Comprehensive Cancer, Neurology, 50 MB UTR, Soybean Exome, Mouse Exome, Human MHC, Baylor Vchrome (exome)

Page 35: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

Page 36: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

Gen2 Gen3 Gen4Gen1

rs19

999

16 rs71

9572

rs97

2905

rs88

2023

rs10

0495

8rs

7428

93rs

1054

195

rs10

0781

3rs

2369

522

rs10

2259

0

rs11

5979

9

rs94

1731

rs10

0790

4

rs10

150

23 rs75

5102

ROI

D14S

59D1

4S10

37 D14S

567D1

4S68

D14S

256 D1

4S28

0 D14S

565D1

4S10

44

Gen5Gen2 Gen3 Gen4

Gen1

rs19

999

16 rs71

9572

rs97

2905

rs88

2023

rs10

0495

8rs

7428

93rs

1054

195

rs10

0781

3rs

2369

522

rs10

2259

0

rs11

5979

9

rs94

1731

rs10

0790

4

rs10

150

23 rs75

5102

ROI

D14S

59D1

4S10

37 D14S

567D1

4S68

D14S

256 D1

4S28

0 D14S

565D1

4S10

44

Gen5

Diseño del array

-automatizable -manejo mayor nº muestras -no requiere equipos especiales

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

X

Page 37: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT Limitaciones de los arrays de captura: Respecto al diseño:

• Hay que conocer la secuencia para poder diseñar el array • Las sondas no cubren el 100% de la región a capturar, p.ej. se evitan siempre las regiones con secuencias repetitivas para evitar capturas “off-target”

Respecto al resultado del proceso de captura: •% alto de lecturas “off-target”, sobre todo en regiones pequeñas (50-70%), y mayor en solución que en sólido •la cobertura puede no ser uniforme, especialmente en regiones ricas en GC

En el caso de Nimblegen:

•aunque son más baratos que secuenciar un genoma completo, son caros (se abaratan proporcionalmente para muchas muestras) •no generan un solo array a la carta, el mínimo es de 4 o 12 arrays (según el tipo) •el tiempo de diseño & manufactura es relativamente largo (6-8 semanas)

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

Page 38: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

•Roche/Nimblegen's SeqCap EZ Exome Library v2.0

•Agilent's SureSelect Human All Exon 50Mb

•Illumina's TruSeq Exome Enrichment

Page 39: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

“To assess the enrichment efficiency of each platform, we sequenced libraries generated from genomic DNA derived from peripheral blood mononuclear cells (PBMCs) of a healthy volunteer of European descent. Exome DNA was enriched with each platform according to the manufacturers' recommendation. For each exome library, 112–184 million (M) 101-bp paired-end reads were generated using one lane of an Illumina HiSeq 2000 and mapped using the Burrows-Wheeler Alignment tool (BWA)”.

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

Metrics of the three capture systems

Method

Page 40: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT Target enrichment efficiency:

10x 20x 30x

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

98,6 % of bases 96,6 % of bases were covered at least 1x 97,1 % of bases

Higher density design, higher efficiency Lower density design captures more total bases

% T

arge

ted

base

s To

tal b

ases

Page 41: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

Off-target enrichment and GC biass:

-PCR efficiency (library generation) -hybridization with the oligonucleotide probes

Page 42: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT Exome-Seq variant statistics:

Variant detection overlap between exome-seq and WGS by platform:

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

(coverage previously normalized)

Enrichment failure Many false positives

Low cov. in WGS Many false positives

Disease associated

Page 43: Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto rendimiento

UAT

ARRAYS DE ENRIQUECIMIENTO DE SECUENCIA 5

•We have observed that the densely packed, overlapping baits of the Nimblegen SeqCap EZ Exome demonstrate the highest efficiency target enrichment, able to adequately cover the largest proportion of its targeted bases with the least amount of sequencing. Therefore, the Nimblegen platform is superior to the other two platforms for research restricted to the regions that it covers. •Comparison with a large database of disease-related variants classified 456 Agilent, 369 Nimblegen and 467 Illumina exome sequencing–specific SNVs as associated with human diseases. Three hundred and one of these were common between all three platforms, suggesting that some regions missed by WGS but captured by exome sequencing have clinical relevance. •It may be argued that the importance of targeted sequencing is transient and will diminish as WGS becomes less expensive. However, we found that exome sequencing can identify variants that are not evident in WGS because of greater base coverage after enrichment. Even at equivalent coverage levels, specific regions had higher read depth in exome sequencing resulting in greater sensitivity in those regions. Target capture by exome sequencing unambiguously identified some of these difficult regions through preferential selection and observation at higher local read depth.

CONCLUSIONS