pos usp ngs big data parte 2
DESCRIPTION
PresentationCurso de Pos-graduacao IBUSP -2012TRANSCRIPT
New Generation Sequencing
The Big Data Era
Roberta A. Campos
EM 2010
1 ZettaByte (ZB) = 1 Trilhão
1,000,000,000,000 GigaBytes (GB)
Roberta A. Campos PhD, MSc, PD
“Big Data Era” na Ciência
1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)
Researchers need to adapt their institutions and
practices in response to torrents of new data —
and need to complement smart science with smart
searching.
Setembro 2008
Editorial
Roberta A. Campos PhD, MSc, PD
Ciclo do Conhecimento
hypothesis-driven science
data-driven science
(Kell DB et al., 2004)
Gene Knock-outs
Protein Assays
Point mutations
…
Microarrays
Genomics
Meta-genomics
HT proteomics
…
Roberta A. Campos PhD, MSc, PD
Inundação de Dados na Área
de Ciências Biológicas
genomas completos sequenciados;
dados de variações genômicas;
projetos de Meta-Genômica;
dados de transcritomas;
dados de proteínas;
dados de interações entre proteínas;
ION Torrent…
Roberta A. Campos PhD, MSc, PD
E agora, quais são os desafios?
Pontos urgentes que devem ser enfrentados:
◦ Transferência de dados, controle de acesso e gerenciamento.
◦ Padronização dos formatos de dados.
◦ Integração dos dados oriundos de múltiplas fontes.
Dados com características Multi-dimensionais e em um volume
imenso;
Exemplo: Análise funcional de variações no DNA em múltiplas
amostras em diferentes tipos de tumores utilizando dados de
sequenciamento de nova geração...
◦ Modelos preditivos para fenótipos complexos demandam computação
intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede
Bayesiana para representar um modelo de regulação gênica)
Roberta A. Campos PhD, MSc, PD
Integração dos Bancos de
Dados Biológicos
Características
◦ Grande volume de dados;
Desenvolvimento de novos mecanismos e técnicas para o
armazenamento e recuperação (e.g. Google BigTable );
◦ Não há padrão para os nomes dos objetos;
Ontologias (e.g. Gene Ontology) e organizações que regulam a
nomenclatura (e.g. HUGO)
◦ Não há padrão para acesso aos dados, cuja natureza é distribuída;
Utilização de formatação padrão para troca de informações (e.g. GFF) e
web services;
◦ Definição variável para alguns conceitos;
e.g. gene
◦ Dados altamente heterogêneos mas inter-relacionados;
◦ Informação dinâmica e em constante atualização;
Roberta A. Campos PhD, MSc, PD
Soluções computacionais
Cloud-based computing;
Ambientes computacionais heterogêneos; ◦ Integração de aceleradores especializados (GPUs);
Aumento do número de computadores;
Otimização de algoritmos;
Roberta A. Campos PhD, MSc, PD
Primeiros passos...
Compreensão da natureza dos dados, ou seja, da sua
magnitude e complexidade, e dos recursos disponíveis
(memória, espaço, tenho um servidor?)...
Compreensão dos algoritmos.
Compreensão das vantagens e desvantagens das
arquiteturas disponíveis.
◦ A decisão não é sempre óbvia e muitas vezes consiste
em uma combinação delas
Roberta A. Campos PhD, MSc, PD
Soluções no Brasil
O EMU (Equipamento MultiUsuário)
é uma plataforma de alta-
performance para análises
computacionais aplicadas à genômica
e à transcriptômica.
Financiamento: Programa
Multiusuário da FAPESP de 2010,
com uma contra-partida do Instituto
Ludwig de Pesquisa sobre o Câncer. Roberta A. Campos PhD, MSc, PD
Sequenciamento - NGS
Por quê sequenciar ?
Roberta A. Campos PhD, MSc, PD
Por quê sequenciar ?
Motivação Aplicações diversas:
• identificar sequencias funcionais e caracterizar
genomas ou transcriptomas;
• Da Genômica Comparativa à Expressão gênica...
• Propósitos gerais...
“NOVA ONDA NGS”...
Roberta A. Campos PhD, MSc, PD
Bioinformática
• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas
computacionais e abordagens para expandir a utilização de dados biológicos,
médicos, comportamentais e de saúde, incluindo a aquisição, o
armazenamento, a organização, o arquivamento a análise ou visualização
desses dados.
• Computational Biology: O desenvolvimento e aplicação de métodos teóricos
e analíticos, incluindo modelagem matemática e aplicação de técnicas de
simulações computacionais para o estudo de sistemas biológicos, sociais ou
comportamentais.
Biomedical Information Science and Technology
Initiative Consortium (BISTI - NIH)
Roberta A. Campos PhD, MSc, PD
Repositórios de Dados Biológicos
1965 – Atlas of Protein Sequences and Structure
(Dayhoff et al.) - ~1Mb
1982 – GenBank – 1988 – NCBI – National
Center for Biotechnology Information
1997 – EMBL – European Molecular Biology
Laboratory
1986 – DDBJ – DNA Data Bank of Japan
Roberta A. Campos PhD, MSc, PD
International Nucleotide Sequence Database
Colaboration
2008
98.868.465 seqüências
99.116.431.942 bases
1982
606 seqüências
2.427 bases
Roberta A. Campos PhD, MSc, PD
Era “Pós-Genoma”
"O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos” (José Roberto Goldim, UFRGS)
Genômica Estrutural
◦ Construção de mapas genéticos, físicos e de transcrição de um organismo.
Genômica Funcional
◦ Caracterização das propriedades funcionais dos genes e determinação de Assinaturas Moleculares de Expressão Gênica.
Roberta A. Campos PhD, MSc, PD
Projetos “omas”
x
Pesquisa Clássica em Genética e
Bioquímica
Science 291:1221. 2001
Genômica
Transcritômica
Proteômica
Epigenômica
Metabolômica
Nova Onda NGS
Roberta A. Campos PhD, MSc, PD
Genômica Funcional: Análise de Expressão
Gênica
Genômica Funcional = Métodos de obtenção de dados em larga escala
+
Métodos de Bioinformática
(Genome-wide expression “profiling”) Revolução dos projetos “-omas”
Mayo Clin Proc. 2004 May;79(5):651-8
Roberta A. Campos PhD, MSc, PD
Últimos anos – NGS Era
2006
...
Next-Generation Sequencing Revollution
2003
Conclusão do
Projeto Genoma
Humano
2008
1000 Genomes
Project
2005 2007
Sequenciamento do Genoma
Diplóide de um único indivíduo
(Craig Venter)
The diploid genome sequence of
an individual human.
(Levy, S. et al. 2007)
Legião de Sequenciadores
ABI 3730 no JCVI
Genoma James D. Watson
Sequenciamento com 454
Roberta A. Campos PhD, MSc, PD
NEW GENERATION SEQUENCING AND APPLICATIONS
Roberta A. Campos PhD, MSc, PD
Nova Geração de Sequenciadores
ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD
Método Sanger Pirosequenciamento Sequenciamento por Síntese
Sequenciamento por Ligação
Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl
• Aumento na quantidade de Dados
• IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp)
• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x)
em questão de poucos dias);
• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);
• Redução do custo por base sequenciada.
PLATÔ
TECNOLOGIA
Roberta A. Campos PhD, MSc, PD
Resumo das plataformas
http://www.illumina.com/
http://www.my454.com/
http://www.appliedbiosystems.com.br/ Roberta A. Campos PhD, MSc, PD
Trade-offs in Next Generation
Sequencing technologies
NHGRI Current Topics in Genome Analysis 2010
Elliott Margulies, Ph.D Roberta A. Campos PhD, MSc, PD
NGS no mundo
http://pathogenomics.bham.ac.uk/hts/ Roberta A. Campos PhD, MSc, PD
Novas promessas
HeliScope
◦ Helicos BioSciences
ION Torrent
◦ Applied Biosystems
PacBio RS
◦ Pacific Biosciences
2008
2010
2010
Roberta A. Campos PhD, MSc, PD
Produtividade
[Stratton MR, et al. 2009]
Roberta A. Campos PhD, MSc, PD
Aplicacao Biotecnologica
i5K
◦ 5000 genomas de insetos
importância especialmente para a agricultura.
Genome10K
◦ 10000 genomas de vertebrados
diversidade genética entre vertebrados;
1001 Genomes
◦ 1001 genotipos de Arabdopsis thaliana
planta modelo, base de estudos outras plantas;
1KP
◦ 1000 genomas de plantas
desenvolvimentos de produtos biotecnológicos.
Roberta A. Campos PhD, MSc, PD
“Counting Experiments”
Roberta A. Campos PhD, MSc, PD
Análise RNA-Seq RNA-Seq
RNA-Seq – Quantificação da expresão dos genes no transcriptoma
Roberta A. Campos PhD, MSc, PD
Análise ChIP-Seq ChIP-Seq
ChIP – Chromatin ImunoPreciptation
High-Throughput sequencing
ChIP-Seq – Estudo da estrutura da cromatina
Padrão de metilação de histonas no genoma
humano
Uma das primeiras publicações utilizando
Illumina 1G Genome Analyzer
Reproducibilidade
r = 0.906 (p-value < 2.2e-16).
ChIP
-Seq X
GM
AT
(G
enom
e-w
ide
Mappin
g Te
chniq
ue)
Roberta A. Campos PhD, MSc, PD
Análise Methyl-Seq Methyl-Seq
DNA treatment with methyl-sensitive restriction enzymes
(HpaII - não metilada, MspI - indiferente)
High-Throughput sequencing
Methyl-Seq – Estudo de padrões de metilação do
DNA em hESCs, células derivadas de hESCs e fígado
fetal humano
methylation status:
presence or absence of HpaII tags:
average tag count > 1 unmethylated
AUC = 0.94
Methyl-Seq x Illumina Infinium
Roberta A. Campos PhD, MSc, PD
Análise microRNA-Seq microRNA-Seq
small RNA library (mirVana miRNA Isolation Kit)
High-Throughput sequencing
microRNA-Seq – Caracterização dos miRNAs
expressos em tecido gástrico humano (cardia -
estômago)
Plataforma SOLiD
qRT-PCR
2 -∆Ct
Pearson correlation (SOLiDxqRTPCR)
r2 = 83.9 (p-value < 0.05)
Roberta A. Campos PhD, MSc, PD
Análise de Vias Biológicas
Vias metabólicas/regulatórias
relacionadas JASMONATO
em plantas em diferentes
contextos ecologicos
Roberta A. Campos PhD, MSc, PD
Interações entre Proteínas
Cobertura
Ontologia - Paralogia
Regioes Conservadas
Problemas de ANOTACAO!!!
Estima-se que 20% de anotacoes erradas!!!
Roberta A. Campos PhD, MSc, PD
Análise de Interações entre
Proteínas – Redes Baysianas
Protein–protein interactions networks
for mutated genes in HCC1954 (A)
and HCC1954BL (B).
Roberta A. Campos PhD, MSc, PD
Biologia Sistêmica – “New hit”
Estudo das interações entre as componentes de um
sistema biológico, e como essas interações fazem
emergir função e comportamento no sistema;
"Systems Biology is the science of discovering, modeling,
understanding and ultimately engineering at the
molecular level the dynamic relationships between the
biological molecules that define living organisms “
Leroy Hood
Roberta A. Campos PhD, MSc, PD
CONCLUSÃO
Roberta A. Campos PhD, MSc, PD
Perguntas?
Roberta Alvares Campos
OBRIGADA !!!
Roberta A. Campos PhD, MSc, PD
ABORDAGENS EM GRUPOS
Brain storm
Roberta A. Campos PhD, MSc, PD
Resumo de Aplicações
Category - NGS Examples of applications
Complete genome resequencing Comprehensive polymorphism and mutation discovery in
individual human genomes
Reduced representation sequencing - Draft Large-scale polymorphism discovery
Targeted genomic resequencing Targeted polymorphism and mutation discovery
RNA-seq = Pairend or single end sequencing Discovery of inherited and acquired structural variation
Metagenomic sequencing Discovery of infectious and flora
Transcriptome sequencing
Quantification of gene expression and alternative splicing;
transcript annotation; discovery of transcribed SNPs or
somatic mutations.
Small RNA sequencing microRNA profiling
Sequencing of bisulfite-treated DNA Determining patterns of cytosine methylation in genomic
DNA
Chromatin immunoprecipitation– sequencing
(ChIP-Seq) Genome-wide mapping of protein-DNA interactions
Nuclease fragmentation and sequencing Nucleosome positioning
Molecular barcoding - NGS Multiplex sequencing of samples from multiple individuals
[Shendure, J & Ji, H, 2008]
Roberta A. Campos PhD, MSc, PD