como interpretar seu próprio genoma com python
TRANSCRIPT
Marcel Caraciolo, CTO
Como interpretar seu próprio Genoma usando Python e outras tecnologias!
Quem somos ?Um dos laboratórios mais avançados em clínica genética do Brasil e o primeiro localizado na região Norte e Nordeste. !!!!
Portfólio de testes genéticos para diagnóstico e tratamento personalizado de doenças hereditárias, raras, tumores e bem-estar e saúde.
Tecnologia e especialistasFusão de especialistas em biologia
molecular e tecnologia de informação
João Bosco Oliveira, CEO e Co-‐Fundador M.D, PhD e ex-‐chefe de pesquisa do serviço de imunologia e genética do Dpto. de Medicina Laboratorial, Centro Clínico, National Institutes of Health , USA.
Genética ClínicaMercado mundial em crescimento e
recente no Brasil
Usamos seu DNA!
Aproximadamente 300 - 600 mutações por geração.
http://genetics.thetech.org/ask/ask435
Com os dados de genoma humano…
Nós poderíamos correlacionar variantes entre genomas com doenças. !
Poderíamos identificar parentesco e herança genética !Identificar traços de ancestralidade !
Identificar “erros" ou problemas conhecidos
Para quem não entendeu lembra do Angelina Joulie effect ?
Para quem não entendeu lembra do Angelina Joulie effect ?
NextGen Sequencing
NextGen Sequencing
Tamanho
Tamanho
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[ 3 200 000 000];
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[ 3 200 000 000];
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[ 3 200 000 000];
Maquinário Humano
Genoma em um arquivo
NextGen Sequencing
Tamanho
Genoma em um arquivo
Volume
Volume
Volume
Volume
Volume
Volume
Significado
Significado
Meaning
Meaning
O que é bioinformática ?
Significado
Significado
Significado
Significado
Significado
Como estruturamos isto ?
Análise de Variantes
Análise de Variantes
Análise de Variantes
E como funciona tudo isso na prática ?
Vamos montar nosso Mini-Pipeline simples educacional para entendermos como podemos
analisar algumas variantes SNVs em nosso genoma.
Sequence Map Call variants Interpret
Nosso caso de estudo
Sequências de DNA de uma mulher brasileira, com idade de 30 anos com histórico familiar de câncer de mama.
!
Cerca de 10-15% dos cânceres de mama e ovário
são devidos a mutações genéticas hereditárias
Sequenciamento do DNA
Sequence Map Call variants Interpret
Sequenciamento do DNA
https://www.youtube.com/watch?v=womKfikWlxM
NextGen Sequencing
Como representamos as sequências?
Sequências FASTA
Múltiplas sequências, Multi-FASTA
Formato FastQ
Formato FastQ
Analisando algumas sequências
Vamos analisar de 2 maneiras: !
Vocês: https://usegalaxy.org/ !
Eu: UseGalaxy + Terminal ! https://usegalaxy.org/u/genomika/h/pipeline-workshop
Galaxy Platform
Open-source, escrito boa parte em Python
Analisando sequências
fastqc, command line
Mapeando as sequências no Genoma
Sequence Map Call variants Interpret
Fase de Alinhamento
FASTQ =>
FASTQ => => BAM
Alinhamentoss
FASTQ =>
Formato SAM/BAM
FASTQ =>
Formato SAM/BAM
FASTQ =>
CIGAR String
FASTQ =>
Alinhando na prática
bwa, samtools
Visualizando os alinhamentos
http://www.broadinstitute.org/igv/
Visualizando os alinhamentos
Detectando as variantes !
Sequence Map Call variants Interpret
Variant Calling
FASTQ => BAM => => VCF
Chamando variantes
FASTQ =>
Recapitulando, sempre bom!
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Chamando variantes na prática
freebayes
Interpretando as variantes!
Sequence Map Call variants Interpret
Chamando variantes na prática
Anotação de Variantes
FASTQ =>
Variantes anotadas com VEP
Anotando variantes
IGV, NCBI, Snpedia, vcflib, bcftools, SnpEff.
chr17:41222948 (hg19)
Anotações
Anotações
chr17:41222948 (hg19) Anotações
http://www.ncbi.nlm.nih.gov/clinvar/variation/37616/#clinical-assertions
Curiosidades
Como podemos associar variantes e doenças?
“Genome Wide Association Study (GWAS)”
Genome Wide Association Study (GWAS)
Curiosidades
“Genome Wide Association Study (GWAS)”
Deve-se considerar o relacionamento entre a escolha das amostras !Grande quantidade de amostras é necessário !Bom domínio de estatística e lidar com o problema de “múltiplos testes de confiança”. !Bancos de dados variados e heterôgeneos. !Correlação não significa que é a causa! !Efeitos em grandes proporções são raras - geralmente são várias pequenas alterações combinadas.
Lembra deste slide ?
E se eu quiser sequenciar meu próprio genoma ?
Se você não possuir uma requisição clínica, hoje no Brasil é complicado. !Há possibilidades de realizar o Genoma Completo , mas o valor ainda não acessível - =~ R$ 23k !Fora do Brasil, há empresas como o 23andMe, screen de vários SNP’s por $ 99
Como armazenamos isto ?
Ciclo de vida de um exame
Como posso aprender mais?
Tales of Genome (Udacity)Curso On-line gratuito sobre Genética (bem completo!)
RosalindDesafios de Python na área de bioinformática
rosalind.info/
Broad workshopsVariant analysis; sequencing pipelines, etc.
https://www.broadinstitute.org/partnerships/education/broade/broad-workshops/
CourseraSpecialization on Genomics Data Science
https://www.coursera.org/specialization/genomics/41
II Curso de Análise de Dados de NGS
https://github.com/genomika/summercourse
Edições anuais em meados de dezembro e
janeiro!
Trabalhe conosco!github.com/genomika/jobs
Marcel Caraciolo, CTO
Como interpretar seu próprio Genoma usando Python e outras tecnologias!
“Biology easily has 500 years of exciting problems to work on.”
Donald Knuth, 1993