![Page 1: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/1.jpg)
Laboratório de Genética Molecular e Bioinformática
Departamento de GenéticaFaculdade de Medicina de Ribeirão PretoUniversidade de São Paulo
Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular
Introdução à Bioinformática
Daniel Guariz Pinheiro, PhD.
![Page 2: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/2.jpg)
Sumário• Introdução
– Revisão Histórica– Sequenciamento– Projetos– Definição de Bioinformática
• Áreas de Aplicação – Estudos “-omas”– Problemas clássicos em Bioinformática
• Desenvolvimento de Sofwares – Principais programas– Análises comuns
• Bancos de Dados Biológicos– Principais repositórios– Extração de Conhecimento de Bases de Dados
• Centros de Pesquisa– Nacionais e Internacionais / Públicos e Privados
• Formação na Área– Cursos (Graduação / Pós-Graduação)– Eventos (Congressos, Simpósios, Cursos de Verão, ...)
• Perspectivas profissionais• Referências
![Page 3: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/3.jpg)
INTRODUÇÃO
![Page 4: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/4.jpg)
Revisão Histórica
The Origin of Species
Experiments in Plant Hybridization
Molecular Structure of Nucleic Acids
1859
1866
1953
1946
ENIAC,o 1° computador eletrônico
1944
Caráter Hereditário(DNA)
Oswald Avery
Leis da hereditariedade1900Gene
![Page 5: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/5.jpg)
Revisão Histórica
1977
1986
Gilbert & Sanger
- Métodos para o sequenciamento de DNA
- Sequenciadorsemi-automático
Leroy Hood
1986
- Sequenciador automáticocomercial
Applied Biosystems A C G T
![Page 6: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/6.jpg)
Revisão Histórica
Iniciativa pública Projeto Genoma Humano
Publicação do rascunhodo Genoma Humano
1990 2001
2000
GenomabactériaXylella fastidiosa
1997
Organization for Nucleotide Sequencing and Analysis
19991996
Cancer GenomeAnatomy Project
1988
National Center forBiotechnology Information
1995
SAGE microarray
2005, 2006, 2007
...
Next-Generation Sequencing
2003
Conclusão do Projeto Genoma Humano
2008
1000 GenomesProject
![Page 7: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/7.jpg)
Projeto Genoma Humano
• The International Human Genome Sequencing Consortium • 13 anos (1990-2003)• U$3.000.000.000,00 (3 BILHÕES de DÓLARES!!!)• Avanços imediatos proporcionados
• Identificação de ~25.000 genes (~20% material genético total);• Possibilitou a descoberta de ~1.800 genes relacionados a doenças,
facilitando a identificação de outros genes;• Permitiu o desenvolvimento de mais de 1.000 testes genéticos;• Ao menos 350 produtos biotecnológicos resultantes deste
conhecimento já estão em testes clínicos;• Desenvolvimentos de ferramentas para análise genômica, inclusive
de outras espécies de interesse biomédico e econômico;• Promoveu discussões éticas, legais e implicações sociais em torno
do assunto;• Base de conhecimento;
![Page 8: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/8.jpg)
International Nucleotide Sequence Database Colaboration
200898.868.465 seqüências99.116.431.942 bases
1982606 seqüências2.427 bases
![Page 9: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/9.jpg)
Nova Geração de Sequenciadores de DNA
Roche/454 FLX Illumina/Solexa GA ABI SOLiDABI 3730xl
ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD
Método Sanger Pirosequenciamento Sequenciamento por Síntese
Sequenciamento por Ligação
• Aumento na quantidade de Dados (até ~1/2 Tb por corrida);• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em
questão de poucas semanas);• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);• Redução do custo por base sequenciada;
![Page 10: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/10.jpg)
Sequence Read Archive
“(…) In mid-September 2010,
the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)”
[Leinonen R et. al., 2011]
“We’re growing by about 1 Tb/month.”NCBI’s staff scientist Martin Shumway
InternationalNucleotideSequenceDatabaseCollaboration
• SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra• ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/• DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml
![Page 11: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/11.jpg)
Novas promessas
• HeliScope– Helicos BioSciences
• ION Torrent– Applied Biosystems
• PacBio RS– Pacific Biosciences
2008
2010
2010
![Page 12: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/12.jpg)
$100 genome
• Seqüenciamento genoma completo – 2010 (~U$50.000,00)– 2011 (~U$10.000,00)
• Testes genéticos (marcadores)– deCODEme (~U$2.000,00 ~50
doenças/traços)• http://www.decodeme.com/
– 23andme (~U$500,00 ~174 relatórios saúde)• http://www.23andme.com
![Page 13: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/13.jpg)
1000 Genomes
• Catálogo completo e detalhado de Variantes Genômicas Humanas
• 2.000 genomas, 4x cobertura– 1.270 genomas seqüenciados– Mais de 6 trilhões de bases
• Suporte financeiro– Wellcome Trust Sanger
Institute (Inglaterra);– Beijing Genomics Institute
(China);– National Human Genome
Research Institute (EUA);
Craig Venter
![Page 14: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/14.jpg)
Início dos anos 90...Início do Projeto Genoma Humano
![Page 15: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/15.jpg)
Por onde começar?
![Page 16: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/16.jpg)
Bancos de Dados
Propriedades:
- Representar um aspecto do mundo real;- Conter dados coerentes e com um significado inerente;- Deve ter um propósito;
A database is a repository for a collection of computerized data files. (C.J.Date)
A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)
![Page 17: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/17.jpg)
Abordagem utilizando Sistema de Arquivos
• Cada usuário define e implementa os arquivos necessários para uma aplicação específica.– Gera redundância na definição e no
armazenamento dos dados;– Possui estrutura específica e dependente de
determinada aplicação;– Não permite compartilhamento e acesso
concorrente;– …
![Page 18: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/18.jpg)
Abordagem utilizando Sistema de Banco de Dados
• Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados;– Evita redundância;– Contém em si a definição de sua estrutura (metadados);– Possui restrições implementadas que evitam inconsistências nos
dados;– Solução genérica para qualquer aplicação;– Permite o acesso concorrente de múltiplos usuários;– Permite diferentes visões dos dados;– Independência da aplicação;– Permite representar relacionamentos complexos entre os dados;– ...
![Page 19: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/19.jpg)
Em que situações a abordagem com arquivos é indicada?
• O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações;
• Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga;
• Não há necessidade de múltiplos acessos.
![Page 20: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/20.jpg)
Elmasri, R. A. and Navathe
Ambiente Simplificado de um Sistema de Banco de Dados
![Page 21: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/21.jpg)
Banco de Dados Flat file
• Abordagem utilizando arquivos– Arquivos que contêm registros de dados que não
estão estruturalmente relacionados.• Exemplo: Banco de Dados flat file de seqüências
de nucleotídeos (nt)• Possui um padrão específico de formatação
– GenBank, Fasta, ASN.1 ...• É necessário um programa chamado de parser,
que reconhece esses formatos específicos e conseguem extrair informação de forma automática.
– Ex.: Módulos da BioPerl
![Page 22: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/22.jpg)
Repositórios de Dados Biológicos
• 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb
• 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information
• 1997 – EMBL – European Molecular Biology Laboratory
• 1986 – DDBJ – DNA Data Bank of Japan
![Page 23: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/23.jpg)
E agora ?
![Page 24: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/24.jpg)
Análise dos Dados
• Necessidade de sistemas computacionais para análise dos dados e interpretação dos resultados.
• Desafios : – Armazenar e organizar– Estabelecer relações– Procurar padrões– Analisar– Filtrar– Desenvolver mecanismo de
visualização– Integrar– Etc.
Equipe Multidisciplinar
![Page 25: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/25.jpg)
Bioinformática
Etimologia
Bio = “bios” (vida)
+
Informática = “informatik” (informação + automática)
![Page 26: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/26.jpg)
Termo “Bioinformática”
• “Bioinformática”– Paulien Hogeweg, 1978
• Estudo de sistemas biológicos como sistemas dinâmicos (modelos matemáticos que descrevem o comportamento de um sistema)
– Origem disputada, meados 1980• Análise de seqüências biológicas
![Page 27: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/27.jpg)
Bioinformática
“The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information.”
Fredj Tekaia ( Institut Pasteur )
“Métodos matemáticos, estatísticos e computacionais para resolver problemas biológicos usando seqüências de DNA e aminoácidos e informações relacionadas”
![Page 28: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/28.jpg)
Biologia Computacional
“Computational biology is not a “field”, but an “approach” involving the use of computers to study biological processes and hence it is an area as diverse as biology itself.”
Paul J Schulte ( University of Washington )
“Biologia Computacional não é um “campo”, mas uma “abordagem” envolvendo o uso de computadores para estudar processos biológicos e portanto é uma área tão diversa quanto a biologia em si.”
![Page 29: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/29.jpg)
Definições atuais
• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados.
• Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais.
Biomedical Information Science and Technology Initiative Consortium (NIH)
![Page 30: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/30.jpg)
As Bases da Bioinformática
![Page 31: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/31.jpg)
ÁREAS DE APLICAÇÃO
![Page 32: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/32.jpg)
Projetos “-omas”x
Pesquisa Clássica em Genética e Bioquímica
Science 291:1221. 2001
Genômica
Transcritômica
Proteômica
Epigenômica
Metabolômica
…
![Page 33: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/33.jpg)
Genômica
• Genômica Estrutural– Construção de mapas
genéticos, físicos e de transcrição de um organismo.
• Genômica Funcional– Caracterização das
propriedades funcionais do conjunto gênico e padrão de Expressão Gênica.
• Genômica Comparativa• Genômica Clínica
![Page 34: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/34.jpg)
Proteômica
• Como regra geral, as proteínas são estudadas isoladamente.• A Proteômica engloba o estudo amplo de todas as propriedades
das proteínas, isoladamente e em interação com o organismo.
![Page 35: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/35.jpg)
Bioinformática “Clássica”
• Organização da Informação Biológica– Definição de Bases de Dados
• Genômica Estrutural– Análise de seqüências de DNA ou
RNA• Processamento automatizado dos
Dados de Seqüências (pipelines);• Montagem de seqüências genômicas;• Predição Gênica;• Definição das estruturas gênicas;• Mapeamento genômico de estruturas
gênicas;• Identificação e de Polimorfismos de
DNA;• ...
![Page 36: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/36.jpg)
Montagem do quebra-cabeças
HUMAN GENOME CONSORTIUM CELERA GENOMICS
100.000 fragmentos (1000 b) - ~ 3 a 4 milhões de bases (Genoma de uma Bactéria)
Estratégias (Pública x Privada)
Cra
ig V
ente
r
Fra
ncis
Col
lins
![Page 37: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/37.jpg)
Base-Calling
• Phred : http://www.phrap.com/phred/ • Lê o arquivo do cromatograma da seqüência de DNA e
analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita.
Phred quality score Probability that the base is called wrong Accuracy of the base call10 1 in 10 90%20 1 in 100 99%30 1 in 1,000 99,90%40 1 in 10,000 99,99%50 1 in 100,000 99,999%
![Page 38: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/38.jpg)
Problema clássicoComo obter as sequências de
nucleotídeos dos cromossomos a partir do sequenciamento de milhares de sequências de fragmentos de DNA?
Como montar as peças desse quebra-cabeças?
![Page 39: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/39.jpg)
Problema clássico
Sejam duas seqüências de caracteres distintas:
É possível quantificar o quanto elas estão relacionadas e quais regiões são correspondentes entre si?
ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG
GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG
Alinhamento de seqüências
ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG ||||||||||||||||||||||||GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG
![Page 40: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/40.jpg)
Alinhamento de Sequências
Em Bioinformática, alinhamento de sequências é uma forma de dispor as sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser consequência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas.
![Page 41: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/41.jpg)
Significado Biológico do Alinhamento de Sequências
• Definição de 3 termos importantes:– identidade: refere-se à fração de
aminoácidos ou nucleotídeos idênticos entre pares de sequências após um alinhamento dessas sequências;
– similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (com propriedades físico-químicas semelhantes – aminoácidos conservados) entre pares de sequências após um alinhamento dessas sequências;
– homologia: representa uma relação evolutiva entre as sequências;
• Homólogos– Parálogos;– Ortólogos;
![Page 42: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/42.jpg)
Há uma referência?
• Resequenciamento– Existem sequências produzidas a partir de um
genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência.
• Sequenciamento de novo– Não há sequências que podem ser usadas como
referências. Este tipo de sequenciamento exigirá uma montagem (assembly) das sequências, utilizando apenas os dados obtidos desse sequenciamento. Alinhamento entre as sequencias geradas, que permitirá a obtenção de um consenso.
![Page 43: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/43.jpg)
Identificação das sequências
• Resequenciamento– Alinhamento: Conjunto de Sequências X Sequências
Referências (Ex.: Genoma)>seq1gcagtcagtcacacatgtca...>seq2cgcgcatgcGcgtactctat...>seq3tcgagcatcatcagtcgtca...>seq4tatgctttatagcgagtcat........
>chrXatcacacatgtcacatggtcagggcatcagtcagtcagtcatgcgcgcgcatgcCcgtactctatctcatgcgtcagtcatgcatgcgagcagtcatgcatgcatcgcactgcatcatacgtcatgcatgaa.....
Objetivos:- Eliminar as sequência sem hit- Eliminar as sequência com hits múltiplos (ambiguous)- Identificar as sequência com hit único (unambiguous)
![Page 44: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/44.jpg)
Montagem de sequências
• Sequenciamento de novo– Alinhamentos:
• Conjunto de Sequências X Conjunto de Sequências (alinhamento pareado)• Alinhamento Múltiplo de Sequências (MSA)
ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC
Consensus :Seq ASeq BSeq CSeq DSeq ESeq FSeq G
![Page 45: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/45.jpg)
Abordagens para alinhar sequências
ALGORITMOS PARA ALINHAMENTO DE SEQUÊNCIAS
![Page 46: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/46.jpg)
Problema básico
• Transformar uma sequência de caracteres em outra:– Operações:
• inserção• deleção• substituição
– Custo de operação:• Score de substituição• Penalidade para Gaps (inserção/deleção)
– Qual é a quantidade de operações mínima ?– Como achar a séries de operações que vai garantir que usamos a
quantidade de operações mínima ?
Exemplo: ACGT ||G-GT
Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2
Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1
![Page 47: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/47.jpg)
Soluções
• Matrix de pontos (dot matrix)– Informação qualitativa;
Drosophila Dystrobrevin and Mouse ortholog
[Gol
dste
in e
Gun
awar
dena
a, 2
000]
![Page 48: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/48.jpg)
Soluções
• Matrix de pontos (dot matrix)– Informação qualitativa;
• Algoritmos de Programação Dinâmica– Smith-Waterman; Needleman-Wunsch;
• SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;
![Page 49: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/49.jpg)
Alinhamentos de Sequências• Alinhamento Global (e.g. Algoritmo de Needleman-Wunsch)
• As sequências envolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as sequências possuem aproximadamente o mesmo tamanho.
Seq X : C A T T A G C A G C C T | | | | | | Seq Y : - A G T A – - A G C - -
• Alinhamento Local (e.g. Algoritmo de Smith–Waterman)• Procura-se alinhar apenas as regiões mais similares, independente da
localização relativa de cada região.
Seq X [4,10]: T A G C A G C | | | | |Seq Y [3,7]: T A - - A G C
Alinhamentos (Global/Local) (DNA/Protein)• FASTA (http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml)• EMBOSS Align (http://www.ebi.ac.uk/Tools/emboss/align/)
![Page 50: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/50.jpg)
Matriz de Programação Dinâmica
Exemplo: ACGT ||G-GT
Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2
Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1
D(i, j) = max
D(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch)D(i -1, j) + g (acima -> gap acima)D(i, j -1) + g (esquerda -> gap esquerda)
D(i-1,j-1)
D(i-1,j)
D(i,j-1) D(i,j)
traceback
GG A
> Score (-2-1): -31 gap: -21 mismatch: -1
> Score(-1-2): -31 mismatch: -11 gap: -2
> Score(-4-2): -62 gaps: -41 gap: -2
GGA
GG A
![Page 51: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/51.jpg)
Solução
• Matrix de pontos (dot matrix)– Informação qualitativa;
• Algoritmos de Programação Dinâmica– Smith-Waterman; Needleman-Wunsch;
• SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;
• Por razões de tempo e espaço, não pode ser usado para alinhamento de sequências de larga escala;
• Utilizações de aproximações (heurísticas);• Geralmente, quanto mais rápida for a aproximação, mais
distante estará a resposta da solução “correta”;
![Page 52: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/52.jpg)
Desafios
• Eficiência;– velocidade;– sensibilidade;– especificidade;
• Ambiguidade causada por sequências repetitivas;
• Erros inerentes às técnicas de sequenciamento.
![Page 53: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/53.jpg)
Identificação de sequências
• Utilização de sequências referência– Ex.: Genoma
• Localização precisa– quantidade de matches suficientes– não tenha ambiguidade
• Exemplo:– Sequenciamento de transcritos humanos para
determinar expressão gênica
![Page 54: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/54.jpg)
BLAST• Basic Local Alignment Search Tool• http://blast.ncbi.nlm.nih.gov/• Heurística: dicionário de palavras
E-value (S): número de diferentes alinhamentos com scores equivalentes ou melhores que S que são esperados ocorrer ao acaso em buscas em um banco de dados aleatório, do mesmo tamanho, com a mesma composição de bases;
QUANTO MENOR... MELHOR!!!NÃO CONFUNDIR COM P-value (probabilidade)
![Page 55: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/55.jpg)
BLAT• BLAT—The BLAST-Like Alignment Tool• http://genome.ucsc.edu/• Estruturalmente diferente (BLAST)
– Além de outros pontos, o Blat constrói um índice do banco de dado de sequências (database) (k-mers) e faz as buscas na sequência a qual se deseja consultar (query);
• Blat é mais rápido, porém menos sensível;• Possui código especialmente para lidar com intros em alinhamentos RNA/DNA;• Comumente utilizado para localizar uma determinada sequência no genoma ou
determinar a estrutura de exons de um RNA;• Pode ser utilizado para alinhar sequências de Roche/454;
![Page 56: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/56.jpg)
Alinhamento de sequências curtas
• BLAST/BLAT são lentos demais para alinhar milhões de sequências (Illumina: 35bp-100bp/SOLiD: )
• Novos algoritmos– Novas implementações
• BWA• Bowtie• Bfast• Mosaik• ...
![Page 57: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/57.jpg)
Mascaramento de Vetores
• Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as seqüências de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante o experimento.
• Cross_match (http://www.phrap.org/phredphrap/)
>CloneXTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAGACGATTCACGTGTGGGTCTATGTTCAGGTCCT
>CloneXmaskedTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
![Page 58: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/58.jpg)
Mascaramento de Elementos Repetitivos
• Mascaramento das regiões que representam, normalmente elementos repetitivos do genoma (transposons, retrotransposons, ...) ou sequências de baixa complexidade;
• RepeatMasker (http://www.repeatmasker.org/ )
>CloneXTGAGTTAGTTAATTGTGCCAGCCTGGCCGATAATCACATGTGGGGCTAATTGAAAGGCGGAGGGATAAATGGGTGGTGAGCCTCGCCTTTCTAGTTCTCGGGTCTCTTGCTTTGTGATGGATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA
>CloneXmaskedNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA
![Page 59: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/59.jpg)
Análise Filogenética
• Alinhamento Global• Inferência de Filogenias• Reconstruir o parentesco entre as espécies associando essas
informações a uma escala temporal;• PHYLIP (http://evolution.genetics.washington.edu/phylip.html)
![Page 60: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/60.jpg)
Detecção de Formas Alternativas do Gene
• Encadeamento Alternativo de Exons (Alternative Splicing):• Alinhamento de sequências de transcritos em relação a um genoma
referência;
A) exon skipping (CD44)B) alternative acceptor (MDM2)C) Intron retention (WDR39)
![Page 61: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/61.jpg)
Análise de SNP
• SNP - Single Nucleotide Polymorphism • polybayes (http://bioinformatics.bc.edu/marthlab/PolyBayes)
ATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA TGACTCCTGTGGAGAAGTCTGCCGTTACTGCCATGGTGCATCTGACTCCTGAGGAGAAGTCTGATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGT GCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA CATCTGACTCCTGAGGAGAAGTCTGCCGTTAC
Seq 1 :Seq 2 :Seq 3 :Seq 4 :Seq 5 :Seq 6 :Seq 7 :
Anemia Falciforme- deficiência no transporte de oxigênio
Glutamato (GAG) / Valina (GTG)Gene HBB
![Page 62: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/62.jpg)
Abordagem para montar sequências
• Alinhamentos para montagem de sequências;
• Algoritmos de montagem (Overlap-Layout-Consensus)– Requerem o alinhamentos pareados entre as
sequências;
![Page 63: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/63.jpg)
Abordagem para montagem de seqüências• Montagem dos pequenos fragmentos seqüenciados em
seqüências maiores. Considera-se um mosaico de partes da seqüências que são agrupadas, como regiões de alta qualidade e onde a sobreposição.
• Montagem: Phrap (http://www.phrap.org/phredphrap/)
ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC
Consensus :Seq ASeq BSeq CSeq D
![Page 64: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/64.jpg)
Montagem• Definição
– É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original;• leituras (reads) => contigs => scaffolds
– A montagem agrupa sequências em contigs e contigs em scaffolds (supercontigs);
– A montagem só é possível quando o alvo (transcriptoma) é excessivamente sequenciado;
![Page 65: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/65.jpg)
Gap
Conceitos Básicos (1)• contig – alinhamento múltiplo de leituras de onde é extraída uma
sequência consenso;• unitig – contig formado pela sobreposição de sequências únicas das
leituras, ou seja, sem ambiguidades;
• scaffold – definem a ordem e orientação dos contigs além do tamanho dos gaps entre os contigs;
• singlets – leituras não agrupadas em um contig;• gap – espaço entre dois contigs, onde não se conhece a
sequência;
![Page 66: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/66.jpg)
Conceitos Básicos (2)
• Cobertura (coverage)– Total de pares de bases sequenciadas [N*L] dividido pelo tamanho da
região de interesse (genoma) [G]• ((N*L)/G)
– Ex: Genoma de 1Mbp (G)» 5 milhões de reads (N) de 50bp (L)» Cobertura = (5.000.000 * 50) / 1.000.000 = 25X
– Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada;
– Profundidade (depth of coverage)• Requisitos para o sequenciamento de genomas:
– Sanger: C. Venter (3Gb ~7.5x) • [Levy et al., 2007]
– Roche 454: J. Watson (3Gb ~7.4x) • [Wheeler et al., 2008]
– Illumina (52pb): Panda (Ailuropoda melanoleura) (2.4Gb ~73x) • [Li et al., 2010]
![Page 67: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/67.jpg)
Montagem “de novo”
• Reconstrução da sequência (transcrito) em sua forma original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas.
• A montagem é possível quando o alvo é excessivamente amostrado com leituras “shotgun” que se sobrepõem.
• Montagem de novo de dados de Next-Generation Sequencing (NGS)– tamanho das leituras (menos informação por leitura)
• necessidade de maior cobertura – aumento da complexidade;
– grande volume de dados• necessidade de algoritmos que utilizem de forma racional e eficiente
os recursos computacionais (CPU/RAM);
![Page 68: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/68.jpg)
Desafios (1)• Contaminates nas amostras (e.g. Bacteria)
• Ribosomal RNA (pequenas e grandes sub-unidades)
• Artefatos gerados na etapa de PCR (e.g. Quimeras e mutações)
• Erros de sequenciamento– e.g. Roche 454 - erros de homopolímeros (3 ou mais bases consecutivas);
• Presença de primers/adaptadores (e.g. adaptadores SMART utilizados na síntese de cDNA);
• Repetições e genomas poliplóides (sequências repetitivas no transcritoma torna a montagem mais difícil);– Necessidade de “spanners” – leituras que atravessam uma região de repetição e que
possuem suficientes regiões únicas em ambos os lados;– Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e
orientação, estando um dos pares ancorado em uma região única;
![Page 69: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/69.jpg)
Desafios (2)
• Passos extras na preparação das amostras e síntese de cDNA pode levar a um maior risco de erros na clonagem ou contaminação;
• Transcritos muito abundantes (alta cobertura), transcritos pouco abundantes (baixa cobertura);
• Processamento alternativo do RNA– e.g. Alternative splicing
• Genes parálogos
• A falta de um genoma referência torna difícil o julgamento da qualidade da montagem
![Page 70: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/70.jpg)
Problemas recorrentes causados por repetições
![Page 71: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/71.jpg)
Visualização
• É importante a visualização dos alinhamentos, que permite extrair conclusões ainda não consideradas.
• Visualização : Consed (http://www.phrap.org/phredphrap/)
![Page 72: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/72.jpg)
Mapeamento e Apresentação dos Dados
UCSC Genome Browser ( http://genome.ucsc.edu/ )
![Page 73: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/73.jpg)
Predição Estruturas Gênicas• Identificação de estruturas de genes em DNA genômico• O programa determina a estrutura gênica mais provável baseado
em um modelo probabilístico de um gene estrutural e de propriedades composicionais no DNA genômico de determinado organismo que caracterizam um gene.
• GenScan (http://genes.mit.edu/GENSCAN.html)
![Page 74: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/74.jpg)
O processo de anotaçãogênica
• Onde está localizado ?
• O quê ele faz ?
• Como ele faz ?
![Page 75: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/75.jpg)
Era pós-genômica
Quais são os genes e de que forma eles podem influenciar em determinado fenótipo ?
![Page 76: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/76.jpg)
Expressão Gênica Diferencial
Célula do Músculo Célula da Pele Célula neuralCélula do Músculo Célula da Pele Célula neural
Rede de Interações GênicasRegulação Gênica
Ambiente
![Page 77: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/77.jpg)
Gene A
Gene B
Gene C
Células Normais Células do Tumor
oncogene
supressor tumoral
Expressão Gênica e Câncer
Célula Normal Célula Cancerosa
Cell. 2000 Jan 7;100(1):57-70
Célula Normal Célula Cancerosa
Auxílio diagnóstico eprognóstico
Perfil de expressão de70 genes
Desenvolvimento de novosfármacos e terapias individualizadaspara o tratamento do pacientecom câncer
![Page 78: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/78.jpg)
Genômica Funcional: Análise de Expressão Gênica
Genômica Funcional = Métodos de obtenção de dados em larga escala
+ Métodos de Bioinformática
(Genome-wide expression “profiling”)
Revolução dos projetos “-omas”
Mayo Clin Proc. 2004 May;79(5):651-8
![Page 79: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/79.jpg)
Análises de Expressão Gênica
Experimento de microarray
Nature Genetics 34, 85 - 90 (2003)
HierarchicalCluster
~100,000 – ~150,000 spots
![Page 80: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/80.jpg)
Bioinformática Atual• Análise dos resultados obtidos através da
Genômica e Proteômica.• Análise dos dados obtidos através de novas
técnicas de laboratório.• Desenvolvimento de modelos de simulação de
redes de interações gênicas.• Desenvolvimento de metodologias para o
reconhecimento de padrões de expressão gênica que determinam um fenótipo.
• Análise entre os dados clínicos de pacientes e os obtidos através da pesquisa genômica e proteômica.
• Integração dessas Informações.
![Page 81: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/81.jpg)
Biologia Sistêmica
• Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema;
"Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “
Leroy Hood
![Page 82: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/82.jpg)
Integração dos Bancos de Dados Biológicos
• Características– Grande volume de dados;
• Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable );
– Não há padrão para os nomes dos objetos;• Ontologias (e.g. Gene Ontology) e organizações que regulam a
nomenclatura (e.g. HUGO)– Não há padrão para acesso aos dados, cuja natureza é
distribuída;• Utilização de formatação padrão para troca de informações (e.g.
GFF) e web services;– Definição variável para alguns conceitos;
• e.g. gene– Dados altamente heterogêneos mas inter-relacionados;– Informação dinâmica e em constante atualização;
![Page 83: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/83.jpg)
Bancos de Dados para Extração de Conhecimento
Data warehouse
Bancos de Dados
Integração dos Dados/Consolidação dos Dados
Seleção epré-processamento
Data mining
Dados
Padrões eModelos
ConhecimentoTransformação
Interpretaçãoe Avaliação
![Page 84: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/84.jpg)
DESENVOLVIMENTO DE SOFTWARES
![Page 85: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/85.jpg)
Plataforma de Desenvolvimento
• Sistemas Operacionais : Linux, UNIX, MacOS, Windows
• Linguagens de Programação : Perl (Practical Extract and Report Language), C/C++, Java, Python
• Sistemas de Gerenciamento de Bancos de Dados : MySQL, PostgreSQL
![Page 86: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/86.jpg)
• BioPerl ?
• Projeto de colaboração open-source internacional (1996- …)
• Biblioteca de módulos Perl• Soluções para a Pesquisa em Bioinformática, Genômica e
Ciências Biológicas;• Tarefas complexas e rotineiras utilizando algumas poucas
linhas de código;• Análise e anotação de seqüências e outras áreas;
• Licenciado sob a Perl Artistic License;• Open Bioinformatics Foundation (2002-...)
Open Bioinformatics Foundation
IntroduçãoBioPerl
![Page 87: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/87.jpg)
1. Conhecimentos e alguma experiência na área de Biologia Molecular, Computação e Estatística;
2. Conhecimentos e experiência em utilizar as principais ferramentas e pacotes de análises em Bioinformática;
3. Se sentir à vontade no ambiente de linha de comando;
4. Conhecimentos e experiência em linguagens de programação C/C++, Perl ou Python;
Habilidades essenciais (Bioinformática)
![Page 88: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/88.jpg)
Considerações
• A Bioinformática “estima”, você é que afirma.• G.I.G.O. - “Garbage in, garbage out”; Entra lixo,
sai lixo.• Quanto mais informações corretas você puder
dar, melhor será o resultado.• Sempre há um resultado, pode ser bom ou ruim,
mas como julgar?• Não há fuga da bancada.• Se você torturar os dados o suficiente, eles irão
confessar qualquer coisa.
![Page 89: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/89.jpg)
Centros de Pesquisa
![Page 90: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/90.jpg)
Next Generation Sequencers
![Page 91: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/91.jpg)
No mundo...
National Center for Biotechnology Informationhttp://www.ncbi.nlm.nih.govBethesda – MD - US
European Bioinformatics Institutehttp://www.ebi.ac.uk Hinxton - UK
South African National Bioinformatics Institutehttp://www.sanbi.ac.za Tygerberg - ZA
Center for Information Biology http://www.cib.nig.ac.jp Mishima - JP
TIGR/J. Craig Venter Institutehttp://jcvi.orgSan Diego - CA - US
Wellcome trust SANGER Institutehttp://www.sanger.ac.uk/Hinxton - UK
![Page 92: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/92.jpg)
Companhias de Bioinformática
http://www.bioplanet.com/bioinformatics_companies.htm
![Page 93: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/93.jpg)
e no Brasil...
Ludwig Institute for Cancer Research – São Paulo Branchhttp://www.ludwig.org.brSão Paulo - BR
Laboratório Nacional de Computação Científicahttp://www.lncc.br Petrópolis - BR
Embrapahttp://www.nbi.cnptia.embrapa.br Campinas - BR
Laboratório de Genética Molecular e Bioinformática (INCTC)http://lgmb.fmrp.usp.br/inctc/Ribeirão Preto - BR
Departamento de Bioquímica - Instituto de Química - USPhttp://verjo19.iq.usp.br/pt_index.php São Paulo - BR
Bioinformatics Laboratory - Universidade Católica de Brasília (BioFoco)http://bioinformatica.ucb.brBrasília - BR
Laboratory for Bioinformatics – UNICAMPhttp://www.lbi.dcc.unicamp.br Campinas - BR
Alellyx Applied Genomicshttp://www.alellyx.com.br Campinas - BR
Scylla Bioinformáticahttp://www.scylla.com.br Campinas - BR
![Page 94: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/94.jpg)
Formação na Área
![Page 95: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/95.jpg)
Graduação
• Informática Biomédica – USP• 3 principais áreas
– Bioinformática– Processamento de Imagens e
sinais– Sistemas de Informação em
Saúde
![Page 96: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/96.jpg)
Pós-Graduação
• Bioinformática – Interunidades/USP– http://www.ime.usp.br/posbioinfo/
• Genética – FMRP/USP– http://rge.fmrp.usp.br/
• Bioinformática – UFMG– http://www.pgbioinfo.icb.ufmg.br/
• Genética – UFPA– http://www.lghm.ufpa.br/ppgbm/
• Bioinformática – UFPR– http://www.bioinfo.ufpr.br/
![Page 97: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/97.jpg)
Curso de Inverno em Bioinformática
• Objetivo principal : curso introdutório sobre as principais técnicas utilizadas em projetos de Bioinformática, permitindo a integração entre os interssados na área.
• Público alvo : O curso é aberto a toda comunidade, direcionado principalmente aos alunos de graduação, sem restrição de área.
• http://gbi.fmrp.usp.br/cursodeinverno/
![Page 98: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/98.jpg)
Curso de Verão em Bioinformática
• Objetivo principal : apresentar um cenário real de elaboração e execução de um projeto em Bioinformática.
• Público alvo : alunos de graduação, pós-graduação ou profissionais, das áreas de ciências exatas ou biológicas .
• http://lgmb.fmrp.usp.br/cvbioinfo/
![Page 99: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/99.jpg)
AB3C
• Servir a comunidade científica brasileira e internacional influenciando as políticas governamentais e científicas;
• Representar a comunidade brasileira de Bioinformática e Biologia Computacional junto aos poderes públicos, influenciando as políticas de governo em ciência e tecnologia;
• Congregar a comunidade brasileira de Bioinformática e Biologia Computacional, possibilitando um maior relacionamento social e profissional entre seus membros;
• Organizar encontros e publicações de alta qualidade na área de Bioinformática e Biologia Computacional;
• Distribuir informação sobre treinamento, educação, emprego e notícias relevantes de áreas correlatas.
http://www.ab3c.org/
![Page 102: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/102.jpg)
... para a Bioinformática
• Consolidar-se definitivamente como ciência.– Disciplina obrigatória na área de Genética Molecular;– Disciplina opcional para área de Ciência da Computação;– No Brasil, novos cursos de graduação, extensão e pós-graduação.
• Em universidades públicas e privadas.• No Brasil, deve desenvolver-se também em outros estados.• Desenvolvimento da Bioinformática aplicada à Proteômica.• Desafio do futuro: integrar todo o conhecimento adquirido (Biologia
Sistêmica).• Exigir e promover ainda mais a multidisciplinaridade e a integração
entre os profissionais das diferentes áreas envolvidas.• Conquistar o mercado.
– No Brasil, a área ainda tem muito espaço pra crescer.• Mais investimentos na área.
![Page 103: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/103.jpg)
e para o bioinformata
•No Brasil–Ainda muito restrito à área acadêmica e institutos públicos de pesquisa;–Bolsas de Estudo de Instituições de fomento à Pesquisa.–Poucos cursos e treinamento para capacitação.–Excelente formação na área;•América do Norte e Europa e Ásia–Grandes centros de Bioinformática financiados por instituições
governamentais e privadas [empresas farmacêuticas];–Cursos e treinamentos especializados para a capacitação.–Carreira de Bioinformática - salário médio anual - Pesquisador:
US$77.710,00 – (~R$140.000,00)•http://www.jobs-salary.com
![Page 104: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/104.jpg)
Referências
![Page 105: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/105.jpg)
Referências• STRACHAN, T ; READ, A P. Genética Molecular Humana. Artmed. 2002.• Alberts, B; Johnson, A; Lewis J; Raff, M; Roberts, K; Walter, A. Biologia Molecular da Célula. Ed.
Artmed. 2004.• Prosdocimi F et. al. Bioinformática: manual do usuário . Biotec. Ci. Des. 29: 18-31, 2002.• O DNA Vai à Escola,
http://www.odnavaiaescola.com • Wikipedia,
http://en.wikipedia.org/wiki/Main_Page • Revista ComCiência,
http://www.comciencia.br • Genome News Network,
http://www.genomenewsnetwork.org• Folha Online,
http://www1.folha.uol.com.br • Bioinformatics.Org
http://bioinformatics.org • Catálogo de Centros de Bioinformática
http://sullivan.bu.edu/~mfrith/BioinfoCenters.html• Salários
http://www.jobs-salary.com/bioinformatics-scientist-salary.htm• Genome (NHGRI)
http://www.genome.gov
![Page 106: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/106.jpg)
Links Úteis e Interessantes
• Bioinformatics Organization (http://www.bioinformatics.org/)
• NCBI (http://www.ncbi.nlm.nih.gov)
• EBI (http://www.ebi.ac.uk/)
• CPAN - Comprehensive Perl Archive Network (http://www.cpan.org)
• BioPerl (http://bioperl.org)
• Os livros editados pela O’REILLY (http://www.oreilly.com)– Perl (http://oreilly.com/pub/topic/perl)– Bioinformatics (http://oreilly.com/pub/topic/bioinformatics)
• Periódicos Científicos– Bioinformatics (http://bioinformatics.oxfordjournals.org/)– BMC Bioinformatics (http://www.biomedcentral.com/bmcbioinformatics/)
![Page 107: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de](https://reader038.vdocuments.net/reader038/viewer/2022102523/552fc12e497959413d8d397b/html5/thumbnails/107.jpg)
Daniel Guariz [email protected]
http://lgmb.fmrp.usp.br/~daniel/
Laboratório de Genética Molecular e Bioinformática
http://lgmb.fmrp.usp.br
OBRIGADO PELA PACIÊNCIA !!!
Perguntas...