Download - Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST
![Page 1: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/1.jpg)
Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST
Candidato: Christian BaudetOrientador: Zanoni Dias
![Page 2: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/2.jpg)
Tópicos da Apresentação
Motivação Trimagem Verificação de contaminação Clusterização Proposta Cronograma
![Page 3: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/3.jpg)
Motivação Importância dos projetos de
seqüenciamento Projetos EST no Brasil Ausência de metodologia padrão
utilizada pelos diferentes projetos Possibilidade de identificação de
melhorias a serem feitas nos processos existentes
![Page 4: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/4.jpg)
Trimagem
Seqüências EST possuem altas taxas de erros
Remoção de regiões de: baixa qualidade vetores adaptadores trechos de baixa complexidade
![Page 5: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/5.jpg)
Seqüência de bases
1 NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT 481 TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT 541 CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG 601 GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG 661 GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG 721 CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA 781 GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC 841 GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG
![Page 6: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/6.jpg)
Qualidades das bases
1 NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT 481 TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT 541 CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG 601 GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG 661 GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG 721 CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA 781 GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC 841 GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG
Baixa Qualidade Alta Qualidade
![Page 7: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/7.jpg)
Baixa qualidade
Baixa Qualidade Alta Qualidade
1 XXXGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
![Page 8: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/8.jpg)
Vetor
Baixa Qualidade Alta Qualidade
1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
![Page 9: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/9.jpg)
Adaptador
Baixa Qualidade Alta Qualidade
1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC
61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
![Page 10: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/10.jpg)
Seqüência trimada
Baixa Qualidade Alta Qualidade
1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
![Page 11: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/11.jpg)
Problemas – Trimagem
Baixa Qualidade Alta Qualidade
1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
![Page 12: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/12.jpg)
Problemas – Trimagem
1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTXXXXXXXXXXXXXXXXXXXTGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Baixa Qualidade Alta Qualidade
![Page 13: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/13.jpg)
Verificação de contaminação Seqüências EST comumente sofrem
contaminação de diferentes tipos Identificação e remoção de seqüências
contaminadas são necessárias para que não sejam geradas informações inválidas sobre o organismo em estudo
Métodos de detecção de contaminação: Similaridade Conjunto de características
![Page 14: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/14.jpg)
Similaridade
Contaminação Determinada por critério pré-definidoExemplo: similaridade de 98% e cobertura mínima de 75 bases
BLAST
Seqüências de organismos
Contaminantes
Seqüências a serem verificadas
Seqüências contaminadas
Seqüências não contaminadas
![Page 15: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/15.jpg)
Conjunto de características
Outras seqüências
Seqüências pertencentes ao organismo
Seqüências contaminadas
Comparação
Comparação
Extratores de característica
s Assinatura
Seqüências de organismos
contaminantes
Extratores de característica
s Assinatura
Seqüências a serem
analisadas
Extratores de característica
s Assinatura
Seqüências conhecidas do organismo alvo
![Page 16: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/16.jpg)
Clusterização
Necessária para eliminação de redundância e identificação de genes
Exemplo: 1 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT 2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT 3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA 4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC 5 CGTTAATTGACGACTCTGATATTTACTAAGTTTGAGTTATGGACGA 6 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG 7 CAAGTAGCTTTGGTAATCTTCTCAGTACAACCGACCCACCGTTTCAATCTTTGTA 8 TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA
![Page 17: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/17.jpg)
ClusterizaçãoCluster 1 – Tamanho 5C GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGACGA2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT6 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG1 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT8 TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA5 CGTTAATTGACGACTC*TGATATTTACTAAGTTTGAGTTATGGACGA
Cluster 2 – Tamanho 2C TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATCTTTGTA4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC 7 CAAGTAGCTTTGGTAA*TCTTCTCAGTACAACCGACCCACCGTTTCAA*TCTTTGTA
Singleton3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA
![Page 18: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/18.jpg)
Clusterização Existência de diversos programas de
clusterização: TGICL Phrap TIGR Assembler CAP3
Validação dos resultados obtidos nos processos de trimagem e verificação de contaminação
![Page 19: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/19.jpg)
Proposta – Trimagem
Estudos de possíveis melhorias nos processos de trimagem existentes
Criação de um conjunto de procedimentos padrões
Realização de testes para validação do conjunto de procedimentos
![Page 20: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/20.jpg)
Proposta – Contaminação Estudo de possíveis melhorias nos critérios
de verificação de contaminação existentes Integração entre os métodos de detecção
por similaridade e por conjunto de características
Definição de um critério que melhor se aplique ao contexto de projetos EST
Realização de testes para validação da metodologia
![Page 21: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/21.jpg)
Proposta – Clusterização Análise de programas de
clusterização e de seus parâmetros Testes para identificação do
melhor programa Utilização da clusterização para
validação dos métodos desenvolvidos para trimagem e verificação de contaminação
![Page 22: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/22.jpg)
Cronograma
1 – Trimagem: I – Estudo e identificação de melhorias II – Testes III – Escrita dos resultados obtidos no
testes
![Page 23: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/23.jpg)
Cronograma
2 – Verificação de contaminação: IV – Estudo e identificação de melhorias V – Testes VI – Escrita dos resultados obtidos nos
testes
![Page 24: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/24.jpg)
Cronograma
3 – Clusterização: VII – Escolha dos programas VIII – Avaliação dos valores de parâmetros IX – Testes X – Escrita dos resultados obtidos nos
testes
![Page 25: Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST](https://reader035.vdocuments.net/reader035/viewer/2022062807/56815123550346895dbf4105/html5/thumbnails/25.jpg)
Cronograma
4 – Dissertação: XI – Revisão final do texto XII – Defesa