predicción de genes

29
ula ientífica Genís Parra Predicción de genes

Upload: montana-serrano

Post on 05-Jan-2016

44 views

Category:

Documents


6 download

DESCRIPTION

Predicción de genes. Contenido de la presentación. ¿ Es realmente necesario ? Introducción biológica Predicción “in silico” , principales problemas ¿ De qué información disponemos? Medidas de fiabilidad Fiabilidad actual: GASP1. ¿Es realmente necesario ?. Anotación del genoma humano. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Predicción de genes

ulaientífica

Genís Parra

Predicción de genes

Page 2: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 2Genís Parra

Contenido de la presentación

• ¿Es realmente necesario ?• Introducción biológica• Predicción “in silico” , principales problemas• ¿De qué información disponemos?• Medidas de fiabilidad• Fiabilidad actual: GASP1

Page 3: Predicción de genes

ulaientífica

Genís Parra

1. ¿Es realmente necesario ?

Anotación del genoma humano.

Page 4: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 4Genís Parra

Numero de genes en el chromosoma 22

• initial annotation 545 Dunham et al., 1999

• genscan+RT-PCR 590 Das et al., 2001

• genscan+microarrays 730 Shoemaker et al., 2001

• reviewed annotation 726 chr22 team, sanger, 2001

• mouse shotgun data +20 (our data)

• geneid predictions 794

• genscan predictions 1128

Page 5: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 5Genís Parra

Numero de genes del genoma humano

• Consortium 30.000-40.000 2001

• Celera 27.000-38.000 2001

• Consortium+Celera 50.000 Hogenesch et al. 2001

• DBsearches 65.000-75.000 Wrigth et al., 2001

• HumanGenomeSciences 90.000-120.000 Haseltine, 2001

Page 6: Predicción de genes

ulaientífica

Genís Parra

2. Introducción biológica

Del DNA a las proteínas

Page 7: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 7Genís Parra

Dogma central de la biología

• Transcripción. Las regiones promotoras contienen señales que son reconocidas por los factores de transcripción. Interacciones entre estos, activan la copia de una de las dos cadenas de DNA a RNA por una RNA polimerasa.

• Splicing. Los intrones, regiones no codificantes, son eliminados del tránscrito primario, produciendo una molécula mas corta de RNA, conocido como RNA mensajero (mRNA).

• Traducción. El ribosoma se une al codón inicial del mRNA, y recorre la secuencia sintetizando la cadena de aminoácidos especificada por codones consecutivos hasta que encuentra un codón de finalización.

Page 8: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 8Genís Parra

Page 9: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 9Genís Parra

Predicción de genes “in silico”

Deducir la secuencia de aminoácidos codificada en una cadena de DNA genómico, generando modelos computacionales para reproducir el mecanismo biológico que ocurre en la célula.

Page 10: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 10Genís Parra

Predicción en genomas procariotas

La predicción de genes en los genomas procariotas es mas simple debido principalmente a :

• Ausencia de intrones en los genes.• Alta densidad de genes.

Estas propiedades implican que la mayoría de pautas de lectura abiertas(ORFs), mas largas de un razonable “cutoff”, corresponden a genes.

Page 11: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 11Genís Parra

Predicción en genomas eucariotas

• Los genes están separados por largas regiones intergénicas.• Las regiones codificantes están divididas en un número

“usualmente grande” de “pequeños” fragmentos codificantes conocidos como exones, separados por “largas” regiones no codificantes conocidas como intrones.

• Las señales que existen no están 100% conservadas y en muchos casos no tenemos suficiente conocimiento del proceso biológico.

• En algunos genomas eucariotas existe una gran densidad de elementos repetitivos, que pueden contener regiones codificantes.

Page 12: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 12Genís Parra

Diferencias entre genes de organismos procariotas y eucariotas.

Page 13: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 13Genís Parra

ATATATATATGGCGGCATTATATTGTTGGTAACTAAAATCACTCAGCTCTTACATGGTAAACCAGGATCCAAACTAGGGTCTGTGAAGTTCTAAATCTCATGTTTTCAACACTGTTCAAACAAAGATTTTCAGCTTCTGAGAAGAACAGAGGTGGACGAATGCAGGTACTTGATAGAATTTGAATCTGAATTACAGTGCTACTGATAGGTCTGTTAATCACGCACGTGCACATGCCACGCAAAAGTCAAACGCAGGGACCTAAACACGCCTGTGGTGTGTTCTCAGCTGAGCTCCAAGGCCCTGATGAGTTGTAAATGTTTACAGACTCCTCAGCTGGGTGGTCCTGGAGGCAGCTTATCACATGCCCTGAGGCCCGAGTGGGTTAGGGGAGAGAGCACAAAACGTGACAGCTTTGCCCTCACAGTCTCAGCTACCCTGGGAAAGAGTTTGGCAGGGGAATCATCATGCAGGCTCCATTTTTATACCACTGCACTGAAGTATAAGTACATTTTTTGTCACACTCTGCTAACTGCCTGCTCATAGATATTCAAATTTAGTAGATGTAGACAGACTCCTAACTTCTCATGGTTTAAAATGTTTAAACAACTATATTTATTTTGTACTTGCCTAATCTTTTCTAGTCCCCCTGGATTGGTATATGTTTCACCTGCTTAAATGAGACTGTTCTCTGGCTTAAGATTTATTTAGGTAGTGAGGGCTACTTTTGGTTGAAAGCTAGAACAGGTTTTGCACTTTAATGAACCTAAAGCAGATCTATGCTGTTTACATTCAGGTAAGGGGACTTCTCCTTTATTATTTATTTTAGATAGAATATTTGCCAACTGAAGATGTGTGGCCCCTTCCCACCCCAAAGAAGACAGTACCCATGGTTGAATTCCCAGATGGAAATGATTTATGACTAGGGATCCCATAGCCTTGGTTCCCCTTGTCTGCTGCTTATGAAGCAAGATAAACATGCTGCCTCCTCCTGGTGCAGCTCTTGAAATGTTTTGACTTCCTGTCACTGGAGAGGTGTTGACATGCTCAGGGGAATGTTGGTGGAACTCACTCTGCATTCCAATGTGTCATGAATTTAAGGATTATGGTTAGACCACGTCGAAGTCATCACACAGTAGTTACAGCTAATGTCTAGTACTGGTTGGCCCTGGAAACAAAGAAGAGCTTGGAAAAAAAGCAGTTTACAATGCAGAAGGTAGACGGAGCTGTGCTTATTGGATTGGTGGGAAATCAAATGCAGGAAACATGGTGTATTACTTGTTTATTTGGTGTAATGAAGACTACAGTGTCAGCCTCTACAACTACAGTGTGATCTGCTTCAGGGCAGGGTGTGTCTTCATCACTTTCACCTGGCCCTGGGGAGGCACTCAATAAATATTTGGAGGTGAATGAATTAATTAGAGTGGGAGATCTACCACGCTTGTGTCTGGTTCCTTACAGGGTAAAGACCCTGAGTTAAAGGCCAATGAAGTGACTAAATAAAGAAGATGGTAATCCAGCAAGCAGATTCTAATGCAGCCTTTTACAATAAATAACACCCCCATGCAGCTTTTATATAGAGATATAGACAGCTATAGATGAAT

Page 14: Predicción de genes

ulaientífica

Genís Parra

3. ¿De qué información disponemos ?

Modelizando la información biológica

Page 15: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 15Genís Parra

Información utilizada para encontrar genes:

1. Búsqueda de señales. La maquinaria celular reconoce secuencias mas o menos conservadas en el DNA genómico.

2. Estadísticos codificantes. Las regiones codificantes tienen propiedades estadísticamente diferentes a las regiones no codificantes.

3. Uso de homología. La similaridad con secuencias conocidas es un indicativo de que esa región pueda contener un gen homólogo.

Page 16: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 16Genís Parra

(I) Búsqueda de señales

Tipos de señales:

Les señales conocidas son alineadas y se generan patrones con las regiones conservadas.

Page 17: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 17Genís Parra

Generando un modelo para donors sites

Page 18: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 18Genís Parra

(II) Estadísticos codificantes

El DNA codificante tiene una composición de nucleótidos diferente al resto de DNA genómico, debido a que ha de codificar para proteínas (es menos aleatorio).

Estadístico codificante: es una función que dada una secuencia de DNA, nos devuelve un número relacionado con la probabilidad de que esa secuencia corresponda a una región codificante.

Page 19: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 19Genís Parra

Ejemplo de estadístico codificante: “codon usage”

Page 20: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 20Genís Parra

(III) Uso de homología

Algunos programas de predicción de genes permiten el uso de homologías con secuencias conocidas para mejorar las predicciones.

Estas homologías las podemos encontrar en:

• Proteínas de otras especies.

• Fragmentos genómicos que sabemos que se transcriben (ESTs o cDNAs)

• Comparación de genomas completos.

Page 21: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 21Genís Parra

geneid como ejemplo de programa de predicción de genes.

Estructura jerárquica :

señales - exones - genes

Integrando la información

Page 22: Predicción de genes

ulaientífica

Genís Parra

4. Medidas de fiabilidad

Page 23: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 23Genís Parra

Fiabilidad de los programas de predicción de genes.

1. Necesitamos un conjunto de genes conocidos para validar las predicciones.

2. Conceptos básicos para medir la fiabilidad:• Sensibilidad: proporción de genes reales que han sido

predichos.

• Especificidad: proporción de predicciones que corresponden con la realidad.

Page 24: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 24Genís Parra

Ejemplo de fiabilidad

Page 25: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 25Genís Parra

5. Fiabilidad actual: GASP1

Page 26: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 26Genís Parra

GASP1: genome annotation assessment project

• El objetivo de este proyecto era estudiar la eficiencia de los programas de predicción de genes en una región de 2.9 Mb del genoma de Droshophila Melanogaster.

• Las predicciones fueron comparadas en base a los resultados de un profundo estudio experimental (2 años recopilando cDNAs) que no fueron revelados hasta el final de la evaluación.

Page 27: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 27Genís Parra

Resultados del GASP1

Page 28: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 28Genís Parra

Resultados del GASP1

Page 29: Predicción de genes

ulaientífica

Introducción a la BioinformáticaIntroducción a la Bioinformática 29Genís Parra

Conclusiones del GASP1

• Las predicciones cubren un 95% del proteoma.

• La predicción a nivel de nucleótido mejor que a nivel de exón.

• Muy baja proporción de genes correctamente predichos.

• Métodos optimizados para una especie funcionan mejor.

• Ningún programa es perfecto.