the cog database : a tool for genome-scale analysis of proteins functions and evolution koonin et...
TRANSCRIPT
![Page 1: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/1.jpg)
THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF
PROTEINS FUNCTIONS AND
EVOLUTION
Koonin et al,
Nucleic Acids Research, 2000, Vol. 28. Nº 1
![Page 2: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/2.jpg)
INTRODUCCION
Secuenciamiento de genomas
misma función en especies diferentes
diversificación funcional dentro de una misma especie
Clasificación de genes
Ortología Paralogía
Predicciones confiables sobre función, actividad, estructura 3D y origen.*
![Page 3: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/3.jpg)
Clusters of Orthologous Groups of proteins
Clasificación de proteínas a partir de genomas completos sobre la base del concepto de ortología
Las relaciones pueden ser:
one to oneone to manymany to many
COGs empezó con 6 genomas procariotas y 1 genoma de un eucariota unicelular – 860 COGsEn Enero del 2000 : 21 genomas y 2091 COGsEn la actualidad : 43 genomas y más de 3307 COGs
![Page 4: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/4.jpg)
Tipo de información
• 1. Anotación de proteínas. Funciones conocidas (estructuras 2D, 3D) de algún miembro de un COG pueden ser directamente atribuidas a los otros miembros del mismo. Cuidado con los parálogos.
• 2. Patrones filogenéticos. Muestran la presencia o
ausencia de proteínas de un organismo dado en un COG específico. (identificación de vías metabólicas en un organismo)*.
• 3. Alineamientos múltiples. Cada página de un determinado COG incluye un link para los alineamientos entre los miembros, esto puede ser usado para identificar residuos conservados y relación evolutiva.
![Page 5: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/5.jpg)
Construcción de los COGs
• 5 principales clados se usaron como contribuyentes al COG:
Gram-negative bacteria: Escherichia coli and H. influenzaeGram-positive bacteria: Mycoplasma genitalium and M. pneumoniaeCyanobacteria: Synechocystis sp.Archaea: Methanococcus jannaschiiEukarya: (Fungi) Saccharomyces cerevisiae
PASOS:
1. Realizar una comparación de sec. aa todas contra todas.
2. Detectar y colapsar las sec. parálogas.
3. Detectar triángulos best hits (BeTs).
![Page 6: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/6.jpg)
KatG: E. coli sll1987: Synechocystis sp
YKR066c: S. cerevisiae.
![Page 7: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/7.jpg)
4. Unir los triángulos con un lado común
RpoH, RpoS, RpoD, and FliA: E. coli HIN1403 y HIN1655: H. influenzae
MG249: M. genitaliumMP485: M. pneumoniae
sll0184, sll0306, slr0653, sll1689, sll2012, y slr1564: Synechocystis sp.
![Page 8: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/8.jpg)
5. Realizar análisis caso por caso de cada COG.
6. Examinar COGs grandes que incluyen múltiples miembros.
• Nuevos miembros programa COGNITOR.
Consistencia de los BeTs específicos de los genomas
![Page 9: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/9.jpg)
Para crear los COGs actuales
• Se usaron proteínas de 12 genomas bacterianos a los 860 COGs delineados previamente.
• Miembros de COGs candidatos:
* Aproximación two best-hit
* Examinación caso por caso de los alin de sec.
![Page 10: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/10.jpg)
ESTADISTICAS DE LA BASE DE DATOS
1252 COGs 60%
Familias simples
-no parálogos o parálogos de una especie
Resto de COGs
-parálogos de más de una especie
-subgrupos distintos
Grandes grupos
-predicción funcional muy general*
![Page 11: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/11.jpg)
ESTADISTICAS DE LA BASE DE DATOS
17 categorías funcionales*
1 clase función general
1 clase sin caracterizar
![Page 12: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/12.jpg)
ESTADISTICAS DE LA BASE DE DATOS
Distribución desigual de los patrones filogenéticos.
aompkzyqvdrlbcefghsnuj----
aompkzyqvdrlbcefghsnujxitw
-o------------e-gh--------
a-m----------c------------
![Page 13: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/13.jpg)
AplicacionesAplicaciones
Predicción de función:Predicción de función:• Para proteínas individualesPara proteínas individuales• Sets de proteínasSets de proteínas• Nuevos genomas completadosNuevos genomas completados
Usando COGnitorUsando COGnitor
- Cut-Off de 3 BeTs- Cut-Off de 3 BeTs- El rigor (stringency) del El rigor (stringency) del análisis análisis puede ser incrementandopuede ser incrementando
![Page 14: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/14.jpg)
AplicacionesAplicaciones
• Detectar el gen respectivoDetectar el gen respectivo
• Buscar alternativa similar a función dada entre Buscar alternativa similar a función dada entre productos de genes productos de genes
• Aislar COGs con patrón filogenético particularAislar COGs con patrón filogenético particular
• Funcionalidad de “Representación Diferencial de Funcionalidad de “Representación Diferencial de Genomas”Genomas”
• Útil para delinear sets de Útil para delinear sets de proteínas candidatas proteínas candidatas para para un rango particular de características funcionalesun rango particular de características funcionales
Identificar de manera sistemática aquellas Identificar de manera sistemática aquellas familias conservadas (COGs) que están familias conservadas (COGs) que están ausentes en un genoma dadoausentes en un genoma dado
![Page 15: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/15.jpg)
AplicacionesAplicaciones
• Análisis de familias de proteínas orientado Análisis de familias de proteínas orientado de manera evolutivade manera evolutiva
![Page 16: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/16.jpg)
Página WebPágina Webhttp://www.ncbi.nlm,nih.gov/COG
![Page 17: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/17.jpg)
Página WebPágina Webhttp://www.ncbi.nlm,nih.gov/COG
Tipos de informaciónTipos de información• Lista de todos los COGs organizados por Lista de todos los COGs organizados por
categorías funcionalescategorías funcionales• Páginas individuales de COGPáginas individuales de COG• Página de COGnitorPágina de COGnitor• Herramienta de búsqueda del patrón Herramienta de búsqueda del patrón
filogenéticofilogenético• Matriz de ocurrencia de genomas en COGs Matriz de ocurrencia de genomas en COGs
![Page 18: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/18.jpg)
![Page 19: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/19.jpg)
![Page 20: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/20.jpg)
Lista de todos los COGs Lista de todos los COGs organizados por categorías organizados por categorías
funcionalesfuncionales
La lista de COGs muestra todos los COGs que están La lista de COGs muestra todos los COGs que están actualmente en la base de datosactualmente en la base de datos
número de proteínas en cada COGnúmero de proteínas en cada COG
Patrón filogenéticoPatrón filogenético
Identificador de proteínaIdentificador de proteína
Código de funciónCódigo de función
Número único de identificaciónNúmero único de identificación
Nombre descriptivo de cada COGNombre descriptivo de cada COG
![Page 21: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/21.jpg)
![Page 22: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/22.jpg)
![Page 23: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/23.jpg)
Páginas individuales de COGPáginas individuales de COG
Alineamiento múltiple de los miembros del COG Alineamiento múltiple de los miembros del COG producidos automáticamente usando el programa producidos automáticamente usando el programa ClustalWClustalW
Secuencias de Secuencias de residuos residuos
conservadosconservadosRelaciones Relaciones evolutivasevolutivasDendograma del cluster generado usando los Dendograma del cluster generado usando los
valores de BLAST como mediad de similitud entre valores de BLAST como mediad de similitud entre las proteínaslas proteínas
Representación gráfica de los outputs de BLAST para Representación gráfica de los outputs de BLAST para cada miembro del COG (con links a GenBank y Entrez-cada miembro del COG (con links a GenBank y Entrez-Genomes)Genomes)
![Page 24: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/24.jpg)
![Page 25: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/25.jpg)
![Page 26: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/26.jpg)
![Page 27: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/27.jpg)
Página de COGnitorPágina de COGnitor
Input: secuencia de proteínaInput: secuencia de proteína
Programa que asigna nuevas proteínas a los COGsPrograma que asigna nuevas proteínas a los COGs
La compara con toda la base de datos de los COGs para identificar el COG al que la proteína
pertenece
Inclusión en el COG es sugerida cuando Inclusión en el COG es sugerida cuando hay BeTs con proteínas de al menos hay BeTs con proteínas de al menos
tres cladostres clados
![Page 28: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/28.jpg)
![Page 29: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/29.jpg)
- Información sobre el COG al que se Información sobre el COG al que se predicepredice que que pertenece la proteínapertenece la proteína
- Un gráfico BLAST mostrando regiones similares Un gráfico BLAST mostrando regiones similares entre las prot. y los alineamientos correspondientesentre las prot. y los alineamientos correspondientes
- Información del COG: Información del COG: - Letra asociada a funciónLetra asociada a función- Nombre del COGNombre del COG- Número único del COG (con hyperlink)Número único del COG (con hyperlink)
Página de COGnitorPágina de COGnitor
OUTPUTOUTPUT
![Page 30: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/30.jpg)
![Page 31: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/31.jpg)
![Page 32: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/32.jpg)
![Page 33: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/33.jpg)
![Page 34: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/34.jpg)
Herramienta de búsqueda:Herramienta de búsqueda: Patrón filogenético Patrón filogenético
Indica la presencia o ausencia de proteínas de Indica la presencia o ausencia de proteínas de un organismo dado en un COG específicoun organismo dado en un COG específico
Letras minúsculas o guiones (-) que representan de Letras minúsculas o guiones (-) que representan de manera resumida presencia/ausencia en el COGmanera resumida presencia/ausencia en el COG
Usado de manera sistemática: permite identificar si Usado de manera sistemática: permite identificar si un vía metabólica particular existe en un organismo un vía metabólica particular existe en un organismo
(por las proteínas que presenta)(por las proteínas que presenta)
![Page 35: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/35.jpg)
11 Archeaoglobus fulgidusArcheaoglobus fulgidus aa
22 Methanococcus jannaschiiMethanococcus jannaschii mm
…… …… ……
2020 Chlamydia pneumoniaeChlamydia pneumoniae nn
2121 Rickettsia prowazekiiRickettsia prowazekii xx
Cada letra representa a un organismo en particular, Cada letra representa a un organismo en particular, y tiene una posición asignada en el patróny tiene una posición asignada en el patrón
![Page 36: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/36.jpg)
![Page 37: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/37.jpg)
![Page 38: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1](https://reader035.vdocuments.net/reader035/viewer/2022081511/5665b4aa1a28abb57c9308eb/html5/thumbnails/38.jpg)