the cog database : a tool for genome-scale analysis of proteins functions and evolution koonin et...

38
THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Upload: sergio-castro-juarez

Post on 02-Feb-2016

225 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF

PROTEINS FUNCTIONS AND

EVOLUTION

Koonin et al,

Nucleic Acids Research, 2000, Vol. 28. Nº 1

Page 2: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

INTRODUCCION

Secuenciamiento de genomas

misma función en especies diferentes

diversificación funcional dentro de una misma especie

Clasificación de genes

Ortología Paralogía

Predicciones confiables sobre función, actividad, estructura 3D y origen.*

Page 3: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Clusters of Orthologous Groups of proteins

Clasificación de proteínas a partir de genomas completos sobre la base del concepto de ortología

Las relaciones pueden ser:

one to oneone to manymany to many

COGs empezó con 6 genomas procariotas y 1 genoma de un eucariota unicelular – 860 COGsEn Enero del 2000 : 21 genomas y 2091 COGsEn la actualidad : 43 genomas y más de 3307 COGs

Page 4: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Tipo de información

• 1.  Anotación de proteínas.  Funciones conocidas (estructuras 2D, 3D) de algún miembro de un COG pueden ser directamente atribuidas a los otros miembros del mismo.  Cuidado con los parálogos.

• 2.  Patrones filogenéticos.  Muestran la presencia o

ausencia de proteínas de un organismo dado en un COG específico.  (identificación de vías metabólicas en un organismo)*.

• 3.  Alineamientos múltiples.  Cada página de un determinado COG incluye un link para los alineamientos entre los miembros, esto puede ser usado para identificar residuos conservados y relación evolutiva.

Page 5: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Construcción de los COGs

• 5 principales clados se usaron como contribuyentes al COG:

Gram-negative bacteria: Escherichia coli and H. influenzaeGram-positive bacteria: Mycoplasma genitalium and M. pneumoniaeCyanobacteria: Synechocystis sp.Archaea: Methanococcus jannaschiiEukarya: (Fungi) Saccharomyces cerevisiae

PASOS:

1. Realizar una comparación de sec. aa todas contra todas.

2. Detectar y colapsar las sec. parálogas.

3. Detectar triángulos best hits (BeTs).

Page 6: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

KatG: E. coli sll1987: Synechocystis sp

YKR066c: S. cerevisiae.

Page 7: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

4. Unir los triángulos con un lado común

RpoH, RpoS, RpoD, and FliA: E. coli HIN1403 y HIN1655: H. influenzae

MG249: M. genitaliumMP485: M. pneumoniae

sll0184, sll0306, slr0653, sll1689, sll2012, y slr1564: Synechocystis sp.

Page 8: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

5. Realizar análisis caso por caso de cada COG.

6. Examinar COGs grandes que incluyen múltiples miembros.

• Nuevos miembros programa COGNITOR.

Consistencia de los BeTs específicos de los genomas

Page 9: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Para crear los COGs actuales

• Se usaron proteínas de 12 genomas bacterianos a los 860 COGs delineados previamente.

• Miembros de COGs candidatos:

* Aproximación two best-hit

* Examinación caso por caso de los alin de sec.

Page 10: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

ESTADISTICAS DE LA BASE DE DATOS

1252 COGs 60%

Familias simples

-no parálogos o parálogos de una especie

Resto de COGs

-parálogos de más de una especie

-subgrupos distintos

Grandes grupos

-predicción funcional muy general*

Page 11: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

ESTADISTICAS DE LA BASE DE DATOS

17 categorías funcionales*

1 clase función general

1 clase sin caracterizar

Page 13: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

AplicacionesAplicaciones

Predicción de función:Predicción de función:• Para proteínas individualesPara proteínas individuales• Sets de proteínasSets de proteínas• Nuevos genomas completadosNuevos genomas completados

Usando COGnitorUsando COGnitor

- Cut-Off de 3 BeTs- Cut-Off de 3 BeTs- El rigor (stringency) del El rigor (stringency) del análisis análisis puede ser incrementandopuede ser incrementando

Page 14: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

AplicacionesAplicaciones

• Detectar el gen respectivoDetectar el gen respectivo

• Buscar alternativa similar a función dada entre Buscar alternativa similar a función dada entre productos de genes productos de genes

• Aislar COGs con patrón filogenético particularAislar COGs con patrón filogenético particular

• Funcionalidad de “Representación Diferencial de Funcionalidad de “Representación Diferencial de Genomas”Genomas”

• Útil para delinear sets de Útil para delinear sets de proteínas candidatas proteínas candidatas para para un rango particular de características funcionalesun rango particular de características funcionales

Identificar de manera sistemática aquellas Identificar de manera sistemática aquellas familias conservadas (COGs) que están familias conservadas (COGs) que están ausentes en un genoma dadoausentes en un genoma dado

Page 15: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

AplicacionesAplicaciones

• Análisis de familias de proteínas orientado Análisis de familias de proteínas orientado de manera evolutivade manera evolutiva

Page 16: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Página WebPágina Webhttp://www.ncbi.nlm,nih.gov/COG

Page 17: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Página WebPágina Webhttp://www.ncbi.nlm,nih.gov/COG

Tipos de informaciónTipos de información• Lista de todos los COGs organizados por Lista de todos los COGs organizados por

categorías funcionalescategorías funcionales• Páginas individuales de COGPáginas individuales de COG• Página de COGnitorPágina de COGnitor• Herramienta de búsqueda del patrón Herramienta de búsqueda del patrón

filogenéticofilogenético• Matriz de ocurrencia de genomas en COGs Matriz de ocurrencia de genomas en COGs

Page 18: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 19: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 20: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Lista de todos los COGs Lista de todos los COGs organizados por categorías organizados por categorías

funcionalesfuncionales

La lista de COGs muestra todos los COGs que están La lista de COGs muestra todos los COGs que están actualmente en la base de datosactualmente en la base de datos

número de proteínas en cada COGnúmero de proteínas en cada COG

Patrón filogenéticoPatrón filogenético

Identificador de proteínaIdentificador de proteína

Código de funciónCódigo de función

Número único de identificaciónNúmero único de identificación

Nombre descriptivo de cada COGNombre descriptivo de cada COG

Page 21: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 22: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 23: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Páginas individuales de COGPáginas individuales de COG

Alineamiento múltiple de los miembros del COG Alineamiento múltiple de los miembros del COG producidos automáticamente usando el programa producidos automáticamente usando el programa ClustalWClustalW

Secuencias de Secuencias de residuos residuos

conservadosconservadosRelaciones Relaciones evolutivasevolutivasDendograma del cluster generado usando los Dendograma del cluster generado usando los

valores de BLAST como mediad de similitud entre valores de BLAST como mediad de similitud entre las proteínaslas proteínas

Representación gráfica de los outputs de BLAST para Representación gráfica de los outputs de BLAST para cada miembro del COG (con links a GenBank y Entrez-cada miembro del COG (con links a GenBank y Entrez-Genomes)Genomes)

Page 24: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 25: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 26: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 27: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Página de COGnitorPágina de COGnitor

Input: secuencia de proteínaInput: secuencia de proteína

Programa que asigna nuevas proteínas a los COGsPrograma que asigna nuevas proteínas a los COGs

La compara con toda la base de datos de los COGs para identificar el COG al que la proteína

pertenece

Inclusión en el COG es sugerida cuando Inclusión en el COG es sugerida cuando hay BeTs con proteínas de al menos hay BeTs con proteínas de al menos

tres cladostres clados

Page 28: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 29: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

- Información sobre el COG al que se Información sobre el COG al que se predicepredice que que pertenece la proteínapertenece la proteína

- Un gráfico BLAST mostrando regiones similares Un gráfico BLAST mostrando regiones similares entre las prot. y los alineamientos correspondientesentre las prot. y los alineamientos correspondientes

- Información del COG: Información del COG: - Letra asociada a funciónLetra asociada a función- Nombre del COGNombre del COG- Número único del COG (con hyperlink)Número único del COG (con hyperlink)

Página de COGnitorPágina de COGnitor

OUTPUTOUTPUT

Page 30: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 31: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 32: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 33: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 34: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

Herramienta de búsqueda:Herramienta de búsqueda: Patrón filogenético Patrón filogenético

Indica la presencia o ausencia de proteínas de Indica la presencia o ausencia de proteínas de un organismo dado en un COG específicoun organismo dado en un COG específico

Letras minúsculas o guiones (-) que representan de Letras minúsculas o guiones (-) que representan de manera resumida presencia/ausencia en el COGmanera resumida presencia/ausencia en el COG

Usado de manera sistemática: permite identificar si Usado de manera sistemática: permite identificar si un vía metabólica particular existe en un organismo un vía metabólica particular existe en un organismo

(por las proteínas que presenta)(por las proteínas que presenta)

Page 35: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1

11 Archeaoglobus fulgidusArcheaoglobus fulgidus aa

22 Methanococcus jannaschiiMethanococcus jannaschii mm

…… …… ……

2020 Chlamydia pneumoniaeChlamydia pneumoniae nn

2121 Rickettsia prowazekiiRickettsia prowazekii xx

Cada letra representa a un organismo en particular, Cada letra representa a un organismo en particular, y tiene una posición asignada en el patróny tiene una posición asignada en el patrón

Page 36: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 37: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1
Page 38: THE COG DATABASE : A TOOL FOR GENOME-SCALE ANALYSIS OF PROTEINS FUNCTIONS AND EVOLUTION Koonin et al, Nucleic Acids Research, 2000, Vol. 28. Nº 1