the cath domain structure database ana gabriela murguía carlos villa soto

The CATH Domain Structure Database

Ana Gabriela Murguía

Carlos Villa Soto

Introducción

• Mutaciones dieron lugar a familias de proteínas (DAYHOFF)

• Las relaciones usando Algoritmos de programación dinámica.

• Datos estructurales< Datos secuencia (Debido a cuestiones técnicas)

• Actualmente discrepancias mayores a 2 ordenes de magnitud entre recursos de secuencia y de estructura.

• PDB 16000 entradas----------NCBI 12 000 000 entradas

• 1er cristal (1970) 1ra Clasificación estructural 1990s (SCOP, DALI y CATH)

• 2do DDBASE, 3DEE, DaliDD (3D)• Reciente comparación entre SCOP, DALI y

CATH (+80% de correspondencia)• Debido a que gran proporción de la estructura

del CORE (+50%) esta conservada, el alineamiento estructural es mucho mas exacto que el secuencial.

• SCOP y CATH contienen actual/ entre 950 – 1400 superfamilias de proteínas.

• Estas superfamilias contienen casi 1/3 de las secuencias no redundantes del Gen Bank.

Desarrollo Histórico:

• 1993 con menos de 3 000 estructuras de proteínas

• Una década después +/- 13 000 entradas del PDB, comprende 33 000 dominios estructurales

• 200 000 dominios extraídos del GenBank• Dominio: Importante unidad evolutiva

Debido a que los métodos de modelamiento por homología son más exitosos cuando se trabaja con dominios.

• CATH inicialmente como una base de datos de dominios.

• CATH divide en clusters:• Phonetically: Basado en Similaridad

estructural• Filogenéticamente: Basado en Aparente

relación evolutiva• Ambigüedades automáticas son validadas

manualmente y el mayor cuello de botella en la clasificación corresponde a la detección de dominios limítrofes y la verificación de sus homólogos relacionados.

Niveles CATH

• Clase: estructura secundaria.

• Arquitectura: orientación de estructura secundaria en 3D.

• Topología: orientación estructural (folds)

• Homología: agrupadas según la evidencia (estructural, secuencia, similaridad funcional).

• Sequence identity >= 35%, overlap >= 60% of larger structure equivalent to smaller.

• SSAP score >= 80.0, sequence identity >= 20%, 60% of larger structure equivalent to smaller.

• SSAP score >= 70.0, 60% of larger structure equivalent to smaller, and domains which have related functions, which is informed by the literature and Pfam protein family database, (Bateman et al., 2004).

Estrategia• Método pairwise

• Perfil comparativo de secuencias y estructuras es usado para detectar mayores distancias.

• Examinación automática y manual para determinar dominios.

• Recomparación de dominios.

• Estructuras no clasificadas son manualmente asignadas.

SSAP

• Sequential Structure Aligment Program

• Adaptación de programación dinámica a 3D.

• Comparación de ambiente estructural de residuos entre proteínas.

• 2 niveles:– Superior: acumulación sobre pares equivalentes– Inferior: comparación entre ambiente estructural

de residuos

GRATH

• Compara estructuras secundarias entre proteínas.

• Representación vectorial y son asociados con los “nudos” en un gráfico.

• Ángulos de inclinación y rotación para detectar motivos estructurales.

CORA

• Alineamiento progresivo estructura consenso alineamiento contra cada una.

• Se hace un template 3D.

• Reconoce homólogos distantes (estructural)

• Librería CORA.

• Más rápido, sensible y selectivo que el SSAP.

Identificación de Dominios

• Algunas proteínas no se pueden clasificar.

• No definición cuantitativa de dominio.

• Cualitativa: unidad plegada compacta semindependiente.

• Protocolo DBS (PUU, DOMAK, DETECTIVE).

• Ambigüedades: Manualmente validadas.

• 17 % discordancia entre SCOP y CATH

DHS

• Datos de: secuencia, estructura y función.

• Información sobre relación de pares de bases, E value, identidad de secuencias.

• PDB, Swiss prot, PROSITE, Gen ProtEC

GENE 3D Resource

Estadística en Poblaciones

• Actualmente existen:– 36 28 Bien definidas8 Irregulares,

Complejas, Poco estables.– 6 estructuras características:

• α bundles• 2 capas β sandwich• Barriles β• 2 capas de αβ sandwich• 3 capas de αβ sandwich• αβ barriles

Estadística en Poblaciones

• Algunos grupos de plegamientos son particularmente “Gregarios”.

• Sin embargo 15% de los Folds son distintos

• Estructuras que comparten el mismo FOLD pero que descienden de ancestro común:– Análogos

the cath domain structure database ana gabriela murguía carlos villa soto

Documents

alineamiento estructural

dominios extrados

dominios estructurales200

recomparacin de dominios

deteccin de dominios

evidencia estructural

of larger structure

superfamilias de protenas