the cath domain structure database ana gabriela murguía carlos villa soto
TRANSCRIPT
The CATH Domain Structure Database
Ana Gabriela Murguía
Carlos Villa Soto
Introducción
• Mutaciones dieron lugar a familias de proteínas (DAYHOFF)
• Las relaciones usando Algoritmos de programación dinámica.
• Datos estructurales< Datos secuencia (Debido a cuestiones técnicas)
• Actualmente discrepancias mayores a 2 ordenes de magnitud entre recursos de secuencia y de estructura.
• PDB 16000 entradas----------NCBI 12 000 000 entradas
• 1er cristal (1970) 1ra Clasificación estructural 1990s (SCOP, DALI y CATH)
• 2do DDBASE, 3DEE, DaliDD (3D)• Reciente comparación entre SCOP, DALI y
CATH (+80% de correspondencia)• Debido a que gran proporción de la estructura
del CORE (+50%) esta conservada, el alineamiento estructural es mucho mas exacto que el secuencial.
• SCOP y CATH contienen actual/ entre 950 – 1400 superfamilias de proteínas.
• Estas superfamilias contienen casi 1/3 de las secuencias no redundantes del Gen Bank.
Desarrollo Histórico:
• 1993 con menos de 3 000 estructuras de proteínas
• Una década después +/- 13 000 entradas del PDB, comprende 33 000 dominios estructurales
• 200 000 dominios extraídos del GenBank• Dominio: Importante unidad evolutiva
Debido a que los métodos de modelamiento por homología son más exitosos cuando se trabaja con dominios.
• CATH inicialmente como una base de datos de dominios.
• CATH divide en clusters:• Phonetically: Basado en Similaridad
estructural• Filogenéticamente: Basado en Aparente
relación evolutiva• Ambigüedades automáticas son validadas
manualmente y el mayor cuello de botella en la clasificación corresponde a la detección de dominios limítrofes y la verificación de sus homólogos relacionados.
Niveles CATH
• Clase: estructura secundaria.
• Arquitectura: orientación de estructura secundaria en 3D.
• Topología: orientación estructural (folds)
• Homología: agrupadas según la evidencia (estructural, secuencia, similaridad funcional).
• Sequence identity >= 35%, overlap >= 60% of larger structure equivalent to smaller.
• SSAP score >= 80.0, sequence identity >= 20%, 60% of larger structure equivalent to smaller.
• SSAP score >= 70.0, 60% of larger structure equivalent to smaller, and domains which have related functions, which is informed by the literature and Pfam protein family database, (Bateman et al., 2004).
Estrategia• Método pairwise
• Perfil comparativo de secuencias y estructuras es usado para detectar mayores distancias.
• Examinación automática y manual para determinar dominios.
• Recomparación de dominios.
• Estructuras no clasificadas son manualmente asignadas.
SSAP
• Sequential Structure Aligment Program
• Adaptación de programación dinámica a 3D.
• Comparación de ambiente estructural de residuos entre proteínas.
• 2 niveles:– Superior: acumulación sobre pares equivalentes– Inferior: comparación entre ambiente estructural
de residuos
GRATH
• Compara estructuras secundarias entre proteínas.
• Representación vectorial y son asociados con los “nudos” en un gráfico.
• Ángulos de inclinación y rotación para detectar motivos estructurales.
CORA
• Alineamiento progresivo estructura consenso alineamiento contra cada una.
• Se hace un template 3D.
• Reconoce homólogos distantes (estructural)
• Librería CORA.
• Más rápido, sensible y selectivo que el SSAP.
Identificación de Dominios
• Algunas proteínas no se pueden clasificar.
• No definición cuantitativa de dominio.
• Cualitativa: unidad plegada compacta semindependiente.
• Protocolo DBS (PUU, DOMAK, DETECTIVE).
• Ambigüedades: Manualmente validadas.
• 17 % discordancia entre SCOP y CATH
DHS
• Datos de: secuencia, estructura y función.
• Información sobre relación de pares de bases, E value, identidad de secuencias.
• PDB, Swiss prot, PROSITE, Gen ProtEC
GENE 3D Resource
Estadística en Poblaciones
• Actualmente existen:– 36 28 Bien definidas8 Irregulares,
Complejas, Poco estables.– 6 estructuras características:
• α bundles• 2 capas β sandwich• Barriles β• 2 capas de αβ sandwich• 3 capas de αβ sandwich• αβ barriles
Estadística en Poblaciones
• Algunos grupos de plegamientos son particularmente “Gregarios”.
• Sin embargo 15% de los Folds son distintos
• Estructuras que comparten el mismo FOLD pero que descienden de ancestro común:– Análogos