bases de datos en bioinformática. introducción a la bioinformática2 contenidos 1.la...
TRANSCRIPT
ulaientífica
Bases de datos en Bioinformática
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 2
Contenidos
1. La bioinformática y las bases de datos
2. Las bases de datos en biología molecular
3. Formato de la información almacenada
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 3
Información en la era genómica
• El proyecto genoma humano y similares genera un inmenso flujo de información
• Para poder utilizar esta información, ha de estar almacenada correctamente
• El acceso a la información almacenada ...– Ha de ser rápido
– Debe poder hacerse de manera flexible
• Esto es posible gracias a la creación de bases de datos y distribución vía Internet.
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 4
Para que se utilizan las bases de datos ?
• Búsqueda de información. – Por palabra clave, números de acceso, autores...
• Búsqueda de homologías– ¿Hay secuencias igual o parecidas a la mía ?
• Búsqueda de patrones– ¿Mi secuencia contienen patrones conocidos?
• Predicciones– ¿Puedo encontrar proteínas parecidas a la mía, pero con
función conocida?
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 5
Aspectos a tener en cuenta
• Los proveedores de recursos– Centros o organizaciones especializadas en tener y
mantener las bases de datos.
• Bases de datos– Hay mucha variedad y contiene información diversa
• Las herramientas– Para encontrar información en las BD– Para contrastar secuencias contra las BD– Para exportar la información
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 6
Principales proveedores de recursos
• El National Center for Biotechnology Information (NCBI) centraliza los bancos de datos y aplicacions de EEUU
• El European Bioinformatics Institute (EBI) realiza una función similar en Europa
• GenomeNet reune bases de datos diversas en Japón
ulaientífica
Principales bases de datos en Biología Molecular
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 8
Tipos de bases de datos
• Existen cientos de BD en número tan elevado que no es práctico enumerarlas (aunque aquí lo intentan)
• Por el tipo de información que contienen distinguimos– Bases de datos bibliográficas
– Bases de datos taxonómicas
– Bases de datos de nucleótidos
– Bases de datos genómicas
– Bases de datos de proteinas
– Bases de datos de microarrays
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 9
Bases de datos bibliográficas
• Organización de los artículos publicados en la revistas de ámbito científico.– Pubmed (NCBI)
– Medline (EBI)
– Biocatalog: organización de los artículos por temáticas concretas de biología molecular.
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 10
Bases de datos taxonómicas
• Son BD que contienen información sobre la clasificación de los seres vivos
• Esta clasificación es básicamente jerárquica y basada en información molecular
• Pretende clasificar cualquier organismo del que se posea como mínimo una secuencia de acidos nucléicos
• Como puede suponerse el proyecto no está libre de controversia debido a las visiones diferentes que existen en la comunidad taxonómica
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 11
Bases de datos de nucleótidos
• Las bases de datos de ácidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan haciéndolas accesibles a diario a toda la comunidad científica
• Existen varias BD que intercambian diariamente su contenido– Genbank (NCBI)– EMBL (EBI)– KEGG (Genome net)
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 12
Bases de datos de genomas
• Se encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos.– Ensembl (EBI)
– Genome viewer (NCBI)
– Goldenpath (UCSC)
• Existen también recursos genómicos especializados– Transfact: sitios de unión a factores de transcripción.
– EST: Expressed Sequence Tags
– UTRDB: Untranslated regions
– SpliceSitesDB: Pares de señales de splicing
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 13
Bases de datos de proteínas
• Secuencias primarias de aminoácidos– Sin revisión humana
• Trembl (EBI)
• nr (NCBI)
– Con revisión de la anotación• Swisprot (EBI)
– Bases de datos de proteomas• Proteome analysis (EBI)
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 14
Proteínas (II)
• Estructuras secundarias o dominios. Varían según la fuente de las proteínas y el análisis que se realiza sobre ellas.– BLOCKS: Motivos alineados de PROSITE/PRINTS– PROSITE: Expresiones regulares sobre Swiss-prot – PRINTS: Conjunto de motivos que definen una familia sobre
Swiss-prot/TrEMBL– PFAM: Modelos de Markov sobre Swiss-prot– INTERPRO: Integra la información de muchas bases de datos de
dominios.
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 15
Proteínas (III)
• Estructuras tridimensionales de macromoléculas con las coordenadas en el espacio de cada átomo.– PDB: Base de datos principal de estructuras
tridimensionales– CATH: Clasificación de PDB en diferentes grupos
funcionales y estructurales– MMDB: subset de PDB mantenido por NCBI– MSD: subset de PDB mantenido por EBI
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 16
Bases de datos de microarrays
• Bases de datos con las imágenes y resultados obtenidos por arrays de expresión.– ArrayExpress (EBI)
– Riken Expression Array Database
– Eisen Laboratory (Lawrence Berkeley National Lab)
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 17
4. El formato de la información
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 18
Estructura de las BD
• La calidad de la información en una base de datos, está muy relacionas con su estructura
• Este aspecto también es crucial para su eficiencia y accesibilidad .
• En la actualidad no existe ningún formato único y estándar, usualmente cada base de datos impone su propio formato.
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 19
Ejemplo entrada Genbank
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 20
Ejemplo entrada EMBL
ulaientífica
Introducción a la BioinformáticaIntroducción a la Bioinformática 21
Información sobre los formatos de las bases de datos