introducción a la bioinformática -...

Post on 20-Sep-2018

246 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Introducción a la Bioinformática

Fernando Barraza A., MS.c.

Agenda

–!Que es la bioinformática

–!Perspectiva mundial y en Colombia

–!Campos de aplicación

–!Participación de los Ingenieros

–!Herramientas bioinformáticas, frameworks y plataformas de análisis

–!Conclusiones

Que es la Bioinformática?

!Bio informát ica es e l uso de herramientas computacionales que permiten analizar, depurar y agilizar el manejo grandes cantidades de información genética y predecir en algunos casos función de genes y proteínas con base en evidencia experimental de secuencias o procesos similares. La bioinformática parte de datos encontrados experimentalmente".

4

¿Y que es eso que llamamos vida?

Alta organización

Homeostasis

Reproducción

Adaptación Crecer y desarrollarse

Transforman energía

Estímulos

Desde Grecia hasta hoy

5

El Mundo Microscopico amplia la descripción de los seres vivos

Carl Von Linné (1707-1778)

Taxonomía: Clasificación de organismos en reinos, clases, generos, especies, etc

Antoni van Leeuwenhoek

(1632-1723)

1.! Todos los organismos vivos están formados por una o más células;

2.! las reacciones químicas de un organismo vivo tienen lugar dentro de las células;

3.! las células se originan de otras células, y

4.! las células contienen la información hereditaria de los organismos.

Aristóteles

(384-322 A.C)

6

La diversidad de la vida

Kingdoms

Described species !

Estimated total species !

Bacteria

4 000

1 000 000

Protoctists

80 000

600 000

Animals

1 320 000

10 600 000

Fungi

70 000

1 500 000

Plants

270 000

300 000

TOTAL

1 744 000

ca.14 000 000

Dentro de animales se estima que 8.000.000 son insectos, 10.000 son aves y 4.640 mamíferos son reconocidos.

TODOS TENEMOS CÉLULAS!

7

Los Virus: ¿Seres Vivos? No son células, y no cumplen con la capacidad de reproducirse por si mismos.

Bacterioagos

Ébola HIV

8

Clasificación de los seres vivos a partir de sus células

Los Unicelulares

Bacterias Protozoarios Algunas algas

Los Pluricelulares

Tejidos Células

Descubriendo el código secreto !

La genética

Congreso de Solvey - 1927

La Física y la Genética

Nacimiento de la biología molecular

13

Estructura del ADN

http://www.ba-education.demon.co.uk/for/science/dnamain.html!

http://www.lecb.ncifcrf.gov/~toms/DNA.Resources.html!http://www.ebi.ac.uk/microarray/biology_intro.html!

14

Ultimas fases

16

Las Unidades de Herencia de Mendel se convierten en genes.

Genoma: La totalidad del material genético de una célula o individuo. El conjunto completo de cromosomas de una célula o individuo con sus genes asociados.

Los Genes

17

18

http://www.eonline.com/Features/Specials/Surgery2/index4.html!

Kirk Douglas! Michael Douglas!

Las características se heredan de padres a hijos!

Mellizos y trillizos!

La historia de la bioinformática (1)

•! Fase 1: La genética: –! 1865 – 1930. Mendel y sus leyes.

–! 1865 – 1952. La búsqueda del gen y la sustancia hereditaria.

•! Fase 2: La biología molecular: –! 1953 – 1966. La doble hélice y el código genético.

–! 1967 – 1989. La ingeniería genética y la reacción en cadena de la polimerasa.

•! Fase 3: La genómica: –! 1990 – 2001. El proyecto genoma y la era post-genómica.

•! Nuevas tendencias: Proteómica, Metabolómica, Biología sistémica.

-! 1930 – 1950 Primeros modelos computacionales (Alan Turing)

-! 1950 – 1970 Evolución de las arquitecturas de computadores (Von Neumann)

-! 1970 – 1980 Formalizacion de las bases de datos (Codd)

-! 1980 – 1990 La era del PC

-! 1990 – 2000 Internet y la globalización

-! Nuevas tendencias: Grid Computing, Computación ubicua, Nanocomputación.

La historia de la bioinformática (2)

Diversidad de ciencias cuantitativas

•! Genómica –! Caracterización de ADN –! Predicción de genes

•! Proteómica –! Modelamiento de proteinas

•! Evolución –! Análisis filogenético

•! Metabolómica •! Biología Sistémica

Áreas Biológicas

Predicción de Genes

•! Dada una secuencia de DNA no caracterizada, encontrar: –! Qué región codifica para una proteína

–! Qué hebra codifica el gen

–! Cuál es el marco de lectura

–! Donde comienza y termina el gen

–! Donde comienza y termina un intron/exon

–! Donde están las regiones regulatorias del gen

Modelamiento de proteínas

Representación gráfica de las proteinas desde varias perspectivas según la aplicación requerida: –! Modelamiento de drogas

–! Dinámica de proteinas

–! Caracterización

–! Predicción de plegamiento

Orangutan Gorilla Chimpanzee Human

From the Tree of the Life Website,

University of Arizona

Análisis Filogenético

Bases de Datos Computación Gráfica

Minería de Datos Reconocimiento de patrones

Modelado y Simulación Colaboración y Redes

Áreas Computacionales

Introductory

Stage

Growth

Stage

Maturity

StageDecline Stage

Total

Market

Sales

Time

Bases de Datos

Se caracteriza por la gran cantidad de datos a ser almacenados y la necesidad de aplicar tecnologías y técnicas tales como: •!Bases de datos orientadas a objetos •!Bases de datos relacionales •!Bodegas de datos •!Diccionarios de Datos (Metadatos) •!Diseño de bases de datos

Redes

Manipular, compartir, archivar y transportar la información bioinformática requiere de tecnologías e infraestructuras de redes que la soporten y faciliten tales como: •!Intranets •!Internet •!Sistemas Inalámbricos •!Bases de datos Públicas •!Máquinas de búsquedas en redes

Visualización de Datos

Se requiere de técnicas sofisticadas de computación gráfica para expresar las posibles configuraciones de proteínas y graficar los resultados de análisis estadísticos: Visualización en 2D Visualización en 3D

Estadística

Se requiere aplicar algoritmos y técnicas aplicadas a la probabilidad y métodos estadísticos para manejar la aleatoriedad inherente en los procesos de muestreo.

LaggardsLate

Majority

Early

Majority

Early

AdoptorsInnovators

"The

Chasm"

Technology Adoption Process

Introductory

Stage

Growth

Stage

Maturity

StageDecline Stage

Total

Market

Sales

Time

Minería de Datos

En algunos proyectos las investigaciones se basan en las búsquedas de cadenas de secuencias en una amplia variedad de bases de datos de otros proyectos. Se utilizan técnicas como son las de perfilar secuencias o taxonomías.

Reconocimiento de Patrones

Tienen aplicación en investigaciones de biología molecular y básicamente se requiere de aplicar tecnologías de sistemas Expertos y AI.

Modelamiento y Simulación

Para modelar eventos que simulen interacciones entre proteínas hasta el análisis de caminos biológicos potenciales se requiere de modelos de manejos de eventos tales como: •!Event-Driven •!Time-Driven •!Hybrid simulation

Colaboración

Para obtener un alto grado de cooperación entre investigadores que contribuyen con la base de conocimiento genómico y proteomico se requiere de aplicaciones Web que permitan manipular grandes cantidades de información, multimedia y herramientas colaborativas (mensajería, video, etc.)

Tres revoluciones convergentes

Revenues ( $ millions)

2000

2001

2002

2003

2004

2005

2010

C G R %

(2000-2005

)

C G R %

(2005-2010

Wor ldwide

468

609

824

1,120

1,508

1,987

5,421

33.5

22

________________________________________________________________ *Source: Front Line Strategic Management Consulting (FLSMC).**Compound Annual Growth. The estimated size of the bioinformatics market in 2003 is US$1.1 billion and is growing at a rate of 33.5%.

CIFRAS DEL MERCADO BIOINFORMÁTICO MUNDIAL

Mercado Mundial

Campos de Aplicación

!! Medicina o! Descubrimiento de drogas o! Medicina personalizada o! Terapias genética / Prevención

!! Agricultura o! Mejoramiento de Cultivos o! Tratamiento plagas y enfermedades

!! Ecología y Medio Ambiente !! Energía !! Antropología !! Investigación forense

Medicina y tratamientos personalizados (ej: 23andme.com)

Mercado Laboral

Impactos Bioinformática

•! Surgimiento de nuevos paradigmas •! Conceptos éticos y legales •! Proyectos interdisciplinarios de alta complejidad •! Necesidad de nuevas herramientas computacionales •! Herramienta para acortar el “time to market” en el

desarrollo de productos •! La frase “in Silico” se ha unido a “in Vivo” e “in Vitro”

Oportunidades en Colombia (1/2)

Específicamente se centran en desarrollar herramientas bioinformáticas para :

•! Fortalecer en el campo agrícola las áreas de estudios genómicos en cultivos de interés estratégico nacional.

•! Mejorar en salud humana la capacidad de innovación en sistemas de diagnóstico, el desarrollo de procesos y productos conducentes a la obtención de vacunas para el tratamiento humano en enfermedades de alta incidencia en el país.

•! En los temas de agua y producción limpia, implementar procesos de tratamiento de residuos sólidos, líquidos industriales y domésticos y procesos de biorremediación para el tratamiento de desechos bióticos y xenobióticos.

Oportunidades (2/2)

•! En Biodiversidad y bosques fortalecer el conocimiento y la innovación sobre los componentes genéticos de la biodiversidad y aportar conocimiento de tipo genético a la conservación de las especies.

•! En el área de mercados verdes obtener mecanismos para agregar valor de tipo genético y mejorar los procesos de escalamiento y obtención de los mismos.

•! Fortalecer las técnicas aplicadas al mejoramiento animal que permitan conocer el potencial genético de las razas criollas.

•! Identificar y estudiar a nivel genético nuestra diversidad marina, así como para usar esta de manera sostenible.

•! Utilización de múltiples tools •! Contextualización de la información •! Espacios gráficos personalizados •! Ejecución de consultas paralelizadas •! Interoperabilidad semántica de las BD •! Cooperación de equipos

investigadores

Necesidades bioinformáticas

•!Grandes Volúmenes de información •!Bases de datos heterogéneas y dispersas •!Diferentes estándares tecnológicos •!Búsquedas extendidas y complejas •!Gráficas avanzadas en 2D y 3D •!Colaboración de equipos de investigadores interdisciplinarios •!Formación de bioinformáticos

Desafíos

Bioinformática

Biología Ciencias de la computación

Tecnología de información

Múltiples ciencias y disciplinas involucradas

Biomatemáticas

Bioestadística

Subdisciplinas de la bioinformática

•! Desarrollo de nuevos algoritmos y estadísticas para evaluar relaciones entre un gran número de datos

•! Análisis e interpretación de datos de secuencias de genes y proteínas

•! Desarrollo e implementación de herramientas para el acceso eficiente a los datos

•! Desarrollo de herramientas aisladas y heterogéneas

•! Interfases de usuarios limitadas •! Mínima integración de información

biológica •! Mercadeo open source amplio pero

limitado a soluciones puntuales •! Iniciativas para incluir tecnologías de

punta

La ingeniería de software en bioinformática

•! Usabilidad –! Patrones de uso –! Colaboración

•! Arquitecturas de Software –! Frameworks –! SOA, ESB

•! Generación automática de interfases –! Ontologías –! Web Semántica

•! Integración de información –! Workflows –! Bases de datos

Campos de aplicación de la Ingenería en Bioinformática

Integración de información

ID MURA_BACSU STANDARD; PRT; 429 AA. DE PROBABLE UDP-N-ACETYLGLUCOSAMINE 1-CARBOXYVINYLTRANSFERASE DE (EC 2.5.1.7) (ENOYLPYRUVATE TRANSFERASE) (UDP-N-ACETYLGLUCOSAMINE DE ENOLPYRUVYL TRANSFERASE) (EPT).

GN MURA OR MURZ. OS BACILLUS SUBTILIS. OC BACTERIA; FIRMICUTES; BACILLUS/CLOSTRIDIUM GROUP; BACILLACEAE; OC BACILLUS.

KW PEPTIDOGLYCAN SYNTHESIS; CELL WALL; TRANSFERASE. FT ACT_SITE 116 116 BINDS PEP (BY SIMILARITY). FT CONFLICT 374 374 S -> A (IN REF. 3). SQ SEQUENCE 429 AA; 46016 MW; 02018C5C CRC32; MEKLNIAGGD SLNGTVHISG AKNSAVALIP ATILANSEVT IEGLPEISDI

ETLRDLLKEI GGNVHFENGE MVVDPTSMIS MPLPNGKVKK LRASYYLMGA MLGRFKQAVI GLPGGCHLGP RPIDQHIKGF EALGAEVTNE QGAIYLRAER LRGARIYLDV VSVGATINIM LAAVLAEGKT

IIENAAKEPE IIDVATLLTS MGAKIKGAGT NVIRIDGVKE LHGCKHTIIP DRIEAGTFMI

El problema de integración en bioinformática (2)

•! Como conocer la procedencia de los datos desde sus diferentes fuentes?

•! Como enlazar de forma lógica las referencias a las bases de datos?

•! Como reconstruir los análisis de los workflows para afinar el proceso?

•! Como saber que una fuente de información ha cambiado?

Public & Private Online Databases

Data Files

Browsing, Annotation

Pipelined Bioinformatics

Tools

Biomaterial

Generation & Acquisition

Local Databases

Executing

Results

Filtering

Searching

Searching

User

Entorno típico de un proyecto bioinformático

Elementos en un proyecto bioinformático

People

Plattform

Methodologies

Quien es un bioinformático?

•! Utiliza y desarrolla herramientas de software bioinformáticas para analizar los datos de secuencias y estructuras moleculares y así responder preguntas de tipo biológico y/o encontrar nuevo conocimiento.

•! Conocimientos en biología molecular

•! Entendimiento perfecto del dogma central

•! Experiencia en paquetes mas conocidos de biología molecular

•! Conocimientos de ambientes linux

•! Experiencia en programación con C++, Perl, etc.

Competencias de bioinformáticos

•! Hardware

•! Software

•! Bases de Datos

•! Redes

Bioinformatic Plattform

Es la infraestructura necesaria de apoyo colaborativo entre bioinformáticos y recursos a través de sistemas con alta capacidad computacional conformados por:

DW

Tools

Search

Workflow Engine

Portal

Niveles plataforma bioinformática

KDM

Back-end Services Front-end

Web Services Local Databases

LIMS

Mining

Public Databases

•! Clustering

•! GigaSwitch

•! Broadband Internet

Identificación de Componentes

•! Software Architecture

•! Database Engines

•! Analyses Tools

•! Middleware tool

hard Soft

Tools

•! Herramientas de análisis –! Clustal, Blast, Phylip, Rasmol, etc.

•! Módulos de lenguajes –! Bioperl, Biopython, Biojava, etc.

•! Frameworks bioinformáticos –! Web Services, Databases, Portals, Workflows, etc.

Frameworks Bioinformáticos

Tool Tipo URL

Biopipe WorkFlow System www.biopipe.org

Taverna WorkFlow System taverna.sourceforge.net

Talisman Framework talisman.sourceforge.net

GMod Database Models www.gmod.ord

BioMoby FrameWork www.biomoby.org

EMBOSS Suite Análisis emboss.sourceforge.net

StackPack Suite Análisis www.egenetics.com

Gpipe WorkFlow System kun.homelinux.com/Pise/5.a/gpipe

Pegasys WorkFlow System bioinformatics.ubc.ca/pegasys/

MyGrid Framework www.mygrid.org

•! Permiten ofrecer servicios de análisis desde servidores especializados sin la intervención humana

•! Ofrecen información sobre las características de los servicios de análisis

•! Uno de los más populares es BioMoby (www.biomoby.org)

Web Services en bioinformática

Cliente Web Service Tool Análisis

myGrid

•! Es una middleware para bioinformática orientado a servicios

•! El proyecto myGrid ha desarrollado una suite de componentes de mediación acoplados específicamente para soportar experimentos biológicos intensivos en procesamiento de datos.

•! Workflows y consultas se enlazan a programas de terceros y recursos locales usando protocolos basados en web services.

Componentes de myGrid

Tuberías Bioinformáticas

•! Copiar y pegar desde una aplicación web a otra anotando manualmente

•! Ventajas : Rápido, fácil acceso a recursos distribuidos •! Desventajas: Consumo de tiempo, tendencia al error,

procedimientos tácitos que hacen difícil compartir protocolos y resultados

RepeatMasker BLASTn Twinscan

Workflows Bioinformáticos

Taverna workflow workbench

collected metabolic pathway

computed BLAST report

computed BLAST report

•! Tuberías de datos •! Computan datos •! Actualización

frecuente de recursos públicos

•! Se obtienen los mismos productos de datos en contextos de experimentos diferentes

Bioinformatician users

•! Bioinformática es un campo donde la computación y la ingeniería de software tienen un alto potencial de aplicación

•! El desarrollo de la bioinformática requiere de avances significativos en investigación en temas de ingeniería

•! Existen posibilidades de proyectos en diferentes campos de la ingeniería de sistemas.

CONCLUSIONES

67

La Biografía de un ser vivo es la sumatoria de sus

genes mas la interacción entre ellos y el medio

ambiente; lo que hace que cada ser sobre la tierra

sea único, ya que es casi improbable que las

mismas condiciones genéticas y ambientales se

vuelvan a presentar.

68

Créditos

•! Moreno Pedro, Velez Patricia. Atlas Biología Molecular Animado. Universidad del Cauca, Colombia

•! Morgan Echeverry S., Proyecto de Agrobiodiversidad y Biotecnología. CIAT

•! Diana Marcela Bernal Franco. Proyecto de Agrobiodiversidad y Biotecnología. CIAT

top related