análisis de herramientas y métodos: predicción de

19
Análisis de Herramientas y Métodos: Predicción de Estructura Proteica Terciaria Daniel F. Rengifo Marco Teórico: La predicción de estructuras proteicas, especialmente su estructura terciaria, a partir de una secuencia de aminoácidos, es un problema abierto para la biología computacional. Este problema está íntimamente relacionado con un amplio abanico de disciplinas, como lo son la medicina y la farmacología, entre otras. En medio de la pandemia causada por el SARS-CoV- 2, herramientas de software para reconstruir estructuras de proteínas han sido de gran utilidad para modelar la forma en la cual el virus y sus proteínas, interactúan con diferentes compuestos [n] . El problema consiste en poder determinar, con cierto grado de confianza, la estructura que una cierta proteína adoptará, a partir de las leyes de la interacción molecular y la termodinámica. Una proteína, para efectos de este problema, está compuesta de una secuencia única y sin ramificaciones de compuestos químicos llamados aminoácidos. De acuerdo con las leyes de fisca de partículas, los aminoácidos procederán a plegarse en el espacio tridimensional, adoptando así una estructura con propiedades mecánicas (puramente estructurales) y químicas (ligadas a las propiedades electro-químicas de los átomos presentes). A partir de estas propiedades, la proteína podrá cumplir funciones a nivel celular, por medio de las interacciones que pueda llevar a cabo. Para comprender mejor el proceso de predicción de estructura terciaria, es importante aclarar las sub-estructuras que lo componen: - En primer lugar, está la estructura primaria, la cual describe la secuencia neta de aminoácidos que generará la proteína. - La estructura secundaria describe la estructura bidimensional de la proteína. Para poder predecir esta estructura es necesario tener en cuenta las interacciones moleculares registradas en el campo de la química orgánica. - La estructura terciaria describe su estructura tridimensional a partir de una estructura bidimensional. Si bien este paso es similar al anterior, su complejidad es sustancialmente mayor, dado su estado espacial. Sin embargo, es en este paso donde se puede dilucidar, con claridad aceptable, la funcionalidad de una proteína especifica. - También se puede hacer referencia a la estructura cuaternaria, la cual describe la forma en la cual una proteína puede relacionarse con otras a nivel estructural.

Upload: others

Post on 15-Jul-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis de Herramientas y Métodos: Predicción de

Análisis de Herramientas y Métodos: Predicción de Estructura Proteica Terciaria

Daniel F. Rengifo

Marco Teórico:

La predicción de estructuras proteicas, especialmente su estructura terciaria, a partir de una

secuencia de aminoácidos, es un problema abierto para la biología computacional. Este

problema está íntimamente relacionado con un amplio abanico de disciplinas, como lo son la

medicina y la farmacología, entre otras. En medio de la pandemia causada por el SARS-CoV-

2, herramientas de software para reconstruir estructuras de proteínas han sido de gran utilidad

para modelar la forma en la cual el virus y sus proteínas, interactúan con diferentes

compuestos[n]. El problema consiste en poder determinar, con cierto grado de confianza, la

estructura que una cierta proteína adoptará, a partir de las leyes de la interacción molecular

y la termodinámica.

Una proteína, para efectos de este problema, está compuesta de una secuencia única y sin

ramificaciones de compuestos químicos llamados aminoácidos. De acuerdo con las leyes de

fisca de partículas, los aminoácidos procederán a plegarse en el espacio tridimensional,

adoptando así una estructura con propiedades mecánicas (puramente estructurales) y

químicas (ligadas a las propiedades electro-químicas de los átomos presentes). A partir de

estas propiedades, la proteína podrá cumplir funciones a nivel celular, por medio de las

interacciones que pueda llevar a cabo.

Para comprender mejor el proceso de predicción de estructura terciaria, es importante aclarar

las sub-estructuras que lo componen:

- En primer lugar, está la estructura primaria, la cual describe la secuencia neta de

aminoácidos que generará la proteína.

- La estructura secundaria describe la estructura bidimensional de la proteína. Para

poder predecir esta estructura es necesario tener en cuenta las interacciones

moleculares registradas en el campo de la química orgánica.

- La estructura terciaria describe su estructura tridimensional a partir de una estructura

bidimensional. Si bien este paso es similar al anterior, su complejidad es

sustancialmente mayor, dado su estado espacial. Sin embargo, es en este paso donde

se puede dilucidar, con claridad aceptable, la funcionalidad de una proteína

especifica.

- También se puede hacer referencia a la estructura cuaternaria, la cual describe la

forma en la cual una proteína puede relacionarse con otras a nivel estructural.

Page 2: Análisis de Herramientas y Métodos: Predicción de

El proceso de predicción de estructura terciaria, por ende, se puede dividir en un conjunto de

sub-problemas que deben ser resueltos de manera secuencial. Estos sub-problemas hacen

referencia a diferentes facetas de la estructura de una proteína antes descritas[c].

En particular es necesario tener una estructura secundaria como referencia para determinar

una estructura terciaria coherente. Por esta razón, en este proyecto se llevarán a cabo ambos

problemas, de forma conjunta. Sin embargo, es importante anotar que el enfoque del proyecto

se hará sobre la predicción de estructuras terciarias.

A este respecto, se han generado grandes avances experimentales, los cuales han podido

determinar la configuración de estructura terciaria de un elevado número de proteínas. Los

procesos de predicción, no buscan ser utilizados para determinar la estructura de proteínas

conocidas. En vez de esto, este tipo de procesos busca generar una aproximación a la

estructura (y por ende gracias a la estructura cuaternaria) aproximar su comportamiento

frente a otras proteínas. Gracias a esta capacidad, de aproximas propiedades de proteínas

generales, este tipo de programas son utilizados por industrias farmacéuticas para predecir,

de antemano, los efectos de diferentes proteínas antes de generar, dichas proteínas.

Sin embargo, las proteínas determinadas de forma experimental, cumplen un importante

papel en algunos procesos de predicción de estructura terciaria porque permiten llevar a cabo

predicciones por homología. La calidad de una predicción por homología depende de forma

intrínseca de la calidad de los criterios de homología. Las disparidades, que, a nivel de

estructura primaria puedan parecer nimias (eliminaciones, inserciones, repeticiones, etc.)

pueden acarrear un efecto “bola de nieve” sobre la predicción terciaria, magnificando su

efecto en el resultado final a niveles inaceptables. Adicionalmente, existen patrones de

homología, relacionados con el posicionamiento parcial de aminoácidos en el espacio (y sus

interacciones relativas), que pueden ser omitidas por procesos básicos de reconocimiento de

patrones. Como recurso para mitigar este tipo de fenómenos he decidido utilizar un Modelo

Oculto de Markov (HMM, por sus siglas en ingles).

[o]

Figura 1: Modelo Oculto de Markov, implementación especial para perfilamiento de

proteínas.

Un HMM, es una estructura de análisis estadístico que sirve para predecir mecanismos

ocultos que generan datos observados y modelar dependencias en el proceso de generación

Page 3: Análisis de Herramientas y Métodos: Predicción de

de los datos. Los nodos representan los estados no observados (ocultos) del proceso. Cada

nodo tiene un conjunto de emisiones que representan las probabilidades de generar los datos

observados, y transiciones que capturan la información de dependencias entre los diferentes

estados. El caso arriba representado es el caso específico para proteínas, utilizado en este

desarrollo. Como podemos observar se encuentran nodos de inserción (In), para casos en los

cuales se insertan aminoácidos nuevos con respecto a secuencias conocidas; nodos de

eliminación (Dn) para casos en los cuales un aminoácido desaparece, y nodos Identidad (Mn)

para casos en los cuales no hay cambios o hay sustituciones con respecto a las secuencias

conocidas.

Esta estructura, sin embargo, no nos dice mucho aplicada a una sola secuencia, puesto que,

por ley de identidad, no podría tener cambios sobre sí misma. La estructura se utiliza, por

ende, con un gran número de otras secuencias similares, a nivel primario. El modelo se puede

ver como una representación de una secuencia estocástica que agrupa la información de

muchas secuencias cercanas a la secuencia a evaluar.

Estado del Arte:

En la práctica, se utilizan varios métodos para resolver el problema de predicción de

estructura terciaria, entre los cuales se encuentran dos principales vertientes:

- Modelado comparativo[b]: El cual usa estructuras previamente conocidas para inferir

posibles patrones sobre las secuencias a predecir.

Figura 2: Ejemplo simplificado de predicción por Modelo Comparativo

Page 4: Análisis de Herramientas y Métodos: Predicción de

Figura 3: Izquierda, Resultados software Swiss-Model (Estructura terciaria predicha

por software basado en modelo comparativo)

Derecha, Resultados experimentales (Estructura terciaria determinada por

observaciones directas.)

Esta aproximación toma un enfoque sobre las simetrías existentes en la naturaleza,

para poder acercarse a un modelo fidedigno de la estructura de una proteína.

Específicamente, estos modelos toman similitudes presentes tanto en estructuras

primarias como secundarias para poder dar una respuesta al problema de predicción

terciaria.

La efectividad de estos algoritmos recae en la forma como las moléculas se

comportan, es decir de forma predecible, para poder recrear eventos similares al

propuesto. Sin embargo, no intentan hacer un análisis sobre estos comportamientos

molécula a molécula, más bien operan asumiendo la repetición de estos patrones.

Estos algoritmos, por consiguiente, pueden obtener buenos resultados, dependiendo

de las bases de datos sobre las cuales se estén soportando, además de la flexibilidad

y confiabilidad de los estándares bajo los cuales opera, sin embargo, usualmente

fallan en configuraciones de aminoácidos con poca representación en la base de datos

utilizada.

- Predicción de-novo[e]: Una aproximación de fuerza bruta sobre la predicción, la cual

ocupa grandes cantidades de recursos de procesamiento, para poder revisar un colosal

número de posibilidades, frente a patrones de termodinámica e interacciones

moleculares determinados por la física y la química orgánica.

Page 5: Análisis de Herramientas y Métodos: Predicción de

Procesamiento Ab-Initio[h]: Es usual utilizar otros modelos de predicción, para

dividir una secuencia de aminoácidos en segmentos de alta concentración de

interacciones moleculares. Esta división, facilita la labor de algoritmos

predictores a nivel secundario y terciario.

Figura 4: ejemplo simplificado de procesamiento Ab-Initio

Figura 3: Izquierda, Resultados software I-Tasser (Estructura terciaria predicha por

software basado en modelo de-novo)

Derecha, Resultados experimentales (Estructura terciaria determinada por

observaciones directas.)

Esta técnica puede ser extremadamente útil, sobre todo a la hora de reducir

considerablemente el abanico de análisis sobre el cual el algoritmo debe correr.

Sin embargo, puede dar una cierta parcialización a los resultados, puesto que da

un mayor peso a interacciones entre los segmentos, que a interacciones entre los

mismos. Por esta razón es una herramienta que no debe ser tomada a la ligera pues

puede interferir drásticamente con la confiabilidad del software.

Page 6: Análisis de Herramientas y Métodos: Predicción de

Aprendizaje de Maquina: Esta herramienta ha sido utilizada en casi todas las

soluciones modernas propuestas para este problema, dada la gran cantidad de

posibilidades o de estructuras homologas sobre las cuales se debe encontrar

patrones pertinentes. Uno de los tipos de aprendizaje de maquina más popular

para predicciones por homología es el Modelo Oculto de Markov antes descrito.

Debe tenerse en cuenta, sin embargo, que los métodos utilizados para alimentar y

entrenar estos algoritmos difieren sustancialmente entre diferentes propuestas de

solución. Su correcto funcionamiento depende en gran medida del pre-

procesamiento de los datos con los cuales trabaja, así como en su entrenamiento

por lo que no se consideran una solución para la predicción de estructuras

proteicas, por su propia cuenta.

A la hora de utilizar estas herramientas sin embrago, es necesario tomar en cuenta los

patrones y tendencias encontradas en la estructura proteica general. Se han identificado un

gran número de patrones, que como se ha explicado anteriormente, surgen gracias al

comportamiento termodinámico de los átomos y las moléculas, en este caso se han

identificado un buen número de variantes, entre las cuales, las más comunes son[c].:

- Hélice alpha: Estructura con forma de hélice, con propiedades hidrofóbicas,

usualmente encontrado en el núcleo de las proteínas.

Figura 6: Ejemplos de hélices alpha[u]

- Lamina beta: Conjunto continúo ininterrumpido de enlaces de hidrogeno.

Page 7: Análisis de Herramientas y Métodos: Predicción de

Figura 6: Ejemplo lamina beta[u]

- Loop: Estructuras que se encuentran entre hélices alpha y láminas beta, y se

encuentran en la superficie de la estructura. No tienen un componente estructural

definido.

Herramientas de Apoyo:

Para poder llevar a cabo el proceso de predicción de estructura terciara, existen varias

herramientas de terceros, que vale la pena mencionar. En primer lugar, es importante

mencionar las herramientas de validación de resultados. El proceso de validación es un

problema íntimamente relacionado con la predicción, sin embargo, es completamente

diferente a nivel de entradas y salidas. A este respecto, la herramienta más reconocida es

CASP[c]. La cuales permite llevar a cabo un proceso de validación de gran envergadura

(cubriendo un alto número de propiedades y tipos de proteínas). Sin embargo, esta

herramienta, consta de una ejecución programada de forma bi-anual. Por este motivo se

utilizará la herramienta MATRAS[p], la cual cuenta con un nivel inferior de aceptación y

rigor, a comparación de sus contrapartes antes mencionados. Esta herramienta, a diferencia

de CASP solo valida la similitud de estructura secundaria y terciaría, a nivel espacial y de

identidad. Es decir, cuantifica las diferencias entre dos proteínas, a nivel de la posición

relativa de los elementos y su identidad molecular. Deja atrás, sin embargo, otros factores

como la carga eléctrica de los átomos.

Por otro lado, se encuentran también las bases de datos (y sus recursos API) que contienen

las entidades de proteínas pertinentes para el proceso de predicción. En este proyecto nos

enfocaremos en la base de datos Uniprot (+85 millones de proteínas) [i] para estructuras

primarias y Protein Data Bank (+150,000 proteínas) [s] para extraer estructuras terciarias

determinadas experimentalmente.

Motivación:

Page 8: Análisis de Herramientas y Métodos: Predicción de

Como se mencionó anteriormente, la predicción de estructuras proteicas es un problema

abierto en la biología computacional, lo cual implica que existen amplios márgenes de mejora

e indeterminación en las soluciones propuestas actualmente. Más allá de esto, tampoco se

cuenta con un conjunto de respuestas predefinidas para cada uno de los casos, lo cual implica

un amplio nivel de imprecisión y resultados probabilísticos dentro del paradigma del

problema. De estos factores podemos clasificar a este problema como un problema altamente

retador, como un proyecto de grado. A esto se le suma el potencial científico y humanitario

de los algoritmos que puedan resolver este problema, dada su utilidad en campos médicos y

farmacéuticos mencionada anteriormente.

A este respecto es indudable la pertinencia del actual desarrollo frente al panorama mundial,

azotado por una pandemia de origen viral. Las interacciones entre proteínas son una pieza

fundamental en el funcionamiento a nivel virus-hospedero, por lo que, las herramientas de

análisis que se enfocan en este tipo de escenarios son vitales para combatir sus efectos. La

predicción de estructura terciaria, permite dar una idea sobre el tipo de interacción que las

proteínas del SARS-CoV-2 tendrán con aquellas desarrolladas por las investigaciones,

haciendo de este tipo de software, una herramienta invaluable en tiempos de crisis.

Mi interés sobre este tópico, se sostiene específicamente en estos dos pilares ya que siempre

he considerado la programación no determinística como un campo de suma importancia, no

solo en términos médicos o de biología computacional, sino para la ingeniería de la

información como campo más extenso.

Objetivo General:

- Implementar una solución algorítmica, capaz de resolver el problema de predicción

de estructura terciaria (y por ende secundaria) de proteínas, a fin de determinar su

usabilidad en comparación a otras herramientas contemporáneas.

Objetivos Específicos:

- Implementar una herramienta de software, basada en predicción por homología,

capaz de resolver el problema de predicción de estructura terciaria proteica.

- Revisar y explicar los algoritmos modernos propuestos para resolver el problema de

la predicción de estructura secundaria y terciaria de proteínas.

- Hacer una labor comparativa en referencia al desempeño del algoritmo desarrollado,

en contraste con herramientas existentes como I-TASSER en el plano moderno de la

biología computacional.

Herramientas de Comparación:

Page 9: Análisis de Herramientas y Métodos: Predicción de

Se utilizará el algoritmo TASSER[m], como referencia para comparar los procesos a

completar:

- Estructura primaria (input):

MAKSSFKISNPLEARMSESSRIREKYPDRIPVIVEKAGQSDVPDIDKKKYLVP

ADLTVGQ

FVYVVRKRIKLGAEKAIFVFVKNTLPPTAALMSAIYEEHKDEDGFLYMTYS

GENTFGSLT

VA

- Estructura Secundaria (salida sub-principal):

Figura 7: Estructura Secundaria predicha por I-Tasser

- Estructura Terciaria (salida principal):

Figura 8: Visualización de los tres candidatos de predicción de estructura terciaria aportados

por I-Tasser, acompañados por su índice de confiabilidad (C-Score)

- Nota: el archivo que contiene la información textual de la estructura terciaria, posee

un formato que representa cada átomo de forma individual, lo cual genera un archivo

de aproximadamente 62000 líneas en este caso.

Como podemos observar, este algoritmo segmenta su funcionalidad en dos pasos principales,

justo como se implementó en este proyecto. También se toman varias medidas y

procedimientos intermedios, andes de determinar la salida, como medidas de confiabilidad o

sectores candidatos. La medida de confiabilidad específicamente, indica la validez relativa

Page 10: Análisis de Herramientas y Métodos: Predicción de

del modelo predicho. En el caso específico de I-Tasser, sirve para jerarquizar múltiples

modelos de salida.

A la hora de la implementación, sin embargo, se utilizará como referencia principal la

herramienta líder en el año 2009[c], HHpred[l] una excelente implementación de predicción

por homología.

Desarrollo:

Específicamente este proyecto seguirá un proceso de predicción por homología, en la cual,

se encontrarán patrones comunes entre la proteína a predecir, y aquellas proteínas cuya

estructura ya es conocida. Se asumirá que, al seguir las mismas leyes elementales, los

segmentos idénticos tendrán una fuerte tendencia a la similitud en su estructura. Esta

suposición podría no ser del todo correcta, puesto que se toman los segmentos como

elementos independientes, y no se puede negar la posibilidad de que otros elementos externos

al segmento, pero internos a la secuencia en su totalidad, afecten la estructura. Sin embargo,

la predicción por homología ha tenido grandes éxitos a la hora de predecir estructuras a un

nivel de confiabilidad tal que satisfaga los requerimientos establecidos por sus diferentes

utilidades.

Para la realización del proyecto se utilizó el siguiente diagrama de clases bajo el cual se da a

entender el funcionamiento del software:

Page 11: Análisis de Herramientas y Métodos: Predicción de

Figura 9: Modelo de clases utilizado para la implementación.

En primer lugar, la clase principal HHpred estará encargada del manejo de la entrada y

respuestas, utilizando como estructuras de datos complementarias la clase Protein, la cual a

su vez estará encargada del cálculo de predicciones, tanto a nivel secundario como terciario.

Se utilizará el estilo de arquitectura Pipes and Filters, dada la naturaleza secuencial de los

procesos, así como su estructura input-proceso-output.

Primeramente, se utilizan funcionalidades web de forma paralela, utilizando las herramientas

PSI-BLAST[q] y PSIPRED[r] para determinar las estructuras primariamente homologas y una

probable estructura secundaria. Se utilizarán las funcionalidades API-REST de estos

servidores para obtener los resultados a partir de la secuencia inicial.

Posteriormente comenzara la construcción del HMM antes descrito. Se utilizarán un

perfilamiento de los resultados de la secuencia homologas a nivel primario ya determinadas.

De esta forma se conseguirá un HMM no parcializado hacia la secuencia inicial, lo cual nos

permitirá llevar a cabo un perfilamiento sobre dicha secuencia, en referencia a sus homologas

primarias. Este HMM, además, se anotará con la información de estructura secundaria y a

determinada anteriormente.

Page 12: Análisis de Herramientas y Métodos: Predicción de

A este respecto, es interesante mencionar la existencia del nodo de eliminación, el cual por

su propia definición no contiene emisiones. Esto lleva a generar un modelo de HMM capaz

de incorporar estados sin emisiones.

Esta estructura de datos de perfilamiento, finalmente, se convertirá a formato “hmm”,

siguiendo los lineamientos establecidos por Pfam. Esta representación será utilizada para

hacer una consulta de homología con el servicio HMMSearch. Se utilizarán una vez más

recursos API REST para obtener los resultados esperados. Este servicio ejecuta un análisis

de comparación de HMMs a través de bases de datos diferentes, en este caso utilizaremos la

base de datos PDB, dado que es la que más ha demostrado consistencia a la hora de albergar

estructuras terciarias junto a su registro de proteínas.

Estos resultados, serán aquellas proteínas homologas, a partir de la información estructural

extraída del HMM. Gracias a esto, hemos mitigado imperfecciones en el proceso de

homología. Ahora bien, se procederá a extraer, de la base de datos antes mencionada, las

estructuras terciarias, así como el nivel de similitud encontrado por el servicio HMMSearch.

Una vez descargados los perfiles, se hará una recopilación de la información tomando en

cuenta el nivel de similitud referido, como peso. A partir de este resultado obtendremos la

predicción esperada, en base a 3D.

Finalmente usaremos directamente el software de MATRAS para obtener un alineamiento

en tercera dimensión de la estructura descrita, determinando así la validez de los resultados.

Adicionalmente se extraerá de MATRAS un perfil superpuesto de ambas proteínas, en aras

de obtener una representación visual comparativa de los resultados. Estos resultados se

visualizarán utilizando JMol[t].

Resultados:

Las predicciones efectuadas por el algoritmo HHpred, se pueden observar a continuación.

En la primera fila, observamos la predicción generada, seguida de la estructura de la proteína

determinada experimentalmente. Finalmente, en la última fila se observa una superposición

de ambas, eliminando los residuos de margen de error presenten en la primera imagen.

Cada prueba esta anotada con el nivel correspondiente de similitud, determinada por el

software MATRAS.

- Nota:

CRMS: diferencia promedio entre los átomos alpha.

DRMS: diferencia promedio entre los átomos beta.

Page 13: Análisis de Herramientas y Métodos: Predicción de

6LU7-A: Primera cadena de la proteasa principal cristalizada del SARS-CoV-2

Figura 10: Comparación entre resultados de predicción (arriba) y resultados experimentales

(centro) y superposición entre ambas (abajo), eliminando margen de error.

Resultados Análisis MATRAS: CRMS 3.57 DRMS 6.34

4YOI: Estructura de HKU4 adherida a inhibidor 1-A (no Covalente)

Page 14: Análisis de Herramientas y Métodos: Predicción de

Figura 11: Comparación entre resultados de predicción (arriba) y resultados experimentales

(centro) y superposición entre ambas (abajo), eliminando margen de error.

Resultados Análisis MATRAS: CRMS 5.61 DRMS 9.06

4K7T: Estructura del complejo ternario bacitracin, zinc y gyranil-pyrofosfato

Figura 12: Comparación entre resultados de predicción (arriba) y resultados experimentales

(centro) y superposición entre ambas (abajo), eliminando margen de error.

Resultados Análisis MATRAS: CRMS 10.85 DRMS 12.78

Page 15: Análisis de Herramientas y Métodos: Predicción de

Se pueden observar errores generales en los resultados obtenidos. La predicción tiene una

clara tendencia que perjudica la predicción de aminoácidos en posiciones de hélice-beta.

Además, se evidencia la falta de anotación estructural a nivel secundario. Sin embargo,

MATRAS incluye un indicador de similitud de estructura secundaria, y en este indicador, las

predicciones de este proyecto son comparables con las demás herramientas. He decidido no

incluir esta información, dado que este proyecto simplemente utilizo el API REST de una de

las herramientas líder en este tipo de predicciones.

Sin embargo, es importante tener en cuenta que estas predicciones no afirman, ni son capaces

de ser exactas. A continuación, llevaremos a cabo una profunda comparación con otras

herramientas, tanto de-novo como de homología, con sus respectivos resultados.

Comparaciones:

Por motivos de fuerza mayor, los servicios de predicción de estructura proteica se encuentran

saturados. Esta saturación se puede observar en los recursos relacionados con la investigación

ligada al SARS-CoV-2. Por esta razón, se utilizarán varias herramientas con menor

aceptación en los experimentos CASP.

La primera fila indica la predicción, seguida de la predicción llevada a cabo por la

herramienta con la que se está comparando. Finalmente se anota el resultado experimental.

CPHModels:

3IWM: Proteasa octametrica de SARS-CoV-2

Figura 13: Comparación entre resultados de predicción (arriba) y resultados de la

herramienta de comparación (centro) y resultados experimentales (abajo), eliminando

margen de error.

Resultados Análisis MATRAS:

Page 16: Análisis de Herramientas y Métodos: Predicción de

CPHModels: CRMS 1.62 DRMS 1.42

Resultados: CRMS 10.88 DRMS 13.87

6LZG: Estructura de pico de adhesión, adherido a receptor ACE2

Figura 14: Comparación entre resultados de predicción (arriba) y resultados de la

herramienta de comparación (centro) y resultados experimentales (abajo), eliminando

margen de error.

Resultados Análisis MATRAS:

CPHModels: CRMS 2.06 DRMS 1.61

Resultado: CRMS 4.16 DRMS 6.04

I-Tasser:

5XTC: Cryo-EM de complejo respiratorio humano, trans-mebranal

Page 17: Análisis de Herramientas y Métodos: Predicción de

Figura 15: Comparación entre resultados de predicción (arriba) y resultados de la

herramienta de comparación (centro) y resultados experimentales (abajo), eliminando

margen de error.

Resultados Análisis MATRAS:

I-Tasser: CRMS 3.45 DRMS 2.86

Resultados: CRMS 4.36 DRMS 5.33

Como se puede observar, existe una falta de anotación en referencia a la estructura

secundaria, la cual sin embargo está presente dentro de los datos obtenidos. No solo eso sino,

la respuesta dada por MATRAS, indica que la predicción de estructura secundaria esta

generalmente correcta. Esto se debe al formato “pdb” el cual contiene alusiones redundantes

a esta estructura. A un desarrollo futuro, se podría garantizar la anotación en estos elementos

redundantes del formato, incluyendo también varias otras referencias de átomos opcionales

o conectividad eventual.

Conclusiones:

Al concluir el análisis comparativo entre las herramientas principales, relacionadas a este

problema de la bioinformática, he identificado factores claves, los cuales considero, son las

características responsables por la brecha que se ha generado entre herramientas de-novo y

herramientas de predicción por homología.

La predicción de estructura terciaria por homología, depende en primer lugar de un conjunto

de entrenamiento que incluya un amplio rango de conformaciones de, y en segundo lugar de

suposiciones de similitud. Estas relaciones, es bien sabido, no son absolutas, pero el margen

de error es lo suficientemente pequeño como para justificar el uso de estos métodos. Si bien

desarrollos por homología siguen existiendo, gracias a desarrollos de última generación sobre

capacidad y forma de procesamiento en la bioinformática, se ha generado una importante

brecha en resultados con aproximaciones de-novo. Dicha brecha es evidente en el éxito que

ha surgido de la herramienta I-Tasser, la cual es, de lejos, la herramienta líder en estos

tiempos.

No considero, que futuros desarrollos en el campo de la homología cierren esta brecha, ya

que por su propia naturaleza no pueden dejar atrás las limitaciones en referencia a resultados

pasados y a suposiciones no demostrativas. Los métodos de-novo dependen exclusivamente

del entendimiento de las leyes que rigen la forma en la cual los aminoácidos se pliegas, así

como la capacidad de procesamiento de las maquinas ejecutando los programas. Ambos son

aspectos que lejos de limitar el desarrollo, solo pueden incrementar su efectividad.

Sin embargo, este desarrollo deja otra perspectiva, la utilización de HMM indudablemente

mitiga las limitaciones antes mencionadas. Y la información, referente a la forma en la cual

se pliegan los elementos en una cadena de aminoácidos siguen leyes determinísticas. Estas

leyes, al aplicar de forma idéntica a sus respectivos dominios, imponen, por definición, una

relación de homología entre elementos. Dicha relación sin embargo aún no ha sido

Page 18: Análisis de Herramientas y Métodos: Predicción de

correctamente plasmada en los modelos descriptivos disponibles hasta el momento. Sumado

a esto, está la eficiencia computacional de los procesos, en la cual la predicción por

homología reduce la cantidad de configuraciones a considerar mejorando así la eficiencia del

proceso. Podría ser factible que, al desarrollar un modelo capaz de modelar la información

estructural oculta en la termodinámica y la química en referencia a los aminoácidos, se pueda

volver a dar un desarrollo prometedor frente a la predicción de-novo. Sin embargo, no

considero que este conocimiento, este a corto alcance, ni aun a mediano, por lo que, en lo

que respecta al desarrollo actual considero que la predicción de-novo continuara adquiriendo

ventaja frente a los desarrollos de predicción por homología.

Referencias:

a. Xiang Z. (2006). Advances in homology protein structure modeling. Current protein & peptide science,

7(3), 217–227. doi:10.2174/138920306777452312

b. Waterhouse, A., Bertoni, M., Bienert, S., Studer, G., Tauriello, G., Gumienny, R., … Schwede, T. (2018).

SWISS-MODEL: homology modelling of protein structures and complexes. Nucleic acids research,

46(W1), W296–W303. doi:10.1093/nar/gky427

c. Moult, J., Fidelis, K., Kryshtafovych, A., Schwede, T. and Tramontano, A. (2014), Critical assessment of

methods of protein structure prediction (CASP) — round x. Proteins, 82: 1-6. doi:10.1002/prot.24452

d. Bhattacharya, D., Cao, R., & Cheng, J. (2016). UniCon3D: de novo protein structure prediction using

united-residue conformational search via stepwise, probabilistic sampling. Bioinformatics (Oxford,

England), 32(18), 2791–2799. doi:10.1093/bioinformatics/btw316

e. Cheung NJ, Yu W (2018) De novo protein structure prediction using ultra-fast molecular dynamics

simulation. PLoS ONE 13(11): e0205819. https://doi.org/10.1371/journal.pone.0205819

f. Zhang Y. (2008). Progress and challenges in protein structure prediction. Current opinion in structural

biology, 18(3), 342–348. doi:10.1016/j.sbi.2008.02.004

g. Liam J. McGuffin, Kevin Bryson, David T. Jones, The PSIPRED protein structure prediction server ,

Bioinformatics, Volume 16, Issue 4, April 2000, Pages 404–405,

https://doi.org/10.1093/bioinformatics/16.4.404

h. Yuan, X., Shao, Y., & Bystroff, C. (2003). Ab initio protein structure prediction using pathway models.

Comparative and functional genomics, 4(4), 397–401. doi:10.1002/cfg.305

i. Deng, H., Jia, Y., & Zhang, Y. (2018). Protein structure prediction. International journal of modern

physics. B, 32(18), 1840009. doi:10.1142/S021797921840009X

j. Mariani, V., Biasini, M., Barbato, A., & Schwede, T. (2013). lDDT: a local superposition-free score for

comparing protein structures and models using distance difference tests. Bioinformatics (Oxford,

England), 29(21), 2722–2728. doi:10.1093/bioinformatics/btt473

k. Ingrid Y. Y. Koh, Volker A. Eyrich, Marc A. Marti-Renom, Dariusz Przybylski, Mallur S. Madhusudhan,

Narayanan Eswar, Osvaldo Grana, Florencio Pazos, Alfonso Valencia, Andrej Sali, Burkhard Rost, EVA:

evaluation of protein structure prediction servers, Nucleic Acids Research, Volume 31, Issue 13, 1 July

2003, Pages 3311–3315, https://doi.org/10.1093/nar/gkg619 l. Söding, J., Biegert, A., & Lupas, A. N. (2005). The HHpred interactive server for protein homology

detection and structure prediction. Nucleic acids research, 33(Web Server issue), W244–W248.

doi:10.1093/nar/gki408

m. Yang, J., & Zhang, Y. (2015). Protein Structure and Function Prediction Using I-TASSER. Current protocols

in bioinformatics, 52, 5.8.1–5.8.15. doi:10.1002/0471250953.bi0508s52

n. Computational predictions of protein structures associated with COVID-19. (2020, April 8). Retrieved April 27, 2020, from https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19

o. What are HMMs? (2017, September 18). Retrieved April 27, 2020, from https://www.ebi.ac.uk/training/online/course/introduction-protein-classification-ebi/what-are-protein-signatures/signature-types/what-ar-1

p. Matras : Pairwise 3D Alignment. (2011, May 10). Retrieved April 28, 2020, from http://strcomp.protein.osaka-u.ac.jp/matras/matras_pair.html

Page 19: Análisis de Herramientas y Métodos: Predicción de

q. BLAST: Basic Local Alignment Search Tool. (n.d.). Retrieved April 28, 2020, from https://blast.ncbi.nlm.nih.gov/Blast.cgi

r. UCL Computer Science Department Bioinformatics Group. (n.d.). Retrieved April 28, 2020, from http://bioinf.cs.ucl.ac.uk/psipred/

s. wwPDB consortium (2019). Protein Data Bank: the single global archive for 3D macromolecular structure data. Nucleic acids research, 47(D1), D520–D528. https://doi.org/10.1093/nar/gky949

t. Jmol in Launchpad. (n.d.). Retrieved May 19, 2020, from https://launchpad.net/jmol

u. Aimee L. Boyle,3 - Applications of de novo designed peptides,Editor(s): Sotirios Koutsopoulos,Peptide

Applications in Biomedicine, Biotechnology and Bioengineering,Woodhead Publishing,2018,Pages 51-

86,ISBN 9780081007365,https://doi.org/10.1016/B978-0-08-100736-5.00003-

X.(http://www.sciencedirect.com/science/article/pii/B978008100736500003X)Keywords: Peptide; de

novo design; α-helix; β-strand; self-assembly; biomedicine; bionanotechnology