memorias conformacionales en la predicción de estructura ... · cación tiene que ver con la...

Click here to load reader

Post on 12-Jun-2018

213 views

Category:

Documents

1 download

Embed Size (px)

TRANSCRIPT

  • Revista de la Sociedad Qumica de Mxico, Vol. 47, Nm. 1 (2003) 6-21

    Investigacin

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidosRamn Garduo Jurez,*1 y Luis B. Morales2

    1 Centro de Ciencias Fsicas, Universidad Nacional Autnoma de Mxico, Apdo. Postal 48-3, 62250 Cuernavaca, Morelos, Mxico. Tel. (777)3291-749; Fax (777)3291-775; E-mail: [email protected]

    2 Instituto de Investigacin en Matemticas Aplicadas y Sistemas, Universidad Nacional Autnoma de Mxico, Apdo. Postal 70-221, 04510 Mxico D.F.

    Recibido el 23 de septiembre del 2002; aceptado el 23 de enero del 2003

    Resumen. Para reducir el espacio conformacional presente en laprediccin de la estructura terciaria de polipptidos, el cual creceexponencialmente con el nmero de residuos, hemos diseado unalgoritmo de bsqueda heurstica que es robusto y que puede propor-cionar estructuras cercanas a la nativa con relativa facilidad. Espec-ficamente, hemos desarrollado un algoritmo gentico hbrido (AGH)que usa nmeros reales en lugar de bits para describir a los genes decualquier cromosoma, y que incluye un operador de perfec-cionamiento cuya funcin es reorientar la bsqueda hacia los indivi-duos mejor adaptados. Al final de cada ciclo del AGH, un anlisis dela poblacin resultante indica la presencia de cmulos bien definidosen los valores de ngulos de torsin para cada cromosoma. Estos seg-mentos corresponden a diferentes conformaciones de baja energa, yson relativamente constantes cada vez que se practica un nuevoexperimento de AGH sobre la misma molcula. A estos segmentosles hemos llamado memorias conformacionales, y son usados comolos lmites de un espacio conformacional reducido dentro del cual serealiza la siguiente ronda del AGH. El empleo de las memorias con-formacionales acelera y afina la localizacin de la estructura corres-pondiente al Mnimo Global de Energa (MGE). Este algoritmo hasido empleado para localizar con xito el MGE de la Met- y la Leu-encefalina.Palabras Clave: Prediccin de la estructura de protenas, algoritmosgenticos, plegado de protenas, bsqueda en el espacio conforma-cional, memorias conformacionales.

    Abstract. To reduce the conformational space existing in the processof searching for the tertiary structure of polypeptides, which growsexponentially with the number of residues, we have designed aheuristic search algorithm that is robust and that can provide withstructures near the native with ease. Specifically, we have developeda hybrid genetic algorithm (HGA) that uses real numbers instead ofbits in order to describe the genes of any given chromosome, and thatincludes an improvement operator which function is to reorient thesearch towards the best fitted individuals. At the end of each HGAcycle, an analysis of the resulting population shows the presence ofwell defined dihedral angle clusters for each chromosome. These seg-ments correspond to different low energy conformations, and are re-latively constant each time a new HGA experiment is performed onthe same molecule. We have called conformational memories tothese segments, which are used as a reduced conformational space inwhich the new round of the HGA is performed. Use of conformatio-nal memories speeds up and refines the localization of the structure atthe Global Energy Minimum (GEM). This algorithm has been used topredict successfully the GEM for Met- and Leu-enkephalin.Key words: Protein structure prediction, heuristic algorithms, ge-netic algorithms, protein folding, conformational space search, conf-ormational memories.

    Introduccin

    Debido a su papel fisiolgico central en la mayora de los sis-temas biolgicos, la estructura y funcin de las protenas sonfoco de un estudio intenso. La estructura 3D biolgicamenteactiva de una protena est codificada en la secuencia particu-lar de sus aminocidos; sin embargo, no se conoce con pre-cisin cmo esta secuencia puede conducir a esa estructura.Constantemente se reporta en la literatura la secuencia deaminocidos de muchas protenas, y muchas ms sern incor-poradas en un futuro cercano debido a la explosin genmica.An as, el nmero de estructuras tridimensionales, biolgica-mente activas, que son depositadas en el Protein Data Bank(PDB) permanece an muy pequeo. Por lo tanto, la predic-cin de estructura para las protenas secuenciadas demandarun desarrollo continuo de nuevos mtodos para el estudio deproblemas cada vez ms complejos donde habr poca infor-

    macin experimental de rayos X o espectroscpicos. Elucidarla estructura tridimensional de estas macromolculas biolgi-cas solamente a partir de la informacin de la secuencia de susaminocidos es un problema fundamental para la biologamolecular, para la biofsica, y para la qumica computacional.Contar con un algoritmo de prediccin exitoso podra tener unefecto profundo en la biotecnologa y en el tratamiento deenfermedades; sin embargo, una solucin prctica todavaparece difcil de encontrar debido al problema de los mltiplesmnimos.

    El problema de los mltiples mnimos est relacionadocon encontrar el Mnimo Global de Energa (MGE) entre unenorme nmero de mnimos locales presentes en la hpersu-perficie de energa potencial de las molculas flexibles comolas protenas. La hiptesis termodinmica de Anfisen [1]implica que la estructura nativa de una protena es aquella quese encuentra en el MGE y que es una estructura nica. El

  • grado de libertad rotacional en una protena est ligado alnmero de ngulos de torsin de sta. Si cada uno de estosngulos tuviera igual probabilidad de movimiento, el nmerode posibles conformaciones que una protena dada pudieraadoptar es astronmico. El encontrar el mnimo global en estahpersuperficie en una cantidad finita de tiempo constituye loque se conoce como el problema del plegado de protenas, elcual se ha probado que pertenece a los problemas matemticosdel tipo NP-completos [2] La bsqueda sistemtica en estahpersuperficie es imprctica ya que an para una molcula demediano tamao el nmero ms pequeo de posibles con-formeros es de 2N, donde N es el nmero de variables (ngulosde torsin). Una forma de resolver este problema es por mediodel diseo de mtodos computacionales que puedan revelarlas diversas conformaciones de baja energa para estas mol-culas, lo cual en principio se puede obtener usando el mues-treo conformacional.

    Las tcnicas de muestreo conformacional pueden agru-parse en mtodos determinsticos y estocsticos. Los primerosincluyen cualquier mtodo por el cual la generacin y evalua-cin de una conformacin de una molcula est determinadapor la conformacin anterior. Los as llamados mtodosestocsticos estn basados en la tcnica de la bsqueda deMonte Carlo, donde una conformacin es generada cada vezque se toma de manera azarosa los valores para cualquier pa-rmetro que define esta conformacin. Sin embargo, todavano existe un fundamento terico para decidir cundo el mues-treo es suficiente, por lo que esta decisin es hecha emprica-mente. Para muchos problemas estas tcnicas han sido lanica herramienta vlida, sin embargo, ambos mtodos con-sumen una gran cantidad de tiempo de cmputo. Con el afnde reducir los costos de cmputo, nosotros hemos propuesto eluso de meta heursticos tales como el recosido simulado [3, 4,5], el threshold accepting [6], y la bsqueda tab [7].

    Existen otros mtodos estocsticos que copian las muchasmanifestaciones de la evolucin natural y se han diseadopara su uso en las computadoras, stos forman parte de la asllamada computacin evolutiva.

    La computacin evolutiva es esencialmente heurstica,esto es, contiene un componente al azar; y no se puede garan-tizar que este tipo de algoritmos puedan encontrar una solu-cin ptima o simplemente una solucin. Los algoritmos evo-lutivos son usados preferentemente para las aplicacionesdonde los mtodos determinsticos o analticos fallan, porqueel modelo matemtico no est bien definido o porque el espa-cio de la bsqueda es demasiado grande para una bsquedasistemtica completa. Los algoritmos genticos (AG) son unejemplo de los algoritmos evolutivos que se parecen al para-digma del proceso de la informacin desarrollado y exhibidopor la naturaleza. La naturaleza usa los principios de herenciagentica y evolucin de manera impresionante. Muchas mani-festaciones de la evolucin natural pueden ser copiadas en lainteligencia artificial, como la supervivencia del ms apto y elapareamiento con el ms fuerte del grupo, ambas se caracteri-zan por dar lugar a organismos bien adaptados que puedenajustarse a un ambiente potencialmente adverso. Otras mani-

    festaciones como el comportamiento altruista, la cooperaciny otros pueden imaginarse como el resultado de una evolucinsuperior, pero son muy difciles de evaluar.

    El uso de los AG en la bsqueda conformacional no esuna idea nueva [8,9]. Estos se emplearon inicialmente paraoptimizar ya sea una funcin objetivo o el esfuerzo de generarindividuos bien adaptados en generaciones sucesivas. Lasestrategias de evolucin en su forma original fueron bsica-mente algoritmos estocsticos de escalamiento hacia arriba yfueron usados para la optimizacin de funciones objetivo mul-tiparamtricas, que en la prctica no pueden ser tratadasanalticamente. Los AG en su forma original no fueron dise-ados para la optimizacin de funciones sino para demostrarla eficiencia del cruzamiento gentico en la creacin de can-didatos exitosos dentro de espacios de bsqueda complicados.Una de las reas ms prometedoras y rpidamente creciente enla biologa molecular es la aplicacin de los AG en el anlisisde datos y la prediccin de estructura. Los AG ya han sidousados para interpretar los datos de resonancia magnticanuclear en la determinacin de la estructura del ADN [10],encontrar el orden correcto para un grupo desordenado defragmentos de ADN [11], y la prediccin de la estructura deprotenas [12, 13, 14] entre otras cosas.

    Dado que los AG tienen una convergencia muy lenta, yque hasta la fecha no se ha diseado algn algoritmo genticoque provea con estructuras cercanas al mnimo global de pp-tidos cuando se toma un mtodo ab initio [13,15], nos hemosdado a la tarea de construir un algoritmo gentico hbrido(AGH) que nos permita distinguir rpidamente las regionesmas probables del espacio conformacional entre las cuales sepudiera encontrar la estructura del MGE.

    Nuestro AGH incluye algunas modificaciones en la formatradicional de programar los algoritmos genticos. La primeramodificacin permite el uso de nmeros reales en lugar dedgitos binarios para describir a cada uno de los genes, ongulos de torsin dentro de un pptido. La segunda modifi-cacin tiene que ver con la aparicin de lo que hemos llamadomemorias conformacionales al final de cada ciclo del algorit-mo gentico. La tercera modificacin es la inclusin de unoperador de perfeccionamiento que nos permite refinar a loscromosomas, o individuos. A cada ciclo de AGH donde elnuevo espacio conformacional est delimitado por las memo-rias conformacionales obtenidas en el ciclo anterior le hemosllamado un cedazo. Un cedazo, es una tcnica de progra-macin combinatoria que toma un conjunto finito y elimina aaquellos de sus miembros que no son de inters. Los cedazosson muy tiles en el clculo de la teora de nmeros, e.g., elcedazo de Eratosthenes y los nmeros de Fibonacci [16].

    Varias molculas fueron usadas para valorar nuestraimplementacin de AGH. Entre stas, las molculas pruebacorrespondientes al pentapptido de la Met-encefalina(YGGFM) y su anlogo la Leu-encefalina (YGGFL), dadoque la estructura tridimensional de estos pptidos est muydocumentada de manera experimental y terica [17, 18].

    Los experimentos llevados a cabo con las molculas prue-ba se realizaron en la ausencia y en la presencia del operador

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidos 7

  • de refinamiento. Aquellos donde no se aplic este operador elnmero total de evaluaciones de la funcin objetivo estu-vieron ms all de cualquier esperanza razonable, los cmulosde ngulos de torsin (diedros) donde se localizan las memo-rias conformacionales fueron poco definidos, y para arribar alMEG de las molculas prueba se necesitaron cuatro pasos decedazo. Aquellos donde se aplic este operador, durante elprimer ciclo del AGH se encontraron cmulos de ngulosdiedro ms definidos que en los experimentos donde se omi-ti, y por lo tanto, fue ms fcil asignar las memorias confor-macionales correspondientes. Cuando estos segmentos seusaron para un segundo ciclo de cedazo, en la poblacin resul-tante se encontr un buen nmero de individuos en el GEM omuy cerca de ste, y no fue necesario realizar ms ciclos decedazo. Este procedimiento donde se aplic el operador derefinamiento necesit de un nmero mucho menor de evalua-ciones de la funcin objetivo, este nmero a su vez es menor alos reportados para otros mtodos heursticos.

    Mtodos

    Generalidades de los algoritmos genticos

    Los algoritmos genticos fueron propuestos por Holland [19]y son procedimientos de bsqueda probabilstica basados en lasimulacin parcial de la evolucin y seleccin natural obser-vada en la naturaleza. Muchas variantes de los AG han sidodescritas, sin embargo, todos ellos comparten las mismas ca-ractersticas bsicas tales como:

    1. Los AG codifican el dominio del problema, no las variables.2. Los AG generan una poblacin inicial de tamao Npob de

    posibles soluciones. Estos no trabajan en un solo individuo.3. Los AG evalan una funcin objetivo para cada individuo

    en la muestra. Esa funcin no necesita propiedades espe-ciales como ser continua o si sta es derivable o no.

    4. Los AG son azarosos en la seleccin de los individuos msapropiados.

    5. Con una probabilidad pc los AG combinan (entrecruzan oaparean) los genes de los individuos seleccionados comopadres dando lugar a otros individuos diferentes a los origi-nales.

    6. Con una probabilidad pm los AG cambian (mutan) el valoralmacenado en cualquier lugar de la cadena gentica.

    7. Los individuos resultantes, apareados o mutados, consti-tuyen la nueva generacin de soluciones posibles.

    8. Los AG proporcionan soluciones cerca del ptimo (mni-mo) en tiempo finito.

    Generalmente hablando un AG es un mtodo heursticoque opera en pedazos de informacin, como lo hace la natu-raleza en los genes durante el curso de la evolucin. Los indi-viduos estn representados por una cadena lineal (cromosoma)de letras (genes) de un alfabeto (en la naturaleza son losnucletidos; en los algoritmos genticos son los bits, nmeros,

    o cualquier otro dato estructural) y a stos se les permitereproducirse, mutar, y morir. Los individuos son evaluados encada generacin por una funcin de aptitud, o funcin objeti-vo. Los individuos de la generacin actual que tienen unmejor desempeo (o aptitud) tienen una probabilidad ms altade participar en la construccin de la siguiente generacin. Enla operacin de cruzamiento normalmente se producen doshijos por pareja de padres. En la operacin de mutacin, elvalor de un gen que se selecciona al azar dentro de un cromo-soma que tambin se selecciona al azar, ser cambiado porotro valor azaroso. Dependiendo de la modalidad de reem-plazamiento para cada generacin, un subgrupo de padres ylos hijos generados pueden o no entrar en el siguiente ciclo dereproduccin. Despus de un nmero de iteraciones la pobla-cin consistir de individuos que estn bien adaptados en tr-minos de la funcin de aptitud, sin embargo, no se puede pro-bar que entre los individuos de la generacin final estar lasolucin ptima.

    Para el problema simplificado del plegado de protenasUnger y Moult [20] han demostrado que el desempeo de unAG es mucho ms eficiente que cualquiera de las estrategiasde Monte Carlo, ya que los algoritmos genticos proveenmejores valores de aptitud, y con mucho menor esfuerzo com-putacional.

    En la aplicacin tradicional de los AG existen parmetrosinherentes tales como el nmero de individuos en la pobla-cin, la probabilidad de mutacin, y la probabilidad de aparea-miento entre los padres; generalmente todos stos se man-tienen constantes a travs de la ejecucin del algoritmo, y hayque realizar muchos experimentos, costosos en tiempo, paraencontrar los valores que proporcionen la mejor respuesta. Sinembargo, es mucho ms deseable encontrar los mejores va-lores de cada uno estos parmetros para cada problema a serresuelto, esta es la base de los algoritmos genticos auto adap-tativos [21], donde cada parmetro varia dentro de ciertointervalo, de tal forma que durante la ejecucin del algoritmolos valores ms adecuados para estos parmetros son afinados.En este reporte usamos la manera tradicional de un AG, en elcual por medio de un operador de perfeccionamiento pro-ponemos que es posible reducir significativamente el costo delos algoritmos genticos en el modelado molecular a pesar deno contar con los parmetros adecuados.

    AG en el modelado molecular

    El desarrollo de nuestro algoritmo gentico (AG) se bas en laas llamada aproximacin hbrida. Esto significa que un AG sepuede configurar para operar con nmeros reales, no concadenas de bits como en el algoritmo original [22], y quepuede o no incluir un paso determinstico en la forma de unoptimizador local. Un algoritmo gentico hbrido (AGH) esms fcil de implementar y tambin facilita el uso de ope-radores de dominio especficos en donde, por ejemplo, el pro-ceso de codificacin / decodificacin es evitado. Para una re-presentacin del AGH para protenas uno puede usar coorde-nadas cartesianas, ngulos de torsin, rotameros, o de cual-

    8 Rev. Soc. Qum. Mx. Vol. 47, Nm. 1 (2003) Ramn Garduo Jurez y Luis B. Morales

  • quier otra descripcin simplificada de sus residuos. Estricta-mente hablando los fundamentos matemticos de los algorit-mos genticos son vlidos slo para representaciones binarias,sin embargo, algunas de sus propiedades matemticas tambinson vlidas para una representacin de punto flotante.

    La estructura tridimensional de nuestras protenas modelose codific con una secuencia de ngulos de torsin bajo lasuposicin de que sus distancias y ngulos de unin per-manecieron constantes durante la bsqueda. Los ngulos detorsin codificados corresponden a los ngulos definidoscomo , , , y . Esta suposicin es ciertamente una simpli-ficacin de la situacin real donde las longitudes y ngulos deunin cambian hasta cierto punto dependiendo del ambientede cada tomo. Sin embargo, el subgrupo de ngulos de tor-sin provee suficientes grados en libertad para representarcualquier conformacin permitida dentro de un margenpequeo de desviacin estndar. Una caracterstica de la re-presentacin geomtrica en base a ngulos de torsin es elhecho de que pequeos cambios en los ngulos y de unpptido pueden inducir cambios significativos en la conforma-cin entera. Esta propiedad es til para crear la diversidadnecesaria dentro de una poblacin al comienzo de la simu-lacin.

    En el funcionamiento de un AGH la bsqueda dentro delespacio conformacional es llevada a cabo en varios pasos. Enel primer ciclo el espacio conformacional comprende losngulos euclidianos de una circunferencia entre 0 y 360,donde los ngulos de torsin (variables o genes) pueden tomarcualquier valor, es muestreado de acuerdo a la hiptesis deprobabilidad igual a priori. En el primer paso se coleccionanresultados de unas cuantas corridas del AGH sobre una pobla-cin fija de conformeros. En cada corrida la poblacin iniciales generada al azar a la cual se le permite evolucionar dentrode unas cuantas generaciones. Cada conformero est sujeto auna minimizacin local despus de cada reproduccin y muta-cin. En la generacin final se espera la presencia de variosconformeros con energa suficientemente baja. En principio,estos conformeros de baja energa deben proveer una distribu-cin de valores de ngulos diedro estricamente permitidospara cada uno de los ngulos de torsin que definen a lamolcula prueba. Estos valores deben pertenecer a un espacioconformacional reducido donde estos conformeros de bajaenerga existen, valores fuera de esta distribucin correspon-dern a conformeros de alta energa. Al mismo tiempo, la dis-tribucin de ngulos estercamente permitidos puede ser usadacomo entrada para el siguiente ciclo del algoritmo, el cualahora trabajar en un espacio conformacional reducido. En losciclos subsecuentes este proceso es repetido y se espera queuna combinacin adecuada de estos intervalos angularespodra converger al MGE y sus conformaciones vecinas debaja energa.

    A cada ciclo de AGH donde el nuevo espacio conforma-cional est delimitado por las memorias conformacionalesobtenidas en el ciclo anterior le hemos llamado un cedazo. Uncedazo, es una tcnica de programacin combinatoria quetoma un conjunto finito y elimina a aquellos de sus miembros

    que no son de inters. Los cedazos son muy tiles en el clcu-lo de la teora de nmeros, e.g., el cedazo de Eratosthenes ylos nmeros de Fibonacci [16].

    Asignacin de las memorias conformacionales

    Para facilitar la designacin de las memorias conforma-cionales hemos tomado en cuenta lo siguiente: 1) al final decada ciclo del AGH elaborar un histograma de energa confor-macional contra los valores de ngulo diedro para cada gen delos individuos presentes en la poblacin final, 2) los cmulosalrededor de {180, 170} y {170,180} son en realidadpartes del mismo conjunto de memoria conformacional ya queeste es el intervalo del ngulo , o unin peptdica en posicintrans, 3) los puntos que pertenecen a estructuras de altaenerga pueden ser eliminados de cada conjunto ya que estosno presentan un peso estadstico importante cuando se lescompara con otras regiones altamente pobladas, 4) despus deesta accin, detectamos si el conjunto se rompe en otros sub-conjuntos, esto es, que puedan adoptar lmites bien definidos(el criterio empleado para que se forme una nueva memoriaconformacional es que los conjuntos deben estar separadospor bandas vacas de 40 o ms), 5) los conjuntos formadospor tres o menos valores de ngulos diedro son eliminados, amenos que uno de ellos sea o est muy cercano al mnimoenerga ms bajo encontrado en el experimento, 6) los conjun-tos donde a pesar de estas consideraciones no se logr obteneruna mejor definicin, se mantuvo el conjunto original comouna memoria conformacional muy ancha en espera de que stasea refinada en los cedazos subsecuentes. Este procedimientofue codificado en un programa de post proceso que facilita lageneracin de la tabla de consulta para las memorias confor-macionales usadas en el segundo cedazo.

    Los operadores AGH

    En nuestra implementacin un individuo o conformero, es uncromosoma hecho de genes, donde cada gen representa elvalor de un ngulo de torsin representado por nmerosreales. Un individuo con una conformacin dada define a unpadre (diferentes padres deben tener la misma secuencia deaminocidos, pero diferentes conformaciones). La aptitud deun conformero est determinada con un campo de fuerzaemprico donde los conformeros con energa baja son consi-derados como sobrevivientes, mientras que los conformerosde energa alta son considerados no aptos para evolucionar. Eloperador de cruzamiento permite a los padres el aparearse conuna probabilidad pc, los genes recombinantes crean Nprole indi-viduos (la conformacin de la prole debe ser diferente decualquiera de sus padres) para restaurar el nmero original deindividuos. Para asegurar la variacin gentica, las mutacionesse introducen al azar despus del proceso de apareamiento conuna probabilidad pm. Con el operador de perfeccionamientorelajamos los conformeros con contactos estricos fuertes, ypor lo tanto se reorienta la bsqueda a los individuos mejoradaptados. Esta operacin se lleva cabo empleando el mtodo

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidos 9

  • de minimizacin de Newton-Raphson. Para asegurar la sobre-vivencia del ms apto, Nbuenos conformeros de baja energa(uno o ms) de la generacin actual pasarn sin perturbarse ala siguiente generacin. La nueva poblacin consiste de Npob =Nbuenos + Nprole en la que no hay preferencias, esto significaque todos los individuos de la nueva poblacin tienen lamisma oportunidad para aparearse.

    La funcin de aptitud

    Para evaluar la aptitud de cada individuo se us la funcin depotencial conformacional conocida como ECEPP / 2 [23]como funcin objetivo. La funcin de potencial ECEPP / 2 hasido descrita en otros lados, pero hablando generalmente, staes una suma de expresiones para el potencial electrosttico, elpotencial de van der Waals por pares, puentes de hidrgeno, elpotencial del ngulo de torsin, el potencial de formacin deanillos, y los puentes disulfuro.

    Econf = Eel + EvdW + Ehb + Etor + Eloop + ES-S

    En este potencial se supone que las longitudes y los ngu-los de unin son constantes. En todas las corridas el plegadofue simulado en el vaco.

    Codificacin de parmetros, precisin y lmites

    En nuestro AGH el algoritmo est limitado a explorar el espa-cio conformacional definido por todo el conjunto de nguloseuclidianos en una circunferencia, particularmente est limita-do a la bsqueda de los ngulos diedro dentro de los lmites180 < +180. Para la aplicacin de la funcin de apti-tud, es necesario convertir la geometra de la protena repre-sentada por ngulos de torsin a una representacin en coor-denadas cartesianas. En este formato, los parmetros son con-tinuos y pueden tomar cualquier valor, as que la precisin deestos parmetros depende solamente de la precisin y error deredondeo del procesador de la computadora usada. El cdigocorrespondiente est en lenguaje FORTRAN, est compiladoen una PC con doble precisin (32 bits) con el sistema operati-vo Linux, y fue empleado como una extensin del programaFANTOM v4.2 [24,25].

    Poblacin inicial

    La poblacin inicial se construy de acuerdo con:do i = 1, Npob

    do j = 1, Ngenesif (memoria.eq.false) then

    Npob{i, j} = (al ba) azar {0.0, 1.0} + ba

    elseNpob{i, j} = azar {liminf, limsup}j

    endifenddo

    enddodonde

    al = nmero ms alto en el intervalo = +180.0ba = nmero ms bajo en el intervalo = 180.0

    Cuando la poblacin inicial se genera usando las memo-rias conformacionales, los individuos surgen dentro de losrespectivos lmites inferior (liminf) y superior (limsup)definidos por la memoria conformacional correspondiente acada gen.

    Seleccin natural

    Dado que los cromosomas no son creados iguales, cada unode estos fue evaluado por la funcin de aptitud y catalogadodesde el costo ms bajo al costo ms alto. Los Nbuenos miem-bros de la generacin i-sima son parte de los Npob miembrosde la generacin (i + 1)sima donde la nueva prole ha reem-plazado a la parte inferior de Nmalos miembros de la genera-cin i (Nmalos = Npob Nbuenos). Este proceso ocurri en cadaiteracin del algoritmo para permitir que la poblacin evolu-cione a travs de las generaciones hacia los miembros mejoradaptados. El tamao de la poblacin en cada generacin semantuvo constante a Npob individuos.

    10 Rev. Soc. Qum. Mx. Vol. 47, Nm. 1 (2003) Ramn Garduo Jurez y Luis B. Morales

    Tabla I. Parmetros establecidos en la operacin del AGH.

    Parmetro Descripcin Valor

    Npob nmero de individuos en la poblacin 20-30Ngen nmero de generaciones 20-70pc probabilidad de realizar

    el cruzamiento uniforme 0.6-0.7pm probabilidad de realizar la mutacin 0.2-0.3cm mtodo para realizar el cruzamiento [email protected]

    [email protected] nmero de mutaciones puntuales 1om mtodo para realizar las mutaciones [email protected] 1b

    [email protected] 2oo probabilidad de optimizacin 1.0

    de la prolemo probabilidad de optimizacin 1.0

    de los mutantest control de gemelos TNbuenos nmero de individuos buenos

    que pasan a la siguiente generacin 2-4Nmalos numero de individuos malos a 16-18

    ser eliminadosNgenes nmero de genes en los cromosomas 24-78Ncyc nmero de ciclos de optimizacin 10

    a [email protected] = Cruzamiento Heurstico Uniforme en el cedazo nmero uno. [email protected] = Cruzamiento de Un Punto en el cedazo nmero dos.

    b [email protected] = Mutacin basada en una distribucin gaussiana en el cedazo numero [email protected] = Mutacin basada en una ditribucin lineal en el cedazo numero dos.

  • Mejoramiento gentico

    El operador de mejoramiento consisti en aplicar 10 ciclos delminimizador de Newton-Raphson a cada individuo nuevo queaparece en la poblacin y a cada individuo que ha sido mutadoantes de regresarlo al grueso de la poblacin. La accin netadel minimizador local fue la de relajar una posible conforma-cin de baja energa, pero que por un contacto estrico sta nopueda ser considerada como candidato a sobrevivir; por lotanto se recupera la tendencia de la evolucin hacia los indi-viduos mejor adaptados.

    Apareamiento

    El operador de cruzamiento fue diseado para trabajar en unode los esquemas siguientes: a) cruzamiento en un punto, b)cruzamiento en dos puntos, y c) el cruzamiento uniforme. Esteltimo se diseo para trabajar en una de dos esquemas, elcruzamiento lineal uniforme y el cruzamiento heurstico uni-forme. Los puntos de cruzamiento se seleccionan al azar y esel mismo para los cromosomas de cada uno de los dos padres.

    En el cruzamiento en un punto y en dos puntos cada gense propaga entre la prole en combinaciones diferentes, ya quesolo se intercambian los segmentos de igual longitud entre lospadres. Estos mecanismos estn bien documentados en la lite-ratura [26] y generalmente no introducen nueva informacingentica.

    El cruzamiento lineal uniforme entre dos padres que seaparean consiste de recorrer la secuencia de los genes paracada cromosoma, y en cada posicin intercambiar esta infor-macin con una probabilidad pc. En este caso tampoco seintroduce nueva informacin.

    El cruzamiento heurstico uniforme fue presentado porMichalewicz [27]. Este es un tipo de mtodo de mezclado queencuentra formas de combinar los valores en los genes decada uno de los padres para dar valores nuevos en los genesde la prole. El cruzamiento heurstico comienza al seleccionaral azar una pareja de padres entre los Npob miembros de lapoblacin donde cada padre consiste de:

    padre1 = [pm1, pm2, ... pmi, ... pmNgenes-1, pmNgenes]padre2 = [pp1, pp2, ... ppi, ... ppNgenes-1, ppNgenes]

    donde los subscriptos m y p indican al individuo mam y alindividuo pap, respectivamente. La nueva prole se genera alcombinar cada uno de los genes de acuerdo con la siguienteregla:

    pnuevo1 = pmi [pmi ppi]pnuevo2 = ppi + [pmi ppi]

    donde es un nmero azaroso entre 0.0 y 1.0.Para el entrecruzamiento dos padres son seleccionados al

    azar de entre los Npob individuos de la poblacin, el aparea-

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidos 11

    Tabla 2 Memorias conformacionales puras para la Met- y Leu-encefalina.

    Residuo ngulo Intervalo A(ba, al) Intervalo B (ba, al) Intervalo C (ba, ali) Intervalo D (ba, al)

    Tyr1 (180 ,150 ) (120,60) (50,70) (170 ,180 ) (60 ,30 ) (70,100) (130,160) (180,170) (170,180)1 (180,167) (50,70) (50,70) (170,180)2 (130,80) (70 ,100 )6 (180,170) (15,5) (0,20) (155,180)

    Gly2 (166,140) (92,69) (69,80) (146,166) (160 ,140 ) (100,70) (50,100) (150,170) (180,170) (170,180)

    Gly3 (160,140) (90,70) (70,90) (150,160) (90,30) (20,0) (0,30) (70,100) (180,170) (170,180)

    Phe4 (160,140) (80 ,60 ) (60,30) (10,40) (135,175) (180,170) (170,180)1 (180 ,170 ) (60 ,50 ) (50,70) (170 ,180 )2 (110,80) (70,100)

    Met5 / Leu5 (175,140) (85,60) (50 ,65 ) (80 ,60 ) (50 ,30 ) (60,170) (180,170) (170,180)1 (180,170) (75 ,50 ) (50 ,75 ) (170 ,180 )2 (180,170) (75,65) (60,75) (174,179)3 (180,170) (90,80) (80,90) (175,180)4 (180,170) (60,60) (61,61) (175,180)

    ) Intervalo que no est presente en la memoria conformacional para la Met-encefalina.) Intervalo que no est presente en la memoria conformacional para la Leu-encefalina.

  • 12 Rev. Soc. Qum. Mx. Vol. 47, Nm. 1 (2003) Ramn Garduo Jurez y Luis B. Morales

    miento se lleva a cabo en uno de los esquemas mencionados,y la cantidad de prole que se genera es equivalente al nmerode individuos Nmalos de forma tal que se pueda regenerar elnmero de Npob requerido para una nueva generacin.

    Mutacin

    Con una probabilidad pm, se selecciona al azar un individuopara su mutacin. Para este individuo uno de sus genes seescoge al azar y su valor real es remplazado por otro valor realgenerado de manera azarosa en el intervalo (180.0, +180.0]. Cuando se usan las memorias conformacionales elnuevo ngulo se genera dentro de los respectivos lmites infe-rior y superior definidos por su memoria conformacional.

    Ya que la mutacin se lleva cabo con nmeros reales y nocon cadenas de bits, la generacin del nuevo valor fue progra-mado para hacerse en una de las tres siguientes maneras. Laprimera de stas fue con el uso de un generador de nmerosaleatorios con una distribucin lineal uniforme, la segunda fuecon el uso de un generador de nmeros aleatorios con una dis-tribucin gaussiana, y la tercera con el uso de un generador denmeros aleatorios con una distribucin de Poisson. De stos,los nmeros aleatorios en base a una distribucin lineal y gau-ssiana dieron el mejor desempeo para nuestro algoritmo. Ladistribucin de Poisson dio resultados muy pobres.

    Tratamiento de gemelos

    Correr un AG con una poblacin de pocos individuos generademasiados gemelos. Dado que esta sociedad de cromosomasno trabaja bajo una democracia, para evitar que el algoritmose atrape en una poblacin que no evoluciona, uno de losgemelos es eliminado y es remplazado por otro hijo que segenera al cambiar a uno de los padres por otro diferente entrelos Npob individuos de la generacin.

    Implementacin

    El algoritmo descrito en este reporte fue desarrollado comouna extensin del programa FANTOM v4.2 [24,25]. Lasenergas son calculadas usando la funcin de potencialECEPP/2 [23] el cual es una funcin de los ngulos de tor-sin. FANTOM trabaja con base en a coordenadas carte-sianas, que son calculadas a partir de una matriz Z donde laslongitudes y los ngulos de unin permanecen constantesdurante toda la simulacin. Los ngulos de torsin , , y de los pptidos son generados de acuerdo con las reglas denuestro algoritmo gentico, donde el ngulo w se mantuvoconstante a 180 excepto cuando el cromosoma se someti auna minimizacin local.

    Las subrutina que contiene el desempeo de nuestro algo-ritmo fue escrito de manera separada del programa principalFANTOM, y fue incorporada posteriormente como otro de suscomandos. El diagrama de flujo se muestra en la Fig. 1.

    Los parmetros de control para nuestro algoritmo genti-co fueron: el tamao de la poblacin (Npob), el nmero de ge-

    neraciones (Ngen), la tasa de apareamiento (pc), la tasa demutacin (pm), el nmero de mutaciones puntuales (m), laoptimizacin de la prole (oo), la optimizacin de los mutantes(mo), el control de los gemelos (t), el nmero de genes en elcromosoma (Ngenes), el nmero de ciclos en los pasos de mini-mizacin (Ncyc), y los nmeros de Nbuenos y Nmalos miembrosde la poblacin.

    Todos los clculos se realizaron en una PC con un proce-sador dual Pentium III a 550 MHz bajo el sistema operativoLinux Red Hat v6.2. Los algoritmos fueron escritos en FOR-TRAN ya que el programa FANTOM estaba escrito en estelenguaje. El programa fue compilado como un ejecutable dedoble decisin a 32 bits.

    Las molculas prueba

    El pequeo neuropptido de la Met-encefalina (YGGFM) es unamolcula comnmente usada como prueba en la evaluacin devarios programas de prediccin de estructura y de tcnicas debsqueda conformacional (vase la referencia 16 para unarevisin). Dado que la mayora de los trabajos reportados hanusado la funcin de potencial emprica conocida como ECEPP /

    Fig. 1. Diagrama de flujo del algoritmo gentico hbrido.

    PSEUDO CDIGO PARA EL ALGORITMO GENTICO HYBRIDO

    Entrada ga.seq (datos del pptido),ga.inp (parmetros del AGH)

    Paso 1 Inicializar(A) Poner el contador de las iteraciones a k = 1(B) Establecer el espacio conformacional

    para cada ngulo dentro de intervalos fijosPaso 2 Correr N veces el AGH con una poblacin

    inicial azarosa de tamao Npopdentro de estos intervalos(A) Aplicar el operador de mejora(B) Con una probabilidad pc escogera los cnyuges para producir tanta prolecomo individuos Nmalos(C) Con una probabilidad pm mutara la poblacin(D) Sustitucin y remocin de gemelos(E) Nbuenos individuos ms la proleconstituyen la nueva poblacin(F) Si el nmero de generaciones no se satisface vaya al paso 2(A) si el operador de mejora est activo, en caso contrario vaya al paso 2(B)

    Paso 3 Obtencin de las memorias conformacionales(A) Al final de la iteracin k realizar la reduccin

    del espacio conformacional empleando los resultados de las N corridas del AGH

    Paso 4 k = k + 1Paso 5 Si la condicin de trmino no se satisface,

    vaya al Paso 1(B)Salida ga.out (poblacin final), ga.ang

    (informacin de los ngulos diedros),ga.pdb (estructuras en formato PDB)

  • 2, y que reportan la misma estructura tridimensional para el con-formero correspondiente a la energa ms baja, esto sugierefuertemente que esta estructura pertenece al MEG cuando se usaeste campo de fuerza. Ninguna otra conformacin de la Met-encefalina ha sido reportada con una energa potencial ms baja.

    La Met-encefalina tiene un anlogo de mayor dificultadcomputacional, la Leu-encefalina (YGGFL) y por esta razntambin incluimos a este neuropptido en este estudio, ya querepresenta un desafo interesante para probar la fuerza predic-tiva de nuestro algoritmo.

    Cedazo sin mejoramiento en las molculas prueba

    Primer cedazo. Esta fase consisti en llevar a cabo 50 corri-das independientes del AGH con poblaciones iniciales gene-radas al azar para estas molculas. La bsqueda conforma-cional para todos los genes se realiz en el espacio de ngulos

    diedros definido por el conjunto de los nmeros reales dentrode una distribucin lineal uniforme en el intervalo (180.0, +180.0]. Las estructuras de la Met- y la Leu-encefalina sedefinieron con Ngenes = 24, y los parmetros empleados para elAGH fueron Npob = 20, Ngen = 20, pc = 0.6 para el algoritmode cruzamiento heurstico uniforme, y pm = 0.2 usando elalgoritmo de una distribucin gaussiana para la mutacin.

    Al final del primer cedazo se coleccion el mejor indivi-duo encontrado en cada uno de los 50 experimentos. A partirde este conjunto se construy un histograma de energa contrala distribucin angular para cada uno de los 24 ngulos de tor-sin. Cada uno de estos histogramas fue tratado como sedescribi arriba para obtener las memorias conformacionalescorrespondientes. A los conjuntos de ngulos diedros forma-dos por cada individuo en la poblacin final los hemos llama-do memorias conformacionales crudas.

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidos 13

    Fig. 2. Histogramas representativos de los cuatro cedazos realizados en la fase preliminar del AGH para encontrar la estructura del MGE de laMet-encefalina. Cada uno de los cedazos estn numerados como 1s, 2s, 3s y 4s. La flecha en negrita seala el valor que adopta cada ngulo en laestructura del MGE. El proceso de mejoramiento hacia la obtencin del MGE es evidente. Al final del cuarto cedazo se observ que el cmulodonde se encontr el individuo con ms baja energa corresponde a la regin indicada por la flecha en el primer cedazo.

    Met-encefalina

  • Cedazos posteriores. El segundo cedazo consisti en llevar acabo 50 corridas independientes del AGH donde la bsquedase llev a cabo en el espacio conformacional reducidodefinido por las memorias conformacionales de los ngulosdiedros del cedazo anterior. Al final de este proceso se realiznuevamente una reduccin del espacio conformacional demanera similar al cedazo nmero uno. Este proceso se repitiuna tercera y una cuarta vez.

    Cedazo con mejoramiento en las molculas prueba

    Primer cedazo. Esta fase consisti en llevar a cabo 10 corridasindependientes del AGH con poblaciones iniciales generadas alazar para cada una de las molculas estudiadas. La bsquedaconformacional para todos los genes se realiz en el espacio dengulos diedros definido por el conjunto de nmeros reales den-

    tro de una distribucin lineal uniforme en el intervalo (180.0,+ 180]. Los parmetros empleados para el AGH fueron Npob =20, Ngen = 30, pc = 0.6 para el algoritmo de cruzamiento heurs-tico uniforme, y pm = 0.2 usando el algoritmo de una distribu-cin gaussiana para la mutacin. De la poblacin final en cadacorrida se seleccion aquellos individuos con energa por deba-jo o igual a 0.0 kcal / mole para construir los histogramas decada gen, tal como se describi anteriormente. A los conjuntosde ngulos diedros que aparecen en cada uno de los histogra-mas los hemos llamado memorias conformacionales puras.

    Segundo cedazo. En esta parte del experimento se realizaron10 corridas independientes del AGH, donde cada una de laspoblaciones iniciales fueron generadas de manera azarosadentro de los lmites obtenidos para las memorias conforma-cionales del primer cedazo. Los parmetros empleados para el

    14 Rev. Soc. Qum. Mx. Vol. 47, Nm. 1 (2003) Ramn Garduo Jurez y Luis B. Morales

    Fig. 3. Histogramas representativos de los cuatro cedazos realizados en la fase preliminar del AGH para encontrar la estructura del MGE de laLeu-encefalina. Cada uno de los cedazos estn numerados como 1s, 2s, 3s y 4s. Las flechas en negrita sealan el valor que adopta cada nguloen las dos estructuras reportadas como el MGE de este pptido. El proceso de mejoramiento hacia la obtencin del MGE es evidente. Al finaldel cuarto cedazo se observ que los cmulos donde se encontraron los individuos con ms baja energa corresponden a las regiones indicadaspor las flechas en el primer cedazo.

    Leu-encefalina

  • AGH fueron Npop = 20, Ngen = 30, pc = 0.6 usando el algorit-mo de cruzamiento en un solo punto, y pm = 0.2 usando elalgoritmo de una distribucin lineal. En la mayora de loscasos la poblacin total final de este cedazo proporcion un25 % de individuos con una conformacin cercana al MGEconocido para las molculas prueba. Es claro que un tercercedazo no fue necesario para detectar el MGE.

    Resultados

    Cedazos sin mejoramiento

    Al final del primer cedazo coleccionamos los datos estruc-turales del mejor individuo encontrado en cada uno de los 50experimentos propuestos. Para cada uno de los 24 ngulos detorsin se construy un histograma de energa contra su dis-tribucin angular (Figs. 2 y 3). En la mayora de los casos estas

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidos 15

    Primer Paso Segundo Paso Primer Paso Segundo PasoPrimer Paso Segundo Paso Primer Paso Segundo Paso

    Fig. 4. Histogramas representativos para el AGH donde los N individuos de la Met-encefalina fueron sometidos al operador de mejoramiento.La flecha en negrita indica el valor que adopta cada ngulo en la estructura del MGE para este pptido. En las graficas sealadas como primercedazo se observa una mejor definicin de las memorias conformacionales debido al proceso mejoramiento, y por lo tanto en las graficas sea-ladas como segundo cedazo se observa que los cmulos de ngulo diedro son mucho ms delgados y que definen con claridad la posicin delMGE.

  • grficas fueron fciles de interpretar en trminos de las memo-rias conformacionales, ya que los intervalos para estructuras debaja energa formaron conjuntos bien definidos de ngulosdiedros. Sin embargo, hubo otras grficas donde los intervalosfueron difusos y difciles de agrupar en un conjunto dado. Elgrupo completo de estos histogramas se puede encontrar enhttp:// www.fis.unam.mx/CCF/areas_invest /acad/ academicos/ramong.html. Cada vez que se inicia un nuevo experimentosobre la misma molcula, los conjuntos de ngulo diedro que se

    obtienen son semejantes entre s, y dado que estos conjuntos dengulos se comportan de manera similar a las memorias confor-macionales propuestas por Guarnieri et al. [28, 29], hemosdecidimos adoptar el mismo nombre para estos conjuntos.

    Al final del segundo cedazo, donde la bsqueda del AGHse llev a cabo en el espacio reducido de ngulos diedrodefinido por las memorias conformacionales del cedazo ante-rior, tambin se coleccionaron los datos estructurales delmejor individuo encontrado en cada una de las 50 corridas

    16 Rev. Soc. Qum. Mx. Vol. 47, Nm. 1 (2003) Ramn Garduo Jurez y Luis B. Morales

    Primer Paso Primer PasoSegundo Paso Segundo PasoPrimer Paso Primer PasoSegundo Paso Segundo Paso

    Fig. 5. Histogramas representativos para el AGH donde los N individuos de la Leu-encefalina fueron sometidos al operador de mejoramiento.Las flechas en negrita indican el valor que adopta cada ngulo en las dos estructuras reportadas como el MGE para este pptido. La letra S espara el MGE reportado por el grupo de Scheraga y la letra F es para el MGE reportado por el grupo de Floudas. Debido al proceso de mejo-ramiento en las graficas sealadas como segundo cedazo se observa que los cmulos de ngulo diedro son mucho ms delgados y que definencon claridad las dos posicines del MGE.

  • independientes y se construyeron histogramas de energa con-tra distribucin angular para cada uno de los 24 ngulos detorsin. De estos histogramas se asignaron nuevas memoriasconformacionales para un tercer cedazo. Al final del tercercedazo se repiti el proceso para obtener nuevas memoriasconformacionales para realizar un cuarto cedazo.

    La Fig. 2 contiene una serie de histogramas representa-tivos para la bsqueda conformacional de la Met-encefalina.Como ejemplo seguiremos el comportamiento del ngulo del residuo Tyr1 durante cuatro cedazos. Cada una de las grfi-cas est marcada de manera progresiva del cedazo uno alcedazo cuatro (1s al 4s). La primera grfica muestra tres con-juntos, uno alrededor de 180, otro alrededor de 90, y unconjunto de pocos elementos alrededor de +80. La flecha ennegrita indica el valor que este ngulo toma en la estructura deMGE para este pptido [30]. Se puede observar que estos con-juntos se fueron definiendo conforme avanz el nmero decedazos. La figura que corresponde al cedazo nmero 4 mues-tra un solo conjunto de ngulos diedros en la regin que seindic en la flecha del primer histograma. Este conjuntomuestra una distribucin de puntos sobre un intervalo muyamplio de energa conformacional que es debido a la variabili-dad gentica desarrollada por el algoritmo.

    La Fig. 3 contiene una serie de histogramas representativospara la bsqueda conformacional de la Leu-encefalina. Comoejemplo seguiremos el comportamiento del ngulo y delresiduo Phe4 durante cuatro cedazos. La primera grfica mues-tra tres conjuntos, uno alrededor de 40, un conjunto de pocoselementos alrededor de +50, y un conjunto alrededor de +160.Las flechas en negrita muestran los valores reportados para dosestructuras consideradas como el MGE para est pptido. Laflecha marcada con una S indica el valor reportado por el grupode H. Scheraga [31], y la flecha marcada con una F indica elvalor reportado por el grupo de C. Floudas [32, 33]. En estaocasin se puede observar que a pesar de haber rasurado el con-

    tenido de estos cmulos para formar las memorias conforma-cionales correspondientes, las dos regiones marcadas aunquedifusas siempre estuvieron altamente pobladas y en ocasionesse fueron definiendo conforme avanz el nmero de cedazos.La figura que corresponde al cedazo nmero 4 muestra sola-mente dos cmulos de ngulos diedro y que corresponden a lasregiones marcadas por las flechas del primer histograma.

    En resumen, la serie de cuatro cedazos a los que se some-tieron las estructuras para la Met- y para la Leu-encefalinanecesitaron aproximadamente de 1 106 evaluaciones de lafuncin de aptitud para completar el primer cedazo, y de 7.5 105 evaluaciones para completar cada uno de los cedazosrestantes. Hasta este punto, este proceso no es mejor que eldescrito por Jin et al. [14], ya que el nmero total de evalua-ciones est ms all de cualquier expectativa razonable paraser de utilidad prctica en la prediccin de estructura terciariade protenas.

    Cedazos con mejoramiento

    Primer cedazo. Al final de cada una de las 10 corridas inde-pendientes se seleccionaron aquellos individuos con energaconformacional por debajo o igual a 0.0 kcal / mole. Con losdatos estructurales de estos individuos se construyeron 20 his-togramas, uno para cada gen, tal como se describi en la sec-cin anterior. Para cada uno de estos histogramas se asignaronlas memorias conformacionales correspondientes. Ejemplosde stas se ilustran en la Fig. 4 para la Met-encefalina y en laFig. 5 para la Leu-encefalina. La Fig. 4 contiene ocho his-togramas representativos de los cinco residuos de aminocidopresentes en la Met-encefalina, la primera y tercera columnascorresponden a los resultados obtenidos despus del primercedazo. En cada uno de stos se presentan las memorias con-formacionales sin depurar. La flecha en negrita indica el valorde ngulo diedro observado [30] en el MGE para este pptido.

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidos 17

    Mtodo Nvara CPU Nm. de evaluaciones Computadora Mflopsc(hr) (105)b

    Monte Carlo[37a, 37b] 19 2-3 1.0 IBM 3090 7.524 10

    Recocido Simulado[5] 24 2.5 2.5 Apollo DN10000 5.8Threshold Accepting[6] 24 1.5 2.0 Apollo DN10000 5.8Monte Carlo con Minimizacin[30] 24 1.5-4 IBM 3090 7.5Algoritmo Multicanonico[38] 19 6 1.5 IBM RS/6000 320H 12Recocido del Espacio Conformacional[39] 24 0.75 1.7 SG Indigo 2 32Ecuacin de Difusin[40a, 40b] 19 0.33 IBM 3090 7.5Teora del Campo Medio[41] 10b 1.6 IBM 3090 7.5BB[32] 24 1.3 3.9 HP/9000 730 24Bsqueda Tabu[7] 24 0.07 1.7 SG Origin 2000 114Este trabajo 20 0.014 0.30 Pentium III, 550MHz 80

    a Los mtodos mencionados emplearon este nmero de variables en la bsqueda del mnimo global aparente.b Este es el nmero promedio de evaluaciones basado en 100 corridas.c Jack Dongarra, http://performance.netlib.org/performance/html/linpack.data.col0.html.

    Tabla 3. Tiempos de CPU y nmero de evaluaciones de la funcin objetivo reportados por varios mtodos de bsqueda del mnimo global parala Met-encefalina.

  • Es notorio que existe un cmulo de ngulos diedros biendefinido en la regin marcada con la flecha. La Fig. 5 contieneocho histogramas representativos de los cinco residuos deaminocido presentes en la Leu-encefalina, la primera y ter-cera columnas corresponden a los resultados obtenidos des-pus del primer cedazo. En estos histogramas se presentan dosflechas en negrita, una marcada con una S y la otra marcadacon una F. La S indica el valor de ngulo diedro observadopara el MGE reportado por el grupo de H. Scheraga [31], y laF indica el valor de ngulo diedro observado para el MGEreportado por el grupo de C. Floudas [32, 33]. Es notorio quepara cada regin marcada por las flechas existe un cmulo dengulos diedro bien definido.

    Cada uno de los histogramas anteriores fue sometido alproceso de depuracin descrito en la seccin de mtodos, y suresultado fue empleado como el espacio conformacionalrestringido para la ejecucin del segundo cedazo. El nmeropromedio de evaluaciones de la funcin de aptitud durante elprimer cedazo fue de 20,000, las cuales incluyen las evalua-ciones requeridas por el operador de mejoramiento.

    Segundo cedazo. En esta parte del experimento las pobla-ciones iniciales fueron generadas de manera azarosa dentro delos lmites obtenidos para las memorias conformacionales delprimer cedazo, y se realizaron 10 corridas independientes delAGH para cada uno de los pptidos prueba. Al final de cadaexperimento se seleccionaron aquellos individuos con energamenor o igual a 0.0 kcal / mole. Con estos datos estructuralesse construyeron los histogramas correspondientes, y de stosse asignaron las memorias conformacionales para cada uno delos genes. Ejemplos de estas se muestran en la segunda ycuarta columnas de la Fig. 4 para la Met-encefalina y en laFig. 5 para la Leu-encefalina.

    De los 200 individuos de la poblacin final para la Met-encefalina 25 % de stos tuvieron una energa por debajo de0.0 kcal / mole, entre los cuales alrededor de doce individuospresentaron la estructura del MGE conocido para estasmolcula, vase Fig. 6. Cada vez que repetimos este procesosiempre encontramos una conformacin nica en el mnimode energa ms bajo. Esta conformacin corresponde a laestructura sugerida [30] para el MGE de este pptido bajo elcampo de fuerza ECEPP / 2 con una energa de 12.938 kcal /mole. Otras conformaciones similares a aquella del MGEaparecen con un DEs entre 0.5 a 2.0 kcal / mole arriba delMGE. Todas estas estructuras exhiben una vuelta de horquilla tipo II' centrada en la unin peptdica entre Gly3 y Phe4 (Fig.7A). Conformaciones significativamente diferentes siempre seencuentran a un valor ms alto de energa potencial. La segun-da y cuarta columnas de la Fig. 4 claramente muestran que elmnimo de energa ms baja que se obtuvo con nuestro AGHcorresponde a las regiones marcadas con la flecha en negritadel primer cedazo. Dadas estas condiciones, para nuestrospropsitos realizar un tercer cedazo no fue necesario. El n-mero promedio de evaluaciones de la funcin objetivo fue de10,000 las cuales tambin incluyen las evaluaciones requeri-das por el operador de mejoramiento.

    18 Rev. Soc. Qum. Mx. Vol. 47, Nm. 1 (2003) Ramn Garduo Jurez y Luis B. Morales

    H2N CH C

    CH2

    HN

    O

    OH

    CH C

    H

    HN

    O

    CH C

    H

    HN

    O

    CH C

    CH2

    HN

    O

    CH C

    CH2

    OH

    O

    CH2

    S

    CH3

    -12 -11 -10 -9 -80

    5

    10

    15

    20

    25

    -10.

    959

    -8.9

    525

    -9.5

    775-10.

    661

    -11.

    309

    -12.

    938

    Freq

    uenc

    y

    Energy (Kcal/mole)

    24 ngulos torsionales

    Esquema de laMet-encefalina

    mnimo global

    Fig. 6. Histograma de la distribucin de energa en la poblacin finalde una corrida tpica de nuestro AGH, donde aproximadamente 25 %de la poblacin adopta la estructura del MGE para la Met-encefalina.En promedio cada corrida necesit de 15,000 evaluaciones de la fun-cin objetivo. El esbozo de la molcula de Met-encefalina muestralos 24 ngulos torsionales que definen al cromosoma a ser mejorado.

    B

    C

    A

    Met

    Leu-S

    Leu-F

    Fig. 7. A) Dibujo estereoscpico de la estructura correspondiente alMGE obtenida con nuestro AGH para la Met-encefalina. El valor deenerga ECEPP/2 es 12.938 kcal / mole. B) Dibujo estereoscpicode la estructura correspondiente al segundo mnimo de energa msbajo obtenido con nuestro AGH para la Leu-encefalina. Esta estruc-tura coincide con la reportada por Glasser y Scheraga [30] como elMGE. Su energa ECEPP / 2 es 9.8951 kcal / mole. C) Dibujo este-reoscpico de la estructura correspondiente al mnimo de energa msbajo obtenido con nuestro AGH para la Leu-encefalina. Esta estruc-tura coincide con la reportada por Androulakis et al. [31] como elMGE. Su energa ECEPP / 2 es de 10.03 kcal / mole. Todas las figu-ras fueron generadas con el Swiss PDB Viewer [36]. La vuelta dehorquilla tipo II est representada por una varilla gris.

  • Para la Leu-encefalina entre el conjunto de estructuras dems baja energa que se obtuvieron al final de nuestro algorit-mo, se encontraron dos conformeros estructuralmente dife-rentes, uno a 9.8951 y el otro a 10.03 kcal / mole (Figs. 7By 7C). Estas estructuras difieren con un DE de 0.135 kcal /mole y con un RMS de 3.24 para el mejor ajuste entre ellas.Ambas estructuras han sido reportadas previamente por otrosgrupos de investigacin como aquellas que corresponden alMGE. La estructura con 9.8951 kcal / mole fue reportada porGlasser y Scheraga [31] al usar el mtodo de la ecuacin dedifusin. La otra estructura fue reportada por Androulakis etal. [32] y por Klepeis and Floudas [33] quienes usaron elmtodo determinstico de Branch and Bound. En ambos traba-jos se report el uso del campo de fuerza ECCEP/2 como fun-cin objetivo, pero no se report la presencia de otro con-formero con energa similar pero estructuralmente diferente.La estructura reportada por Glasser y Scheraga posee unavuelta de horquilla tipo II centrada en la unin peptdicaentre Gly3 y Phe4, la cual es similar a la estructura del MGEpara la Met-encefalina (Fig. 7B). En contraste la estructura deKlepeis y Floudas la vuelta de horquilla tipo II est centra-da en la unin peptdica entre Gly2 y Gly3 (Fig. 7C). Lasegunda y cuarta columnas de la Fig. 5 claramente muestran

    que los mnimos de energa ms baja que se obtuvieron connuestro AGH corresponden a las regiones marcadas con laflecha en negrita del primer cedazo. Dadas estas condiciones,realizar un tercer cedazo no fue necesario para localizar elMGE de estas molculas.

    Mapas de Ramachandran

    La mayora de los grados de libertad de las protenas son muyrgidos, y la desviacin de su valor de equilibrio est limitadaa un intervalo muy corto. Un ejemplo es el ngulo , el cualsiempre est cercano a los 180 y tiene una importancia relati-va en la bsqueda conformacional. Dos excepciones son losngulos de torsin y , los que pueden variar con relativafacilidad. Estos ngulos proveen la flexibilidad necesaria en lamolcula de protena y le permiten plegarse sin mucho esfuer-zo. Por lo tanto, estos ngulos son las variables ms impor-tantes en la conformacin de una protena. Cualquier confor-macin local puede ser vista como un punto en el plano (, )o mapa de Ramachandran. Los mapas de Ramachandran hansido compilados para cada uno de los 20 aminocidos (grfi-cas para 403 entradas no homlogas al PDB, donde 30 % delas conformaciones ms lejanas han sido omitidas, pueden ser

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidos 19

    -180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    -180 -135 -90 -45 0 45 90 135 180

    M, LS

    LF

    Tyr

    -180 -135 -90 -45 0 45 90 135 180-180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    LF2

    M3

    LF3

    LS2

    M2

    LS3

    Gly

    -180 -135 -90 -45 0 45 90 135 180-180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    M

    LS

    LF Phe

    -180 -135 -90 -45 0 45 90 135 180-180

    -135

    -90

    -45

    0

    45

    90

    135

    180M

    MetLS, LFLeu

    -180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    -180 -135 -90 -45 0 45 90 135 180

    M, LS

    LF

    Tyr

    -180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    -180 -135 -90 -45 0 45 90 135 180

    M, LS

    LF

    Tyr

    -180 -135 -90 -45 0 45 90 135 180-180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    LF2

    M3

    LF3

    LS2

    M2

    LS3

    Gly

    -180 -135 -90 -45 0 45 90 135 180

    -180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    LF2

    M3

    LF3

    LS2

    M2

    LS3

    Gly

    -180 -135 -90 -45 0 45 90 135 180-180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    M

    LS

    LF Phe

    -180 -135 -90 -45 0 45 90 135 180

    -180

    -135

    -90

    -45

    0

    45

    90

    135

    180

    M

    LS

    LF Phe

    -180 -135 -90 -45 0 45 90 135 180-180

    -135

    -90

    -45

    0

    45

    90

    135

    180M

    MetLS, LFLeu

    -180 -135 -90 -45 0 45 90 135 180

    -180

    -135

    -90

    -45

    0

    45

    90

    135

    180M

    MetLS, LFLeu

    Fig. 8. Mapas de Ramachandran para los aminocidos que componen a la Met y a la Leu-encefalina. Cada mapa a la izquierda contiene a loscincuenta mejores conformeros al final de nuestro AGH. Estos mapas se comparan con los mapas experimentales correspondientes. Las flechassealan las coordenadas (, ) correspondientes a la estructura del MGE putativo para estos pptidos. Las etiquetas M, LS y LF indican el MGEde Met-encefalina, el MGE de Scheraga y el MGE de Floudas para Leu-encefalina, respectivamente. El mapa de Ramachandran para Gly con-tiene las (, ) coordenadas para los dos residuos de glicina (Gly2, Gly3) presentes en Met y Leu-encefalina, as los sufijos 2 y 3 hacen referen-cia a estos residuos. Los mapas a la derecha de cada grfica son los mapas de Ramachandran experimentales correspondientes (tomados con per-miso de la Ref. 34).

  • consultadas en http://alpha2.bmc.uu.se/gerard/supmat/rama-rev.html) y pueden ser usadas para valorar el desempeo denuestro AGH. Para este fin, empleando los datos estructuralesde 50 individuos con energa menor o igual a 0.0 kcal / molese construyeron los mapas de Ramachandran correspondientespara cada uno de los residuos constitutivos de la Met- y laLeu-encefalina, y comparamos stos con aquellos mapasreportados en la literatura.

    En la Fig. 8 presentamos dos tipos de mapas de Rama-chandran. Aquellos de la mano izquierda son los mapas deRamachandran para cada uno de los cinco residuos de la Met-y la Leu-encefalina al final del segundo cedazo. Cada puntorepresenta a uno de los 50 mejores conformeros y la flechaindica las coordenadas (, ) donde se encuentra la estructuradel MGE para estos pptidos, y estn marcados como M, LS yLF para la Met-encefalina, la Leu-encefalina de Glaser yScheraga, y la Leu-enkephalin de Klepeis y Floudas. El mapade Ramachandran para la Gly contiene de manera conjunta losresultados para los dos residuos de glicina presentes en ambosneuropptidos, por lo que he hemos aadido los sufijos 2 y 3para diferenciar las coordenadas (, ) correspondientes a lasGly2 y Gly3. Aquellas grficas de la mano derecha son las co-rrespondientes a los mapas de Ramachandran que resultan deun anlisis de 67 entradas no homlogas al PDB reportadaspor Kamimura and Takahashi [34].

    Los mapas de Ramachandran muestran que los puntosobtenidos a partir de los resultados computacionales se en-cuentran distribuidos dentro de las regiones conformacional-mente permitidas para cada uno de los aminocidos constitu-tivos de las molculas prueba, a pesar de que nuestro AGHfue aplicado a una poblacin relativamente pequea de con-formeros. Asmismo, se observa que las coordenadas (, )del MGE para estas molculas estn dentro de cmulos biendefinidos que son favorecidos por el uso de las memorias con-formacionales correspondientes.

    Discusin

    El objetivo de este estudio fue el de encarar la tarea de reducirla dificultad y el tiempo de cmputo para encontrar la estruc-tura del MGE para molculas de oligopptidos con 24 o msgrados de libertad torsional. Aunque nuestro laboratorio hasido capaz de encontrar estas estructuras al emplear otrosmtodos heursticos [4-7], nuestra principal preocupacin hasido reducir la enorme cantidad de evaluaciones de la funcinobjetivo que se han necesitado para encontrarlas. En losprimeros pasos del desarrollo de nuestro AGH pudimos obser-var que alrededor del 60 % del espacio conformacional noestaba poblado cuando la poblacin final se aproxim aregiones de baja energa. Ms an, los ngulos diedros per-manecieron exclusivamente en la conformacin trans durantetoda la bsqueda conformacional, por lo tanto decidimos dejara este ngulo diedro con un valor constante de 180 durantetodos los experimentos subsecuentes, excepto donde se aplica-ba el operador de mejoramiento. A travs de los histogramas

    de energa contra distribucin angular encontramos que laspoblacines finales forman cmulos en regiones especficasdel espacio conformacional, a las que hemos llamado memo-rias conformacionales. Estas memorias conformacionalesfueron usadas posteriormente para reducir en varios rdenesde magnitud el volumen del espacio conformacional que debaser muestreado en la segunda fase de este algoritmo. An as,el nmero de evaluaciones de la funcin objetivo resultaba serpoco prctico. Este nmero se redujo significativamente cuan-do incluimos el operador de mejoramiento en el desarrollo denuestro AGH.

    El hecho que dentro de la poblacin final para la Leu-encefalina nuestro algoritmo encontr los dos conformerosreportados como el MGE, es una prueba que nuestro proce-dimiento es capaz de encontrar individuos con energa seme-jante pero estructuralmente diferentes entre ellos. Esta cuali-dad es de mucha importancia ya que es sabido que el fondodel pozo de energa de los potenciales empricos para prote-nas es rugoso, y que por lo tanto permite la coexistencia demuchos conformeros. La pregunta principal es cules de estosconformeros tienen parmetros de estructura secundaria simi-lares, y cul de ellos corresponde al MGE. Para ayudar aresolver esta encrucijada nuestro grupo ha reportado [35] unapropuesta para detectar al verdadero MGE.

    Los mapas de Ramachandran resultaron ser una he-rramienta excelente para demostrar que nuestro AGH puedemuestrear de manera eficiente el espacio de ngulos diedros,ya que la poblacin final presenta una correspondencia exce-lente entre los datos predichos con los datos experimentales,an si el AG es corrido con una poblacin de pocos individu-os.

    La Tabla 3 compara la demanda en recursos de cmputopara otros mtodos que han sido aplicados al problema de ple-gar la Met-encefalina, esto es, que han considerado todos los 24ngulos diedros de esta molcula como variables y que ademshan usado tambin la funcin objetivo ECEPP/2. Esta claro quenuestro algoritmo representa una ventaja significativa sobre losmtodos ms populares al reducir en aproximadamente un 70 %el nmero de evaluaciones de la funcin objetivo.

    El AGH aqu reportado abre la posibilidad de predecir laestructura terciaria cercana al MGE para molculas muchoms grandes que simples pentapptidos. Estamos conscientesque una poblacin de Npob 30 podra no contener suficientesindividuos para asegurar que todas las posibles combinacionesentre las memorias conformacionales han sido muestreadas.El considerar molculas con ms de 24 ngulos diedros y pro-bar el efecto que una poblacin mayor a 30 individuos puedatener sobre el desempeo de nuestro algoritmo son accionespara investigacin futura.

    Agradecimientos

    Este trabajo fue parcialmente apoyado por los proyectos25245-E del CONACyT a R.G.J., IN109999 e IN107701 porparte del PAPIIT-DGSCA-UNAM a R.G.J. y a L.B.M.

    20 Rev. Soc. Qum. Mx. Vol. 47, Nm. 1 (2003) Ramn Garduo Jurez y Luis B. Morales

  • Referencias

    1. Anfisen, C.B. Science 1973, 181, 223-230.2. Hart, W. E.; Istrail, S. J. Comput. Biol., 1997, 4(1),1-22.3. Garduo-Jurez, R.; Morales, L. B.; Prez-Neri, F. J. Mol. Struct.

    (THEOCHEM), 1990, 208, 279-300.4. Garduo-Jurez, R.; Prez-Neri, F. J. Biomol. Struct. Dyn. 1991,

    8(4), 737-758.5. Morales, L. B.; Garduo-Jurez, R.; Romero, D. J. Biomol.

    Struct. Dyn., 1991, 8, 721-735.6. Morales, L. B.; Garduo-Jurez, R.; Romero, D. J. Biomol.

    Struct. Dyn., 1992, 9, 951-957.7. Morales, L. B.; Garduo-Jurez, R.; Aguilar-Alvarado, J. M.;

    Riveros-Castro, F. J. J. Comp. Chem., 2000, 21, 147-156.8. Judson, R. S.; Jaeger, E. P.; Treasurywala, A. M.; Peterson, M. L.

    J. Comp. Chem., 1993, 14, 1407-1414.9. Brodmeier, T.; Pretsch, E. J. Comp. Chem., 1994, 15(6), 588-595.

    10. Lucasius, C. B.; Blomerss, M. J. J.; Werten, S.; van Aeert, A. H.J. M.; Kateman, G. In Proceedings of the First Workshop onParallel Problem Solving from Nature, (H. P. Schwefel & R.Mnner, Editors), Soringer, Berlin, 1991, pp. 90-97.

    11. Forrest, S. Science, 1993, 261, 872-878.12. Schulze-Kremer, S. In Proccedings of the Second Workshop on

    Parallel Problem Solving from Nature, (B. Mnner & B. Mande-rick, Editors), Elsevier, Amsterdam, 1992, pp. 391-400.

    13. Jin, A. Y.; Leung, F. Y.; Weaver, D. F. J. Comp. Chem., 1997,18, 1971-1984.

    14. Jin, A. Y.; Leung, F. Y.; Weaver, D. F. J. Comp. Chem., 1999,20, 1329-1342.

    15. Le Grand, S. M.; Merz, K. M. J. Global Opt. 1993, 3, 49-66.16. Reinhold, E. M.; Niebergelt, J.; Deo, N. Combinatorial Algo-

    rithms: Theory and Practice, Prentice Hall, New Jersey, 1977.17. Carlacci, L. J. Comp. Aid. Mol. Des., 1998, 12,195-213.18. Nishimura, L.; Naito, A.; Tuzi, S.; Saito, H.; Hashimoto, C.;

    Aida, M. J. Phys. Chem. B, 1998, 102, 7476-7483.19. Holland, J. H. Adaptation in Natural and Artificial Systems, Ann-

    Arbor, University of Michigan Press, 1975.20. Unger, R.; Moult, J. J. Mol. Biol., 1993, 231, 75-81.21. Bck, T. Self Adaptation in Genetic Algorithms, In Procee-

    dings of the First European Conference on Artificial Life, Paris,France, MIT Press, Cambridge, MA, 1991.

    22. Goldberg, D. E. Genetic Algorithms in Search, Optimization andMachine Learning, Addison-Wesley Pub. Co., Inc., 1989.

    23. Nmethy, G.; Pottle, M. S.; Scheraga, H. A. J. Phys. Chem.,1983, 87, 1883-1887.

    24. Schaumann, T.; Braun, W.; Wthrich, K. Biopolymers, 1990, 29,679-694.

    25. Soman, K.; Franczkiewicz, R.; Mumenthaler, C.; von Freyberg,B.; Schaumann, T.; Braun, W. (1998), FANTOM v4.2, Univer-sity of Texas Medical Branch, Galveston, Texas, U.S.A. and Ins-titut fr Molekularbiologie und Biophysik, Eidgenossische Tech-nische Hochschule, Zrich, Switzerland.

    26. Haupt, R.L.; Haupt, S.E. Practical Genetic Algorithms, WileyInterscience, 1998.

    27. Michalewicz, Z. Genetic Algorithms + Data Structures = Evolu-tion Programs. Artificial Intelligence, Springer Verlag, NewYork, 1992..

    28. Guarnieri, F.; Wilson, S. R. J. Comp. Chem., 1995, 16, 648-643.29. Guarnieri, F.; Weinstein, H. J. Am. Chem. Soc., 1996, 118, 5580-

    5589.30. Nayeem, A.; Vila, J.; Scheraga, H. A. J. Comp. Chem., 1991, 12,

    594-605.31. Glasser, L.; Scheraga, H. A. J. Mol. Biol., 1988, 199, 513-524.32. Adroulakis, I. P.; Maranas, C. D.; Floudas, C. A. J. Global Opt.,

    1997, 11, 1-34.33. Klepeis, J. L.; Floudas, C.A. J. Comp. Chem., 1999, 20, 636-654.34. Kamimura, M.; Takahashi, Y. CABIOS, 1994, 10, 163-169.35. Garduo-Jurez, R.; Morales, L. B.; Flores-Prez, P. J. Mol.

    Struct. (Theochem), 2001, 543, 277-284.36. Guex, N.; Peitsch, M.C. Electrophoresis, 1997, 18, 2714-2723 37. (a) Li, Z.; Scheraga, H. A. Proc. Natl. Acad. Sci. USA, 1987, 84,

    6611-6615; (b) Li, Z.; Scheraga, H. A. J. Mol. Struct.(Theochem), 1988, 179, 333-338.

    38. Hansmann, U. H.; Okamoto, Y. J. Comp. Chem., 1993, 14, 1333-1340.

    39. Lee, J.; Scheraga, H. A.; Rackovsky, S. J. Comp. Chem., 1997,18, 1222-1232.

    40. (a) Kostrowicki, J.; Piela, L.;, Cherayil, B. J.; Scheraga, H. A. J.Phys. Chem., 1991, 95, 4113-4119; (b) Kostrowicki, J.; Scheraga,H. A. J. Phys. Chem., 1992, 96, 7442-7447.

    41. Olszewski, K. A.; Piela, L.; Scheraga, H. A. J. Phys. Chem.,1992, 96, 4672-4680.

    Memorias conformacionales en la prediccin de estructura terciaria de polipptidos 21