informe final bioinformatica alineación de secuencias

Estudio de ADN, ARN y proteínas con Matlab y

herramientas WEB de base de datos sobre dos especies

de aves F. Nicolas Diaz S, Estudiante (20131273034), Sebastian Vargas V, Estudiante (20131273012).

Universidad Distrital Francisco José de Caldas (Facultad Tecnológica);

Ingeniería en Telecomunicaciones – Bioinformática

Bogotá, Colombia; Diciembre de 2014

Abstract-In this paper the study of DNA and RNA sequences

with MATLAB of the two species of birds, Accipitridae or

common eagle and Sitta carolinensis or climbing pechiblanco

done. Additionally the alignment of DNA sequences in FASTA

format is done using the Needleman-Wunsch algorithm and web

EMBOST tool. Query protein sequence of each species were also

performed and compared to determine which subfamily and if

they belong to the same family knew. Are obtained as a

conclusion that the similarity of the DNA and RNA sequences,

and the nucleotide codons; the dominant proteins of each

species The similarity between subfamilies And finally concludes

that the two species belong to the same superfamily 3.90.1100.10

3.90.1110.10 direct DNA and RNA Polymerase like domain

Key-DNA, RNA, nucleotides, codons, amino acids. Words

Protein subfamilies, super family.

Resumen—En este documento se hace el estudio de secuencias

de ADN y ARN con MATLAB de las dos especies de aves,

Accipitridae o aguila común y el Sitta carolinensis o trepador

pechiblanco. Adicionalmente se hace la alineación de

secuencias de ADN en formato FASTA utilizando los

algoritmo Needleman-Wunsch y la herramienta web

EMBOST. También se realiza la consulta de la secuencia de

proteínas de cada una de las especies y se compara para

determinar a qué subfamilia pertenecen y si son de la misma

supe familia. Se obtienen como conclusión que la similitud de

las secuencias de AND y ARN, los nucleótidos y codones; las

proteinas dominante de cada especie La similitud entre

subfamilias Y finalmente se concluye que las dos especies

pertenecen a la misma super familia 3.90.1100.10 y

3.90.1110.10 con ADN directo de ARN con Polimerasa como

dominio

Palabras clave—ADN, ARN, nucleótidos, codones,

aminoácidos. Proteínas, subfamilias, super familia.

I. INTRODUCCIÓN

Se trabaja con dos aves, la paloma y el águila; cuyos

códigos genéticos ADN han sido descargados por del

software Matlab por medio de la NCBI (National Center for

Biotechnology Information), en forma de base de datos, esta

información viene en forma de secuencia de caracteres

A,T,C,G la cual es procesada en Matlab para determinar la

densidad de nucleótidos, observar la composición del

genoma mitocondrial, hacer la traducción a ARN, ver los

codones y comparar los resultados entre las dos especies.

II. MARCO TEÓRICO

LOS ÁCIDOS NUCLEICOS

Los ácidos nucleicos (ADN y ARN), son

macromoléculas con un número predeterminado de varios

monómeros diferentes en un arreglo ordenado en forma

lineal. Los ácidos nucleicos portan la información genética

que determina la estructura primaria de las proteínas y los

fenotipos especie-específicos.

Cada nucleótido se compone de una base nitrógenada

(purina o pirimidina), un azúcar (D-ribosa o 2-deoxi-Ribosa)

y un ácido Fosfórico. (Figura 1).

Figura 1. Base nitrogenada, un azúcar y un ácido fosfórico.

Cada ácido nucleico contiene un sólo tipo de azúcar, no

ambos. El ADN representa el material genético de las

células y es constituido por nucleótidos conocidos como

deoxiribótidos que contienen 2-deoxi-D-Ribosa.

Los nucleótidos del ADN son Citosina (C), Timina (T),

Guanina (G) y Adenina (A); y los del ARN son Citosina

(C), Uracilo (U), Guanina (G) y Adenina (A).

MARCO ABIERTO DE LECTURA

Es una secuencia de información genética que contiene

datos que pueden ser utilizados para codificar aminoácidos;

Los marcos de lectura se encuentran en el ADN y ARN. En

el caso de ADN, el ADN contiene conjuntos de nucleótidos

conocida como tripletes o codones. Cada codón puede ser

transcrito por el ARN en otro triplete.

El marco de lectura es la sección de ADN o ARN que

contiene instrucciones para hacer una proteína completa. En

el ADN, hay seis marcos de lectura posibles, ya que el

inicio de un marco de lectura depende de donde uno

empieza a leer, y el ADN es de doble cadena. Con el ARN,

existen tres posibles marcos de lectura. Una sección de

lectura comienza con un codón de inicio (AUG) y uno de

parada (UAA, UAG o UGA).

Un marco abierto de lectura puede contener un gen completo,

o los genes que se solapan; el código genético no siempre es

tan ordenada como uno podría imaginar. De hecho, el código

genético contiene mucho de lo que se conoce como el ADN

no codificante, es decir, que el ADN no parece cumplir una

función en términos de la expresión génica. No codificante del

ADN puede contener información interesante acerca de la

herencia genética de una especie, y puede utilizarse para otras

funciones.

Existen 6 sentidos en los que se puede aparecer un marco de

lectura: +1, +2, +3, -1, -2, -3.

Si una secuencia se empieza a leer desde el 1er carácter,

entonces el marco de lectura es +1; si se empieza desde la 2da,

entonces el marco de lectura es +2; Y si se comienza desde la

3era, entonces el marco de lectura es +3.

Para la secuencia complementaria, si se empieza a leer desde

el 1er carácter, entonces el marco de lectura es -1; si se

empieza desde la 2da, entonces el marco de lectura es -2; Y si

se comienza desde la 3era, entonces el marco de lectura es -3.

Figura 2. Marco de Lectura.

Para complementar se puede concluir que el Marco abierto

de lectura es una porción de una molécula de ADN que cuando

se traduce a los aminoácidos, no contiene codones de

terminación. El código genético lee secuencias de ADN en

grupos de tres pares de bases, esto significa que, en una

molécula de ADN de doble hebra, hay 6 posibles sentidos en

los que pueden abrirse marcos de lectura --tres en dirección

hacia adelante y tres en reverso. Un marco abierto de lectura

larga es probable que sea parte de un gen.

ALINEACION DE SECUENCIAS.

Un alineamiento de secuencias en bioinformática es una forma

de representar y comparar dos o más secuencias o cadenas

de ADN, ARN, o estructuras primarias proteicas para resaltar

sus zonas de similitud, que podrían indicar relaciones

funcionales o evolutivas entre los genes o proteínas

consultados. Las secuencias alineadas se escriben con las

letras (representando aminoácidos o nucleótidos) en filas de

una matriz en las que, si es necesario, se insertan espacios para

que las zonas con idéntica o similar estructura se alineen.

Las secuencias de ADN y proteína marcan la función de las

proteínas en los seres vivos.

Cuando más similares sean dos secuencias más similares

tenderán a ser las funciones de las proteínas codificadas por

ellas.

Las secuencias de un mismo gen en un conjunto de especies

serán más distintas cuando más alejadas filogenéticamente

estén las especies comparadas.

Normalmente dos secuencias tienen una alta similitud porque

son homólogas, es decir comparten un ancestro común.

A diferencia de la similitud, la homología no es un término

cuantitativo, dos secuencias o son homólogas, derivan del

mismo ancestro, o no lo son.

A partir de la similitud de las secuencias inferimos la

homología.

La acumulación de mutaciones en el ADN a lo largo del

tiempo es la causa de que las secuencias de un mismo gen en

dos especies distintas no sean idénticas.

Cuanto más tiempo pase desde el último antecesor común más

diferente serán las secuencias., un ejemplo de ello está

representada. (Figura 1)

Figura 1.

Los nucleótidos del ADN son Citosina (C), Timina (T),

Guanina (G) y Adenina (A); y los del ARN son Citosina (C),

Uracilo (U), Guanina (G) y Adenina (A).

Los alineamientos sirven, entre otras cosas para:

Asegurarse de que dos secuencias son similares y

cuantificar su similitud.

Encontrar dominios funcionales.

Comparar un gen y su producto.

Buscar posiciones homólogas en las secuencias.

http://es.wikipedia.org/wiki/Bioinform%C3%A1tica

http://es.wikipedia.org/wiki/ADN

http://es.wikipedia.org/wiki/ARN

http://es.wikipedia.org/wiki/Estructura_primaria

http://es.wikipedia.org/wiki/Prote%C3%ADna

http://es.wikipedia.org/wiki/Evoluci%C3%B3n

http://es.wikipedia.org/wiki/Amino%C3%A1cido

http://es.wikipedia.org/wiki/Nucle%C3%B3tido

http://es.wikipedia.org/wiki/Matriz_(matem%C3%A1tica)

III. ESTUDIO DE SECUENCIA DE AND Y ARN

Se carga la base de datos de las especies en la página de la

NCBI, se hallan las gráficas de densidad de nucleótidos a lo

largo de la secuencia, ver el número de nucleótidos en la

secuencia, se traduce la secuencia ADN a ARN para lograr la secuencia de aminoácidos de la proteína correspondiente.

Se inicia el proceso con el Aguila utilizando Matlab para

bajar y acceder a la base de datos del ADN, se genera la gráfica

de densidad de nucleotidos, se convierte de ADN a ARN, se

muestra la distribución de las bases y los aminoacidos presentes.

Las secuencias de ADN obtenida a través de Matlab son

demasiado extensas y se muestra en el Anexo 1 para el águila y en el Anexo 2 para el trepador pechiblanco.

Figura 3. Imagen de un Águila.

Figura 3. Trepador pechiblanco.

Codigo en MATLAB utilizado para obtención de densidad

de nucleótidos de cada especie:

%ADN AGUILA clc

clear Aguila = getgenbank('NC_024087','SequenceOnly',true)

%Leer Secuencia

ntdensity(Aguila)

%La densidad de Nucleotidos dentro de la secuencia de ADN

basecount(Aguila)

%Informacion de los nucleotidos en la secuencia

basecount(seqrcomplement(Aguila))

%inverso de la funcion anterior

figure

dimercount(Aguila,'chart','bar')%Nucleotidos Adyacentes %Se convierte de ADN-ARN

ARN_Aguila = dna2rna(Aguila)

%Convierte el valor de ADN-ARN

amino = nt2aa(Aguila)

%Toma la secuencia y lo convierte a aminoacidos aminoacidos = aacount(amino)

%Cuenta la cantidad de aminoacidos de la secuencia figure

basecount(Aguila,'chart','pie')

%Distribucion de las Bases

codoncount(Aguila)

Figura 4. Densidad de nucleótidos del águila.

Figura 5. Densidad de nucleótidos del trepador pechiblanco.

Se resalta que la densidad de los nucleótidos varía bastante

entre las dos especies; Pero al observar la densidad de AT y

CG se observa una simetría similar en las dos aves, se puede

deducir que tienen de codificaciones de ADN similares, y entonces pueden pertenecer a la misma familia.

AMINOACIDOS

Se hace la traducción de ADN a ARN y se obtienen los

aminoácidos. A demás hace el conteo de esos aminoácidos, estos se deben interpretar con la tabla 1.

AGUILA

A: 208; R: 293; N: 330; D: 107; C: 91;

Q: 239; E: 117; G: 141; H: 342; I: 282;

L: 611; K: 244; M: 68; F: 125; P: 701;

S: 676; T: 510; W: 42; Y: 224; V: 114

TREPADOR PECHIBLANCO

A: 267; R: 282; N: 250; D: 117; C: 78;

Q: 275; E: 122; G: 169; H: 262; I: 312;

L: 601; K: 244; M: 57; F: 189; P: 591;

S: 581; T: 460; W: 30; Y: 238; V: 173

IV. MARCO ABIERTO DE LECTURA

Marco abierto de lectura es una porción de una molécula de

ADN que cuando se traduce a los aminoácidos, no contiene

codones de terminación. El código genético lee secuencias de

ADN en grupos de tres pares de bases, esto significa que, en

una molécula de ADN de doble hebra, hay 6 posibles sentidos

en los que pueden abrirse marcos de lectura: tres en dirección

hacia adelante y tres en reverso. Un marco abierto de lectura

larga es probable que sea parte de un gen.

Para obtener el Marco Abierto de Lectura o ORF de las dos especies de estudio,

Primer se consulta en la página de la secuencia de ADN del

Accipitridae (Aguila) y del Sitta carolinensis (trepador

pechiblanco), seleccionando la base de datos “Gene”. Se

obtiene la secuencia de ADN en formato FASTA, ver figura 6.

Figura 6. Secuencia de AND en formato FASTA.

Se abre el “ORF Finder” o busca marcos abiertos de lectura

(ORF) en la secuencia de ADN que se introduzca. El programa

devuelve el rango de cada ORF, junto con la traducción de la

proteína correspondiente. En este caso se utiliza la secuencia de

ADN en formato FASTA obtenida en la base de datos de

NCBI, del águila y del trepador pechiblanco. Cada espécimen

se pega en el cuadro “or sequence in FASTA format” y se da click en “OrfFind”.

Para el águila:

Figura 7. Resultado encontrado del formato FASTA

insertado para el águila.

Figura 8. BLAST para el trepador pechiblanco.

V. ALINEACION DE SECUENCIAS.

Dadas dos secuencias A y B (Águila y pechiblanco,

respectivamente)

Se define:

Una función de similitud (coincidencias) S(A,B) entre los elementos A y B de las secuencias a alinear.

Los in/dels (inserciones o deleciones) se penalizan con un peso W.

Se construye una matriz H de i+1 filas y j+1

columnas. (La secuencia A se ubica en las filas y la

secuencia B en las columnas).

1- Inicialización: Se inicializa con ceros la primera fila y la primera columna del ma matriz H.

2- Llenado de Matriz (scoring): La posición Hij es la

máxima similitud de dos segmentos que terminan en A y B

respectivamente. El valor de Hij depende únicamente del los

valores H(i-1,j-1) , H(i-1, j) y H(i, j-1)

3- Recuperación de la solución (Backtracking): Consiste

en tomar la última coincidencia del alineamiento y comenzar a

buscar el camino que maximice la función. El retroceso

comienza en la posición i+1,j+1 de la matriz, es en ésta

posición donde se presenta el máximo puntaje del alineamiento.

El algoritmo recorre los vecinos de la celda actual para

identificar sus predecesores, es decir observa el vecino a la

izquierda, el vecino en la diagonal y el vecino de arriba, y se

selecciona el vecino que presente el valor más alto. Es de notar

que en el caso que se presente un empate en posible obtener

diferentes alineamientos para las mismas secuencias.

Utilizando la herramienta NCBI:

Se hace el estudio con el Accipitridae (Aguila) y el Sitta

carolinensis (trepador pechiblanco) obteniendo su información

genética desde la página de la NCBI, donde se obtiene su

referencia para secuencia cromosoma, en este caso: MT;

NC_003128.3 y NC_024870.1 respectivamente.

Luego se hace el alineamiento de secuencias de nucleótidos en la plataforma BLAST que tiene la NCBI

Figura 9. Ingresando secuencias para el alineamiento BLAST.

Figura 10. Resultados de comparación BLAST

Se observa que la similitud entre las dos especies es del

88% con una puntuación de 10835, lo cual indica que son

especies muy cercanas.

Utilizando la herramienta EMBOST:

Se va a obtener un alineamiento entre dos secuencias

entonces se guarda cada una de sus secuencias de ADN en

formato txt, para que sean adjuntadas y se procede a hacer el análisis.

Finalmente se obtiene un archivo o texto de salida, el cual

se coloca como anexo al final del documento, ver anexo 1.

Se obtiene un porcentaje de similitud del 78.8%. con una

puntuación de 41612 con lo cual también se confirma la

familiaridad entre las dos especies.

VI. COMPARACION DE FAMILIAS A NIVEL DE PROTEINAS

Se utiliza el buscador de proteínas, en donde se debe

colocar la descripción de proteínas obtenida en la NCBI de la especie deseada, en este caso “NADH dehydrogenase”

Luego se utiliza la herramienta WEB Gene3D, en donde se

clasifican las estructuras de proteínas descargadas del banco de datos.

Primero se obtienen las secuencias de proteínas de cada una

de las especies en formato FASTA. Una vez obtenidas las

secuencias en formato FASTA se introducen en el CATCH o

clasificador de familias, donde se introduce la secuencia de

proteína en formato FASTA y arroja como resultado las

regiones, superfamilias y función de familia, como se muestra

en la siguiente figura 11.

Figura 11. Query de secuencias.

Los resultados son los mismos para las dos secuencias por

lo cual se concluye que pertenecen a las mismas regiones,

familias y superfamilias, la cuales son:

Secuencia: QUERY

Región Superfamilia Funcional Evaluación

21-161, 457-

604, 672-

725

3.90.1100.10 DNA-directed RNA

polymerase -like domain 2.1E-124

162-240,

359-456 3.90.1110.10

DNA-directed RNA


605-668 2.30.150.10

DNA-directed RNA

polymerase subunit beta -

like domain

5.8E-20

727-802 2.40.50.100

DNA-directed RNA

polymerase -like domain

½

3.9E-23

803-833,

1085-1266 2.40.270.10

DNA-directed RNA


839-950,

1070-1084 2.40.50.150

DNA-directed RNA


Tabla de resultados CATCH.

Se observó que ambas especies pertencen a la superfamilia

3.90.1100.10 y 3.90.1110.10 con ADN directo de ARN con Polimerasa como dominio

CONCLUSIONES

Para seres vivos de la misma especie, cuya base de

datos de ADN sea analizada se observara que el

número de nucleótidos es muy similar, al igual que los aminoácidos presentes en cada uno.

Se puede hacer el estudio de ADN y ARN para

determinar los aminoácidos que caracterizan a un

ser vivo, y posteriormente será útil para para

determinar las proteínas que constituyen a dicho

ser vivo.

Se llegó a la conclusión que los dos métodos para

calcular alineamientos entre secuencias genéticas

entre especies es bastante acertado en generar un

porcentaje de similitud alto ya que como se ha

visto en informes anteriores, las similitudes van

desde la cadena general de ADN y ARN hasta las

secuencias de aminoácidos y algunas proteínas;

pero no es tan preciso ya que la diferencia entre

los dos métodos, BLAST y EMBOSS fue de

aproximadamente un 10%.

Se puede hacer el estudio de ADN y ARN

únicamente consultando el número de secuencia

de cromosomas el cual se cuentra disponible en el

banco de información de la NCBI para todas las

especies disponibles hasta ahora, y es suficiente

para hacer la comparación dado que el algpritmo

BLAST simplemente compara con la base de

datos. Mientras que con EMBOSS es necesario

obtener la secuencia completa y cargarla, por lo cual es más engorroso.

Se concluye que ambas especies pertencen a la

superfamilia 3.90.1100.10 y 3.90.1110.10 con

ADN directo de ARN con Polimerasa como dominio.

REFERENCIAS

[1] ROBERTO P. DIAZ Curso virtual “Biologia

Computacional”, Universidad Nacional de Colombia

Sede Bogota.

http://www.virtual.unal.edu.co/cursos/ingenieria/2001832

/docs_curso/contenido.html

[2] Matlab aplicado a la bioinformática Toolbox de

bioinformática: entorno de software integrado para el

genoma y análisis proteómico - Jairo Pertuz Camp;

[3] MATLAB 7.1, Release 14 Service Pack 3, The

MathWorks Inc.; Bioinformatics Toolbox 2.1.1. The

MathWorks Inc; Bioinformatics Toolbox For Use with

MATLAB, User Guide, V. 21.1, The MathWorks Inc.

2005.

[4] Marcoregalia.com/ Bioinformática - Universidad Distrital

Francisco José de Caldas - Copyright © 2011 “Open

Reading Frames (ORF)” Consulta Octubre de 2014.

http://www.marcoregalia.com/STUFF/UDISTRITAL/Bio

informatica/Actividades/Resumenes%20Clases/Openreadingframes.html

[5] Christopher P. Austin, M.D. National Human Genome

Research Institute, genome.gov Conuslta Octubre de 2014 http://www.genome.gov/GlossaryS/index.cfm?id=146

[6] National Center for Biotechnology Information NCBI. Nov.

2014. 8600 Rockville Pike, Bethesda MD, 20894 USA

http://www.ncbi.nlm.nih.gov/

[7] Gene3D v12.0 2014. http://gene3d.biochem.ucl.ac.uk/

[8] CATCH / Gene3D, Protein Structure Classification Database by

I. Sillitoe, T. Lewis, D. Lee, J. Lees, C. Orengo is licensed under

a Creative Commons Attribution 4.0 International License. 2014. http://www.cathdb.info/

informe final bioinformatica alineación de secuencias

Documents