informe final bioinformatica alineación de secuencias
DESCRIPTION
Estudio de ADN, ARN y proteínas con Matlab y herramientas WEB de base de datos sobre dos especies de aves.Universidad Distrital Francisco Jose de CaldasAlineacion de secuencias ADN y ARN de avesTRANSCRIPT
Estudio de ADN, ARN y proteínas con Matlab y
herramientas WEB de base de datos sobre dos especies
de aves F. Nicolas Diaz S, Estudiante (20131273034), Sebastian Vargas V, Estudiante (20131273012).
Universidad Distrital Francisco José de Caldas (Facultad Tecnológica);
Ingeniería en Telecomunicaciones – Bioinformática
Bogotá, Colombia; Diciembre de 2014
Abstract-In this paper the study of DNA and RNA sequences
with MATLAB of the two species of birds, Accipitridae or
common eagle and Sitta carolinensis or climbing pechiblanco
done. Additionally the alignment of DNA sequences in FASTA
format is done using the Needleman-Wunsch algorithm and web
EMBOST tool. Query protein sequence of each species were also
performed and compared to determine which subfamily and if
they belong to the same family knew. Are obtained as a
conclusion that the similarity of the DNA and RNA sequences,
and the nucleotide codons; the dominant proteins of each
species The similarity between subfamilies And finally concludes
that the two species belong to the same superfamily 3.90.1100.10
3.90.1110.10 direct DNA and RNA Polymerase like domain
Key-DNA, RNA, nucleotides, codons, amino acids. Words
Protein subfamilies, super family.
Resumen—En este documento se hace el estudio de secuencias
de ADN y ARN con MATLAB de las dos especies de aves,
Accipitridae o aguila común y el Sitta carolinensis o trepador
pechiblanco. Adicionalmente se hace la alineación de
secuencias de ADN en formato FASTA utilizando los
algoritmo Needleman-Wunsch y la herramienta web
EMBOST. También se realiza la consulta de la secuencia de
proteínas de cada una de las especies y se compara para
determinar a qué subfamilia pertenecen y si son de la misma
supe familia. Se obtienen como conclusión que la similitud de
las secuencias de AND y ARN, los nucleótidos y codones; las
proteinas dominante de cada especie La similitud entre
subfamilias Y finalmente se concluye que las dos especies
pertenecen a la misma super familia 3.90.1100.10 y
3.90.1110.10 con ADN directo de ARN con Polimerasa como
dominio
Palabras clave—ADN, ARN, nucleótidos, codones,
aminoácidos. Proteínas, subfamilias, super familia.
I. INTRODUCCIÓN
Se trabaja con dos aves, la paloma y el águila; cuyos
códigos genéticos ADN han sido descargados por del
software Matlab por medio de la NCBI (National Center for
Biotechnology Information), en forma de base de datos, esta
información viene en forma de secuencia de caracteres
A,T,C,G la cual es procesada en Matlab para determinar la
densidad de nucleótidos, observar la composición del
genoma mitocondrial, hacer la traducción a ARN, ver los
codones y comparar los resultados entre las dos especies.
II. MARCO TEÓRICO
LOS ÁCIDOS NUCLEICOS
Los ácidos nucleicos (ADN y ARN), son
macromoléculas con un número predeterminado de varios
monómeros diferentes en un arreglo ordenado en forma
lineal. Los ácidos nucleicos portan la información genética
que determina la estructura primaria de las proteínas y los
fenotipos especie-específicos.
Cada nucleótido se compone de una base nitrógenada
(purina o pirimidina), un azúcar (D-ribosa o 2-deoxi-Ribosa)
y un ácido Fosfórico. (Figura 1).
Figura 1. Base nitrogenada, un azúcar y un ácido fosfórico.
Cada ácido nucleico contiene un sólo tipo de azúcar, no
ambos. El ADN representa el material genético de las
células y es constituido por nucleótidos conocidos como
deoxiribótidos que contienen 2-deoxi-D-Ribosa.
Los nucleótidos del ADN son Citosina (C), Timina (T),
Guanina (G) y Adenina (A); y los del ARN son Citosina
(C), Uracilo (U), Guanina (G) y Adenina (A).
MARCO ABIERTO DE LECTURA
Es una secuencia de información genética que contiene
datos que pueden ser utilizados para codificar aminoácidos;
Los marcos de lectura se encuentran en el ADN y ARN. En
el caso de ADN, el ADN contiene conjuntos de nucleótidos
conocida como tripletes o codones. Cada codón puede ser
transcrito por el ARN en otro triplete.
El marco de lectura es la sección de ADN o ARN que
contiene instrucciones para hacer una proteína completa. En
el ADN, hay seis marcos de lectura posibles, ya que el
inicio de un marco de lectura depende de donde uno
empieza a leer, y el ADN es de doble cadena. Con el ARN,
existen tres posibles marcos de lectura. Una sección de
lectura comienza con un codón de inicio (AUG) y uno de
parada (UAA, UAG o UGA).
Un marco abierto de lectura puede contener un gen completo,
o los genes que se solapan; el código genético no siempre es
tan ordenada como uno podría imaginar. De hecho, el código
genético contiene mucho de lo que se conoce como el ADN
no codificante, es decir, que el ADN no parece cumplir una
función en términos de la expresión génica. No codificante del
ADN puede contener información interesante acerca de la
herencia genética de una especie, y puede utilizarse para otras
funciones.
Existen 6 sentidos en los que se puede aparecer un marco de
lectura: +1, +2, +3, -1, -2, -3.
Si una secuencia se empieza a leer desde el 1er carácter,
entonces el marco de lectura es +1; si se empieza desde la 2da,
entonces el marco de lectura es +2; Y si se comienza desde la
3era, entonces el marco de lectura es +3.
Para la secuencia complementaria, si se empieza a leer desde
el 1er carácter, entonces el marco de lectura es -1; si se
empieza desde la 2da, entonces el marco de lectura es -2; Y si
se comienza desde la 3era, entonces el marco de lectura es -3.
Figura 2. Marco de Lectura.
Para complementar se puede concluir que el Marco abierto
de lectura es una porción de una molécula de ADN que cuando
se traduce a los aminoácidos, no contiene codones de
terminación. El código genético lee secuencias de ADN en
grupos de tres pares de bases, esto significa que, en una
molécula de ADN de doble hebra, hay 6 posibles sentidos en
los que pueden abrirse marcos de lectura --tres en dirección
hacia adelante y tres en reverso. Un marco abierto de lectura
larga es probable que sea parte de un gen.
ALINEACION DE SECUENCIAS.
Un alineamiento de secuencias en bioinformática es una forma
de representar y comparar dos o más secuencias o cadenas
de ADN, ARN, o estructuras primarias proteicas para resaltar
sus zonas de similitud, que podrían indicar relaciones
funcionales o evolutivas entre los genes o proteínas
consultados. Las secuencias alineadas se escriben con las
letras (representando aminoácidos o nucleótidos) en filas de
una matriz en las que, si es necesario, se insertan espacios para
que las zonas con idéntica o similar estructura se alineen.
Las secuencias de ADN y proteína marcan la función de las
proteínas en los seres vivos.
Cuando más similares sean dos secuencias más similares
tenderán a ser las funciones de las proteínas codificadas por
ellas.
Las secuencias de un mismo gen en un conjunto de especies
serán más distintas cuando más alejadas filogenéticamente
estén las especies comparadas.
Normalmente dos secuencias tienen una alta similitud porque
son homólogas, es decir comparten un ancestro común.
A diferencia de la similitud, la homología no es un término
cuantitativo, dos secuencias o son homólogas, derivan del
mismo ancestro, o no lo son.
A partir de la similitud de las secuencias inferimos la
homología.
La acumulación de mutaciones en el ADN a lo largo del
tiempo es la causa de que las secuencias de un mismo gen en
dos especies distintas no sean idénticas.
Cuanto más tiempo pase desde el último antecesor común más
diferente serán las secuencias., un ejemplo de ello está
representada. (Figura 1)
Figura 1.
Los nucleótidos del ADN son Citosina (C), Timina (T),
Guanina (G) y Adenina (A); y los del ARN son Citosina (C),
Uracilo (U), Guanina (G) y Adenina (A).
Los alineamientos sirven, entre otras cosas para:
Asegurarse de que dos secuencias son similares y
cuantificar su similitud.
Encontrar dominios funcionales.
Comparar un gen y su producto.
Buscar posiciones homólogas en las secuencias.
III. ESTUDIO DE SECUENCIA DE AND Y ARN
Se carga la base de datos de las especies en la página de la
NCBI, se hallan las gráficas de densidad de nucleótidos a lo
largo de la secuencia, ver el número de nucleótidos en la
secuencia, se traduce la secuencia ADN a ARN para lograr la secuencia de aminoácidos de la proteína correspondiente.
Se inicia el proceso con el Aguila utilizando Matlab para
bajar y acceder a la base de datos del ADN, se genera la gráfica
de densidad de nucleotidos, se convierte de ADN a ARN, se
muestra la distribución de las bases y los aminoacidos presentes.
Las secuencias de ADN obtenida a través de Matlab son
demasiado extensas y se muestra en el Anexo 1 para el águila y en el Anexo 2 para el trepador pechiblanco.
Figura 3. Imagen de un Águila.
Figura 3. Trepador pechiblanco.
Codigo en MATLAB utilizado para obtención de densidad
de nucleótidos de cada especie:
%ADN AGUILA clc
clear Aguila = getgenbank('NC_024087','SequenceOnly',true)
%Leer Secuencia
ntdensity(Aguila)
%La densidad de Nucleotidos dentro de la secuencia de ADN
basecount(Aguila)
%Informacion de los nucleotidos en la secuencia
basecount(seqrcomplement(Aguila))
%inverso de la funcion anterior
figure
dimercount(Aguila,'chart','bar')%Nucleotidos Adyacentes %Se convierte de ADN-ARN
ARN_Aguila = dna2rna(Aguila)
%Convierte el valor de ADN-ARN
amino = nt2aa(Aguila)
%Toma la secuencia y lo convierte a aminoacidos aminoacidos = aacount(amino)
%Cuenta la cantidad de aminoacidos de la secuencia figure
basecount(Aguila,'chart','pie')
%Distribucion de las Bases
codoncount(Aguila)
Figura 4. Densidad de nucleótidos del águila.
Figura 5. Densidad de nucleótidos del trepador pechiblanco.
Se resalta que la densidad de los nucleótidos varía bastante
entre las dos especies; Pero al observar la densidad de AT y
CG se observa una simetría similar en las dos aves, se puede
deducir que tienen de codificaciones de ADN similares, y entonces pueden pertenecer a la misma familia.
AMINOACIDOS
Se hace la traducción de ADN a ARN y se obtienen los
aminoácidos. A demás hace el conteo de esos aminoácidos, estos se deben interpretar con la tabla 1.
AGUILA
A: 208; R: 293; N: 330; D: 107; C: 91;
Q: 239; E: 117; G: 141; H: 342; I: 282;
L: 611; K: 244; M: 68; F: 125; P: 701;
S: 676; T: 510; W: 42; Y: 224; V: 114
TREPADOR PECHIBLANCO
A: 267; R: 282; N: 250; D: 117; C: 78;
Q: 275; E: 122; G: 169; H: 262; I: 312;
L: 601; K: 244; M: 57; F: 189; P: 591;
S: 581; T: 460; W: 30; Y: 238; V: 173
IV. MARCO ABIERTO DE LECTURA
Marco abierto de lectura es una porción de una molécula de
ADN que cuando se traduce a los aminoácidos, no contiene
codones de terminación. El código genético lee secuencias de
ADN en grupos de tres pares de bases, esto significa que, en
una molécula de ADN de doble hebra, hay 6 posibles sentidos
en los que pueden abrirse marcos de lectura: tres en dirección
hacia adelante y tres en reverso. Un marco abierto de lectura
larga es probable que sea parte de un gen.
Para obtener el Marco Abierto de Lectura o ORF de las dos especies de estudio,
Primer se consulta en la página de la secuencia de ADN del
Accipitridae (Aguila) y del Sitta carolinensis (trepador
pechiblanco), seleccionando la base de datos “Gene”. Se
obtiene la secuencia de ADN en formato FASTA, ver figura 6.
Figura 6. Secuencia de AND en formato FASTA.
Se abre el “ORF Finder” o busca marcos abiertos de lectura
(ORF) en la secuencia de ADN que se introduzca. El programa
devuelve el rango de cada ORF, junto con la traducción de la
proteína correspondiente. En este caso se utiliza la secuencia de
ADN en formato FASTA obtenida en la base de datos de
NCBI, del águila y del trepador pechiblanco. Cada espécimen
se pega en el cuadro “or sequence in FASTA format” y se da click en “OrfFind”.
Para el águila:
Figura 7. Resultado encontrado del formato FASTA
insertado para el águila.
Figura 8. BLAST para el trepador pechiblanco.
V. ALINEACION DE SECUENCIAS.
Dadas dos secuencias A y B (Águila y pechiblanco,
respectivamente)
Se define:
Una función de similitud (coincidencias) S(A,B) entre los elementos A y B de las secuencias a alinear.
Los in/dels (inserciones o deleciones) se penalizan con un peso W.
Se construye una matriz H de i+1 filas y j+1
columnas. (La secuencia A se ubica en las filas y la
secuencia B en las columnas).
1- Inicialización: Se inicializa con ceros la primera fila y la primera columna del ma matriz H.
2- Llenado de Matriz (scoring): La posición Hij es la
máxima similitud de dos segmentos que terminan en A y B
respectivamente. El valor de Hij depende únicamente del los
valores H(i-1,j-1) , H(i-1, j) y H(i, j-1)
3- Recuperación de la solución (Backtracking): Consiste
en tomar la última coincidencia del alineamiento y comenzar a
buscar el camino que maximice la función. El retroceso
comienza en la posición i+1,j+1 de la matriz, es en ésta
posición donde se presenta el máximo puntaje del alineamiento.
El algoritmo recorre los vecinos de la celda actual para
identificar sus predecesores, es decir observa el vecino a la
izquierda, el vecino en la diagonal y el vecino de arriba, y se
selecciona el vecino que presente el valor más alto. Es de notar
que en el caso que se presente un empate en posible obtener
diferentes alineamientos para las mismas secuencias.
Utilizando la herramienta NCBI:
Se hace el estudio con el Accipitridae (Aguila) y el Sitta
carolinensis (trepador pechiblanco) obteniendo su información
genética desde la página de la NCBI, donde se obtiene su
referencia para secuencia cromosoma, en este caso: MT;
NC_003128.3 y NC_024870.1 respectivamente.
Luego se hace el alineamiento de secuencias de nucleótidos en la plataforma BLAST que tiene la NCBI
Figura 9. Ingresando secuencias para el alineamiento BLAST.
Figura 10. Resultados de comparación BLAST
Se observa que la similitud entre las dos especies es del
88% con una puntuación de 10835, lo cual indica que son
especies muy cercanas.
Utilizando la herramienta EMBOST:
Se va a obtener un alineamiento entre dos secuencias
entonces se guarda cada una de sus secuencias de ADN en
formato txt, para que sean adjuntadas y se procede a hacer el análisis.
Finalmente se obtiene un archivo o texto de salida, el cual
se coloca como anexo al final del documento, ver anexo 1.
Se obtiene un porcentaje de similitud del 78.8%. con una
puntuación de 41612 con lo cual también se confirma la
familiaridad entre las dos especies.
VI. COMPARACION DE FAMILIAS A NIVEL DE PROTEINAS
Se utiliza el buscador de proteínas, en donde se debe
colocar la descripción de proteínas obtenida en la NCBI de la especie deseada, en este caso “NADH dehydrogenase”
Luego se utiliza la herramienta WEB Gene3D, en donde se
clasifican las estructuras de proteínas descargadas del banco de datos.
Primero se obtienen las secuencias de proteínas de cada una
de las especies en formato FASTA. Una vez obtenidas las
secuencias en formato FASTA se introducen en el CATCH o
clasificador de familias, donde se introduce la secuencia de
proteína en formato FASTA y arroja como resultado las
regiones, superfamilias y función de familia, como se muestra
en la siguiente figura 11.
Figura 11. Query de secuencias.
Los resultados son los mismos para las dos secuencias por
lo cual se concluye que pertenecen a las mismas regiones,
familias y superfamilias, la cuales son:
Secuencia: QUERY
Región Superfamilia Funcional Evaluación
21-161, 457-
604, 672-
725
3.90.1100.10 DNA-directed RNA
polymerase -like domain 2.1E-124
162-240,
359-456 3.90.1110.10
DNA-directed RNA
polymerase -like domain 1.2E-57
605-668 2.30.150.10
DNA-directed RNA
polymerase subunit beta -
like domain
5.8E-20
727-802 2.40.50.100
DNA-directed RNA
polymerase -like domain
½
3.9E-23
803-833,
1085-1266 2.40.270.10
DNA-directed RNA
polymerase -like domain 1.4E-78
839-950,
1070-1084 2.40.50.150
DNA-directed RNA
polymerase -like domain 2.2E-42
Tabla de resultados CATCH.
Se observó que ambas especies pertencen a la superfamilia
3.90.1100.10 y 3.90.1110.10 con ADN directo de ARN con Polimerasa como dominio
CONCLUSIONES
Para seres vivos de la misma especie, cuya base de
datos de ADN sea analizada se observara que el
número de nucleótidos es muy similar, al igual que los aminoácidos presentes en cada uno.
Se puede hacer el estudio de ADN y ARN para
determinar los aminoácidos que caracterizan a un
ser vivo, y posteriormente será útil para para
determinar las proteínas que constituyen a dicho
ser vivo.
Se llegó a la conclusión que los dos métodos para
calcular alineamientos entre secuencias genéticas
entre especies es bastante acertado en generar un
porcentaje de similitud alto ya que como se ha
visto en informes anteriores, las similitudes van
desde la cadena general de ADN y ARN hasta las
secuencias de aminoácidos y algunas proteínas;
pero no es tan preciso ya que la diferencia entre
los dos métodos, BLAST y EMBOSS fue de
aproximadamente un 10%.
Se puede hacer el estudio de ADN y ARN
únicamente consultando el número de secuencia
de cromosomas el cual se cuentra disponible en el
banco de información de la NCBI para todas las
especies disponibles hasta ahora, y es suficiente
para hacer la comparación dado que el algpritmo
BLAST simplemente compara con la base de
datos. Mientras que con EMBOSS es necesario
obtener la secuencia completa y cargarla, por lo cual es más engorroso.
Se concluye que ambas especies pertencen a la
superfamilia 3.90.1100.10 y 3.90.1110.10 con
ADN directo de ARN con Polimerasa como dominio.
REFERENCIAS
[1] ROBERTO P. DIAZ Curso virtual “Biologia
Computacional”, Universidad Nacional de Colombia
Sede Bogota.
http://www.virtual.unal.edu.co/cursos/ingenieria/2001832
/docs_curso/contenido.html
[2] Matlab aplicado a la bioinformática Toolbox de
bioinformática: entorno de software integrado para el
genoma y análisis proteómico - Jairo Pertuz Camp;
[3] MATLAB 7.1, Release 14 Service Pack 3, The
MathWorks Inc.; Bioinformatics Toolbox 2.1.1. The
MathWorks Inc; Bioinformatics Toolbox For Use with
MATLAB, User Guide, V. 21.1, The MathWorks Inc.
2005.
[4] Marcoregalia.com/ Bioinformática - Universidad Distrital
Francisco José de Caldas - Copyright © 2011 “Open
Reading Frames (ORF)” Consulta Octubre de 2014.
http://www.marcoregalia.com/STUFF/UDISTRITAL/Bio
informatica/Actividades/Resumenes%20Clases/Openreadingframes.html
[5] Christopher P. Austin, M.D. National Human Genome
Research Institute, genome.gov Conuslta Octubre de 2014 http://www.genome.gov/GlossaryS/index.cfm?id=146
[6] National Center for Biotechnology Information NCBI. Nov.
2014. 8600 Rockville Pike, Bethesda MD, 20894 USA
http://www.ncbi.nlm.nih.gov/
[7] Gene3D v12.0 2014. http://gene3d.biochem.ucl.ac.uk/
[8] CATCH / Gene3D, Protein Structure Classification Database by
I. Sillitoe, T. Lewis, D. Lee, J. Lees, C. Orengo is licensed under
a Creative Commons Attribution 4.0 International License. 2014. http://www.cathdb.info/