![Page 1: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/1.jpg)
1 Fernán Agüero
2007
Fernán AgüeroInstituto de Investigaciones BiotecnológicasUniversidad Nacional de General San Martín
Protein sequence analysisStructural Bioinformatics
![Page 2: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/2.jpg)
2 Fernán Agüero
El flujo de información en biología
> DNAAATTCATGAAAATCGTATACTGGTCTGGTACCGGCAACACTGAGAAAATGGCAGAGCTCATCGCTAAAGGTATCATCGAATCTGGTAAAGACGTCAACACCATCAACGTGTCTGACGTTAACATCGATGAACTGCTGAACGAAGATATCCTGATCCTGGGTTGCTCTGCCATGGGCGATGAAGTTCTCGAGGAAAGCGAATTTGAACCGTTCATCGAAGAGATCTCTACCAAAATCTCTGGTAAGAAGGTTGCGCTGTTCGGTTCTTACGGTTGGGGCGACGGTAAGTGGATGCGTGACTTCGAAGAACGTATGAACGGCTACGGTTGCGTTGTTGTTGAGACCCCGCTGATCGTTCAGAACGAGCCGGACGAAGCTGAGCAGGACTGCATCGAATTTGGTAAGAAGATCGCGAACATCTAGTAGA
> ProteinaMKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNIDELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGKKVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNEPDEAEQDCIEFGKKIANI
Gen Función
![Page 3: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/3.jpg)
3 Fernán Agüero
Conformación proteica
• Christian AnfinsenEstudios sobre desnaturalización reversible: “la secuencia determina la conformación”
• Las chaperonas y las enzimas intercambiadoras de disulfuros están involucrados pero no controlan el estado final.
• A partir de una secuencia proteica recién determinada, que se puede decir acerca de su conformación? Se puede predecir la estructura por métodos computacionales?
• Respuesta: predicción ab initio (no muy confiable!!!)
![Page 4: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/4.jpg)
4 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
• Ancestro común?• Función conservada?• Dominio o secuencia completa?
![Page 5: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/5.jpg)
5 Fernán Agüero
BLAST
• Identifica high-scoring segment pairs (HSPs)– Un par de secuencias que pueden ser alineados sin
gaps– Cuando están alineadas tienen un score agregado
máximo (no puede ser mejorado por extensión o por recorte del alineamiento)
– El score debe estar por arriba de un determinado valor (threshold) S.
– gapped (2.0) o ungapped (1.4)
• Modos de uso (interfases disponibles)– WWW search form
http://www.ncbi.nlm.nih.gov/BLAST– Unix command line
blastall -p progname -d db -i query > outfile
![Page 6: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/6.jpg)
6 Fernán Agüero
Algoritmos BLAST
Program Query Sequence Target Sequence
BLASTN Nucleotide Nucleotide
BLASTP Protein Protein
BLASTX Nucleotide, Proteinsix-frame translation
TBLASTN Protein Nucleotide,six-frame translation
TBLASTX Nucleotide, Nucleotide,six-frame translation six-frame translation
![Page 7: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/7.jpg)
7 Fernán Agüero
Palabras cercanas (neighborhood words)
Query Word (Query Word (WW = 3) = 3)
Neighborhood Score Neighborhood Score ThresholdThreshold((TT = 13) = 13)
Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED
PQG 18PEG 15PRG 14PKG 14PNG 13PDG 13PHG 13PMG 13PSG 13PQA 12PQN 12etc.
NeighborhoodNeighborhoodWordsWords
![Page 8: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/8.jpg)
8 Fernán Agüero
High-scoring segment pairs (HSPs)
Query: 325 SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365 +LA++L TP G R++ +W+ P+ D + ER + ASbjct: 290 TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330
PQG 18PEG 15PRG 14PKG 14PNG 13PDG 13PHG 13PMG 13PSG 13PQA 12PQN 12etc.
![Page 9: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/9.jpg)
9 Fernán Agüero
Requerimientos de una búsqueda de BLAST
• Una secuencia query, en formato FASTA.
• Qué programa de BLAST usar.
• Qué base de datos buscar.
• Parámetros de la búsqueda.
![Page 10: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/10.jpg)
10 Fernán Agüero
Secuencia query
>N-terminal unknown proteinMSSAAAAAAGAAGGGALFQPQSVSTANSSSSNNNNSSTPAALATHSPTSNSPVSGASSASSLLTAAFGNLFGGSSAKMLNELFGRQMKQAQDATSGLPQSLDNAMLAAAMETATSAELLIGSLNSTSKLLQQQHNNN...
BLASTP / SWISSPROT / BLOSUM62
Un E bajo implica un HSP más significativo – pero siempre hay que mirar los alineamientos!!!
Score ESequences producing significant alignments: (bits) Value
sp|P29617|PRO_DROME PROTEIN PROSPERO 948 0.0sp|P34522|HM26_CAEEL HOMEOBOX PROTEIN CEH-26 242 4e-63sp|P48437|PRX1_MOUSE HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55sp|Q92786|PRX1_HUMAN HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55sp|Q91018|PRX1_CHICK HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 213 2e-54sp|P25440|RNG3_HUMAN RING3 PROTEIN (KIAA9001) 35 0.79sp|P31000|VIME_RAT VIMENTIN 34 1.4sp|P48670|VIME_CRIGR VIMENTIN 34 1.4
![Page 11: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/11.jpg)
11 Fernán Agüero
Requerimientos BLAST
• Una secuencia query, en formato FASTA. • Qué programa de BLAST usar. • Qué base de datos buscar.• Parámetros de la búsqueda.
Extension
Cum
ulat
ive
Sco
re
T
S
X
E = kNe-S
Número de HSPs
hallados por puro
azar
HSP
Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico.
X
![Page 12: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/12.jpg)
12 Fernán Agüero
Matrices de scoring
• Esquema empírico de ponderación (weighting) que intenta representar conocimiento biológico (estructural/funcional) – Cys : puentes disulfuro o unión a metales: estabilizan la
estructura. – Pro : relativamente voluminoso y sin grupo N-H para
cadenas laterales: ocurre en codos (turns). – Trp: cadena lateral voluminosa. – Lys/Arg: cadenas laterales cargadas positivamente.– Gly: no tiene cadena lateral. Permite rotar a la cadena
porlipeptídica: ocurre en codos (turns). – Ala: sinpropiedades particulaes. Cadena lateral pequeña:
ocurre frecuentemente en alpha-hélices. – Glu/Asp: frecuentes al comienzo de alpha-hélices.– Lys/Arg: frecuentes hacia el final de alpha-hélices.
![Page 13: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/13.jpg)
13 Fernán Agüero
Matrices de scoring: importancia
•Es importante comprender las matrices de scoring
• Aparecen (y son la base) de todos los análisis que involucran
comparación de secuencias.
• Representan en forma implícita una teoría particular de la
evolución.
• La elección de la matriz puede influenciar fuertemente los
resultados que se obtengan.
![Page 14: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/14.jpg)
14 Fernán Agüero
Estructura de una matriz
A R N D C Q E G H I L K M F P S T W Y V B Z X *A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
![Page 15: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/15.jpg)
15 Fernán Agüero
Hay tantas matrices ...
• Triple-PAM (Altschul, 1991)– PAM 40 Alineamientos cortos, alta
similitud– PAM 120– PAM 250 Alineamientos largos, baja similitud
• BLOSUM 62 (Henikoff, 1993)– La más efectiva para detectar miembros de una
familia de proteínas. (BLAST default).
• No hay una matriz que sea la respuesta completa para todas las comparaciones!!!
![Page 16: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/16.jpg)
16 Fernán Agüero
Matrices PAM
• Margaret Dayhoff, 1978
• Point Accepted Mutation (PAM)– Se observan los patrones de sustituciones en
proteínas relacionadas. – La nueva cadena lateral debe funcionar en forma
similar a la anterior (aceptación)– En promedio 1 PAM, corresponde al cambio de 1
amino ácido cada 100 residuos. – 1 PAM ~ 1% divergencia– Se extrapola para predecir patterns de mutación a
mayores distancias.
![Page 17: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/17.jpg)
17 Fernán Agüero
Matrices PAM (cont.)
• Suposiciones– Una mutación es independiente de los residuos que la
rodean.– Las secuencias comparadas son de una composición
promedio.– Todos los sitios son igualmente reemplazables.
• Fuentes de error– Para derivar las matrices se utilizaron proteínas
pequeñas, globulares (desvío de la composición promedio).
– Los errores en PAM 1 son aumentados al extrapolar hasta PAM 250
– No considera, ni es flexible para considerar bloques conservados o dominios.
![Page 18: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/18.jpg)
18 Fernán Agüero
Matrices BLOSUM
• Henikoff and Henikoff, 1992
• Blocks Substitution Matrix (BLOSUM)– Considera sólo diferencias en regiones conservadas,
libres de gaps, de una familia proteica.
– Más sensible a sustituciones estructurales o
funcionales.
– BLOSUM n
• Contribución de secuencias > n% idénticas pesan 1.
• Reduce la contribución de secuencias muy similares.
• Incrementar n ~ incrementar la distancia PAM.
![Page 19: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/19.jpg)
19 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
• Ancestro común?• Función conservada?• Dominio o secuencia completa?
![Page 20: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/20.jpg)
20 Fernán Agüero
Profiles
• Representación númerica de un alineamiento múltiple.
• Depende de patrones (patterns) o motivos (motifs)
que contengan residuos conservados.
• Representan las características comunes de una
familia de proteínas.
• Permite identificar similitud entre secuencias con
poca o ninguna identidad.
• Permite incorporar al análisis secuencias
relacionadas en forma distante.
![Page 21: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/21.jpg)
21 Fernán Agüero
Construcción de profiles
Cons A B C D E F G H I K L M N P Q R S T V W Y Z G 17 18 0 19 14 -22 31 0 -9 12 -15 -5 15 10 9 6 18 14 1 -15 -22 11 P 18 0 13 0 0 -12 13 0 8 -3 -3 -1 -2 23 2 -2 12 11 17 -31 -8 1 H 5 24 -12 29 25 -20 8 32 -9 9 -10 -9 22 7 30 10 0 4 -8 -20 -7 27 I -1 -12 6 -13 -11 33 -12 -13 63 -11 40 29 -15 -9 -14 -15 -6 7 50 -17 8 -11 V 3 -11 1 -11 -9 22 -3 -11 46 -9 37 30 -13 -3 -9 -13 -6 6 50 -19 2 -8 V 5 -9 9 -9 -9 19 -1 -13 57 -9 35 26 -13 -2 -11 -13 -4 9 58 -29 0 -9 A 54 15 12 20 17 -24 44 -6 -4 -1 -11 -5 12 19 9 -13 21 19 9 -39 -20 10 T 40 20 20 20 20 -30 40 -10 20 20 -10 0 20 30 -10 -10 30 150 20 -60 -30 10 P 31 6 7 6 6 -41 19 11 -9 6 -16 -11 0 89 17 17 24 22 9 -50 -48 12 G 70 60 20 70 50 -60 150 -20 -30 -10 -50 -30 40 30 20 -30 60 40 20 -100 -70 30
APHIIVATPGGCEIVIATPGGVEICIATPGGVDILIGTTGRPHIIVATPGKPHIIIATPGKVQLIIATPGRPDIVIATPGAPHIIVGTPGAPHIIVGTPGGCHVVIATPGNQDIVVATTG
• Qué residuos aparecen en cada posición?• Cuál es la frecuencia de los residuos observados?• Qué posiciones están conservadas? • Dónde pueden introducirse gaps?
Position-Specific Scoring Table
![Page 22: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/22.jpg)
22 Fernán Agüero
ProfileScan
• Compara una secuencia contra una colección de profiles.
• Bases de datos disponibles– PROSITE 17.39 1609 entries– Pfam 8.0 5193 entries
• http://expasy.org/prosite
![Page 23: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/23.jpg)
23 Fernán Agüero
Query ProfileScan
Selecciono TODAS las bases de datosSólo matches significativos
E-value
>C-terminal endMALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDARTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGGGTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA...
normalized raw from - to Profile|Description219.3535 27400 pos. 21 - 600 PF00012|HSP70 Heat shock hsp70 proteins
NScore SwissProt 7.0 1.8000 8.0 0.1800 9.0 0.0180 10.0 0.0018
219.4 3e-211
[IV]-D-L-G-T-[ST]-x-[SC]
[LIVMF]-[LIVMFY]-[DN]-[LIVMFS]-G-[GSH]-[GS]-[AST]-x(3)-[ST]-[LIVM]-[LIVMFC]
[LIVM]-x-[LIVMF]-x-G-G-x-[ST]-x-[LIVM]-P-x-[LIVM]-x-[DEQKRSTA]
Signatures
![Page 24: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/24.jpg)
24 Fernán Agüero
BLOCKS
• Steve Henikoff, Fred Hutchinson Cancer Research Center, Seattle
• Alineamientos múltiples de regiones conservadas en familias de proteínas. – 1 “block” = 1 alineamiento corto, sin gaps– Cada familia puede definirse por uno o más ‘blocks’– Las búsquedas permiten detectar uno o más blocks
representantes de una familia.
• Interfases disponibles– E-Mail [email protected]– Web http://blocks.fhcrc.org/
![Page 25: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/25.jpg)
25 Fernán Agüero
Query BLOCKS
ID HSP70_1; BLOCKAC BL00297A; distance from previous block=(94,187)DE Heat shock hsp70 proteins family proteins.BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607
>C-terminal endMALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDARTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGGGTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA...
BL00297A HSCA_ECOLI 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA |||||||||||||||||||||||||||||||||||||||||||||||||||||||C-terminal 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA
Search blocks
Examine blocks
![Page 26: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/26.jpg)
26 Fernán Agüero
BLOCKS entry
ID HSP70_1; BLOCKAC BL00297A; distance from previous block=(94,187)DE Heat shock hsp70 proteins family proteins.BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607HS70_CHLRE ( 129) KETAQASLGADREVKKAVVTVPAYFNDSQRQATKDAGMIAGLEVLRIINEPTAAA 19
HS7L_SBYV ( 132) ALISTASEAFKCQCTGVICSVPANYNCLQRSFTESCVNLSGYPCVYMVNEPSAAA 75
HS7R_HUMAN ( 124) KLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDATQIAGLNCLRLMNETTAVA 45
HS7T_MOUSE ( 126) TKMKETAEVFWAPMSQRVITVPAYFNDSQRQATKDAGVIAGLNVLRIINEPTAVA 28
YKH3_YEAST ( 160) SLLKDRDARTEDFVNKMSFTIPDFFDQHQRKALLDASSITTGIEETYLVSEGMSV 100
DNAK_BACSU ( 95) HLKSYAESYLGETVSKAVITVPAYFNDAERQATKDAGKIAGLEVERIINEPTAAA 7DNAK_BORBU ( 122) KMKETAEAYLGEKVTEAVITVPAYFNDAQRQATKDAGKIAGLEVKRIVNEPTAAA 3DNAK_BRUOV ( 122) KMKETAESYLGETVTQAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 3DNAK_BURCE ( 123) KMKKTAEDYLGEPVTEAVITVPAYFNDSQRQATKDAGRIAGLEVKRIINEPTAAA 3DNAK_CAUCR ( 122) KMKEAAEAHLGEPVTKAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 5DNAK_CHLPN ( 125) KMKETAEAYLGETVTEAVITVPAYFNDSQRASTKDAGRIAGLDVKRIIPEPTAAA 10DNAK_CLOPE ( 98) KLKADAEAYLGEKVTEAVITVPAYFNDAERQATKDAGRIAGLDVKTIINEPTAAS 8DNAK_CRYPH ( 122) KLVDDASKYLGESVKQAVITVPAYFNDSQRQATKDAGRIAGLEVLRIINEPTAAS 5DNAK_ECOLI ( 121) KMKKTAEDYLGEPVTEAVITVPAYFNDAQRQATKDAGRIAGLEVKRIINEPTAAA 3DNAK_ERYRH ( 96) YMKSYAEDYLGEKVTKAVITVPAYFNDAQRQATKDAGKIAGLEVERIINEPTAAA 5DNAK_HAEIN ( 120) KMKKTAEDFLGESVTEAVITVPAYFNDAQRQATIDAGKIAGLDVKRIINEPTAAA 6
.
.
.
![Page 27: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/27.jpg)
27 Fernán Agüero
BLOCK Maker
>Histone chk-H5 family6 sequences are included in 2 blocks
HistoneA, width = 31 chk-H5 1 SHPTYSEMIAAAIRAEKSRGGSSRQSIQKYI hum-H1 1 SGPPVSELITKAVAASKERSGVSLAALKKAL pea-H1 1 SHPTYEEMIKDAIVSLKEKNGSSQYAIAKFI sce-H1.1 1 SSKSYRELIIEGLTALKERKGSSRPALKKFI sce-H1.2 1 SSLTYKEMILKSMPQLNDGKGSSRIVLKKYV xla-H1 1 SGPSASELIVKAVSSSKERSGVSLAALKKAL
HistoneB, width = 15 chk-H5 ( 21) 53 IRRLLAAGVLKQTKG hum-H1 ( 21) 53 LKSLVSKGTLVQTKG pea-H1 ( 21) 53 LKKNVASGKLIKVKG sce-H1.1 ( 21) 53 IKKGVEAGDFEQPKG sce-H1.2 ( 21) 53 IKKCVENGELVQPKG xla-H1 ( 21) 53 LKALVTKGTLTQVKG
MOTIF/GIBBS
>chk-H5SRRSASHPTYSEMIAAAIRAEKSRGGSSRQSIQKYIKSHYKVGHNADLQIKLSIRRLLAAGVLKQTKGVGASGSFRLAKS>hum-H1TPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKK>pea-H1PRNPASHPTYEEMIKDAIVSLKEKNGSSQYAIAKFIEEKQKQLPANFKKLLLQNLKKNVASGKLIKVKGSFKLSAAAKKP
![Page 28: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/28.jpg)
28 Fernán Agüero
CD-Search (RPS-BLAST)
• Compara una secuencia contra una colección de profiles (Reverse PSI-BLAST)
• Bases de datos disponibles– Pfam 2478 entries– Smart 488 entries– Oasis (combined pfam, smart and cdd) 3019 profiles.
• Buscar usando Blast
http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
• Buscar la base de datos CDD (Conserved Domains from 3D structures)– http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
![Page 29: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/29.jpg)
29 Fernán Agüero
PSI-BLAST
• Position-Specific Iterated BLAST search
• Easy-to-use version of a profile-based search– Hace una búsqueda utilizando BLAST contra una base
de datos de proteínas. – Utiliza los resultados para derivar una matriz posición-
específica (position-specific scoring matrix, PSSM)– En la próximas rondas (iteraciones) se utiliza la PSSM
en lugar de la secuencia query original– Se puede iterar hasta que no aparezcan nuevos
alineamientos significativos. • Convergencia – todas las secuencias relacionadas fueron
encontradas. • Divergencia – el query es demasiado amplio, utilizar
criterios (cut-offs) más estringentes.
![Page 30: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/30.jpg)
30 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
• estructura secundaria• módulos de señalización • estructura terciaria• plegamientos especializados
![Page 31: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/31.jpg)
31 Fernán Agüero
Predicción de estructura secundaria
• Dada una secuencia primaria de una proteína
GHWIATRGQLIREAYEDYRHFSSECPFIP
• Predecir el contenido de estuctura secundaria (-hélice, -sheets, coils)
CEEEEECHHHHHHHHHHHCCCHHCCCCCC
![Page 32: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/32.jpg)
32 Fernán Agüero
Predicción de estructura secundaria
• Predice la posición más probable de alfa-hélices y
hojas beta.
• Cuando la similitud con otras secuencias es baja,
confirma características estructurales o
funcionales compartidas entre dos secuencias.
• Guía la selección racional de mutantes específicas
para el estudio en el laboratorio.
• Es la base para futuros estudios estructurales.
![Page 33: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/33.jpg)
36 Fernán Agüero
nnpredict
• Estrategia de predicción basada en una red neural (Kneller et al., 1990)
• Best-case accuracy > 65%
• Interfases– E-mail [email protected]– Web http://www.cmpharm.ucsf.edu/
~nomi/nnpredict.html
![Page 34: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/34.jpg)
39 Fernán Agüero
nnpredict query
option: a/b>flavodoxin - Anacystis nidulansAKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Tertiary structure class: alpha/beta
Sequence:AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Secondary structure prediction (H = helix, E = strand, - = no prediction):----EEE------EEEHHHHHHH------EEEH---------------EEEE-----------------------HHHH---EEEE------------H--HHHHHHHH------E--E--E--------------HH--E----------------EHHHHH------
folding class
![Page 35: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/35.jpg)
40 Fernán Agüero
SignalP
• Dos métodos de predicción• Red neural (SignalP-NN)• Modelos de Markov (SignalP-HMM) • Entrenamiento basado en filogenia.
–Gram-negative prokaryotic–Gram-positive prokaryotic–Eukaryotic
• Predice péptido señal (secreción, no los involucrados en transducción de señales intracelulares)
• http://www.cbs.dtu.dk/services/SignalP/
![Page 36: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/36.jpg)
41 Fernán Agüero
SignalP query
************************* SignalP predictions *************************Using networks trained on euk data
>IGF-IB length = 195
# pos aa C S Y . . . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 . . . < Is the sequence a signal peptide?# Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES# Most likely cleavage site between pos. 48 and 49: ATA-GP
>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSORMGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG
N-terminal end onlyEukaryotic set
![Page 37: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/37.jpg)
42 Fernán Agüero
SignalP query
************************* SignalP predictions *************************Using networks trained on euk data
>IGF-IB length = 195
# pos aa C S Y . . . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 . . . < Is the sequence a signal peptide?# Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES# Most likely cleavage site between pos. 48 and 49: ATA-GP
>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSORMGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG
N-terminal end onlyEukaryotic set
C = cleavage site scoreS = signal peptide scoreY = combined score
![Page 38: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/38.jpg)
43 Fernán Agüero
PredictProtein
• Interfases– Web http://
predictprotein.org/
• Algoritmo predictivo en varios pasos. (Rost et al., 1994)– La secuencia de proteína se
compara contra SWISS-PROT
– Se utiliza MaxHom para generar alineamiento multiple baasado en profiles (iterativo) (Sander and Schneider, 1991)
– El alineamiento multiple se utiliza como input para una red neural (PHDsec)
• Precisión– Average >
70%– Best-case > 90%
![Page 39: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/39.jpg)
44 Fernán Agüero
Predict protein query
Joe BuzzcutNational Human Genome Research Institute, [email protected]# flavodoxin - Anacystis nidulansAKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Estructura secundaria
....,....1....,....2....,....3....,....4....,....5....,....6AA |AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG|PHD sec | EEEEEEE HHHHHHHHHHHHH EEEEE HHH HHHH EEEEE |Rel sec |938999736982489999999999767982443213241278631241999861547765|Detail:prH sec |000000000014689999999999821000011112565388764321000001111111|prE sec |058998852000000000000000000003665542100000000014899874120002|prL sec |931000137985310000000000178985222344324511234554000114667776|
• SWISS-PROT hits• Multiple alignment• PDB homologues
![Page 40: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/40.jpg)
45 Fernán Agüero
PHDtopology
• Estrategia similar a PredictProtein (PHDsec)
• Precisión total 94.7%– Predicción de hélices 92.0%– Predicción de loops 96.0%
• Incluye predicción de topología.
• Gratuito para uso académico. Licencia comercial disponible.
• Interfases disponibles– E-mail [email protected]– Web http://predictprotein.org
![Page 41: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/41.jpg)
46 Fernán Agüero
PHDtopology query
Joe BuzzcutNational Human Genome Research Institute, [email protected] htm topology# pendrinMAAPGGRSEPPQLPEYSCSYMVSRPVYSELAFQQQHERRLQERKTLRESLAKCCSCSRKRAFGVLKTLVPILEWLPKYRVKEWLLSDVISGVSTGLVATLQGMAYALLAAVPVGYGLYSAFFPILTYFIFGTSRHISVGPFPVVSLMVGSVVLSMAP...
....,....37...,....38...,....39...,....40...,....41...,....42 AA |YSLKYDYPLDGNQELIALGLGNIVCGVFRGFAGSTALSRSAVQESTGGKTQIAGLIGAII| PHD htm | HHHHHHHHHHHHHH HHHHHHHHHH| Rel htm |368899999999999998641104667777655431257778887777621467788888| detail: | | prH htm |310000000000000000124457888888877765321110000111135788899999| prL htm |689999999999999999875542111111122234678889999888864211100000|
.
.
. PHDThtm |iiiiiiiiiiiiiiiiiiiTTTTTTTTTTTTTTTTTToooooooooooooooTTTTTTTT|
![Page 42: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/42.jpg)
47 Fernán Agüero
Precisión de las predicciones
![Page 43: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/43.jpg)
48 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
• estructura secundaria• módulos de señalización • estructura terciaria• plegamientos especializados
![Page 44: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/44.jpg)
49 Fernán Agüero
Predicción de estructura terciaria
• La secuencia determina la conformación pero no viceversa.
• La estructura se conserva mucho más que la secuencia. – Númer limitado de plegamientos conocidos.
• Similitud entre proteínas no siempre detectada por métodos ‘tradicionales’.
![Page 45: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/45.jpg)
50 Fernán Agüero
PDB Growth
![Page 46: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/46.jpg)
51 Fernán Agüero
ab initio structure prediction
• Funciones de energía que describan la estructura 3D de una proteína
o bond energyo bond angle energyo dihedral angle energyo van der Waals energyo electrostatic energy
o Minimizar las funciones y obtener la estructura. En general poco práctico.o Computacionalmente costosoo Precisión pobre
o Funciona razonablemente para proteínas chicaso Péptidos (~ 20 aa)
![Page 47: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/47.jpg)
52 Fernán Agüero
Contact order
• Orden de contacto– Medida que refleja las interacciones entre aminoácidos en una
proteína– Distancia promedio entre aminoácidos que interaccionan entre
sí• Suma de las distancias / Longitud de la proteína
– Está relacionada con el tiempo de plegamiento de una proteína
• Low contact order proteins = fast folding• High contact order proteinas = slow folding
• Las estructuras de proteínas con valores de contact order bajos son más fáciles de predecir ab initio
![Page 48: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/48.jpg)
53 Fernán Agüero
Ab initio prediction: Rosetta
• Análisis de MSAs de proteínas de estructura conocida– Gran número de patrones de 3-15 aminoácidos, algunos de
los cuales están fuertemente asociados a ciertas estructuras locales
– Algunas de estas estructuras tienen energías predecibles (datos experimentales de NMR)
– I-Sites
• La estrategia recrea el proceso de folding • Análisis usando una ventana de 9 aminoacidos
– Identificación de I-Sites
• Muestreo de posibles estructuras minimizando energía (Monte Carlo)
![Page 49: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/49.jpg)
54 Fernán Agüero
Rosetta online: Robetta
![Page 50: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/50.jpg)
55 Fernán Agüero
Threading
• Predicción de estructura basado en el reconocimiento del fold nativo– thread (alinear o acomodar) una proteína query sobre una
estructura molde de alguna forma óptima. – Un alineamiento bueno provee un backbone aproximado
• Requerimientos– Una biblioteca de moldes– Una función de scoring– Un alineamiento– Evaluar confidencia
• Fuerza bruta– Threading de una secuencia contra todas las estructuras disponibles
(PDB)
![Page 51: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/51.jpg)
56 Fernán Agüero
Threading: performance
Predicted model X-ray structure
![Page 52: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/52.jpg)
57 Fernán Agüero
Threading: aplicaciones
• Predecir estructura
• Identificar homologías distantes
• Predecir función de proteínas con bajo grado de similitud con otras proteínas
![Page 53: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/53.jpg)
58 Fernán Agüero
Threading: moldes
• Bases de datos representativas (no-redundantes)– Estructuras secundarias y formas de combinarlas– Idealmente de dominios, pero depende de que la
partición en dominios se haga correctamente
![Page 54: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/54.jpg)
59 Fernán Agüero
Clases de plegamientos: all alpha
Cyt CGlobinsEF-hand
![Page 55: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/55.jpg)
60 Fernán Agüero
Clases de plegamientos: all beta
• Plasminogen Activator
• Phospatidylinositol 3-kinase
• Beta-2-microglobulin
• Fibroblast Growth Factor
![Page 56: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/56.jpg)
61 Fernán Agüero
Clases de plegamientos: alpha/beta
• PCNA
• Cytochrome P450
• Dehydrogenases (Rossman fold)
![Page 57: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/57.jpg)
62 Fernán Agüero
Proteínas trans-membrana: clases
• Paquete de hélices (helix bundle)Largas extensiones de amino ácidos apolares.
• Plegamiento en -hélices trans-membrana. “Positive-inside rule”– Receptores de superficie– Canales iónicos– Transportadores activos y pasivos.
• Barriles Hojas anti-paralelas dispuestas en cilindro. – Membrana externa de Gram-negativas.– Porinas (difusión selectiva, pasiva).
![Page 58: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/58.jpg)
63 Fernán Agüero
Bases de datos de clasificación de estructuras
• SCOP– Structural Classification of Proteins– http://scop.mrc-lmb.cam.ac.uk/scop– Basada en definición de similitud estructural a cargo
de expertos– Luego de clasificar por clase, SCOP clasifica
proteínas en una jerarquía que incluye: superfamilia, familia y fold
![Page 59: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/59.jpg)
64 Fernán Agüero
Clasificación estructural de proteínas
• CATH– Classification by Class, Architecture, Topology and
Homology– http://www.biochem.ucl.ac.uk/bsm/cath– Clasifica por
• Clase (contenido de estructura 2daria)• Arquitectura (orientación gruesa de la estructura
secundaria)• Fold (topología fina)• Superfamilia (estructura y función similar)
– Utiliza SSAP (secondary structure alignment) para alinear estructuras
![Page 60: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/60.jpg)
65 Fernán Agüero
CATH: catherine wheel
• C: Class level• A: Architecture level• T: Topology (fold-family)• H: Homologous superfamily• S: Sequence families
![Page 61: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/61.jpg)
66 Fernán Agüero
Clasificación estructural de proteínas
• FSSP– Fold Classification based on Structure-Structure alignment of
Proteins– http://www.ebi.ac.uk/dali/fssp– Alineamiento estructural de todas las combinaciones posibles de
proteínas en la base de datos PDB• A nivel de dominios• Usa DALI (Distance alignment tool)
– Generación de un set no-redundante de folds– Cada fold está representado por un cluster de folds de estructura
similar– Valor estadístico Z, describe el grado en que los átomos comparten
posiciones estructurales similares• Z > 16 = muy buen alineamiento estructural• 8 < Z < 16 = buenos alineamientos• 2 < Z < 8 = pobres (2 es el límite de detección).
– 8320 PDB entries 947 estructuras representativas, 1484 dominios, 540 tipos de folds estructuralmente diferentes
![Page 62: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/62.jpg)
67 Fernán Agüero
Alineamiento estructural: distance matrix
• Similar a dot-plots• Se hace un gráfico por proteína
– Cada posición en la grilla corresponde a la distancia entre los átomos C- correspondientes
– Las regiones con más alta densidad de átomos se resaltan dibujando un punto
• Se comparan las estructuras a través de estos gráficos– DALI (
![Page 63: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/63.jpg)
68 Fernán Agüero
Alineamiento estructural: distance matrix
• Similar a dot-plots• Se hace un gráfico por proteína
– Cada posición en la grilla corresponde a la distancia entre los átomos C- correspondientes
– Las regiones con más alta densidad de átomos se resaltan dibujando un punto (< 12 Å)
• Se comparan las estructuras a través de estos gráficos– DALI (Distance Alignment Tool)
![Page 64: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/64.jpg)
69 Fernán Agüero
DALI
• Ejemplo con 3 hélices
1. Identificación del patrón en la proteína A y búsqueda (scanning) del plot de la proteína B buscando similitudes
2. Las búsquedas se hacen en subplots (particiones del espacio de búsqueda)
3. Finalmente todas las similitudes se ensamblan (se remueven inserciones / deleciones y se reordenan las secuencias) para producir el alineamiento final
![Page 65: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/65.jpg)
70 Fernán Agüero
DALI Server
• Comparacion de estructuras 3D– Query: coordenadas– Search against PDB
• http://www.ebi.ac.uk/dali
![Page 66: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/66.jpg)
71 Fernán Agüero
Clasificación estructural de proteínas
• MMDB– Molecular Modelling Database– http://www.ncbi.nlm.nih.gov/Entrez– Proteínas en PDB agrupadas de acuerdo a similitud
estructural usando VAST (Vector Alignment Search Tool)
– Entrez provee ‘structural neighbors’ como links
![Page 67: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/67.jpg)
72 Fernán Agüero
VAST
• Compara los tipos y ordenamientos de hélices y hojas entre y las maneras en que están conectadas.– Pocos tipos de elementos de
estructura secundaria
• La localización y dirección de estos elementos se describen con vectores
![Page 68: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/68.jpg)
73 Fernán Agüero
Comparación de estructuras: VAST
Ricin Chain B
Step 1: Construct vectors for secondary structure elements
![Page 69: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/69.jpg)
74 Fernán Agüero
Comparación de estructuras: VAST (cont.)
Paso 2: Obtener un alineamiento óptimo de los vectores estructurales.
1 2 3 4
5
1 2 3 4
1 2 3 4
1 2 3 4
2 3 4
5
1 2 3 4
1 3 4
5
1 2 3 41 2 3 4
1 2 3
5
1 2 3 4
Proteína 1 Proteína 2
Alineamiento 1 Alineamiento 2 Alineamiento 3 Alineamiento 4
![Page 70: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/70.jpg)
75 Fernán Agüero
Comparación de estructuras: VAST (cont.)
Paso 3: refinar residuo por residuo el alineamiento
Ricin B (both domains)
Hisactophilin
![Page 71: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/71.jpg)
76 Fernán Agüero
Double dynamic programming: SSAP
• Secuencias: cada caracter en la grilla es un aminoácido o una base
• Estructuras: cada caracter en la grilla es un vector– Describe el ambiente local de cada aminoácido
• Distancias interatómicas• Angulos de enlace• Cadenas laterales
• Se derivan vectores desde C-hacia otros aminoácidos– Vision geométrica desde un punto en la proteína
http://cathwww.biochem.ucl.ac.uk/cgi-in/cath/SsapServer.pl
![Page 72: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/72.jpg)
77 Fernán Agüero
SSAP
• Se restan los vectores– Vector de F-E en proteína A– Menos– Vector de C-Q en proteína B
• Se hace dynamic programming (global) para todos los vectores
• Luego se itera:– Se cambia el centro al próximo aminoácido
(V), se generan los vectores, se calcula el mejor camino
• Finalmente se deriva una matriz de resultados– Los caminos compartidos suman sus
puntajes– Se hace dynamic programming sobre esta
matriz final para obtener el alineamiento
![Page 73: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/73.jpg)
78 Fernán Agüero
SSAP
http://cathwww.biochem.ucl.ac.uk/cgi-in/cath/SsapServer.pl
![Page 74: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/74.jpg)
79 Fernán Agüero
Alineamientos estructurales
• La estructura tridimensional de un dominio proteico se alinea en el espacio con la estructura 3D de un segundo dominio proteico
• Alineamiento de secuencias– descubrir similitud de secuencias (origen evolutivo común)
– Modela procesos evolutivos (mutación, inserción/deleción)
• Alineamiento de estructuras– descubrir similitud estructural
– Convergencia evolutiva
• Funcional (función idéntica o similar, estructuras diferentes)
• Estructural (estructura similar, función divergente)
• Alineamientos significativos entre estructuras no necesariamente indican origen evolutivo común.
![Page 75: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/75.jpg)
80 Fernán Agüero
Alineamientos estructurales: loops
• La deleción de un loop ilustra la diferencia entre los dos tipos de alineamientos
PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS
PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS
PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS
ARG
GLU
ALA
CYS
![Page 76: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/76.jpg)
81 Fernán Agüero
Predicción de estructura terciaria
• En Entrez todas las estructuras tienen una proteína asociada, lo cual facilita linkear una estructura a la base de datos de proteínas.
• En Entrez, si una proteína no tiene structure links, buscar los protein links relacionados. Luego buscar los structure links de todas estas secuencias relacionadas. Usando Cn3D (NCBI) se puede visualizar la estructura y el alineamiento de la secuencia inicial con la secuencia que tienen su estructura resuelta.
• Es también posible encontrar una estructura que pegue mejor a la proteína query.
![Page 77: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/77.jpg)
82 Fernán Agüero
Proceso de predicción de estructura terciaria
Query Protein
Protein neighbours
Structure links
Structure neighbours of structures.
View in Cn3D
Ver en Cn3D, mejor match entre estructura y proteína query, dado que la similitud inicial era débil.
![Page 78: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/78.jpg)
83 Fernán Agüero
SWISS-MODEL
• Servidor de modelado automatizado de proteínas automatizado.
• http://swissmodel.expasy.org/
Resultados por E-mail
Búsqueda BLAST para encontrar secuencias similares en PDB
Selecciona moldes con identidad > 25% y un modelo proyectado > 20 aa
Genera modelos
Minimiza energía
Genera archivo PDB para el nuevo modelo
![Page 79: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/79.jpg)
84 Fernán Agüero
Gene 3D
• Base de datos de asignaciones estructurales pre-calculadas para proteínas en genomas completos
• http://www.biochem.ucl.ac.uk/bsm/cath/Gene3D/
![Page 80: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/80.jpg)
85 Fernán Agüero
Protein sequence analysis
HomologySearches
ProfileAnalysis
Comparative Methods
PhysicalProperties
StructuralProperties
Predictive Methods
Protein Sequence
Cuando todo lo demás no funciona! • Composición• Hidrofobicidad
![Page 81: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/81.jpg)
86 Fernán Agüero
Panorama informativo
Nonpolar
Polar Neutral
Polar Basic
Polar Acidic
![Page 82: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/82.jpg)
87 Fernán Agüero
Funciones comunes asociadas a distintos residuos
• C disulphide-rich, metallo-thionein,
zinc fingers• DE acidic proteins (unknown)• G collagens• H histidine-rich glycoprotein• KR nuclear proteins, nuclear
localisation• P collagen, filaments• SR RNA binding motifs• ST mucins
• Polar (C,D,E,H,K,N,Q,R,S,T) - active sites
• Aromatic (F,H,W,Y) - protein ligand-binding sites
• Zn+-coord (C,D,E,H,N,Q) - active site, zinc finger
• Ca2+-coord (D,E,N,Q) - ligand-binding site
• Mg/Mn-coord (D,E,N,S,R,T) - Mg2+ or Mn2+ catalysis, ligand binding
• Ph-bind (H,K,R,S,T) - phosphate and sulphate binding
![Page 83: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/83.jpg)
88 Fernán Agüero
Parámetros físico-químicos
• Proteínas con los mismo parámetros físico-químicos, a menudo son aisladas juntas. – Gel Electrophoresis.– Iso-Electric focusing in pH Gradient.– 2D Gels– Mass Spectroscopy (o Time-of-flight spectroscopy, más precisa)
requiere masses of polypeptides• MALDI: espectroscopía de masa de péptidos trípticos.• Electrospray: producción de péptidos por ruptura física, seguida de
espectroscopía de masa. • Nano-electrospray: descompone peptidos en los aminoácidos
individuales. Requere composición de amino ácidos y peso molecular para identificar péptidos y proteínas.
• Parámetros clásicos.– pI teórico (punto isoeléctrico) – Peso molecular (Mass Spectroscopy. Con o sin modificaciones
post-traduccionales)– Composición aminoacídica. (Mass Spectroscopy)– Coeficiente de extinción
![Page 84: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/84.jpg)
89 Fernán Agüero
Parámetros físico-químicos
• Proteinas con características físico-químicas similares pueden estar relacionadas. – motivos relacionados (contenido de aa similar)
• Distribución similar de amino ácidos polares o cargados. – Proteínas de trans-membrana. – Proteínas de membrana.– Proteínas de unión a DNA.– Hidrofóbicas o hidrofílicas.– Señales de localización.
![Page 85: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/85.jpg)
90 Fernán Agüero
ProtParam
• Calcula parámetros físico-químicos. – Molecular weight– Theoretical pI (isoelectric point pH)– Amino acid composition– Extinction coefficient
• Query simple– SWISS-PROT accession number.– Secuencia ingresada por el usuario.
http://www.expasy.org/tools/protparam.html
![Page 86: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/86.jpg)
91 Fernán Agüero
ProtParam query
MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKLKWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM...
Compute parameters
Number of amino acids: 727Molecular weight: 84936.8Theoretical pI: 5.44
Amino acid composition:
Ala (A) 35 4.8% Leu (L) 57 7.8%Arg (R) 39 5.4% Lys (K) 97 13.3%Asn (N) 28 3.9% Met (M) 25 3.4%Asp (D) 58 8.0% Phe (F) 18 2.5%Cys (C) 6 0.8% Pro (P) 39 5.4%Gln (Q) 36 5.0% Ser (S) 67 9.2%Glu (E) 98 13.5% Thr (T) 22 3.0%Gly (G) 26 3.6% Trp (W) 11 1.5%His (H) 11 1.5% Tyr (Y) 20 2.8%Ile (I) 18 2.5% Val (V) 16 2.2%
Asx (B) 0 0.0%Glx (Z) 0 0.0%Xaa (X) 0 0.0%
Total number of negatively charged residues (Asp + Glu): 156Total number of positively charged residues (Arg + Lys): 136
![Page 87: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/87.jpg)
92 Fernán Agüero
PropSearch
• Utiliza la composición de amino ácidos para detectar relaciones entre proteínas.
• Puede ser utilizado para distinguir miembros de la misma familia de proteínas.
• 144 propiedades físicas se utilizan en el análisis (‘vector’)– Molecular weight– Bulky residue content– Average hydrophobicity and charge
• Búsquedas contra la ‘base de datos de vectores’(PIR and SWISS-PROT)http://www.infobiosud.univ-montp1.fr/SERVEUR/PROPSEARCH/propsearch.html
![Page 88: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/88.jpg)
93 Fernán Agüero
PropSearch query
Rank ID DIST LEN2 POS1 POS2 pI DE_____________________________________________________________________________________________ 1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 - human 2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1 3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1 4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1 5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1 6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2 7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w - yeast 8 >p1;i50463 8.49 772 1 772 5.71 protein kinase - chicken 9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related 10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related 11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related 12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase p130-PITSLRE - mouse 13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related 14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related 15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 - fission 17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I 18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c - yeast 19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w - yeast 21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 22 radi_human 9.76 583 1 583 6.33 RADIXIN. 23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B). 24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II 25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 - human 26 >p1;a57467 9.91 647 1 647 5.74 RalBP1 - rat
>S18193 autoantigen NOR-90 - humanMNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKLKWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM...
Vector searchDIST Odds< 10 87.0%< 8.7 94.0%< 7.5 99.6%
![Page 89: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/89.jpg)
94 Fernán Agüero
TGREASE
• Calcula la hidrofobicidad de una proteína – Distingue regiones putativas trans-membranas– Regiones putativas que formarían el core
hidrofóbico de una proteína globular– Parte del paquete FASTA (Pearson, U. Virginia)
![Page 90: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/90.jpg)
95 Fernán Agüero
Protein sequence analysis
B LA ST
Gapped B LA ST
HomologySearches
Prof ileScan
B LOCK S
PSI-B LA ST
Prof ileA nalysis
Comparat ive M ethods
ProtParam
PropSearch
T GREA SE
PhysicalPropert ies
nnpredict
Pred ictProtein
SignalP
PHDtopology
V A ST
StructuralPropert ies
Predict ive M ethods
Protein Sequence
![Page 91: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural](https://reader036.vdocuments.net/reader036/viewer/2022062520/5665b4991a28abb57c9283d2/html5/thumbnails/91.jpg)
96 Fernán Agüero
Entender los resultados
Secuencia Resultados
Inspección