fisica computazionale applicata alle macromolecole

Fisica Computazionale applicata alle Macromolecole

Pier Luigi Martelli

Università di Bolognagigi@biocomp.unibo.it

051 2094005338 3991609

Reti Neurali per la predizione proteica

Covalent structureTTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

3D structure

Secondary structureEEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........

Secondary structure

position of Trans Membrane Segments along the sequenceTopography

Topology of membrane proteins

Porin (Rhodobacter capsulatus)

Bacteriorhodopsin(Halobacterium salinarum)

-barrel -helices

Outer Membrane Inner Membrane

ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK

Metodi di prima generazioneMetodi di prima generazione

Scale di propensità

•Statistiche sulla presenza dei 20 amminoacidi nelle differenti strutture•Considerazioni fisico-chimiche

Ad ogni tipo di amminoacido viene attribuito un valore di propensità ad assumere una certa struttura

Struttura secondaria: Metodo di Chou-FasmanStruttura secondaria: Metodo di Chou-Fasman

Dato un insieme di strutture note, si conta quante volte ognuno degli amminoacidi è presente in una data struttura e si determina il grado di indipendenza tra l’amminoacido e la struttura

Esempio: ALAKSLAKPSDTLAKSDFREKWEWLKLLKALACCKLSAALhhhhhhhhccccccccccccchhhhhhhhhhhhhhhhhhh

N(A,h) = 7, N(A,c) =1, N=40, N(A)=8,N(h)=27P(A,h) = 7/40, P(A) = 8/40, P(h) = 27/40

Se amminoacido e struttura sono indipendenti:P(A,h) = P(A)P(h)

Il rapporto P(A,h)/P(A)P(h) è detto propensità

Dato un insieme AMPIO di esempi, si costruisce una scala di propensità per ogni residuo e ogni struttura

Name P(H) P(E) Alanine 1,42 0,83Arginine 0,98 0,93Aspartic Acid 1,01 0,54Asparagine 0,67 0,89Cysteine 0,70 1,19Glutamic Acid 1,51 0,37Glutamine 1,11 1,10Glycine 0,57 0,75Histidine 1,00 0,87Isoleucine 1,08 1,60Leucine 1,21 1,30Lysine 1,14 0,74Methionine 1,45 1,05Phenylalanine 1,13 1,38Proline 0,57 0,55Serine 0,77 0,75Threonine 0,83 1,19Tryptophan 1,08 1,37Tyrosine 0,69 1,47Valine 1,06 1,70

Data una nuova sequenza si graficano i valori di propensità residuo per residuo e si ricava una predizione di struttura secondaria

Q3 = 50/60 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)

T S P T A E L M R S T GP(H) 69 77 57 69 142 151 121 145 98 77 69 57P(E) 147 75 55 147 83 37 130 105 93 75 147 75

http://www.expasy.ch/cgi-bin/protscale.pl

Eliche transmembrana: Scala di Kyte e DoolittleEliche transmembrana: Scala di Kyte e Doolittle

Si considera il coefficiente di partizione acqua-ottanolo dei singoli amminoacidiSi considera la frequenza di occorrenza dei singoli amminoacidi nelle eliche transmembrana

Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200

Metodi di seconda generazione GORMetodi di seconda generazione GOR

La struttura assunta da un amminoacido non dipende solo dall’amminoacido stesso, ma anche da quelli che lo affiancano

Si possono estendere le statistiche agli amminoacidi che affiancano l’amminoacido di cui si vuol predire la struttura (tipicamente in una finestra -8 < i < 8 / -13 < i < 13)

Si ottengono dei coefficienti P(A,s,i) di contributo dell’amminoacido A, posto in posizione i rispetto al residuo centrale, alla struttura s per il residuo centrale

Struttura secondaria: Metodo GORStruttura secondaria: Metodo GOR

Q3 = 65 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)

Le posizioni dell’intorno sono considerate scorrelate tra loro, e portano contributi indipendenti

Un metodo più efficiente: Reti neuraliUn metodo più efficiente: Reti neurali

Nuovo paradigma di calcolo: analogia con sistema nervoso

1) Il sistema nervoso è costituito da neuroni2) Il segnale elettrico fluisce nel neurone in una direzione determinata (Principio di polarizzazione dinamica)3)Non esiste continuità citoplasmatica tra le cellule; ogni cellula comunica con alcune cellule in modo specifico attraverso le sinapsi (Principio di specificità connettiva)

Computazione complessa: Bande di MachComputazione complessa: Bande di Mach

Osservate le giunzioni tra le bande

Osservate le giunzioni tra le zone bianche e nere

Da: R. Pierantoni, La trottola di Prometeo, Laterza (1996)

Stimolo Percetto

nsità

Semplice modello di neurone retinicoSemplice modello di neurone retinico

0 20 40 60 80 100

Intensità incidente (fotoni/s)

Potenziale (mV)

Trasduttore lineare Luce-Potenziale

Potenziale

Trasmissione senza connessioniTrasmissione senza connessioni

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Trasmissione con inibizione lateraleTrasmissione con inibizione laterale

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Ogni neurone inibisce i suoi vicini per il 10% del suo potenziale senza inibizioni

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

160 - 0.1 160-0.1 40=140

40 - 0.1 160-0.1 40=20

40 - 0.1 40-0.1 40=32

160 - 0.1 160-0.1 160=128

Molte unità di calcolo uguali, ognuna delle quali compie azioni semplici, ampiamente interconnesse possono compiere computazioni molto complesse.

La “conoscenza” risiede nella topologia delle connessioni e nella “forza” della sinapsi

Modello di neurone di Modello di neurone di McCulloch e Pitts

Unità computazionale che compie la somma pesata dei segnali in ingresso (attivazione,a)

trasforma l’attivazione secondo una funzione di trasferimento g (output, z)

ii xwa

w: pesi sinaptici: soglia di attivazione

Funzioni di trasferimentoFunzioni di trasferimento

-10 0 10

Si usano solitamente funzioni NON lineari

Reti neuraliReti neurali

Wij Pesi sinaptici

Neurone i

ii xwa

La soglia può essere considerata come ulteriore neurone sempre attivo e collegato con peso sinaptico pari a -

Reti neurali: topologieReti neurali: topologie

La topologia delle connessioni definisce il tipo di rete. Ci occuperemo solo delle reti feed-forward in cui i neuroni sono organizzati in strati gerarchici e il segnale fluisce in una unica direzione.

Percettroni2 soli strati: Input e Output wij

iijj xwgz

Reti neurali e operatori logiciReti neurali e operatori logici

ORw13 = 0.5 w23 = 0.5 3 = 0.25

a3 = 0.25z3 = 1

a3 = 0.75z3 = 1

a3 = -0.25z3 = 0

ANDw13 = 0.5 w23 = 0.5 3 = 0.75

a3 = -0.25z3 = 0

a3 = 0.25z3 = 1

a3 = -0.75z3 = 0

NOT (1)w13 = -0.5 w23 = 0.1 3 = -0.25

a3 = -0.25z3 = 0

a3 = 0.35z3 = 1

a3 = -0.15z3 = 0

a3 = 0.25z3 = 1

Separabilità lineareSeparabilità lineare

Data la funzione di trasferimento, il neurone risulta attivato se:

Lo spazio degli input è così diviso in due zone da un iperpiano.

Se i mapping che vogliamo effettuare non sono linearmente separabili, il percettrone è insufficiente

Separabilità lineareSeparabilità lineare

AND OR NOT(1)

Non linearmente separabile: un percettrone non può risolverlo

Reti neurali feed-forward a più stratiReti neurali feed-forward a più strati

Neuroni organizzati a strati

Ogni strato riceve input da quello precedente e trasmette un segnale a quello successivo

ijj xwgz

ijj zwgz

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = -0.5 z1

1 = 0 a1

2 = -0.5 z12 = 0

a21 = -0.5 z1

x1 = 0 x2 = 0

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.2 z1

1 = 1 a1

2 = -0.2 z12 = 0

a21 = 0.2 z1

x1 = 1 x2 = 0

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.2 z1

1 = 1 a1

2 = -0.2 z12 = 0

a21 = 0.2 z1

x1 = 0 x2 = 1

11 = 0.7 w121 = 0.7 1

1 = 0. 5 w1

12 = 0.3 w122 = 0.3 1

2 = 0. 5 w2

11 = 0.7 w221 = -0.7 1

2 = 0. 5

a11 = 0.9 z1

1 = 1 a1

2 = 0.1 z12 = 1

a21 = -0.5 z1

x1 = 1 x2 = 1

Gli strati nascosti mappano l’input in una Gli strati nascosti mappano l’input in una rappresentazione linearmente separabilerappresentazione linearmente separabile

Input Output Attivazione desiderato neuroni hidden

0 0 0 0 01 0 1 0 10 1 1 0 11 1 0 1 1

Reti neurali supervisionateReti neurali supervisionate

Le reti neurali Feed-forward possono essere addestrate a partire da esempi di cui sia nota la soluzione.

Funzione di erroreDato un insieme di esempi xi

il cui output desiderato di sia noto, data una rete a parametri w, si può calcolare l’errore quadratico sugli output della rete z (j corre sugli output)

ij dwxzE

Addestrare la rete significa trovare i parametri w che minimizzano tale errore: algoritmi di minimizzazione iterativi che NON garantiscono il raggiungimento del minimo globale

Addestramento di un percettroneAddestramento di un percettrone

Consideriamo come funzione di trasferimento una funzione derivabile:

1)( )(1)(

1)(' 2 agag

Dati dei parametri iniziali w:

ijlj wxw

dwxzwxz

),(),(

)('),(

x1 jj agz

iljj l

ij dwxzE

Addestramento di un percettroneAddestramento di un percettrone

Così:

xxagdwxzw

E )('),(

Scarto: ij

Si possono aggiornare i pesi per “discesa del gradiente”

ljljlj w

è detta velocità di apprendimento:troppo piccola: addestramento lentotroppo grande: si superano i minimi

Convergenza: 0

Esempio: OREsempio: OR

3w13 = 0 w23 = 0 3 = 0 =2

Esempi presentatix1 x2 d a z E w13 w13 3

1 0 1 0 0.5 0.125 -0.125 0 0.1250 1 1 0 0.5 0.125 0 -0.125 0.1250 0 0 0 0.5 0.125 0 0 -0.1250 0 0 0 0.5 0.125 0 0 -0.125

0.5 -0.125 -0.125 0

Esempio: OR, Step 1Esempio: OR, Step 1

3w13 = 0.25 w23 = 0.25 3 = 0 =2

1 0 1 0.25 0.56 0.096 -0.108 0 0.1080 1 1 0.25 0.56 0.096 0 -0.108 0.1080 0 0 0 0.5 0.125 0 0 -0.1250 0 0 0 0.5 0.125 0 0 -0.125

0.442 -0.108 -0.108 -0.035

3w13 = 0.466 w23 = 0.466 3 = 0.069 =2

1 0 1 0.397 0.598 0.081 -0.097 0 0.0970 1 1 0.397 0.598 0.081 0 -0.097 0.0970 0 0 -0.069 0.483 0.117 0 0 -0.1210 0 0 -0.069 0.483 0.117 0 0 -0.121

0.395 -0.097 -0.097 -0.048

3w13 = 0.659 w23 = 0.659 3 = 0.164 =2

1 0 1 0.494 0.621 0.072 -0.089 0 0.0890 1 1 0.494 0.621 0.072 0 -0.089 0.0890 0 0 -0.164 0.459 0.105 0 0 -0.1140 0 0 -0.164 0.459 0.105 0 0 -0.114

0.354 -0.089 -0.089 -0.05Continua Train

GeneralizzazioneGeneralizzazione

3w13 = 0.659 w23 = 0.659 3 = 0.164 =2

Per l’esempio non presentato (1,1)?x1 x2 d a z

1 1 1 1.153 0.760

La rete ha generalizzato le regole apprese ad un esempio ignoto

Addestramento per reti a più strati:Back-Addestramento per reti a più strati:Back-propagationpropagation

i zzagdwxzw

,1,2,122

)('),(

Per lo strato 2, valgono le formule date per il percettrone, con la sostituzione x z1,i

Per lo strato 1:

Definisco ij

k waga 2,1,2 )(2,1

)(' jki

ik wag

2,1,2,1 )(' jki

ij wag

passo feed-forward per calcolare zl ;calcolo dello scarto sugli output, 2

l;calcolo dello scarto sui neuroni nascosti, j

1;calcolo delle derivate dell’errore rispetto ai pesi

Output

Cosa apprende una rete?Cosa apprende una rete?

Consideriamo il caso limite ideale in cui la rete venga addestrata su un insieme continuo di esempi, x, ciascuno presente con probabilità P(x) e che le soluzioni desiderate t siano associate ad ognuno degli esempi con probabilità P(t | x)

jj dxxPxdPdwxzE dd)()|(),(2

Training, a convergenza:

jj dxxxxPxdPdwxz d)d-()()|(),(0 ,

jjjj dxdPdwxz d)|(),(

Derivata funzionale

Lo stato di attivazione del j-esimo neurone di output è uguale alla media delle soluzioni associate all'input x nell'insieme di addestramento

PredictionNew sequence

Prediction

Tools out of machine learning approaches

Neural Networks can learn the mapping from sequence to secondary structureNeural Networks can learn the mapping from sequence to secondary structure

General

Data Base Subset

Known mapping

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Training

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE

Reti neurali per la predizione della struttura Reti neurali per la predizione della struttura secondariasecondaria

Output

M P I L K QK P I H Y H P N H G E A K G

A 0 0 0 0 0 0 0 0 0C 0 0 0 0 0 0 0 0 0D 0 0 0 0 0 0 0 0 0 E 0 0 0 0 0 0 0 0 0 F 0 0 0 0 0 0 0 0 0G 0 0 0 0 0 0 0 0 0H 0 0 0 1 0 1 0 0 1I 0 0 1 0 0 0 0 0 0K 1 0 0 0 0 0 0 0 0L 0 0 0 0 0 0 0 0 0M 0 0 0 0 0 0 0 0 0N 0 0 0 0 0 0 0 1 0P 0 1 0 0 0 0 1 0 0Q 0 0 0 0 0 0 0 0 0R 0 0 0 0 0 0 0 0 0S 0 0 0 0 0 0 0 0 0T 0 0 0 0 0 0 0 0 0 V 0 0 0 0 0 0 0 0 0W 0 0 0 0 0 0 0 0 0Y 0 0 0 0 1 0 0 0 0

Tipicamente:Input 17-23 residui

Hidden neuron :4-15

ACDEFGHIKLMNPQRSTVWY.

Metodi di terza generazione: l’informazione Metodi di terza generazione: l’informazione evolutivaevolutiva

1 Y K D Y H S - D K K K G E L - -2 Y R D Y Q T - D Q K K G D L - -3 Y R D Y Q S - D H K K G E L - -4 Y R D Y V S - D H K K G E L - -5 Y R D Y Q F - D Q K K G S L - -6 Y K D Y N T - H Q K K N E S - -7 Y R D Y Q T - D H K K A D L - -8 G Y G F G - - L I K N T E T T K 9 T K G Y G F G L I K N T E T T K10 T K G Y G F G L I K N T E T T K

A 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0D 0 0 70 0 0 0 0 60 0 0 0 0 20 0 0 0E 0 0 0 0 0 0 0 0 0 0 0 0 70 0 0 0F 0 0 0 10 0 33 0 0 0 0 0 0 0 0 0 0G 10 0 30 0 30 0 100 0 0 0 0 50 0 0 0 0H 0 0 0 0 10 0 0 10 30 0 0 0 0 0 0 0K 0 40 0 0 0 0 0 0 10 100 70 0 0 0 0 100I 0 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0L 0 0 0 0 0 0 0 30 0 0 0 0 0 0 0 0M 0 0 0 0 0 0 0 0 0 0 0 0 0 60 0 0N 0 0 0 0 10 0 0 0 0 0 30 10 0 0 0 0P 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0Q 0 0 0 0 40 0 0 0 30 0 0 0 0 0 0 0R 0 50 0 0 0 0 0 0 0 0 0 0 0 0 0 0S 0 0 0 0 0 33 0 0 0 0 0 0 10 10 0 0T 20 0 0 0 0 33 0 0 0 0 0 30 0 30 100 0V 0 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0W 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0Y 70 0 0 90 0 0 0 0 0 0 0 0 0 0 0 0

Position

SeqNo No V L I M F W Y G A P S T C H R K Q E N D

1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80 3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0 4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0 5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63 7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0 8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0 9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0 10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0 11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50 12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0 13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14 14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0

The Network Architecture for Secondary Structure

Prediction

PredictionThe First Network (Sequence to Structure)The First Network (Sequence to Structure)

CCHHEHHHHCHHCCEECCEEEEHHHCC

Prediction

SeqNo No V L I M F W Y G A P S T C H R K Q E N D

1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80 3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0 4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0 5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0 6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63 7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0 8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0 9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0 10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0 11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50 12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0 13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14 14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0

The Second Network (Structure to Structure)The Second Network (Structure to Structure)

CCHHEHHHHCHHCCEECCEEEEHHHCC

Protein set

Training set 1

Testing set 1

The cross validation procedureThe cross validation procedure

The Performance on the Task of Secondary Structure

Prediction

The Performance on the Task of Secondary Structure

Prediction

Efficiency of the Neural Network-Based Predictors onthe 822 Proteins of the Testing Set

INPUTQ3 (%) 66.3

Single SOV 0.62Sequence Q[H] 0.69 Q[E] 0.61 Q[C] 0.66

P[H] 0.70 P[E] 0.54 P[C] 0.71C[H] 0.54 C[E] 0.44 C[C] 0.45

Q3(%) 72.4Multiple SOV 0.69Sequence Q[H] 0.75 Q[E] 0.65 Q[C] 0.75(MaxHom) P[H] 0.77 P[E] 0.64 P[C] 0.73

C[H] 0.64 C[E] 0.54 C[C] 0.53Q3(%) 73.4

Multiple SOV 0.70Sequence Q[H] 0.75 Q[E] 0.70 Q[C] 0.73(PSI-BLAST) P[H] 0.80 P[E] 0.63 P[C] 0.75

C[H] 0.67 C[E] 0.56 C[C] 0.53

Combinando differenti reti: Q3 =76/78%

Secondary Structure PredictionSecondary Structure Prediction

Dalla sequenzaDalla sequenza

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........

Alla struttura secondaria Alla struttura secondaria

7997688899999988776886778999887679956889999999

E alla probabilità di corretta predizioneE alla probabilità di corretta predizione

PredictProtein Burkhard Rost (Columbia Univ.)http://cubic.bioc.columbia.edu/predictprotein/

PsiPRED David Jones (UCL)http://bioinf.cs.ucl.ac.uk/psipred/

JPred Geoff Barton (Dundee Univ.)

SecPRED http://www.biocomp.unibo.it

SERVERSSERVERS

QEALEIA

Translation Initiation Factor 3

Bacillus stearothermophilus

……GIKSKQEALEIAARRN……

Transcription Factor 1

Bacteriophage Spo1

……FNPQTQEALEIAPSVGV……

Segmenti CamaleonteSegmenti Camaleonte

We extract: We extract:

2,452 5-mer chameleons 107 6-mer chameleons 16 7-mer chameleons 1 8-mer chameleon

2,576 couples

The total number of residues in chameleons is 26,044 out of 755 protein chains (~15%)

from a set of 822 non-homologous proteins(174,192 residues)

NGDQLGIKSKQEALEIAARRNLDLVLVAP

ARKGFNPQTQEALEIAPSVGVSVKPG

Prediction of the Secondary Structure of Chameleon sequences with Neural

Networks

Prediction of the Secondary Structure of Chameleon sequences with Neural

NetworksQEALEIAHHHHHHH

QEALEIACCCCCCC

The Prediction of Chameleons with Neural Networks

•Struttura secondaria

•Siti di iniziazione del folding

•Topologia delle proteine di membrana

•Stato di legame delle cisteine

•Mappe di contatto delle proteine

•Superfici di contatto di strutture proteiche

Altri predittori a reti neuraliAltri predittori a reti neurali

Predizione dello stato di legame delle cisteinePredizione dello stato di legame delle cisteine

Tryparedoxin-I from Crithidia fasciculata (1QK8)

Free cysteines

Disulphide bonded cysteines

MSGLDKYLPGIEKLRRGDGEVEVKSLAGKLVFFYFSASWCPPCRGFTPQLIEFYDKFHES KNFEVVFCTWDEEEDGFAGYFAKMPWLAVPFAQSEAVQKLSKHFNVESIPTLIGVDADSG DVVTTRARATLVKDPEGEQFPWKDAP

NGDQLGIKSKQEALCIAARRNLDLVLVAP

Legata

Non Legata

Percettrone (con input a profilo di sequenza)Percettrone (con input a profilo di sequenza)

Cosa è memorizzato nei pesi sinaptici?Cosa è memorizzato nei pesi sinaptici?

Residue

Hinton’s plot

bonding state

non bonding state

V L I M F W Y G A P S T C H R K Q E N D 0 & #

-5-4-3-2-1 0 1 2 3 4 5

Residue V L I M F W Y G A P S T C H R K Q E N D 0 & #

-5-4-3-2-1 0 1 2 3 4 5

Residue

Bonded statesFree states

Struttura sintattica Struttura sintattica

Bonding Residue State State

C40C43C68

Un possibile camminoUn possibile cammino

C40 1 FC43C68

P(seq) = P(1 | Begin) P(C40 | 1) ...

C40 1 FC43 2 BC68

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) ..

C40 1 FC43 2 BC68 4 B

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) .. P(4 | 2) P(C68 | 4) ..

C40 1 FC43 2 BC68 4 B

P(seq) = P(1 | Begin) P(C40 | 1) ... P(2 | 1) P(C43 | 2) .. P(4 | 2) P(C68 | 4) .. P(End | 4)

C40 1 FC43 1 FC68 1 F

C40 1 FC43 2 BC68 4 B

C40 2 BC43 4 BC68 1 F

C40 2 BC43 3 FC68 4 B

I 4 possibili camminiI 4 possibili cammini

MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP...

P(B|W1), P(F|W1) P(B|W3), P(F|W3)P(B|W2), P(F|W2)

W1 W2 W3

Free Cys

Bonded Cys

Viterbi path

Prediction of bonding state of cysteines

Sistema ibridoSistema ibrido

Residue

C40 C43 C68

Predizione della TriparedoxinaPredizione della Triparedoxina

NN Output NN predResidue B F

C40 99 1 B C43 82 18 B C68 61 39 B

NN Output NN pred HMM HMM predResidue B F Viterbi path

C40 99 1 B 2 BC43 82 18 B 4 BC68 61 39 B 1 F

Table I. Performance of the NN predictor (20-fold cross

validation) Set Q2 C Q(B) Q(F) P(B) P(F) Q2prot WD 80.4 0.56 67.2 87.5 74.3 83.2 56.9 RD 80.1 0.56 67.2 87.6 75.7 82.2 49.7

B= cysteine bonding state, F=cysteine free state. WD= whole database (969 proteins, 4136 cysteines) RD= Reduced database, in which the chains containing only one cysteine are

removed (782 proteins, 3949 cysteines).

Table II. Performance of the Hidden NN predictor (20-fold cross validation) Set Q2 C Q(B) Q(F) P(B) P(F) Q2prot WD 88.0 0.73 78.1 93.3 86.3 88.8 84.0 RD 87.4 0.73 78.1 92.8 86.3 88.0 80.2

Neural Network

Hybrid system

Martelli PL, Fariselli P, Malaguti L, Casadio R. -Prediction of the disulfide bonding state of cysteines in proteins with hidden neural networks- Protein Eng. 15:951-953 (2002)

Performance del predittorePerformance del predittore

fisica computazionale applicata alle macromolecole

Documents

macromolecole biologiche

macromolecole -...

biologia computazionale @ uniud

elaborazione del linguaggio naturale - appunti … del...

dottorato di ricerca in linguistica generale, storica...

linguistica computazionale e approcci corpus-based cristina...

macromolecole biologiche 2. glucidi

1 biologia applicata folin marcella 310 -...

fisica computazionale applicata alle macromolecole pier...

pensiero computazionale

chimica macromolecole

complessità computazionale...2 complessità computazionale...

macromolecole biologiche 3. lipidi

macromolecole biologiche 5. acidi nucleici

3b torriero atomi e macromolecole

corpora e linguistica computazionale cristina bosco corso di...

il pensiero computazionale, questo...

macromolecole biologiche 1.in generale

il pensiero computazionale

pensiero computazionale informazioni pratiche -...