lo studio della struttura delle proteine mediante metodi …unina.stidue.net/bioinformatica/slide...
TRANSCRIPT
- 8 -
- Lo studio della struttura delle proteine
mediante metodi computazionali -
Lo scopo della Bioinformatica e della Biologia Computazionale è quello di offrire
strumenti e metodologie capaci di gestire ed analizzare la grande quantità di
informazioni prodotte nel campo della ricerca biologica, determinata soprattutto
dall‟enorme produzione di sequenze di acidi nucleici e di proteine, che è il risultato
degli studi relativi alle due discipline “omiche”, genomica e proteomica.
L‟obiettivo dell‟era post-genomica è quello di comprendere i meccanismi molecolari
che determinano l‟attività biologica di tutte le proteine codificate da ciascun genoma
sequenziato.
Per poter raggiungere questo obiettivo, gli strumenti computazionali e bioinformatici
sono di grande aiuto, anche se essi devono essere considerati naturalmente
complementari e non alternativi alle normali tecniche sperimentali. Questi strumenti
sono, infatti, utili per comprendere come le proteine si ripiegano nelle strutture native
(“protein folding”), per predire la struttura tridimensionale di una proteina, in modo
veloce ed accurato, dalla sola conoscenza della sua sequenza amminoacidica, e per
formulare ipotesi sull‟attività biologica della proteina in esame. Tuttavia, è ovviamente
da ricordare che qualunque applicazione pratica di quanto ipotizzato può essere
realizzata solo mediante ulteriori studi di tipo sperimentale.
- 9 -
1.1 Protein folding
Le proteine svolgono nelle cellule degli organismi viventi un gran numero di funzioni
che vanno dal semplice trasporto e immagazzinamento di piccole molecole e ioni a ruoli
più complessi quali i processi enzimatici che sono necessari per la vita. Queste
macromolecole sono costituite da venti tipi diversi di amminoacidi, legati in
successione mediante il legame peptidico. Le diverse possibili sequenze di amminoacidi
determinano strutture diverse dal punto di vista sia della struttura covalente sia della
conformazione assunta nello spazio dalla proteina. Ed è proprio la struttura 3D di una
proteina che determina la sua funzione.
In realtà, non è realistico ipotizzare una semplice assegnazione sequenza->struttura, dal
momento che sono conosciute molte proteine che, pur avendo un valore di omologia di
sequenza molto basso, hanno strutture tridimensionali molto simili. Il numero di
conformazioni strutturali (struttura tridimensionale di una proteina o fold), osservate
finora, è minore di 700, anche perché queste derivano dalla combinazione di un piccolo
numero di elementi semplici quali i due elementi principali di struttura secondaria
presenti nelle proteine, eliche e foglietti .
Il meccanismo di avvolgimento della catena polipeptidica (folding), mediante il quale
una proteina assume in condizioni fisiologiche la sua struttura tridimensionale
funzionalmente attiva, rappresenta il passaggio conclusivo del trasferimento
dell‟informazione genetica dal DNA al suo prodotto finale (proteina attiva). La
comprensione dei meccanismi, attraverso cui una catena polipeptidica giunge alla sua
struttura tridimensionale attiva, affascina gli studiosi da vari decenni. Nel 1931, quando
- 10 -
non era noto niente riguardo la sequenza e la struttura tridimensionale delle proteine,
Wu [Wu, 1931] ha analizzato il processo di denaturazione delle proteine ed il loro
ritorno allo stato nativo. Negli anni „30 sono stati pubblicati molti articoli, che mostrano
che il processo di unfolding delle proteine è reversibile, sottolineando in questo modo
che il “protein folding” è un processo spontaneo. Negli anni ‟50 le nuove conoscenze
termodinamiche hanno sottolineato l‟importanza delle interazioni non covalenti
riguardo la stabilità delle proteine; in particolare, Kauzmann ha suggerito che l‟effetto
idrofobico è la forza guida, che dirige il processo del folding [Kauzmann, 1959]. La
determinazione della prima struttura 3D di una proteina (cioè della mioglobina) nel
1958 ad opera di John Kendrew mediante il metodo di diffrazione ai Raggi X ha fornito
una nuova base per l‟analisi della struttura delle proteine e per lo studio del processo di
folding. Anfinsen ha dimostrato che alcune proteine in vitro possono essere sottoposte,
introducendo agenti denaturanti quali la guanidina e l‟urea, ad un processo reversibile di
denaturazione, durante il quale perdono la loro struttura tridimensionale [Anfinsen et al.,
1961; Anfinsen et al., 1962; Anfinsen, 1973]. Rimuovendo questi agenti denaturanti si
riottiene la struttura tridimensionale attiva caratterizzata da una struttura tridimensionale
compatta [Figura 1.1]. Questa osservazione ha consentito ad Anfinsen di affermare che
l‟informazione necessaria per ottenere la conformazione nativa (N) di una proteina in
una data condizione fisiologica è contenuta nella sua sequenza amminoacidica. Ciò, da
un punto di vista termodinamico, si traduce nella possibilità di affermare che lo stato N
nelle condizioni fisiologiche costituisce un minimo dell‟Energia Libera di Gibbs.
- 11 -
Figura 1.1 Schema relativo all‟esperimento di Anfinsen.
Le osservazioni di Anfinsen sono state ulteriormente ampliate e discusse da Levinthal,
che si pose il problema del tempo necessario affinché un sistema potesse raggiungere il
suo stato di equilibrio [Levinthal, 1968]. Infatti, supponendo che il numero di
conformazioni accessibili al singolo amminoacido sia uguale a due (elica e foglietto
beta), per una catena polipeptidica di 100 amminoacidi il numero totale di
conformazioni possibili è 2100
, che corrisponde a più di 1030
. Se noi assumiamo che il
tempo di interconversione da una conformazione alla sua alternativa è pari a 10-11
Schema dell’esperimento di Anfinsen
- 12 -
secondi, il tempo necessario per una ricerca casuale di tutte le conformazioni è di 1011
anni. Dato che i tempi di folding spaziano da qualche secondo ad alcuni minuti è
evidente che l‟evoluzione ha trovato una soluzione efficace a questo procedimento. La
soluzione di Levinthal a questo paradosso, ampliata e portata avanti anche da altri
autori, è stata che il meccanismo di folding è sottoposto ad un controllo di tipo cinetico,
ovvero che esistono dei veri e propri percorsi definiti, che conducono dalla struttura
casuale e lineare (U) alla struttura nativa e funzionale (N). Da questo momento molti
autori cominciarono a valutare se gli stati parzialmente strutturati, evidenziati
sperimentalmente, rappresentassero degli intermedi produttivi (on pathway), cioè delle
tappe fondamentali nel percorso del folding, o degli intermedi improduttivi (off
pathway). Agli inizi degli anni ‟80 è stato evidenziato che gli intermedi on pathway
hanno una struttura secondaria in grado di formare un nucleo compatto, ma più espanso
della proteina nativa a causa dell‟assenza di specifiche interazioni terziarie (molten
globule) [Figura 1.2].
Gli studi sono poi continuati negli anni fino ad arrivare ad una nuova visione del
“protein folding” (folding funnel). In questa nuova visione, il concetto di percorso di
folding, costituito da eventi sequenziali, è stato sostituito dal concetto di imbuto (funnel)
di eventi paralleli rappresentato da diagrammi energetici [Figura 1.3]. In questi
diagrammi l‟asse verticale rappresenta l‟energia libera interna di ogni specifica
conformazione mentre gli assi orizzontali rappresentano le coordinate conformazionali
necessarie per specificare ogni singola conformazione (ad esempio gli angoli diedri). La
forma ad imbuto descrive la progressiva riduzione dello spazio conformazionale
- 13 -
accessibile, a partire dai molti gradi di libertà disponibili per le catene denaturate, fino
ad arrivare alla proteina nello stato nativo che è caratterizzata, in prima
approssimazione, da un unico sottostato conformazionale. Nella Figura 1.3a è
rappresentato l‟imbuto che descrive il panorama energetico (energy landscape) più
semplice cioè quello di una reazione a due stati, in cui non c‟è nessuno stato intermedio.
Se si prendono in considerazione la formazione di intermedi, di trappole cinetiche e la
presenza di barriere energetiche, il panorama diviene più vario [Figura 1.3b]. Il
modello ad imbuto supera il paradosso di Levinthal, in quanto, pur ammettendo un gran
numero di diversi cammini, alcuni dei quali possono dare origine ad intermedi
inizialmente improduttivi, non consente un campionamento completamente casuale ma
spinge il sistema verso il suo minimo di energia favorendo alcuni riarrangiamenti che
portano verso lo stato nativo e rendendo estremamente improbabili i percorsi che
risalgono l‟imbuto energetico.
La nuova visione sul folding ha fornito uno spunto per altri studi, che si propongono di
comprendere la relazione esistente tra le caratteristiche intrinseche di una proteina e la
sua velocità di folding allo scopo di identificare parametri utili a predire l‟una in base
alle altre. Qualche anno fa, da un‟analisi di proteine appartenenti a famiglie non
omologhe, per le quali era disponibile una grande quantità di dati strutturali e cinetici, è
emersa una correlazione tra la distanza media nella sequenza fra i residui che
interagiscono nello stato nativo e la velocità di folding.
- 14 -
Figura 1.2 Rappresentazione schematica del molten globule a confronto con la struttura
dello stato nativo.
Figura 1.3 Rappresentazione schematica attraverso diagrammi energetici a tre
dimensioni („folding funnels‟) del processo di folding a due stati (a) e multistato (b).
- 15 -
Questo parametro è stato definito contact order. A questi lavori sperimentali si sono
affiancati una serie di lavori teorici di Dinamica Molecolare, con il fine di simulare le
proprietà strutturali fondamentali degli intermedi, che si formano durante il folding e
che sono risultate essere correlate alle proprietà topologiche dello stato nativo [Clementi
et al., 2000]. Inoltre, è stato anche determinato il ruolo giocato dalla posizione
geometrica degli amminoacidi nel processo del folding in alcune proteine.
Il “protein folding” è un argomento di grande interesse soprattutto dopo che è stato
completato il sequenziamento del genoma di vari organismi (732 Batteri, 44 Archea e
786 Eucarioti). Infatti, il problema maggiore dell‟era post-genomica è quello di
individuare i singoli geni e le proteine da essi codificate e, soprattutto, di avere
informazioni sulla loro struttura tridimensionale, perché è essa, più della sequenza, che
definisce la loro funzione biologica. La comprensione approfondita dei meccanismi
molecolari, che sono alla base del folding delle proteine, rappresenterebbe un traguardo
per tutta la comunità scientifica, in quanto essa fornirebbe la possibilità di curare molte
patologie associate ai processi di misfolding e di aggregazione di proteine, quali le
encefalopatie spongiformi, che si possono originare in seguito a disordini genetici
sporadici e/o infettivi, che coinvolgono il cambiamento conformazionale della proteina.
Ad esempio, quella del prione è una proteina di cui non si conosce ancora la funzione.
Essa è presente nella cellula nella sua conformazione normale PrPC, che è costituita
principalmente da -eliche, e si converte nella forma patologica PrPSC
in cui parte delle
-eliche si trasforma in foglietti . Il meccanismo dell‟azione infettiva del prione
sembra essere quello di agire come stampo per la conversione di altre proteine sane
- 16 -
nella forma patologica. In pratica, le proteine patologiche sono in grado di indurre in
proteine sane una cambiamento conformazionale che produce un riarrangiamento
conformazionale (misfolding). Come il prione si converte dalla forma normale a quella
patologica e cosa favorisce questo processo è ancora sconosciuto.
La pubblicazione della sequenza completa del genoma di vari organismi, ha portato alla
scoperta delle sequenze di molte proteine, di cui non sono note né le strutture né le
funzioni. Al momento sono riportate nella banca dati GenBank 32 549 400 sequenze
nucleotidiche, in UniProt/Swiss-Prot 1 585 764 sequenze proteiche e in PDB 27 761
strutture proteiche. Come si vede da questi dati, il numero di proteine, di cui è stata
determinata sperimentalmente la struttura 3D, è molto più basso di quello delle
sequenze note; ciò è dovuto certamente sia al fatto che i metodi sperimentali non sono
sempre applicabili sia al fatto che il loro utilizzo richiederebbe troppo tempo.
1.2 Metodi di predizione della struttura delle proteine
La struttura di una proteina può essere ottenuta sperimentalmente mediante
Spettroscopia di Risonanza Magnetica (NMR) e mediante diffrazione ai Raggi X (RX).
L‟NMR permette di esaminare una proteina in soluzione e di generare anche un quadro
della sua dinamica ma è applicabile solo a proteine che non superano i 250-300 residui.
La diffrazione ai Raggi X offre dati molto precisi ma le strutture costrette in cristalli non
sempre rappresentano immagini fedeli di proteine nella loro conformazione attiva.
Questi metodi sperimentali spesso non possono essere utilizzati dal momento che non
- 17 -
tutte le proteine sono cristallizzabili o solubili nelle quantità sufficienti per misure
NMR.
In alternativa ai metodi sperimentali, si sono sviluppati dei metodi computazionali
aventi lo scopo di predire la struttura tridimensionale di una proteina, in modo veloce ed
accurato, dalla sola conoscenza della sua sequenza amminoacidica e di comprendere
come le proteine si ripiegano nelle strutture native. Attualmente ci sono vari metodi di
predizione di struttura secondaria delle proteine e di struttura terziaria, tra i quali si
possono distinguere tre categorie: modellamento per omologia, riconoscimento di fold e
metodi ab-initio.
1.3 Metodi di predizione di struttura secondaria
Negli ultimi anni le tecniche di predizione di struttura secondaria sono arrivate ad
offrire un alto grado di affidabilità. In generale, si possono distinguere due tipi di
metodi: metodi statistici e metodi connessionistici. Essi si propongono di assegnare
gli elementi di struttura secondaria a sequenze proteiche partendo dalla conoscenza
della struttura di proteine, utilizzate come campioni esemplari, delle quali siano note sia
la sequenza sia la conformazione tridimensionale.
Una delle tecniche di predizione su base statistica più usate è quella elaborata da Chou
e Fasman, che va a valutare la propensità di ciascun amminoacido a trovarsi in una
particolare struttura secondaria (elica, -strand e coil) [Chou & Fasman, 1974]. Questo
metodo fornisce una tabella nella quale ciascun amminoacido viene classificato con un
- 18 -
coefficiente, che riflette la frequenza con la quale esso forma, interrompe o è
indifferente alla formazione di ciascun tipo di struttura secondaria.
Un altro criterio statistico di predizione è quello di Garnier, Osguthorpe e Robson.
L‟idea basilare su cui tale metodo è fondato è che lo stato conformazionale di un dato
amminoacido è determinato non solo dalla sua stessa natura ma anche da quella degli
altri amminoacidi ad esso adiacenti. Quindi un dato amminoacido R nella posizione j+m
esercita un‟influenza sullo stato confomazionale del residuo j-mo misurata come I(Sj,
Rj+m), dove Sj è lo stato conformazionale del residuo j . Ciò significa che se il residuo
nella posizione j-1 si trova in un dato elemento strutturale, è probabile che anche il
residuo j faccia parte di esso. In pratica si considera significativa l‟influenza di 8 residui
amminoacidici a sinistra ed a destra di quello considerato.
La probabilità che il residuo j adotti la conformazione S viene calcolata come
L(Sj) = I(Sj,Rj+m) dove m = -8, …., +8
e per il residuo j viene predetto lo stato conformazionale al quale corrisponde il
maggiore valore di probabilità.
Questi metodi statistici non raggiungono un‟accuratezza maggiore del 65%.
L‟informazione evolutiva presente nell‟allineamento multiplo di un insieme di proteine
omologhe può consentire un incremento significativo dell‟accuratezza della predizione
delle strutture secondarie. Infatti, il metodo connessionistico più utilizzato è PHDsec
(a Profile fed neural network system from Heidelberg for secondary structure
prediction). Esso utilizza l‟informazione evolutiva derivante dall‟allineamento multiplo
di un insieme di sequenze di proteine omologhe. In particolare, sottomessa una singola
- 19 -
sequenza, il programma cerca in modo automatico nella banche dati proteine omologhe
a quella di partenza, ne esegue l‟allineamento multiplo e procede all‟applicazione
dell‟algoritmo. Questo algoritmo di predizione utilizza una rete neurale a più strati
tarata da una fase di apprendimento effettuata su una serie di proteine a struttura
tridimensionale nota. Questo metodo connessionistico raggiunge una accuratezza media
del 72%.
1.4 Modellamento per omologia
Il modellamento per omologia è il metodo più affidabile per ottenere una predizione
della struttura tridimensionale di una proteina ed è applicabile quando la percentuale di
identità di sequenza tra la proteina da modellare e quella di riferimento è compresa tra il
20-40%.
Infatti, due proteine omologhe, cioè derivanti da uno stesso progenitore per un processo
evoluzionistico, hanno subito durante l‟evoluzione solo mutazioni che non hanno
distrutto nè la loro funzione biologica né la loro struttura 3D. Da ciò consegue che,
quando due proteine hanno sequenze simili e la stessa funzione, avranno sicuramente
anche strutture 3D simili.
Si può, inoltre, sottolineare che esiste una relazione non biunivoca tra la similarità di
due sequenze proteiche (numero di amminoacidi identici o simili) e la somiglianza tra le
rispettive strutture tridimensionali; infatti, sono anche note proteine che, pur non avendo
sequenze simili, hanno strutture simili.
- 20 -
Dal momento che il modello per omologia si basa sull‟osservazione empirica che la
similarità fra le sequenze di due proteine implica una similarità nella loro struttura, le
coordinate della catena principale degli amminoacidi della proteina presa come
riferimento (template) possono essere usate come un‟approssimazione delle coordinate
delle regioni corrispondenti (secondo l‟allineamento) della proteina da modellare
(target).
Il modellamento per omologia si articola in vari stadi:
identificazione della proteina di struttura nota che si userà come riferimento
(template);
identificazione delle regioni che ci si aspetta siano strutturalmente conservate tra
il template e la proteina target;
allineamento delle sequenze amminoacidiche di queste regioni;
costruzione del modello delle regioni conservate usando come coordinate quelle
della catena principale della proteina template secondo la corrispondenza dettata
dall‟allineamento delle sequenze;
costruzione del modello delle regioni strutturalmente variabili: regioni in cui ci
sono delezioni ed inserzioni;
modellamento delle catene laterali del modello;
rifinitura del modello.
È ormai ben noto, che la similarità della catena principale nel “core” (nucleo
strutturalmente conservato tra proteine omologhe) di due proteine aumenta
all‟aumentare della somiglianza tra le loro sequenze. Qualche anno fa, Cyrus Chothia e
- 21 -
Arthur Lesk (1986) hanno analizzato una trentina di coppie di proteine omologhe di
struttura nota e sono andati a valutare la relazione tra l‟RMSD (deviazione quadratica
media) del “core” delle due strutture sovrapposte e la percentuale di identità tra le loro
sequenze. Questa analisi è stata fatta nel 1986 ma i risultati ottenuti sono stati
successivamente confermati da vari autori che hanno utilizzato un numero maggiore di
strutture proteiche [Hilbert et al., 1993]. È stato visto che l‟RMSD degli atomi della
catena principale del “core” tra due proteine con identità di sequenza maggiore del 50%
è minore di 1.0 Angstrom ed il “core” comprende il 90% delle strutture. Inoltre per
coppie di proteine con identità di sequenza minore del 20%, la regione del “core” può
comprendere non più del 50% delle strutture con una RMSD della catena principale in
questa regione maggiore di 1.8 Angstrom; fuori dal “core” le deviazioni possono essere
significative. Infine, coppie di proteine con identità in sequenza tra il 20% ed il 50 %
hanno un grado di similarità intermedio [Figura 1.4].
Da ciò consegue che per costruire un modello il migliore template è quello che ha la
maggiore identità di sequenza con la proteina target. Quando esistono più di una
proteina di struttura nota con la stessa percentuale di identità di sequenza con la proteina
target, è consigliabile scegliere la migliore, in base alla completezza ed alla risoluzione.
Deciso quale o quali proteine possono essere utilizzate come riferimento, è necessario
allineare le sequenze in modo da rendere massima la loro identità di sequenza (cioè il
numero di amminoacidi identici in posizioni corrispondenti) o la loro similarità
(assegnando un punteggio che descriva in qualche modo la similarità di ciascuna
possibile coppia di amminoacidi).
- 22 -
Figura 1.4 Relazione tra la percentuale di identità di sequenza di coppie di proteine ed i
valori di RMSD relativi ai Carboni alfa (C), ottenuti dopo aver sovrapposto le loro
strutture tridimensionali [Hilbert et al., 1993].
Gli algoritmi di allineamento di sequenze permettono di misurare ed ottimizzare
l‟identità e la similarità fra sequenze in modo sufficientemente accurato. Questo però
non corrisponde alla migliore sovrapposizione strutturale fra proteine, che è quello di
cui abbiamo bisogno per costruire un modello accurato. Pertanto dopo aver allineato le
sequenze in modo automatico, è necessario controllare manualmente l‟allineamento
ottenuto sfruttando informazioni varie quali la predizione di struttura secondaria, le
sequenze di altre proteine della stessa famiglia della proteina target, la struttura
tridimensionale della proteina template ed informazioni sperimentali su una o tutte le
proteine. In particolare, le inserzioni e le delezioni, che sono le regioni più difficili da
modellare, determinano variazioni strutturali locali. Pertanto tenendo presente la
struttura tridimensionale della proteina di riferimento, bisogna controllare che le
delezioni e le inserzioni non capitino in elementi di struttura secondaria, e aggiustare
manualmente l‟allineamento. Spesso è utile allineare tutte le sequenze appartenenti alla
0
0,5
1
1,5
2
2,5
3
0 20 40 60 80 100
Identità [%]
RM
SD
(C
) [Å
]
- 23 -
famiglia della proteina di riferimento; ciò permette di verificare quali regioni sono più
conservate strutturalmente nella famiglia, anche perché queste saranno probabilmente
conservate anche nella proteina target. Infine, le informazioni sperimentali sono
importanti perché se la proteina target e quella di riferimento hanno la stessa funzione,
gli amminoacidi del sito attivo devono essere allineati. Ottenuto un buon allineamento è
possibile modellare le regioni strutturalmente conservate (SCR) della proteina target ma
rimane il problema di come modellare i loop e le catene laterali.
I loop, definiti come regioni strutturalmente variabili, non possono essere costruiti per
omologia. Essi sono, di solito, regioni che connettono elementi di struttura secondaria,
sono esposti sulla superficie e meno regolari di -eliche e foglietti . Al momento per
modellare i loop vengono utilizzati o metodi di ricerca in banche dati o metodi ab-
initio.
Il metodo di ricerca in banca dati si basa sull‟osservazione che regioni di
conformazione simile si trovano in proteine sia omologhe sia non omologhe e, quindi,
costruite per omologia le strutture delle regioni che fiancheggiano il loop, il numero di
modi per unire tali strutture con un loop di lunghezza nota non può essere infinito e si
possono ricercare nelle banche dati frammenti di proteine che si adattano a queste
regioni, che sono definite stem. In pratica, si va a ricercare nella banca dati di strutture
note delle regioni, che siano simili agli stem e che siano separate da un numero di
residui uguale a quello del loop, che si deve modellare. I metodi ab-initio per la
predizione dei loop si basano su simulazioni energetiche; quindi si generano le
coordinate tridimensionali di tutti i loop (o quasi) che potrebbero congiungere gli stem
- 24 -
andando a valutare l‟energia dell‟intera proteina nei vari casi e scegliendo il loop, per il
quale l‟energia totale assume il valore minimo.
Per quanto riguarda le catene laterali di ciascun amminoacido si è andati a valutare la
frequenza, con cui ciascun amminoacido viene osservato in una certa conformazione
nelle proteine di struttura nota. Gli angoli corrispondenti a queste conformazioni sono
raccolti in librerie di rotameri, che possono essere utilizzate per assegnare la
conformazione agli amminoacidi della proteina target. Vari studi hanno confermato che
se esiste una relazione evoluzionistica fra la proteina di riferimento e quella target, ci si
può aspettare che anche le catene laterali delle due proteine tendono ad assumere
conformazioni simili e quindi possono essere modellate le une sulle altre. Pertanto,
molti metodi copiano gli angoli della catena dell‟amminoacido del template fin dove la
lunghezza relativa delle catene laterali lo permette ed usano le librerie di rotameri per la
parte restante. Spesso si utilizzano anche calcoli energetici; infatti, assegnato a ciascun
amminoacido il suo rotamero più frequente, l‟energia totale della molecola viene
sottoposta ad un processo di minimizzazione per rifinire gli angoli. L‟accuratezza di
questi metodi diminuisce all‟aumentare della deviazione della catena principale del
modello dalla struttura di riferimento; da ciò si deduce che, se vengono migliorati i
metodi per costruire la catena principale, si riuscirà ad ottenere anche una migliore
predizione delle catene laterali.
1.5 I metodi di riconoscimento di fold
- 25 -
È noto che ci sono proteine che esibiscono lo stesso fold anche in assenza di una
rilevante similarità di sequenza e che il numero di fold, rappresentati in natura, è
relativamente limitato (meno di 700)Thorntonet al., 1999. Proteine con lo stesso fold
ma con nessun similarità significativa di sequenza possono essersi evolute da un
ancestore comune ma essersi diversificate tanto che la loro origine comune non è più
facilmente deducibile dal confronto tra le loro sequenze, oppure è anche possibile che la
similitudine sia dovuta al fatto che quella architettura è favorita per ragioni chimico-
fisiche.
In presenza di una proteina, che non ha similarità di sequenza con nessuna delle
proteine note, il modellamento per omologia non può essere utilizzato e, quindi, si va a
ricercare se la sua sequenza è compatibile con uno dei fold già noti, valutando la
probabilità con cui la sequenza target possa assumere una delle strutture presenti nella
banca dati, indipendentemente dalla loro similarità di sequenza (target/template).
Questo metodo viene chiamato riconoscimento di fold. I due approcci più usati sono
quelli basati su profili e quelli cosiddetti di threading.
I metodi basati su profili si basano sulla possibilità di dedurre dall‟analisi di proteine
di struttura nota alcune proprietà caratteristiche per ciascun amminoacido, quali la
frequenza relativa con cui ciascun amminoacido è osservato in uno dei tipi di struttura
secondaria (preferibilmente , preferibilmente e nessuna preferenza), la frequenza con
cui è osservato sulla superficie di una proteina (alta, bassa ed intermedia) e la frequenza
con cui è osservato in un ambiente idrofobico (alta, bassa). In questo modo è possibile
- 26 -
associare a ciascun amminoacido una lettera, che rappresenta le modalità con cui esso è
più frequentemente osservato nelle strutture note [Tabella 1.1].
Tabella 1.1 Possibile codifica delle propensità degli amminoacidi
Più spesso in ..
Frequenza
di presenza
in superficie
Altra
Bassa Più frequentemente in
ambiente idrofobico (a)
Più frequentemente in
ambiente idrofilico (d)
Più frequentemente in
ambiente idrofobico (b)
Più frequentemente in
ambiente idrofilico (e)
Più frequentemente in
ambiente idrofobico (c)
Più frequentemente in
ambiente idrofilico (f)
Alta Più frequentemente in
ambiente idrofobico (g)
Più frequentemente in
ambiente idrofilico (j)
Più frequentemente in
ambiente idrofobico (h)
Più frequentemente in
ambiente idrofilico (k)
Più frequentemente in
ambiente idrofobico (i)
Più frequentemente in
ambiente idrofilico (l)
Intermedia Più frequentemente in
ambiente idrofobico (m)
Più frequentemente in
ambiente idrofilico (p)
Più frequentemente in
ambiente idrofobico (n)
Più frequentemente in
ambiente idrofilico (q)
Più frequentemente in
ambiente idrofobico (o)
Più frequentemente in
ambiente idrofilico (r)
Ripetendo questo tipo di analisi per tutte le proteine di struttura nota, la banca dati di
struttura tridimensionale diventa una banca dati lineare come quella relativa alle
sequenze. Mediante i metodi classici di ricerca in banca dati, la sequenza delle
propensità della proteina target può essere confrontata con la banca dati che rappresenta
le caratteristiche strutturali delle proteine note. In questo modo, le proteine, che
mostrano similarità significativamente più alta con la proteina target, sono quelle che
possono essere utilizzate come riferimento.
- 27 -
Nei metodi di threading si costruiscono tanti possibili modelli della proteina usando
come riferimento (template) le proteine di struttura nota ed esplorando un gran numero
di possibili allineamenti che includono inserzioni e delezioni. Tra questi modelli
vengono scelti quelli che risultano migliori andando a fare per ciascuno di essi una
valutazione energetica a livello degli amminoacidi e non dei singoli atomi.
1.6 Folding ab-initio
I metodi descritti finora (modellamento per omologia e metodo basato sul
riconoscimento del fold) si basano sempre sull‟osservazione di proteine note ma non ci
permettono di capire come fa una proteina a raggiungere la sua struttura nativa in natura
dal momento che “le proteine non consultano banche dati”. Una proteina si struttura
nella sua conformazione nativa perché questa è energeticamente più favorevole di
qualunque altra possibile conformazione; pertanto, se si riuscissero a generare tutte le
possibili conformazioni di una proteina ed a valutare correttamente la loro energia,
basterebbe andare a scegliere la conformazione a energia più bassa. Questo
procedimento, però, non è applicabile poiché richiederebbe troppo tempo.
I metodi ab-initio si basano sulla ricerca dei minimi di energia conformazionale e
necessitano di due requisiti fondamentali: la determinazione della funzione “energia”
che permetta di discriminare la conformazione nativa dalle altre ed un criterio affidabile
ed efficiente di ricerca dei minimi energetici nello spazio delle conformazioni. Per
valutare tutti i contributi energetici coinvolti nel calcolo dell‟energia conformazionale si
deve tener conto sia di fattori intramolecolari (legami chimici, interazioni di van der
- 28 -
Waals, legami idrogeno, interazioni coulombiane, entropia conformazionale) sia
dell‟interazione con il solvente (polarizzazione del mezzo, formazione di cavità,
interazioni soluto-solvente, variazioni di struttura del solvente).
Un modo per cercare la conformazione a energia minima è di minimizzare la funzione
rispetto alla posizione degli atomi. Praticamente, partendo da una certa conformazione
si variano le posizioni degli atomi e si calcola l‟energia della nuova conformazione. Se
questa è minore della precedente, si ripete il procedimento effettuando un‟altra piccola
variazione, altrimenti si ritorna indietro e si prova una variazione diversa. Mediante
questo procedimento di minimizzazione è possibile trovare il minimo locale ma non
quello globale, cioè quello più vicino alla conformazione di partenza ma non il più
basso possibile nel caso in cui ci sono delle barriere di potenziale tra quest‟ultimo e la
conformazione iniziale. Questo problema può essere superato o esplorando in maniera
casuale lo spazio conformazionale senza preoccuparsi del fatto che esiste un modo
fisicamente permesso per andare da una conformazione all‟altra (metodi stocastici) o
fornendo agli atomi un‟energia cinetica che permetta a questi di superare la barriera di
potenziale (dinamica molecolare).
Molti studi sperimentali e teorici hanno dimostrato che il processo di folding è
influenzato dalle proprietà topologiche dello stato nativo. Baker et al. [Plaxco et al.,
1998] hanno indicato che esiste una correlazione tra le cinetiche del folding e la
complessità topologica dello stato nativo. Koga e Takada [Koga e Takata, 2001] hanno
studiato le relazioni tra la topologia di una proteina ed i folding pathways. Questi autori
sono riusciti a descrivere i folding pathways di piccole proteine a singolo dominio,
- 29 -
considerando solo i C della catena polipeptidica ed usando una funzione di energia
libera che tiene conto della connettività della catena, delle interazioni e dell‟entropia.
Un interessante approccio topologico al problema del protein folding è stato proposto
recentemente dal gruppo di Banavar e Maritan [Banavar et al., 2002, 2003a, 2003b].
Secondo questo approccio una proteina è modellata come un tubo di spessore non nullo.
Mediante la procedura Metropolis Monte Carlo questi autori hanno simulato delle
strutture di tipo elica e strand simili a quelle presenti nelle proteine. I risultati ottenuti
sono incoraggianti e possono essere utilizzati in studi futuri [].
1.7 CASP
Una valutazione dell‟affidabilità di questi metodi (modellamento per omologia, metodo
di riconoscimento di fold, metodi ab-initio) viene fatta ogni due anni dalla comunità
scientifica internazionale che ha istituito nel 1994 un esperimento chiamato CASP
(Critical Assessment of Methods for Protein Structure Prediction). Questo esperimento
valuta l‟efficacia di un metodo, confrontando la predizione con un risultato
sperimentale. In pratica, ogni due anni viene chiesto a cristallografi ed a spettroscopisti
NMR, che stanno per risolvere la struttura di una proteina, di rendere disponibile la sua
sequenza. Queste sequenze (target) vengono assegnate ad una serie di predittori che
devono depositare i loro modelli prima che la struttura sia resa pubblica. Un insieme di
valutatori (assessors) confronta i modelli e le strutture, appena queste ultime sono rese
disponibili, e cerca di valutare le predizioni e di trarre conclusioni generali. I risultati
- 30 -
vengono poi discussi in un convegno dove i valutatori ed i predittori si incontrano per
discutere dei risultati.
Dai risultati del CASP5 [Proteins 2003, 53 Suppl. 6, 333-585] si può avere una
valutazione dell‟accuratezza raggiunta dai tre metodi. Il modellamento comparativo è
risultato ancora il metodo predittivo più affidabile. Ottimi risultati sono stati ottenuti
soprattutto per le zone strutturalmente conservate (definite come “core”) della proteina
target. I limiti maggiori restano sempre quelli del modellamento delle catene laterali e
dei loop; infatti, molti metodi sono stati sviluppati ma i risultati non sono ancora
positivi. Sono stati ottenuti buoni risultati, nel caso di bassa percentuale di identità di
sequenza tra la proteina target e quella/e template, migliorando l‟allineamento mediante
i modelli di Markov ed i metodi basati sui profili.
Gli esperimenti del CASP prevedono anche una sezione di valutazione di server
automatici (CAFASP). Molti sono stati i server automatici di modellamento per
omologia, che hanno ottenuto risultati migliori della media dei predittori ma è anche da
sottolineare che per lo stesso target si sono registrate sia predizioni di ottima qualità sia
predizioni completamente improbabili. Lo stesso si può dire per il metodo del
riconoscimento di fold. Alcune volte i modelli ottenuti per riconoscimento di fold sono
risultati più simili alla struttura sperimentale di qualunque delle strutture presenti nella
banca dati.
Inoltre, i predittori, che hanno ottenuto i migliori risultati, hanno combinato i loro
metodi ed hanno organizzato un paio di workshop per poter discutere dei risultati
ottenuti. Le proteine per cui si è riusciti ad avere risultati migliori, sono state quelle su
- 31 -
cui uno dei partecipanti lavorava sperimentalmente. Ciò ha fatto dedurre che un
qualsiasi metodo funziona meglio se è abbinato ad una approfondita conoscenza delle
caratteristiche biologiche delle proteine.
Per quanto riguarda i metodi ab-initio, dai risultati del CASP5 si è potuto dedurre che
nessuno dei metodi (minimizzazione, dinamica molecolare, Monte Carlo, algoritmi
genetici) è in grado di trovare la conformazione a minima energia di una proteina. Ma la
combinazione di questi metodi può dare buoni risultati per predire strutture di
frammenti proteici. Il metodo di maggior successo nella categoria dei metodi ab-initio
sia nel CASP4 sia nel CASP5 è stato il metodo ROSETTA. In questo metodo, la
sequenza di una proteina target viene divisa in frammenti contigui di 3 e 9
amminoacidi. Tutti i frammenti di proteine di struttura nota che hanno sequenze uguali
o simili a queste regioni vengono combinati, utilizzando il Metodo di Monte Carlo, al
fine di predire la possibile conformazione della proteina target.
1.8 La Predizione delle interazioni proteina-proteina
Quando è nota la struttura di due proteine e si sa che esse interagiscono, predire la loro
orientazione relativa nel complesso rappresenta un problema non facile da risolvere. La
simulazione fatta in silico della formazione del complesso molecolare a partire dalle
strutture tridimensionali delle proteine, che lo compongono, viene definita con il
termine docking.
Il problema maggiore relativo alla predizione delle interazioni proteina-proteina è che la
struttura delle proteine in un complesso è abbastanza diversa da quella assunta dalle
- 32 -
stesse proteine nella loro forma libera soprattutto nelle regioni dell‟interazione. Ciò è
certamente dovuto al fatto che le catene laterali dei residui delle proteine sono
relativamente mobili e talora seguono il formarsi del complesso con movimenti che
determinano una migliore complementarità tra i residui delle proteine interagenti.
Questi movimenti coinvolgono non solo le catene laterali dei residui ma talvolta
comportano anche spostamenti di interi segmenti di strutture secondarie.
Diversi metodi di docking sono stati sviluppati (DOCK, AUTODOCK, FlexX,
ESCHER) sia per la ricostruzione di complessi proteina-proteina sia per l‟analisi di
complessi tra proteine e ligandi. Il docking è molto utilizzato anche per la ricerca di
nuovi inibitori di una proteina data mediante l‟utilizzo di banche dati di possibili
ligandi. I metodi, finora sviluppati, si basano o su criteri geometrici o energetici. I
metodi energetici sfruttano il fatto che le proteine formano complessi poiché questi
sono energeticamente favoriti mentre quelli geometrici si basano sulla considerazione
che le superfici di interazione delle due proteine, che formano il complesso, devono
essere complementari.
Una valutazione delle procedure di docking proteina-proteina, finora sviluppate, viene
fatta periodicamente mediante un esperimento, analogo a quello del CASP, denominato
CAPRI (Critical Assessment of PRedicted Interactions). Proprio come per il CASP, le
predizioni vengono fatte e confrontate con le strutture dei complessi, ottenute mediante
diffrazione ai Raggi X, prima che queste vengano rese pubbliche. In una delle ultime
edizioni (CAPRI round 3) è emerso che molti metodi di docking trattano i componenti
molecolari come corpi rigidi, mentre altri fanno ciò solo nei primi passaggi della
- 33 -
simulazione, in modo da eliminare le soluzioni più improbabili, e poi modellano le
catene laterali e/o il backbone. Il maggiore limite di questi metodi è nel fatto che essi,
quando tentano di predire strutture di complessi, raramente sono in grado di fornire una
sola soluzione. Infatti, la maggior parte delle volte forniscono una lista di possibili modi
di interazioni e scegliere la migliore tra queste non è facile. Recentemente, analizzando
strutture di complessi note, si è cercato di studiare quali possono essere i parametri
legati all‟interfaccia proteina-proteina. Ma eccetto l‟ampiezza dell‟interfaccia, che, in
generale anche se non sempre, tende ad essere più larga nei complessi biologicamente
attivi, altri parametri, come il numero di legami ad idrogeno per unità di superficie e le
propensità di contatto tra residui, non sono risultati discriminatori.
Per la predizione dell‟interazione proteina-proteina sono stati ottenuti buoni risultati
combinando i metodi di docking con i due approcci classici, modellamento per
omologia e threading, i quali rappresentano una strategia integrata, capace di predire i
siti di interazione, i contatti tra i residui e, nei casi più fortunati, anche un modello
dettagliato del complesso. Infatti, questi due metodi usano la struttura di un complesso
noto come riferimento (template) per costruire il modello del complesso target. Però il
limite di questo approccio è certamente legato alla percentuale di somiglianza, che c‟è
tra le proteine target e quelle template. Russell ed i suoi collaboratori hanno
recentemente dimostrato che proteine con una percentuale di omologia pari al 30-40%
interagiscono allo stesso modo mentre il modo di interagire è raramente conservato per
proteine con percentuale di identità di sequenza più bassa.