reti biologiche e allineamento giovanni micale phd student department of computer science university...

Reti biologiche e allineamento

Giovanni MicalePhD student

Department of Computer ScienceUniversity of Pisamicale@di.unipi.it

Outline

• Reti biologiche

• Analisi comparativa di reti biologiche

• Allineamento di reti:o Allineamento di reti PPI

• GASOLINEo Allineamento di protein structure networks

• PROPOSAL

Reti biologiche

Definizione di reteUna rete (o grafo) G=(V,E) è una struttura dati definita da:• V: insieme di nodi che rappresentano le entità di

una rete;• E: insieme di archi che descrivono le relazioni tra

le entità. Un arco è una coppia ordinata di nodi.

Networks everywhere

Reti biologiche• Descrivono processi biologici che avvengono nella

cellula a diversi ‘livelli di risoluzione’;

• Descrivono l’insieme delle interazioni fisiche o reazioni chimiche tra vari tipi di molecole (es. RNA, geni, proteine, metaboliti).

• Esempi di reti biologiche:o Reti di interazione proteina-proteina (PPI);o Reti trascrizionali;o Reti metaboliche;o Mappe di contatto;

Reti di interazione proteina-proteina

• Nodi: proteine;• Archi: contatti fisici che si stabiliscono tra le proteine come

conseguenza di eventi biochimici o forze elettrostatiche;• Gli archi possono essere pesati con probabilità di

interazione.

Due tipi di interazioni• Signal transduction: una proteina interagisce

con una o più proteine per trasmettere un segnale o uno stimolo esterno alla cellula (es. inizio trascrizione)o Interazioni a catena (solitamente mediante fosforilazione);o Interazioni tipicamente transitoria.

• Complex assembly: un insieme di proteine si unisce a formare una struttura cellulare più grande (complesso)o Interazioni stabili tra tutte le proteine del complesso

Identificare PPIs• Metodi sperimentali e computazionali;

• Metodi per individuare interazioni fisiche:o Yeast 2-hybrid (Y2H) screening;o Mass spectrometry;

• Metodi per individuare associazioni funzionali:o Correlazione di profili di espressione di mRNA;o Interazioni genetiche;o Metodi in silico (ad esempio gene fusion)

Banche dati di PPIs• Biological General Repository for Interaction

Datasets (BioGRID)• Human Protein Reference Database (HPRD)• Saccharomyces Genome Database (SGD)• Search Tool for the Retrieval of Interacting

Genes/Proteins (STRING)• Molecular interaction database (IntAct)• Database of Interacting Proteins (DIP)• Molecular Interactions Database (MINT)• …

Limitazioni su PPI data

• Alto tasso di falsi positivi e negativi;• Incompletezza dei dati attuali su molte specie:

o Yeast 50%, Human 10%;o Le PPI dei virus sono quelle più complete.

• Scarso overlap tra i vari dataset:o Mancanza di uno standard;o Inconsistenza del mapping.

• Mancanza di informazioni temporali e relative a condizioni sperimentali;

• Relazione tra concentrazione di una proteina e il suo insieme di interattori?

Reti trascrizionali• Nodi: geni;• Arco: un gene influenza la produzione di un altro gene, per

mezzo della sua corrispondente proteina (fattore di trascrizione);

• Due tipi di archi: stimolazione o repressione dell’espressione del gene.

Reti trascrizionali• Le più complete sono relative a organismi

modello semplici (lievito, verme, moscerino della frutta);

• Alcune sorgenti di dati:o Kyoto Encyclopedia of Genes and Genomes (KEGG);o RegulonDB;o Reactome;o TRANSPATH;o TRANSFACT;o EcoCyc.

Reti metaboliche• Usate per descrivere il metabolismo, cioè

l’insieme delle reazioni biochimiche che permettono all’organismo, si crescere, riprodursi e rispondere all’ambiente esterno;

• E’ formata da pathway metaboliche;

• La pathway descrive l’insieme delle reazioni biochimiche necessarie per realizzare una funzione (ad es. apoptosi e glicolisi)

Reti metaboliche• I nodi della rete sono metaboliti ed enzimi;

• I metaboliti sono molecole e costituiscono prodotti intermedi e finali del metabolismo (es. glucosio, aminoacidi e polisaccaridi);

• Gli enzimi sono proteine che catalizzano le reazioni chimiche;

• Gli archi (diretti) corrispondono alle reazioni metaboliche, che convertono un metabolita in un altro, mediante l’intervento di uno o più enzimi.

Reti metaboliche

Reti metaboliche• Le reti metaboliche sono ottenute in parte

sperimentalmente e in parte per omologia;

• Dati disponibili per molti organismi;

• Alcuni database:o Kyoto Encyclopedia of Genes and Genomes (KEGG);o GeneDB;o BioCyc;o EcoCyc;o MetaCyc;o ERGO.

Mappe di contatto

• Nodi: aminoacidi;• Un arco collega due amino acidi se sono sufficientemente

vicini nella struttura tridimensionale della proteina (ad es. 10 Angstrom);

Mappe di contatto• Mappano la struttura 3D della proteina in modelli

2D (grafi), più semplici da analizzare;

• Invarianti a rotazioni e traslazioni;

• Sotto certe condizioni, è possibile ricostruire le coordinate 3D di una proteina a partire dalla sua contact map;

Altre reti biologiche• Reti neurali: connessioni sinaptiche tra neuroni;• Reti ecologiche: sistema prede – predatori;• Reti di correlazioni: descrivono le correlazioni

tra le espressioni dei geni;o Diversamente dalle reti trascrizionali non sono il risultato diretto di

esperimenti;

• Reti di associazione ‘disease-gene’: lega malattie causate dallo stesso gene e geni che causano la stessa malattia;

• Reti di associazione ‘drug-target’: lega drugs che targettano lo stesso gene (o proteina) e geni (o proteine) targettate dalla stessa drug.

Analisi comparativa di reti biologiche

Network vs sequence analysis

• Per molti anni, la ricerca si è concentrata sull’analisi di singoli geni o proteine, per capirne la loro funzione;

• Tuttavia alcuni processi sono complessi e coinvolgono molti geni o proteine;

• L’analisi delle reti biologiche può spiegare meglio il funzionamento di questi processi

Proprietà delle reti biologiche

• Le reti biologiche (ed in particolare le reti PPI) sono costituite da piccoli gruppi di proteine altamente interconnessi (moduli);

• I moduli sono collegati tra loro da un ristretto numero di proteine di grado elevato (hub), che corrispondono a proteine ‘centrali’;

• I moduli coinvolgono tipicamente nodi che svolgono una funzione comune o sono coinvolti nello stesso processo (ad es. complessi).

Esempio su D. Melanogaster PPI

Analisi comparativa • Il problema di individuare moduli funzionali nelle

reti biologiche è analogo al problema di individuare elementi funzionali in sequenze di genomi o proteine;

• Assunzione biologica: la ‘conservazione’ di una sottorete di molecole nell’evoluzione di una specie implica una rilevanza funzionale;

• Conservazione riguarda sia le molecole coinvolte che le loro interazioni

Tecniche di network comparison

• Network alignment: confrontare due o più reti biologiche dello stesso tipo ma di specie diverse, identificando regioni di similarità;o Individuare moduli funzionali conservati in specie diverse

• Network integration: combinare due o più reti di diverso tipo ma della stessa specie e definite sullo stesso set di elementi;o Individuare moduli di proteine che interagiscono allo stesso modo

mediante interazioni di tipo diverso;o Predire nuove interazioni.

• Network querying: ricercare, all’interno di una rete, sottoreti simili ad una rete di interesse (query graph);o Identificare istanze duplicate o conservate di un modulo

Esempio di network integration

Esempio di network querying

Allineamento di reti

Allineamento di reti • Date N reti biologiche, individuare un insieme di N

sottoreti di W nodi, una per ogni rete, in modo tale che la similarità tra le sottoreti sia massimizzata, in termini di similarità molecolare e topologica;

• W può essere fissato oppure no.

Allineamento locale vs globale

• Allineamento locale: trovare sottoreti locali simili e ‘allineare’ le reti in corrispondenza di queste sottostrutture;

• Allineamento globale: mappare tra loro i nodi delle varie reti, cercando di massimizzare il numero di archi conservati nelle varie reti.

Allineamento di reti PPI

Allineamento di reti PPI • Allineamento locale: Individuare moduli

funzionali di proteine conservati in specie diverse:o Complessi (tipicamente sottoreti dense);o Pathway (tipicamente strutture ad albero o a catena).

• Allineamento globale: misurare la similarità tra specie diverse a livello di reti PPI (analogo all’allineamento genomico):o Valutare la distanza evolutiva tra specie diverse

• Può essere pairwise (due reti) o multiplo (più reti)

Allineamento di reti PPI • Quali proteine, interazioni tra proteine e gruppi di

interazione hanno funzioni equivalenti tra le specie?

• A partire da queste similarità, è possibile predire la funzione alcune proteine e nuove interazioni?

• Cosa ci suggeriscono queste relazioni sull’evoluzione delle proteine, di alcuni processi o dell’intera rete nei vari organismi?

• E’ possibile migliorare la confidenza che abbiamo su una interazione, se quest’ultima risulta conservata tra specie diverse?

Funzione di similarità tra proteine

• Nell’allineamento di reti PPI, occorre definire una funzione di similarità molecolare tra le proteine;

• Una scelta tipica è quella di considerare il BLAST E-value (o il Bit Score);

• Le proteine che si corrispondono nell’allineamento sono considerate ortologhe;

• Ortologhi: proteine che svolgono una funzione simile in specie diverse;

• Ortologia e similarità sequenziale non sempre coincidono!;

Paraloghi e omologhi • Una proteina può avere due o più ‘copie’ (più o

meno divergenti) nella stessa specie (paraloghi);

• La presenza di paraloghi è dovuta a processi di duplicazione e successiva modificazione subiti dalle proteine nel corso dell’evoluzione;

• Le modifiche possono riguardare anche la rete PPI;

• Paraloghi e ortologhi prendono anche il nome di omologhi.

Duplication-divergence model

Mapping tra proteine allineate

• Nell’allineamento finale, il mapping prodotto può essere uno-a-uno oppure molti-a-molti;

• Il mapping molti-a-molti è in grado di considerare paraloghi e ortologhi, ma può essere più difficile da interpretare.

Panoramica su algoritmi di allineamento di

reti PPI

Un algoritmo di allineamento di reti

PPI: GASOLINE

GASOLINE

GASOLINE: Greedy and Stochastic algorithm for Optimal Local alignment of Interaction NEtworks

• Greedy: usa un approccio seed-extend per cercare sottografi conservati, partendo da allineamento di singoli nodi (seed dell’allineamento);

• Stochastic: usa il Gibbs sampling, un metodo stocastico e probabilistico, per cercare un mapping ottimale tra i nodi.

Preprocessing• Obbiettivo: ridurre lo spazio di ricerca per i

potenziali seed;

• Si ‘marcano’ le proteine che hanno ortologhi in tutte le reti allineate e grado superiore un valore di soglia σ;

• Tutti i nodi ‘marcati’ nella rete Gi sono aggiunti ad un insieme Si;

• Gli insiemi S1, S2, …, Sk sono utilizzati come input per GASOLINE e aggiornati ad ogni iterazione.

Descrizione generale di

GASOLINEInput:

G: set of N PPI networksS1, S2, …, SN: set of nodes from networks G1, G2, …, GN marked

as potential seeds

Bootstrap phase: find an optimal alignment of

Iterative phase: iteratively remove and add nodes

All aligned seeds are orthologs

Extension step: extend

seeds until the degree ratio

increases

Removal step: remove the set of

mapped nodes with minimum Goodness

S1, S2, …, SN are not

Output:set of local

alignments of N subgraphs

Remove seeds from S1, S2, …,

Save the alignment

A running example

Gibbs sampling• Sia la fase iniziale (bootstrap phase) che la fase

iterativa (e in particolare ogni estensione) sono eseguite usando il Gibbs sampling

• Il Gibbs sampling è un metodo di campionamento, che fa parte della classe dei metodi Markov Chain Monte Carlo (MCMC);

• Il Gibbs sampling si basa sui concetti di catene di Markov e distribuzione stazionaria;

Catena di MarkovDef: a catena di Markov è una tripla (Q, P(π1),A):

• Q è un insieme finite di k stati (o eventi);• πi for i=1, 2, …, è lo stato della catena all’istante di

tempo i;• P(π1) è la distribuzione di probabilità iniziale degli

stati (probabilità di trovarsi in uno stato all’istante iniziale);• A = [aij] è una matrice di probabilità di transizione

da uno stato i ad uno stato j.

Tipi di catene di Markov

Def: una catena di Markov del primo ordine è una catena in cui la probabilità di trovarsi in uno stato al tempo i+1 dipende soltanto dallo stato della catena al tempo i:

" i ≥ 1, P(πi+1|π1, …, πi) = P(πi+1|πi)

Def: una catena di Markov è finita se l’insieme dei suoi stati è finito.

Def: una catena di Markov è irriducibile se tutti I suoi stati sono raggiungibili da qualsiasi stato della catena.

Tipi di catene di Markov

Def: il periodo di uno stato s della catena di Markov è il numero minimo di transizioni (con probabilità non nulla) che sono necessari per tornare a s partendo da s stesso.

Period(E1) = 2E1

Def: uno stato è aperiodico se ha periodo uguale a 1.

Def: una catena di Markov è aperiodica se tutti i suoi stati sono aperiodici.

Distribuzione stazionaria

Def: Data una catena di Markov del primo ordine, finita, aperiodica e irriducibile con n stati, un vettore φ=(φ1, φ2, …, φn) è una distribuzione stazionaria se:

φ x A = φ

• Data una catena di Markov con queste proprietà trovare la distribuzione stazionaria è semplice (risolvendo la precedente equazione);

• Il problema inverso è computazionalmente difficile e si può risolvere tramite metodi di campionamento (Gibbs sampling, Hasting-Metropolis, etc…)

Bootstrap phase – Gibbs sampling

1. Sia M una catena di Markov in cui gli stati sono combinazioni di k protein, una per ogni rete(prese dagli insiemi Si);

2. Scegli in maniera random una proteina da ogni rete e sia A questo allineamento iniziale;

3. Per i=1,2,…k• Estrai in maniera random una proteina Ai da

A;• Sostituisci Ai con una proteina x della stessa

rete, sulla base di una probabilità di transizione (ovvero cambia stato in M);

• Aggiungi x ad A;4. Restituisci A.

Bootstrap phase – probabilità di

trans.

• Supponiamo di voler sostituire Ai con x nell’allineamento A;

• Sia S(a,b) lo score di similarità tra le sequenze delle proteine a e b (es. BLAST Bit score);

• Label similarity score di x:

• Probabilità di transizione:

Bootstrap phase – terminazione

• Il Gibbs sampling viene iterato per un numero fissato di volte;

• Al termine del Gibbs sampling, l’ultimo allineamento ottenuto viene restituito.

Iterative phase – fase di estensione

1. Sia M una catena di Markov dove gli stati sono combinazioni di k proteine, una per ogni rete (prese dagli insiemi dei nodi adiacenti ai nodi già allineati);

2. Scegli in maniera random un nodo adiacente da ogni insieme e sia A questo allineamento iniziale;

3. Per i=1,2,…k• Estrai in maniera random una proteina Ai da

A;• Sostituisci Ai con una proteina x della stessa

rete, sulla base di una probabilità di transizione P (cambia stato in M);

• Aggiungi x ad A;4. Estendi ciascun seed con I nodi corrispondenti in

A.5. Ripeti finché il degree ratio dei sottografi allineati

cresce.

Iterative phase – Probabilità di

trans.

• Supponiamo di rimpiazzare Ai con x nell’allineamento A;

• Label similarity score di x:

• Per la similarità topologica, sia V(n) il vettore topologico, un array che memorizza i pesi degli archi che collegano un nodo n ai nodi della stessa rete già allineati.

• La posizione dei pesi nel vettore segue l’ordine di inserimento dei nodi nell’allineamento di sottografi parziale.

Vettore di topologia - esempio

V(n) = [0.7, 0, 0.3]

Iterative phase – Probabilità di

trans.

• Similarità tra i vettori topologici di due proteine a e b:

• Topology similarity score di x:

• Score di similarità complessivo di x:

• Probabilità di transizione di x:

dove Adj(k) è l’insieme degli adiacenti al

sottografo già allineato della k-esima rete.

Iterative phase – terminazione• Il Gibbs sampling viene iterato per un numero

fisso di volte;

• Al termine del Gibbs sampling, l’ultimo allineamento prodotto viene restituito.

Degree ratio• Sia S un sottografo allineato, G il grafo di cui fa

parte, degInt(x) il numero di archi che collegano un nodo x in S con i nodi di S e deg(x) il grado di x in G;

• Degree ratio di S:

• Degree ratio dell’allineamento A:

• Il processo di estensione viene eseguito finché il degree ratio di A cresce.

Removal step• Elimina dall’allineamento corrente l’insieme di

nodi allineati che dà il contributo minimo alla qualità dell’allineamento;

• Rappresentiamo A come una matrice k x w, dove ogni colonna contiene proteine allineate nelle varie reti;

• Eliminiamo la colonna con Goodness score minimo;

• Goodness di una proteina A[i,j]:

• Goodness di una colonna j di A:

Score dell’allineamento finale• La qualità dell’allineamento viene valutata in

termini di conservazione strutturale;• Numero di interazioni conservate in nodi x e y di

diversi sottografi allineati:

• Score di similarità strutturale tra due sottografi allineati P e Q:

dove P[i] and Q[i] sono nodi allineati in P and Q.

Score dell’allineamento finale• Score di similarità strutturale di un allineamento

• Index of Structural Conservation (ISC) di A:

• ISC(A) [0,1]

Postprocessing• Obbiettivo: filtrare complessi che hanno un

elevato grado di overlap;• Gli allineamenti vengono ordinati per dimensione

e ISC score;• Sia S un sottografo dell’allineamento A e Perc(S)

la percentuale di proteine in S osservate in precedenti allineamenti;

• Perc(A) è il valore medio di Perc(S) sui vari sottografi allineati in A;

• Se Perc(A) è al di sopra di una certa soglia l’allineamento viene scartato.

Test – alcuni risultati

Riferimenti bibliografici

Una app per Cytoscape

Allineamento di reti di strutture di proteine

Perché confrontare strutture 3D

• La funzione di una proteina è principalmente legata alla sua struttura 3D oltre che alle proteine con cui interagisce;

• La struttura 3D di una proteina è generalmente più conservata della sua sequenza;

• L’analisi comparativa a livello strutturale può fornire ancora più indizi sulla funzione di una proteina rispetto a quella fatta a livello di sequenze.

Allineamento di protein structures

• Confrontare due o più strutture 3D di proteine al fine di individuare delle similarità (locali o globali);

• Similarità relative sia agli aminoacidi coinvolti che alle loro distanze dagli altri residui;

• Obbiettivo: trovare una sovrapposizione ottimale delle strutture.

Allineamento di protein structures

Allineamento locale

• Individuare potenziali siti di legame con altre molecole (proteine, RNA, ecc.) conservati in più proteine;

• Applicazioni: o Predire interazioni tra proteine a livello molecolare (docking

molecolare);o Drug design.

• L’allineamento si può fare sia a livello 3D che 2D (contact maps);

• Il mapping a 2D viene fatto per ridurre la complessità computazionale del problema.

Funzione di similarità tra

aminoacidi

• Similarità tra le label dei nodi: matrici di sostituzione (PAM, BLOSUM);

• BLOSUM: matrice di sostituzione, con score che indicano la frequenza di sostituzione di aminoacidi con altri, sulla base di allineamenti locali già computati;

• BLOSUMx: matrice costruita usando sequenze con non più del 62% di similarità;

• Per proteine distanti conviene usare BLOSUM33, per proteine simili si può usare anche BLOSUM80;

Valutazione della qualità

dell’allineamento

• La qualità dell’allineamento è misurata sulla base della distanza media tra gli aminoacidi allineati;

• Dati due set di k residui allineati C e D, si cerca prima la sovrapposizione ottimale di questi residui, quella che minimizza la loro distanza nello spazio (tramite rotazioni e traslazioni);

• Quindi si calcola l’RMSD (Root Mean Square Deviation) a partire dalle coordinate x,y,z dei residui allineate dopo la trasformazione:

Panoramica su algoritmi di allineamento strutturale di

proteine

• 3D structure comparison:o DALI;o VAST;o SSAP;o CE;o MultiProt;o TM-Align;o MATT;o DeepAlign.

• 2D contact maps comparison:o Apurva;o (Di Lena et al.);o MSVNS;o GR-Align.

• Local aligners (pairwise):o ProBiS;o SMAP.

Un algoritmo di allineamento locale di strutture: PROPOSAL

PROPOSAL

PROPOSAL: PROtein comparison through Probabilistic Optimal Structure local ALignment

• Greedy: use a seed-extend approach to look for conserved substructures, starting from the alignment of triplets of aminoacids;

• Stochastic: use a Gibbs sampling strategy to find an optimal mapping between aminoacids.

Descrizione di PROPOSAL

Differenze tra GASOLINE e

PROPOSAL

• Gli allineamenti hanno dimensione fissata W;

• Si parte da allineamenti di triplette di aminoacidi e non più da singoli nodi;

• L’estensione iniziale è fatta sempre fino a W aminoacidi, poi si procede sempre per rimozione e aggiunta di singoli aminoacidi allineati (da W-1 a W e viceversa);

• Cambiano le funzioni di scoring per Gibbs sampling; • Goodness sostituita con Badness score.

Allineamento iniziale

• L’allineamento iniziale avviene a partire da triplette di aminoacidi.

• Le triplette candidate ad essere allineate sono tutte quelle in cui gli aminoacidi sono a distanza massima di 10 Angstrom tra loro.

• Gli aminoacidi da allineare devono corrispondersi (ad es. C deve essere mecciato con C, D con D, ecc.)

Probabilità di transizione nella fase

iniziale

• Siano S1, S2, …, SN le triplette di aminoacidi nell’alllineamento corrente;

• Sia X la tripletta candidata a sostituire Si ad una certa iterazione del Gibbs sampling;

• Distance similarity:

• La probabilità di transizione è ottenuta normalizzando Sim(X) in [0,1].

Probabilità di transizione nella fase di

estensione

• Siano S1, S2, …, SN le sottostrutture già allineate;

• Vogliamo estendere ogni sottostruttura già allineata con l’aggiunta di un nuovo aminoacido della stessa struttura tramite Gibbs sampling;

• Gli aminoacidi candidati sono quelli che si trovano a distanza al più 10 Angstrom da almeno un residuo nella sottostruttura corrispondente;

• Sia A l’allineamento corrente di aminoacidi nel Gibbs sampling e supponiamo di sostituire Ai con x;

• La probabilità di transizione è calcolata considerando la similarità tra x e gli altri aminoacidi in A e le distanze tra x e gli altri aminoacidi in A;

Probabilità di transizione nella fase di

estensione

• Similarità tra label:

• Distance similarity:

• La probabilità di transizione è il prodotto delle due similarità

Badness score

• Nella refinement phase si rimuove il set di aminoacidi allineati che dà il contributo ‘peggiore’ all’allineamento finale;

• Badness score:

• Si rimuove il set di aminoacidi allineati con più alto Badness score.

Test – alcuni risultati

Riferimenti bibliografici

Considerazioni finali• Gli algoritmi descritti possono essere

generalizzati ed estesi a qualsiasi tipo di rete e contesto;

• Qualsiasi funzione di similarità tra i nodi delle reti può essere usata;

• Possibili estensioni:o Analisi di reti sociali;o Reti dinamiche;o Reti multidimensionali;o …

Questions?

reti biologiche e allineamento giovanni micale phd student department of computer science university...

Documents

reverse electrodialysis process with seawater and ... ·...

allineamento di superfici celebrali :

bioinformatica allineamento di sequenze e ricerca di...

advanced ev3 programming lesson allineamento...

babelnet, babelfy and...

fourth idmp cee workshop: european drought observatory (edo)...

i n o i z n medici di medicina generale u i g pediatri di...

laboratorio di matematica computazionale -...

presentation of optional courses -...

palermo, 3 giugno 2008 il trattamento dei disturbi bipolari...

di maria micale

programmazione eugenia occhiuto docente: eugenia occhiuto...

assessment allineamento strategico vertice aziendale

2000 dakota boys track & field · alexandra saucedo spirit...

1 sistemi operativi - c susanna pelagatti...

building a runnable program corso di programmazione avanzata...

università di pisa advanced programming...

allineamento elettronico archivi - a.e.a.titolo:...

allineamento catastale e pubblicità immobiliare: l’art....

bioinformatica allineamento di sequenze e ricerca di...