2° ciclo microsoft crui 2° sessione: il cloud nella bioinformatica (bioinformatics approach to...

22
Antinisca Di Marco Dipartimento di Scienze Cliniche Applicate e Biotecnologie Università degli Studi dell’Aquila [email protected]

Upload: juergen-ambrosi

Post on 21-Mar-2017

43 views

Category:

Education


0 download

TRANSCRIPT

Page 1: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

Antinisca Di Marco

Dipartimento di Scienze Cliniche

Applicate e Biotecnologie

Università degli Studi dell’Aquila

[email protected]

Page 2: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

OUTLINE

• Cos’e’ la bioinformatica

• Descrizione della ricerca

• Soluzione proposta: il progetto DIANA

• Attuale Implementazione in Azure

• Lavori futuri

• Conclusioni

Page 3: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

BIOINFORMATICA

• La Bioinformatica è un campo di ricerca multidisciplinare che ha

l'obiettivo di comprendere i fenomeni e i meccanismi della

biologia.

• Discipline coinvolte: biologia, biochimica, informatica e statistica.

• Progetta e sviluppa

• Sistemi per raccogliere e recuperare i dati biologici.

• Tecniche e metodi matematici e statistici per l'analisi dei dati di

esperimenti in biologia.

• tecniche computazionali per la gestione e l'analisi di dati

biologici.

Page 4: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

DESCRIZIONE DELLA RICERCA

• I microRNA (miRNA) sono una classe di piccoli RNA non codificanti che hanno generato un grande impatto nel campo della biologia molecolare.

• Essi possono regolare negativamente l'espressione dei loro geni bersaglio in maniera post-trascrizionale, inducendo degradazione dell'mRNA o inibendo la traduzione di esso.

• Dato il loro coinvolgimento in diverse patologie, tra cui tumori, le funzioni dei miRNA sono state indagate con l'aiuto di approcci di bioinformatica che consentono di prevedere l'interazione con i potenziali geni bersaglio [mirbase.org, microrna.org, genemania.org].

Page 5: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

DESCRIZIONE DELLA RICERCA

• Tali strumenti sono in grado di analizzare una particolare

sequenza situato sull'estremità 5 ‘ di un miRNA, denominata

regione seme, al fine di prevedere i geni più probabili che

potenzialmente interagiscono con esso.

• Anche se la complementarità rimane la caratteristica principale,

questi strumenti tengono conto di altre caratteristiche importanti

come l'accessibilità del sito, la conservazione sequenza, più siti

di legame.

• Gli approcci ad oggi esistenti permettono di prevedere i geni

target a partire da un unico MicroRNA.

Page 6: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

DESCRIZIONE DELLA RICERCA

Dettaglio del microRNA mmu-let-7b-

5p limitato a 25 nodi vicini.

Page 7: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

DESCRIZIONE DELLA RICERCA

Dati per il MusMusculus

Numero di nodi microRNA : 3221

Numero di nodi Target : 20915

Numero di relazioni PicTar : 64940

Numero di relazioni TargetScan: 104345

Numero di relazioni miRTarBase : 56697

Page 8: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

DESCRIZIONE DELLA RICERCA

• Problemi con gli attuali sistemi:

• Gli approcci esistenti associano a ciascun MicroRNA anche

migliaia di geni, quindi c’è necessità di discriminare quali geni

sono maggiormente influenzati al fine di guidare il biologo verso

l’individuazione dei MicroRNA più influenti.

• Nelle patologie si è osservata l’alterazione di più MicroRNA

contemporaneamente.

Page 9: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

SOLUZIONE PROPOSTA: IL PROGETTO DIANA

• Il progetto DIANA, appoggiandosi su approcci esistenti che predicono le relazioni

MicroRNA – Gene, si pone l’obiettivo di ottenere una lista di geni che con una

certa probabilità sono influenzati ad un gruppo di miRNA significativamente

alterati in presenza di patologia oncologiche.

• Inoltre, usando la conoscenza relativa al coinvolgimento dei geni nei processi

metabolici (chiamati pathways), con una concatenazione di relazioni,

MicroRNA->geni->pathways, si vuole determinare quali processi metabolici sono

influenzati dai MicroRNA alterati.

• In questo modo si vuole identificare cluster funzionali di geni che potrebbero

essere correlati al set fornito di microRNA.

• Possibilità di effettuare delle interrogazioni che a partire da uno o più geni target

(o pathways) sia possibile avere l’insieme dei MicroRNA associati. Questo

permettere di avere a priori la lista di MicroRNA da cercare nel sistema biologico.

Page 10: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

DESCRIZIONE DELLA RICERCA

Dettaglio del gene AY358078 limitato a

100 nodi vicini nel sistema rna22.

Page 11: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

SOLUZIONE PROPOSTA: IL PROGETTO DIANA

I risultati attesi di DIANA sono:

i) un nuovo DB a grafo, basato sulla tecnologia Neo4j che raccoglie tutti i risultati

del progetto, ossia le informazioni relative al miRNA, i loro geni bersaglio, i

pathways e tutte le relazioni funzionali e le annotazioni;

ii) nuove tecniche di previsione funzionale per determinare geni bersaglio putativi

influenzati da un insieme di MicroRNA (al momento si eseguono semplici

operazioni tra insiemi);

iii) una interfaccia grafica user-friendly facile da usare da parte dei biotecnologi e

biologi che li aiuta a interrogare il database al fine di trovare le relazioni più

probabili tra microrna, geni e pathways

iv) individuare nuove e inosservata relazioni miRNA-target (attraverso

interrogazioni multi-hop) che possono guidare verso nuove direzioni di ricerca

in ambito biologico;

Page 12: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

SOLUZIONE PROPOSTA: IL PROGETTO DIANA

Page 13: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

ATTUALE IMPLEMENTAZIONE IN AZURE

• Realizzazione di script Python che realizzano il DB builder.

• La popolazione del database a grafo è organizzata in due fasi:

• vengono creati i nodi per microRNA e per i geni bersaglio

• vendono definite le relazioni tra i nodi derivanti dati delle

previsioni set di dati. Tutti le relazioni sono archi diretti da un

nodo microRNA a un nodo gene.

• Sorgenti dei dati considerati:

• MirBASE per la definizione dei MicroRNA

• UniPROT per le informazioni sui geni

• Per le relazioni: PicTar, TargetScan, miRTarBase, RNA22

Page 14: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

ATTUALE IMPLEMENTAZIONE IN AZURE

• I nodi microRNA contengono il nome, i sinonimi disponibili in

letteratura, l’ID in miRBase (accession number), il nome della

specie (ad esempio Mus musculus) e un link che punta alla

pagina sul sito miRBase che lo descrive completamente.

• Un nodo gene contiene tutti i dati utili per individuare il gene

nelle principali banche dati: il nome del gene in UniProt,

l’identificatore univoco in uso in NCBI, il codice Ensembl, la

specie e il link alla pagina che descrive il gene sul sito NCBI.

Page 15: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

ATTUALE IMPLEMENTAZIONE IN AZURE

• Le relazioni MicroRNA-Geni contengono gli score calcolati da

algoritmi diversi: PicTar, RNA22, TargetScan e miRTarBase.

• I punteggi sono memorizzati nel database come numeri in virgola

mobile per adattarsi alla varietà di gamma e precisione fornita

dagli algoritmi distinti.

• Durante l'importazione dei dati, vengono determinati il minimo e

il massimo dei punteggi, per ciascuna relazione.

• Qualora nel caricamento delle relazioni non si riesca ad abbinare

un nodo gene, vengono interrogati i servizi di NCBI, UniProt,

ensembl.org per reperire ulteriori informazioni.

Page 16: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

ATTUALE IMPLEMENTAZIONE IN AZURE

• Problemi con i dati:

• Score di diversa natura

• I database delle relazioni specificano microRNA e geni usando

una notazione non sempre comune. Alcuni usano i nomi altri

degli ID.

• E’ necessaria una procedura per rilevare quando lo stesso

microRNA o gene viene descritto usando una forma diversa.

• API da servizi esterni sono usati per trovare una corrispondenza

in base al nome del gene, il suo GeneID o il codice Ensembl.

Page 17: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

ATTUALE IMPLEMENTAZIONE IN AZURE

Dati caricati sul DB per il MusMusculus

Numero di nodi microRNA : 3221

Numero di nodi Target : 20915

Numero di relazioni PicTar : 64940

Numero di relazioni TargetScan: 104345

Numero di relazioni miRTarBase : 56697

Numero di relazioni RNA22: 38555671 (al momento)

Page 18: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

ATTUALE IMPLEMENTAZIONE IN AZURE

Relazioni in TargetScan per

I geni C2C2L e SMAD5

Page 19: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

ATTUALE IMPLEMENTAZIONE IN AZURE

Uso del disco in lettura e scrittura nell'ultimo mese .

Page 20: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

LAVORI FUTURI

• Completare la realizzazione del sistema con i due applicativi Web

per l’amministratore del sistema e gli utenti finali, facendo uso di

specifici ambienti di sviluppo presenti su Azure.

• Usare l’applicativo “Application Insights” per:

• l’analisi dei file logs creati durante il caricamento del DB;

• studiare il comportamento e gli interessi degli utenti;

• l’analisi delle prestazioni e dell’affidabilità del sistema.

Page 21: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

LAVORI FUTURI

• Il sistema DIANA deve garantire alta affidabilità (la probabilità di

fallimento del servizio deve essere non superiore a 10-6) e

availability (la probabilità che il servizio non è raggiungibile non

deve superare 10-5).

• Inoltre, si vuole monitorare le prestazioni (e.g., l'utilizzo delle

risorse e il tempo di risposta) del sistema al fine di studiare come

migliorare la qualità del sistema.

• Studiare come visualizzare al meglio i risultati delle

interrogazioni al DB. I dati da visualizzare possono essere tanti e

una visualizzazione non adeguata potrebbe prevenire l’utilizzo

effettivo del sistema da parte degli utilizzatori finali.

Page 22: 2° Ciclo Microsoft CRUI 2° Sessione: il Cloud nella Bioinformatica (Bioinformatics approach to predict target genes for dysregulated microRNAs in hepatocellular carcinoma)

TEAM

Antinisca Di Marco, Ricercatrice in Informatica, L’Aquila

Francesco Gallo, Assegnista in Informatica, L’Aquila

Michele Tucci, Tecnico Informatico, L’Aquila

Edoardo Alesse, Prof. Ordinario in Scienze Tecniche di Medicina di Laboratorio, L’Aquila

Alessandra Tessitore, Ricercatrice in Scienze Tecniche di Medicina di Laboratorio, L’Aquila

Filippo Del Vecchio, Post-Doc Scienze Tecniche di Medicina di Laboratorio,University of Southampton, UK