ricognizione del software disponibile per analisi primaria di dati ngs
TRANSCRIPT
1
Consiglio Nazionale delle Ricerche
Istituto di Calcolo e Reti ad Alte Prestazioni
RICOGNIZIONE DEL
SOFTWARE
DISPONIBILE PER
ANALISI PRIMARIA DI
DATI NGS R. Cassandra, Mario R. Guarracino
RT-ICAR-NA-2013-5 Novembre 2013
Consiglio Nazionale delle Ricerche, Istituto di Calcolo e Reti ad Alte Prestazioni (ICAR)
– Sede di Napoli, Via P. Castellino 111, I-80131 Napoli, Tel: +39-0816139508, Fax: +39-
0816139531, e-mail: [email protected], URL: www.na.icar.cnr.it
2
Consiglio Nazionale delle Ricerche
Istituto di Calcolo e Reti ad Alte Prestazioni
RICOGNIZIONE DEL
SOFTWARE
DISPONIBILE PER
ANALISI PRIMARIA DI
DATI NGS 1
R. Cassandra2, Mario R. Guarracino
2
Rapporto Tecnico N.:
RT-ICAR-NA-2013-5
Data:
Novembre 2013
1 Rapporto tecnico del laboratorio di Genomica, Trascrittomica e Proteomica GTP
2 High Performance Computing and Networking Institute Italian National Research Council
Via P. Castellino, 111, 80131, Napoli (Italy)
I rapporti tecnici dell’ICAR-CNR sono pubblicati dall’Istituto di Calcolo e Reti ad Alte Prestazioni del
Consiglio Nazionale delle Ricerche. Tali rapporti, approntati sotto l’esclusiva responsabilità scientifica
degli autori, descrivono attività di ricerca del personale e dei collaboratori dell’ICAR, in alcuni casi in un
formato preliminare prima della pubblicazione definitiva in altra sede.
1
PROGETTO PON_02_00619_3470457
VALUTAZIONE DEGLI EFFETTI DI GENI E
MOLECOLE SPECIFICHE SU PATTERN
TRASCRIZIONALI DETERMINATI, ATTRAVERSO
IBRIDAZIONE SU ARRAY E/O ANALISI SU LARGA
SCALA DI SEQUENZE TRASCRITTE
ATTIVITA’ 3.1 – RICOGNIZIONE DEL SOFTWARE DISPONIBILE PER
ANALISI PRIMARIA DI DATI NGS
2
Sommario
1. SOMMARIO ATTIVITA’ ............................................................................................................................... 3
2. INTRODUZIONE ALLE PIATTAFORME NGS ................................................................................................. 3
3. LA TECNOLOGIA NGS (Next Generation Sequencing) ............................................................................... 3
4. LE TECNOLOGIE HTS (High Throughput Sequencing) ................................................................................ 4
4.1. Roche 454 Genome Sequencer ......................................................................................................... 5
4.2. Illumina Genome Analyzer ................................................................................................................ 7
4.3. ABI SOLiD System ............................................................................................................................... 9
5. RNA-Seq ................................................................................................................................................... 11
6. ALLINEAMENTO E ASSEMBLY DELLE SEQUENZE GENERATE DA TECNOLOGIE HTS ................................ 12
7. SOFTWARE DISPONIBILI........................................................................................................................... 15
7.1. SOFTWARE DE NOVO SEQUENCING ................................................................................................ 15
7.2. SOFTWARE MAPPING SEQUENCING ............................................................................................... 38
7.3. SOFTWARE MAPPING SEQUENCING CON SET DI POSSIBILI GIUNZIONI NOTE DI SPLICING ........... 53
7.4. SOFTWARE MAPPING PER IDENTIFICARE EVENTUALI SITI DI SPLICING .......................................... 63
8. DISCUSSIONI ........................................................................................................................................ 72
3
1. SOMMARIO ATTIVITA’
Negli ultimi anni, parallelamente allo sviluppo delle metodiche di Next Generation Sequencing (NGS), sono
stati sviluppati diversi algoritmi e software per effettuare analisi primarie dei dati provenienti da
esperimenti di RNA-Seq, volti a risolvere sia il problema dell’identificazione dei trascritti di partenza
mediante mapping o assemblaggio sia il problema delle successive analisi quantitative circa l’espressione
genica. Il panorama del software disponibile è in continua espansione e pertanto è necessario effettuare
una approfondita ricognizione dei più recenti algoritmi che affrontano e si approcciano a tale nuova
metodica.
Sono stati individuati un totale di 99 software suddivisi in quattro categorie, come descritto nel capitolo 3,
che rispondono ai requisiti specificati nell’obiettivo oggetto di questo report.
2. INTRODUZIONE ALLE PIATTAFORME NGS
Le piattaforme di sequenziamento di nuova generazione (Next Generation Sequencing - NGS)
sviluppate negli ultimi anni, come ad esempio la Roche 454 GS - FLX System, Illumina Genome
Analyzer e Sistema HiSeq 2000 e System ABI SOLiD ™, hanno rivoluzionato il campo della
biologia e della ricerca medica (Schuster, 2008). Rispetto alla tradizionale tecnologia di
sequenziamento Sanger (Bentley, 2006; Sanger et al, 1977), queste nuove piattaforme di
sequenziamento generano dati molto più velocemente e producono un output molto più elevato di
sequenze, riducendo i costi di oltre un migliaio di volte (Shendure e Ji , 2008). La capacità di
generare rapidamente un enorme numero di brevi sequenze (reads) a prezzi sensibilmente ridotti, ha
notevolmente ampliato la portata dei progetti di sequenziamento realizzabili. Ad esempio, la
prospettiva di sequenziamento dell'intero genoma umano per un gran numero di campioni, è
diventata una realtà. L'emergere di piattaforme (NGS) evidenzia crescenti esigenze di metodi
statistici e strumenti bioinformatici per l'analisi e la gestione di enormi quantità di dati generati da
queste tecnologie. Esiste un gran numero di software per analizzare i dati NGS, anche se alcuni di
essi sono nelle fasi iniziali della loro disponibilità commerciale. Questi strumenti possono essere
utilizzati in molte categorie generali, tra cui l'allineamento di sequenza di reads verso un
riferimento, base-calling/o rilevamento di polimorfismi, de-novo assembly, rilevamento delle
varianti strutturali e la navigazione del genoma.
3. LA TECNOLOGIA NGS (Next Generation Sequencing)
La tecnologia NGS (Next Generation Sequencing) permette di affrontare una vasta gamma di
applicazioni di analisi genetica, tra cui: genomica comparativa, rilevamento polimorfismo ad alta
produttività, l'analisi di piccoli RNA, identificazione di geni mutanti in pathways di malattie, profili
del trascrittoma, profili di metilazione, e rimodellamento della cromatina. Gli ultimi anni hanno
4
visto la nascita di diverse piattaforme high-throughput sequencing (HTS) o (Next Generation
Sequencing, NGS) che si basano su varie implementazioni di sequenziamento. I prodotti
commerciali che si basano su questa tecnologia di sequenziamento, come già accennato, sono
Roche 454, di Illumina Genome Analyzer , solidi di ABI e il HeliScope da Helicos. Anche se queste
piattaforme sono molto diverse nei loro processi biochimici e, i loro workflow sono
concettualmente molto simili. Tutte permettono il sequenziamento di milioni di breve sequenze
(reads) contemporaneamente, e sono in grado di sequenziare un genoma umano completo a
settimana ad un costo 200 volte inferiore rispetto ai metodi precedenti. Inoltre, le piattaforme HTS
consentono la generazione di molti tipi di dati di sequenza: per esempio, sono usati per rendere il
sequenziamento de-novo (sequenziamento di un genoma o trascrittoma senza un riferimento) , per
ri-sequenziare individui quando esiste già un genoma di riferimento, sequenziare RNA per
quantificare il livello di espressione (RNA-Seq) e studiare la regolazione di geni mediante
sequenziamento di immunoprecipitazione della cromatina (ChIP-Seq ). L'avvento di piattaforme
HTS ha aperto molte opportunità per la scoperta di varianti genomiche. Anche se la comunità
bioinformatica ha risolto molti aspetti dell’analisi di tutti questi tipi di dati, in questo report saranno
presi in considerazioni software con le seguenti caratteristiche:
• Software in grado di lavorare senza alcuna sequenza di riferimento, generando di fatto un
trascrittoma de-novo, paragonabile ad un insieme di EST;
• Software in grado di mappare le sequenze prodotte rispetto ad una sequenza di riferimento,
sia essa un genoma o un trascrittoma noto, al fine di identificare quali geni risultano
effettivamente espressi nelle condizioni sperimentali oggetto di studio;
• Software in grado di mappare le sequenze prodotte contro un genoma noto e un set di
possibili giunzioni note di splicing, per l’identificazione di trascritti alternativi e quindi
isoforme alternative di uno specifico prodotto genico;
• Software in grado di mappare le sequenze prodotte su un genoma di riferimento,
identificando in maniera automatica i siti di splicing e quindi generando alla fine un insieme
di sequenze costituito da trascritti noti e nuovi trascritti putativi codificanti e non, espressi
nella specifica condizione sperimentale.
4. LE TECNOLOGIE HTS (High Throughput Sequencing)
Ricapitolando in breve, tramite NGS è quindi possibile ottenere in modo rapido (e più economico)
una grandissima quantità di sequenze (in una singola corsa è possibile ottenere giga-basi, ed ormai
quasi tera-basi, di informazioni). Per questo motivo la NGS è nota anche come high-throughput
sequencing (HTS). I workflow di tutte le tecnologie HTS attualmente disponibili sono molto simili
5
tra loro1. Nella NGS, il DNA di un individuo viene rotto in numerosissimi piccoli frammenti (ad
esempio attraverso l’uso di ultrasuoni) per costituire la cosiddetta libreria di sequenziamento
(sequencing library). Questi piccoli frammenti fungono da stampo per la sintesi di numerosi
frammenti complementari (dette reads). Ogni piccolo frammento del DNA originario viene cioè
copiato molte volte in un numero variabile di reads. A seconda del livello di precisione desiderato è
possibile configurare il sistema per ottenere un certo livello di coverage2, ossia un certo numero di
reads piuttosto che un altro (ad esempio, 30 reads per frammento (si definirebbe in gergo
“coverage” 30x). Le tecnologie HTS attualmente disponibili includono le macchine Illumina
Genome Analyzer (GA), Applied Biosystem ABI Solid , Roche 454 e Helicos Heliscope
sequencing machines (Tabella 1). In generale qualunque sequenziatore NGS può essere utilizzato
per diversi tipi di applicazione:
• Analisi dell’intero genoma di un individuo (Whole-Genome Sequencing, noto anche come
Whole-Genome Shotgun – WGS);
• Analisi dell’intero esoma (cioè della sola parte codificante del genoma: Whole-Exome
Sequencing – WES);
• Analisi di un ristretto gruppo di geni (pannello) o di un singolo gene.
Tabella 1: Riepilogo delle caratteristiche principali delle tre tecnologie HTS[2]
4.1. Roche 454 Genome Sequencer
La tecnica del sequenziamento ha profondamente cambiato la natura della ricerca medica e
biomedica e rappresenta il metodo pricipale per l'identificazione di variazioni di sequenza del DNA.
1 Alberto Magi, Matteo Benelli, Alessia Gozzini, Francesca Girolami, Francesca Torricelli and Maria Luisa Brandi,
Bioinformatics for Next Generation Sequencing Data, Genes 2010, 1, 294-307; 2 Coverage: numero di volte in cui una base è coperta dai singoli frammenti (se sarà basso avrò molti errori ma costerà
meno).
6
Il nuovo sequenziatore Roche Genome Sequencer FLX Titanium, noto anche come 4543, sfrutta un
nuovo concetto di sequenziamento, totalmente diverso rispetto alla tecnologia Sanger, a cui si
affianca offrendo nuove prospettive di ricerca. Il 454 si basa sulla tecnologia del
pirosequenziamento4 e permette di ottenere più di 400,000 sequenze (circa 100 milioni di basi
sequenziate) di 200/300 basi di lunghezza e di qualità elevatissima (>99,5% di accuratezza) con
un'unica corsa di circa 8 ore.
Inoltre la nuova tecnica dell'emPCR (emulsion-pcr) riduce drasticamente i tempi totali del processo,
eliminando la necessità di clonare il DNA da sequenziare. Il GS FLX System si basa
sull'amplificazione in vitro del DNA mediante PCR in emulsione e su un protocollo di
pyrosequencing (pirosequenziamento) modificato per il funzionamento su un supporto solido.
3 454/Roche.GSFLX+System.[Online].http://my454.com/products/gs-flx-system/index.asp.Jay;
4 Shendure and Hanlee Ji, “Next-generation DNA sequencing,” Nature Biotechnology, vol.26,no.10,Oct.2008;
7
Figura 1: Processo del pirosequenziamento.
La piattaforma tecnologica 454 è in grado di eseguire con costi 100 volte inferiori rispetto a quelli
richiesti dal tradizionale metodo di Sanger, il resequencing e il de novo assembly di interi genomi di
microrganismi. Il whole genome shotgun sequencing di batteri di circa 5 Mb può essere condotto
con un'unica corsa di sequenziamento in circa una settimana (coverage 20X ed accuratezza del
99,99%). Tale approccio, inoltre, non richiede l'impiego di vettori batterici.
4.2. Illumina Genome Analyzer
Introdotta sul mercato nel 2006 da Solexa e in seguito rinominata Genome Analyzer da
Illumina,questa piattaforma di sequenziamento ha origine dal lavoro di Turcatti et al.5 sul
sequenziamento a terminazione reversibile. La preparazione dei campioni prevede la denaturazione
della doppia elica e l’aggiunta degli adattatori, ottenendo un filamento stampo della sequenza da
sequenziare. Le piastre di sequenziamento o flow-cell di Genome Analyzer sono composte di otto
lane indipendenti, sulle cui superfici sono immobilizzati due diversi oligonucleotidi. I frammenti
sono immessi sulla piastra di sequenziamento, permettendo l’ibridazione tra i loro adattatori e i
complementari oligonucleotidi della piastra. Il legame si forma in entrambe le estremità dei
frammenti, che sono così immobilizzati sulla superficie della flow-cell, assumendo una forma “a
ponte” (vedi Figura 2). Dopo l’immobilizzazione ha inizio il processo di amplificazione: DNA
polimerasi sintetizza il filamento complementare, la molecola ottenuta viene denaturata e i due
5 G. Turcatti, A. Romieu, M. Fedurco, and A.P. Tairi, “A new class of cleavable fluorescent nucleotides: synthesis and
optimization as reversible terminators for DNA sequencing by synthesis,” Nucleic Acids Research, 2008;
8
filamenti rimangono legati alla piastra a una sola estremità. L’operazione si ripete ciclicamente: i
due frammenti si “piegano” fino a ibridare la loro estremità rimasta libera con un complementare
oligonucleotide della flow-cell, riassumendo nuovamente la forma a ponte e permettendo la sintesi
di un nuovo filamento complementare. I passaggi di immobilizzazione-sintesi-denaturazione
continuano fino a ottenere un cluster di migliaia di frammenti, legati a una estremità al substrato e
raccolti in uno spazio molto limitato. Il processo (rappresentato in Figura 2) è definito
amplificazione bridge-PCR, proprio in virtù della forma “a ponte” che i filamenti assumono quando
entrambi gli adattatori sono legati al substrato.
Figura 2: Processo di amplificazione clonale nella tecnologia Illumina (bridge PCR). I frammenti arricchiti con
adattatori (in giallo e verde) sono posti a contatto con la flow-cell e ibridano gli oligonucleotidi presenti sulla superficie,
assumendo una forma “a ponte”. Le fasi di amplificazione producono il filamento complementare, quindi la separazione
dei filamenti e la ripetizione ciclica, fino a ottenere i cluster di copie identiche dello stesso filamento.
I cluster ottenuti sono composti sia di filamenti uguali al filamento originale sia di filamenti inversi;
questi ultimi vengono rimossi, ottenendo cluster di circa 1000 copie identiche della stessa
sequenza. Ai frammenti di ogni cluster viene eseguito l’annealing6 del primer
7 di sequenziamento
che permette l’avvio della reazione di sequenziamento vera e propria. Ogni ciclo di sequenziamento
coinvolge una DNA polimerasi e i quattro dNTP a cui sono state apportate due modificazioni. La
doppia modifica consiste nell’incorporazione di un marcatore fluorescente che ne permette
l’identificazione e nell’aggiunta di un terminatore reversibile. Il terminatore è una molecola che
blocca il gruppo ossidrile8 impedendo l’ulteriore sintesi, in modo da garantire l’incorporazione di
una sola base. Questa limitazione è necessaria poiché in ogni ciclo sono forniti tutti i dNTP e quindi
la sintesi potrebbe riguardare più basi in contemporanea; il terminatore permette invece di arrestare
la sintesi dopo ogni singola incorporazione. Il terminatore è detto reversibile in quanto può essere
dissociato chimicamente, riattivando la sintesi. Dopo ogni incorporazione, un laser eccita il
fluorescente del dNTP generando un’emissione luminosa che ne permette l’identificazione. Quindi
il terminatore viene rimosso, continuando il sequenziamento della base successiva. Le prime
versioni di Illumina Genome Analyzer erano caratterizzate da un tasso di errore non trascurabile e
6 Annealing: Fase in cui i primers si appaiano alle sequenze complementari sul DNA stampo.
7 Primer:
8 Per ulterior dettagli e informazioni consultare http://it.wikipedia.org/wiki/Gruppo_ossidrilico.
9
da read di lunghezza molto inferiore rispetto a 454/Roche (35-50nt) ma erano in grado di ottenere
dati con un throughput di oltre 10000Mb al giorno (oltre 10 volte più di 454/Roche) a costi molto
contenuti. Le modifiche apportate alla tecnologia e ai protocolli sperimentali hanno sensibilmente
ridotto gli errori di sequenziamento, seppure siano ancora presenti dei bias9, e aumentato la
lunghezza delle read a 100 nt e oltre, facendola diventare la tecnologia più utilizzata nei progetti di
ri-sequenziamento e RNA sequencing.
4.3. ABI SOLiD System
Sviluppata sul metodo sequencing-by-ligation (a differenza dei due metodi sopra descritti che
possono essere definiti sequencing-by-synthesis) proposto dal laboratorio George Church nel
200510
, la piattaforma SOLiD viene introdotta nel mercato a partire dal 2007 da Applied
Biosystems. Dopo la denaturazione della doppia elica e l’aggiunta di adattatori, i frammenti sono
ibridati a delle sfere la cui superficie è ricoperta da oligonucleotidi complementari a uno degli
adattatori, come in 454/Roche. Nella tecnologia SOLiD le sfere sono però molto più piccole
(diametro 0,75 µm invece di 28 µm), permettendo una maggiore densità di sfere sequenziabili per
run. Le sfere sono messe in emulsione assieme ai reagenti e ai primer della PCR per ottenere
l’amplificazione clonale dei filamenti (em-PCR), in modo del tutto simile a quanto visto per
454/Roche. A differenza di quest’ultima tecnologia, la piastra di sequenziamento SOLiD non
dispone di pozzetti; le sfere sono invece legate alla superficie opportunamente trattata della piastra
di sequenziamento tramite la formazione di un legame covalente con le estremità dei filamenti
amplificati, modificate chimicamente11
. Mentre in 454/Roche esiste un numero predefinito di
pozzetti e quindi di sfere sequenziabili, con il sequenziatore SOLiD il limite al numero di sfere che
possono essere deposte sulla superficie è dato solo dal loro diametro (inferiore a 1 µm). La reazione
di sequenziamento non avviene grazie a DNA polimerasi, ma tramite DNA ligasi, un enzima in
grado di legare covalentemente due frammenti di DNA. L’acronimo SOLiD significa infatti
“Sequencing by Oligonucleotide Ligation and Detection”. Ogni ciclo di sequenziamento coinvolge
la sfera, un primer di sequenziamento, la ligasi e quattro sonde di dNTP. Le sonde sono composte
da 8 basi più un marcatore fluorescente e presentano un sito di rottura fra i nucleotidi 5 e 6. Le
prime due basi della sonda sono complementari a due nucleotidi da sequenziare, le basi da 3 a 5
sono degeneri, cioè capaci di appaiarsi a qualsiasi base della sequenza stampo, le basi 6, 7 e 8 sono
anch’esse degeneri e possono essere rimosse, assieme al marcatore fluorescente, tramite la rottura
del legame con la base in posizione 5. Una volta che una sonda si è appaiata alla sequenza stampo,
9 Kensuke Nakamura,Taku Oshima,Takuya Morimoto,Shun Ikeda, and et al, “Sequence-specific error profile of
Illumina sequencers,” Nucleic Acids Research Advance Access, vol. 1, no.13, May 2011; 10
Jay Shendure et al., “Accurate multiplex polony sequencing of anevolved bacterial genome,” Science, Sep. 2005; 11
Applied Biosystems.(2010) Applied Biosystems SOLiD 4 System - Templated Bead Preparation Guide. [Online].
http://www3.appliedbiosystems.com/cms/groups/mcb_support/documents/generaldocuments/cms_081748.pdf
10
avviene l’eccitazione del marcatore legato alla sonda e la conseguente emissione di fluorescenza.
Contemporaneamente, viene rotto il legame tra le posizioni 5 e 6, lasciando libero l’estremità 5’
della quinta base della sonda e permettendo il legame con una successiva sonda. L’emissione
luminosa è rilevata dalla strumentazione in modo da identificare il colore associato alla coppia delle
prime due basi. Ogni marcatore produce una specifica emissione luminosa che identifica 4 di 16
possibili coppie di nucleotidi (4 possibili nucleotidi su sue posizioni, si veda Figura 3).
Figura 3: Le possibili combinazioni di nucleotidi che i quattro colori dei marcatori fluorescenti rappresentano. Ciascun
colore non rappresenta univocamente una singola coppia di basi, ma 4 combinazioni sulle 16 possibili12
.
Detta n la posizione della base del primer (appaiato all’adattatore che lega la sequenza stampo alla
sfera), le basi n+1 e n+2 saranno quindi complementari alla sequenza stampo, così come le
successive basi n+6 e n+7 e così via. Per ciascuna di queste coppie di basi, lo strumento rileva un
segnale che può corrispondere a una delle sedici combinazioni possibili (Figura 3). Le basi n+3,
n+4 e n+5 sono anch’esse appaiate (in quanto degeneri) ma indeterminate. La loro identificazione
sarà resa possibile in un successivo ciclo di sequenziamento, spostando il primer in una nuova
posizione della sequenza stampo. Dopo l’appaiamento della prima sonda, il processo si ripete con il
legame di nuove sonde, l’identificazione e la separazione del marcatore e degli ultimi tre nucleotidi;
il numero delle iterazioni (solitamente 7) determina la lunghezza di lettura. Terminato il processo, il
filamento ottenuto è rimosso e un nuovo primer viene appaiato al filamento stampo in posizione n-.
Nel nuovo ciclo saranno univocamente appaiate le basi n+2 e n+3, nel ciclo successivo le basi n+3 e
n+4 e così via. Nel complesso sono eseguiti cinque cicli di sequenziamento, ciascuno con il primer
spostato in una posizione di volta in volta arretrata. I cinque cicli permettono di interrogare ogni
base della sequenza per due volte (in due indipendenti reazioni con diverse posizioni dei primer). Si
12
Applied Biosystems.5500xl Genetic Analyzer.[Online]. http://products.invitrogen.com/ivgn/product/4460730;
11
veda ad esempio la Figura 4: la base nella posizione di lettura 5 viene coinvolta dal primer numero
2 nel secondo ciclo (indicato in azzurro) e dal primer numero 3 nel primo ciclo (indicato in blu).
Questa doppia interrogazione permette di migliorare la bontà del sequenziamento.
Figura 4: Design del sequenziamento con tecnologia SOLiD. Sono rappresentati i cinque cicli (uno per riga) di
sequenziamento, ciascuno dei quali composto da sei passaggi di aggiunta di nuove sonde ad opera della ligasi. I punti
neri indicano le coppie di basi interrogate in ogni passaggio13
.
Il colore dell’emissione da parte del fluorescente permette di identificare la coppia delle prime basi,
ma non è sufficiente per distinguere un nucleotide dall’alto. Oltre alla specifica emissione per ogni
coppia è infatti necessario che una delle basi della sequenzia sia nota. La base nota è incorporata
nell’ultimo (il quinto) ciclo di sequenziamento e corrisponde all’ultimo nucleotide del primer.
Quindi, dato che ciascun colore rappresenta 4 possibili coppie di dNTP (Figura 5) e per ognuna di
esse il secondo nucleotide coincide con la prima base della coppia successiva, conoscere una base
della sequenza permette di interpretare tutta la sequenza nella sua interezza. La Figura 7 propone un
esempio di decodifica dei colori rilevati, nota la prima base della sequenza.
Figura 5: Esempio di decodifica dei colori per determinare la sequenza. Si suppongono note la prima base (A) e l’ordine
dei colori rilevati. Dallo schema di codifica (Figura 3) è evidente che se la coppia è identificata dal colore rosso e la
prima base è una A allora sicuramente la seconda base sarà una T. Nella seconda coppia, la prima base è la T appena
identificata e il colore della coppia è verde: la seconda base sicuramente sarà una G14
.
5. RNA-Seq
Uno degli utilizzi più attuali delle tecnologia NGS riguarda l’RNA-Sequencing (RNA-Seq).
L'RNA-Seq è un approccio recentemente sviluppato per l'analisi e profilazione del trascrittoma che
13
Applied Biosystems.5500xl Genetic Analyzer.[Online]. http://products.invitrogen.com/ivgn/product/4460730 14
Applied Biosystems.5500xl Genetic Analyzer.[Online]. http://products.invitrogen.com/ivgn/product/4460730
12
utilizza tecnologie di deep-sequencing (HTS)15
. Gli studi che utilizzano questo metodo hanno già
portato alla luce la portata e la complessità dei trascrittomi eucarioti l'RNA-Seq fornisce anche una
misura molto più preciso dei livelli di trascrizione e delle loro isoforme. In breve la tecnica
dell’RNA-Seq consiste nel selezionare una popolazione di RNA da studiare (totale o frazionata),
questa viene convertita in una libreria di frammenti di cDNA con adattatore collegato a una o
entrambe le estremità. Ogni molecola, con o senza amplificazione, viene poi sequenziata in alta
processività per ottenere sequenze corte da un'estremità (sequenziamento single-end) o entrambe le
estremità (sequenziamento pair-end). Le reads sono tipicamente di 30-400 bp, a seconda sulla
tecnologia di sequencing utilizzata, come ampiamente discusso nella Sezione 4.
6. ALLINEAMENTO E ASSEMBLY DELLE SEQUENZE GENERATE
DA TECNOLOGIE HTS
La prima sfida presentata dai dati provenienti da tecnologie HTS è il cosiddetto problema
dell’allineamento (o mapping) di reads. L'allineamento tra due sequenze biologiche consente di
individuare se vi è una relazione di somiglianza tra esse. Ad esempio, se la sequenza di un gene in
esame è molto simile a quella di un gene noto, è molto probabile che esso abbia una funzione
identica o simile. L’allineamento può avvenire tra sequenze di acidi nucleici o tra sequenze di
aminoacidi. L'allineamento di acidi nucleici riguarda sequenze di DNA poichè gli mRNA sono
riportati nelle banche dati come cDNA, come anche rRNA o tRNA sono rappresentati dalle
corrispondenti sequenze geniche. Da un punto di vista funzionale, il confronto tra le sequenze
aminoacidiche di due prodotti proteici è più informativo del confronto tra le sequenze che
codificano i rispettivi geni. Infatti, soprattutto negli eucarioti, differenze nelle sequenze introniche,
incluse inserzioni e delezioni, possono pesare in maniera determinante sul livello di similarità,
anche nel caso in cui non abbiano alcun effetto sulla maturazione del trascritto. Inoltre, residui
identici a livello aminoacidico possono essere codificati da codoni differenti, quindi ciò che è
evidentemente identico a livello proteico (stessi residui) non lo è a livello nucleotidico (una
sostituzione silente o una non silente hanno lo stesso peso nel calcolo della similarità nucleotidica).
Può apparire talora banale definire cosa è simile e cosa no tra due sequenze, ma un allineamento
manuale è facile solo quando le sequenze da allineare sono abbastanza simili. Quando invece i
confini tra regioni conservate e divergenti non sono immediatamente individuabili, poichè ad
esempio le due sequenze sono correlate ma mostrano una bassa similarità, diventa molto difficile
scegliere tra i possibili allineamenti alternativi e quindi è necessario stabilire un criterio per
individuare l'allineamento “migliore” tra quelli possibili. Gli algoritmi di allineamento sono pensati
in maniera tale che sia individuato il sistema per rendere minimo il numero delle differenze. Le
15
Zhong Wang, Mark Gerstein and Michael Snyder, RNA-Seq: a revolutionary tool for transcriptomics, Nature
Reviews Genetics 10, 57-63 (January 2009) | doi:10.1038/nrg2484;
13
analisi di allineamento possono rivelare l'omologia tra geni e tra proteine, ma è scorretto parlare di
“grado di omologia” o “percentuale di omologia”. Infatti l'omologia è un carattere qualitativo ed
esprime la correlazione evolutiva tra sequenze che derivano da un ancestore comune e si sono
differenziate attraverso un processo di speciazione molecolare. Dunque, se ci si vuole esprimere in
termini quantitativi, è corretto parlare di percentuali di “identità” e/o di “similarità”. Il DNA è
rappresentato da 4 lettere che corrispondono alle basi azotate, il cui ruolo biologico è
prevalentemente informativo: la successione delle basi nel DNA consente eventi di codifica e
riconoscimento necessari per specificare “prodotti” (in particolare proteine, attraverso il codice
genetico, ma anche molecole di rRNA, tRNA, snRNA. miRNA) ed individuare sequenze di
riconoscimento per le proteine che interagiscono, a vario titolo, con il DNA stesso (componenti
della cromatina, enzimi, fattori trascrizionali, ecc). Nel DNA le sostituzioni non sono equivalenti (le
transizioni sono più frequenti delle transversioni), ma si preferisce non distinguere, perchè il
rapporto transizioni/trasversioni può variare da caso a caso. Comunque, per il DNA non ha molto
senso parlare di residui "simili" ed in genere si preferisce fare riferimento all'identità.
Figura 5: Allineamento di due sequenze con un software di allineamento e visualizzazione.
14
Tutte le piattaforme HTS attuali sono in grado di produrre i dati nell'ordine di giga di paia di basi
(Gbp) al giorno macchina16
. Con l'emergere di questi dati, i ricercatori si sono resi conto che gli
strumenti tradizionali per l'allineamento di reads in maniera capillare, non sono efficienti per questa
enorme quantità di dati. Per questo motivo, sono stati sviluppate negli ultimi due anni, molti
strumenti di allineamento nuovi. Questi nuovi strumenti utilizzano i numerosi vantaggi specifici per
ciascuna delle nuove tecnologie di sequenziamento, come le brevi lunghezze delle sequenze di
Solexa , reads di SOLid e Helicos, il tasso di errore basso indel delle reads Illumina e la codifica d-
base delle reads SOLid. Questi nuovi strumenti, chiamati allineatori di short reads, superano le
prestazioni degli allineatori tradizionali (come BLAST17
) sia in termini di velocità sia d precisione.
Un algoritmo per l'allineamento di brevi sequenze reads prodotte da tecnologie HTS, deve essere in
grado di:
• Essere rapido ed efficiente ad allineare i miliardi di corte reads prodotte da questa tecnica;
• Consentire l'allineamento di reads non univoche (elementi ripetitivi nel riferimento) e di
reads che non si allineano esattamente con il genoma di riferimento (errori di
sequenziamento o variazioni).
Una delle applicazioni più rilevanti dell’allineamento di sequenze è quello di cercare eventuali
differenze all’interno di una sequenza che ad esempio codifica per lo stesso gene. All’interno di un
genoma la somma di queste differenze costituisce la variabilità interindividuale. Questa è
caratterizzata principalmente da variazioni di sequenza definite polimorfismi, vale a dire la presenza
ad un dato locus di due o più alleli, presenti con una frequenza maggiore (>1%) di quella che
potrebbe essere mantenuta da una mutazione18
. Lo studio della variabilità interindividuale
rappresenta una sfida per la medicina moderna soprattutto nella prospettiva di poter curare il malato
in maniera sempre più specifica e sicura, individuando il trattamento terapeutico più efficace. In
particolare lo studio delle varianti polimorfiche è diventato determinante nella comprensione dei
meccanismi alla base della suscettibilità alle diverse patologie multifattoriali, tra cui rientrano
malattie comuni quali l’asma, la psoriasi, il diabete, l’obesità, e le malattie cardiovascolari. Gli
SNPs, (Single Nucleotide Polymorphism) sostituzioni di un singolo nucleotide, rappresentano la
più grande fonte di variabilità interindividuale nel genoma dato che lo 0,5% di porzione variabile di
sequenza è responsabile non solo delle differenze fenotipiche tra gli individui, ma sopratutto delle
16
Metzker, M.L. Sequencing technologies – the next generation. Nat. Rev. Genet. 2010, 11, 31–46. 17
Kent, W.J. BLAT--the BLAST-like alignment tool. Genome Res. 2002, 4, 656-664. 18
Mutazione: Per mutazione genetica si intende ogni modifica stabile ed ereditabile nella sequenza nucleotidica di un
genoma o più generalmente di materiale genetico (sia DNA che RNA) dovuta ad agenti esterni o al caso, ma non alla
ricombinazione genetica. Una mutazione modifica quindi il genotipo di un individuo e può eventualmente modificarne
il fenotipo a seconda delle sue caratteristiche e delle interazioni con l'ambiente. Per ulteriori dettagli e informazioni
consultare http://it.wikipedia.org/wiki/Mutazione_genetica.
15
differenze in termini di predisposizione e resistenza alle malattie comuni. In passato è stata
formulata l’ipotesi CD = CV hypothesis “common disease/common variant”19
per la quale le
mutazioni (evento eccezionale) determinano le malattie rare (patologie mendeliane) mentre gli
SNPs (frequenti nel genoma) determinino la suscettibilità genetica alle malattie complesse. Le
varianti polimorfiche sono alla base dell’eziologia patologica di molte malattie e andrebbero
pertanto studiate su scala popolazionale piuttosto che su scala familiare. L’introduzione di
innovativi studi genotipici su larga scala (WGA, Whole Genome Association Study) ha permesso
l’identificazione di un nuovo repertorio di loci di suscettibilità di malattie complesse, con funzione
fino ad oggi sconosciuta, caratterizzati da elevate frequenze alleliche e basso rischio relativo
supportando maggiormente l’ipotesi CD = CV.
7. SOFTWARE DISPONIBILI
Nei successivi paragrafi si andranno a definire con maggiore precisione i software disponibili per
assembly de-novo di nuovi genomi e/o trscrittomi (44 software selezionati), per l’analisi e il
mapping delle sequenze contro un genoma e/o trascrittoma di riferimento (28 software selezionati),
per l’analisi e il mapping di sequenze utilizzando come input anche possibili giunzioni note di
splicing (13 software selezionati) e infine software per il mapping e la ricerca di nuovi trascritti per
identificare nuovi siti di splicing alternativi (14 software selezionati).
7.1. SOFTWARE DE NOVO SEQUENCING
Quando non esiste un genoma di riferimento, o si vuole assemblare un nuovo genoma di un
organismo, sono fondamentali strumenti che consentono l’assemblaggio de-novo di reads
provenienti da piattaforme HTS. Negli ultimi due anni, sono stati proposti molti algoritmi per
l'assemblaggio de novo, soprattutto per i genomi batterici. Tutti questi programmi sono basati su
una struttura dati chiamata grafo di De Bruijn20
,21
e differiscono per come trattano gli errori e se
usano informazioni read-pair. Ad oggi, assembly de novo del genoma umano da dati HTS è
soltanto in grado di ricostruire regioni di DNA brevi (contigs), ma la presenza di ripetizioni rende
difficile o impossibile assemblare pezzi più lunghi. L’ assemblaggio finale delle sequenze porta alla
generazione della sequenza genomica continua, che, in condizioni ideali, è costituita da tante
sequenze indipendenti quanti sono i cromosomi. In realtà questo risultato richiede molto lavoro, e
19
Studio di Associazione: Uno studio di associazione consiste nel confrontare la frequenza del fattore genetico (alleli,
genotipi o aplotipi) in un gruppo di individui affetti rispetto ad un gruppo di individui non affetti. Lo studio di
associazione caso-controllo può essere influenzato da diversi fattori come ad esempio il “mescolamento” di più
popolazioni. La popolazione dei controlli dovrebbe essere scelta per essere il più possibile simile alla popolazione dei
casi per tutti i possibili fattori confondenti (es. età, sesso, etnia, etc). 20
Pevzner, P.A.; Borodovsky, M.Y.; Mironov, A.A. Linguistics of nucleotide sequences. II: Stationary words in genetic
texts and the zonal structure of DNA. J. Biomol. Struct. Dyn. 1989, 6, 1027–1038. 21
Idury, R.M.; Waterman, M.S. A new algorithm for DNA sequence assembly. J. Comput. Biol. 1995, 2, 291–306.
16
viene raggiunto per gradi. Tipicamente i primi assemblaggi sono costituiti da contig di dimensioni
molto grandi non connessi tra loro. La sequenza genomica indicata come completa è allineata lungo
i cromosomi, ma spesso ancora contiene piccole aree di sequenza non nota. Le regioni contenenti
sequenze con alto grado di ripetitività raramente finiscono per essere completate in maniera
soddisfacente. Nonostante questi limiti, le sequenze così ottenute corrispondono in pratica alla
totalità delle regioni a singola copia nelle quali i geni strutturali e gli altri elementi funzionali sono
contenuti.
La tabella seguente presenta la maggior parte dei software attualmente sviluppati in grado di
lavorare senza alcuna sequenza di riferimento, generando una nuova sequenza che può essere un
genoma o trascrittoma de-novo.
17
SOFTWARE BREVE DESCRIZIONE TIPOLOGIA TECNOLOGIA LINGUAGGIO LICENZA SO BIBLIOGRAFIA
ABySS
ABySS è un assembler de-novo
disegnto per elaborare short reads
e grandi genomi.
De-Novo
assembly Solexa, SOLiD C++
Commercial -
freeware
POSIX - Linux -
Mac OS X
1. Simpson JT, Wong K, Jackman SD,
Schein JE, Jones SJ, Birol I. 2009.
Genome Research
2. Birol I, Jackman SD, Nielsen CB,
Qian JQ, Varhol R, Stazyk G, Morin
RD, Zhao Y, Hirst M, Schein JE,
Horsman DE, Connors JM, Gascoyne
RD, Marra MA, Jones SJ. 2009.
Bioinformatics.
18
ALLPATHS
ALLPATHS è un assembler de-
novo di microreads whole-
genome shotgun.
De-Novo
assembly Solexa, SOLiD C++ Freeware Linux
1. Butler J, MacCallum I, Kleber M,
Shlyakhter IA, Belmonte MK, Lander
ES, Nusbaum C, Jaffe DB.. 2008.
Genome Research
2. Maccallum I, Przybylski D, Gnerre S,
Burton J, Shlyakhter I, Gnirke A, Malek
J, McKernan K, Ranade S, Shea TP,
Williams L, Young S, Nusbaum C, Jaffe
DB.. 2009. Genome Biology
3. Gnerre S, Maccallum I, Przybylski D,
Ribeiro FJ, Burton JN, Walker BJ,
Sharpe T, Hall G, Shea TP, Sykes S,
Berlin AM, Aird D, Costello M, Daza R,
Williams L, Nicol R, Gnirke A,
Nusbaum C, Lander ES, Jaffe DB..
2010. PNAS.
AMOS
AMOS è un assembler whole-
genome modulare, Open-Source.
Assembly
Toolkit Sanger, 454 C - Perl Open source Linux
1. Pop M, Phillippy A, Delcher AL,
Salzberg SL.. 2004. Briefings in
Bioinformatics
19
CABOG
Celera Assembler è un software
scientifico per ricerche su DNA.
De-Novo
assembly
Sanger, 454,
Solexa C++ GPL Linux
1. Miller JR, Delcher AL, Koren S,
Venter E, Walenz BP, Brownley A,
Johnson J, Li K, Mobarry C, Sutton G.
2008. Bioinformatics
2. Consensus Generation and Variant
Detection by Celera Assembler -
Gennady Denisov et al. Bioinformatics
(2008) 24: 1035-40
CLCbio
Genomics
Workbench
CLCbio Genomics Workbench è
un assembly de-novo, assembly
con riferimento per cercare e
annotare SNPs and piccole indel.
Dispone di un’avanzata
interfaccia grafica per una facile
analisi di dati NGS di genomica,
trascrittomica ed epigenomica. Il
software contiene un tool con
wizard guidato e dispone di un
tool per sviluppatore SIMD.
Assembly
Toolkit
Sanger, 454,
Solexa, SOLiD Java - C++ Commercial
Windows - Mac
OS X - Linux
Per questo tool ci sono 6 riferimenti
bibliografici, di seguito I primi 3:
1. Zhao Q, Caballero OL, Levy S,
Stevenson BJ, Iseli C, de Souza SJ,
Galante PA, Busam D, Leversha MA,
Chadalavada K, Rogers YH, Venter JC,
Simpson AJ, Strausberg RL.. 2009.
PNAS
2. Wen KW, Dittmer DP, Damania B..
2009. J. Virol.
3. Tyler HL, Roesch LF, Gowda S,
Dawson WO, Triplett EW.. 2009. Mol
Plant Microbe Interact.
Contrail
Contrail è un software di
assembly basato sul framework
Apache Hadoop (framework che
supporta applicazioni distribuite
con elevato accesso ai dati sotto
una licenza libera e permette alle
applicazioni di lavorare con
De-Novo
assembly Java - Python Open source Multipiattaforma
20
migliaia di nodi e petabyte di
dati). Contrail può essere
utilizzato per assemblare grandi
genomi.
Curtain
Curtain is a Java wrapper around
next-generation assemblers such
as Velvet which allows the
incremental introduction of read-
pair information into the assembly
process. This enables the
assembly of larger genomes than
would otherwise be possible
within existing memory
constraints.
De-Novo
assembly Java
Apache
License Multipiattaforma
DecGPU
Parallel and distributed error
correction algorithm for high-
throughput short reads
De-Novo
assembly C++ GPLv3 Linux
1. Liu Y, Schmidt B, Maskell DL..
2011. BMC Bioinformatics
EDENA
An assembler dedicated to process
the millions of very short reads
produced by the Illumina Genome
Analyzer.
Assembly
genomi Illumina N/A GPLv3 Linux - Windows
1. Yu Peng, Henry Leung, S.M. Yiu,
Francis Y.L. Chin - IDBA - A Practical
Iterative de Bruijn Graph De Novo
Assembler
21
EULER
EULER-SR is a program for de
novo assembly of reads. Contrary
to the overlap-layout approach,
EULER-SR uses a de Bruijn
graph to construct an assembly.
The assembly of a genome
corresponds to an Eulerian path in
the de Bruijn graph. Long
(possibly erroneous) reads, and
mate-pairs are used to determine
parts of the correct Eulerian
traversal in the assembly.
De-Novo
assembly
Sanger, 454,
(Solexa ?) C++ - Perl Linux
Geneious
Search, organize and analyze
genomic and protein information
of any size via desktop program
that provides publication ready
images to enhance the impact of
your research.
Assembly
Toolkit
Sanger, 454,
Solexa Java
Commercial -
freeware
Windows - Mac
OS X - Linux -
Solaris
OLTRE 50 REFERENZE
GenomeBrowse
A free genome browser for
exploring sequencing pile-up and
coverage data with numerous
annotation tracks hosted on the
cloud.
Assembly
Toolkit N/A Freeware
Windows - Mac
OS X - Linux
22
GenoMiner
A proprietary NGS analysis
solution. Powerful hardware
comes with preinstalled software,
organized in workflows.
GenoMiner provide workflows
for Reference assembly, De novo
assembly, ChIPSeq, RNASeq and
more. You upload your files at the
beginning and you get the results
at the end while you can choose
from various tools to use for
analysis.
Assembly
Toolkit Java Commercial Linux
IDBA (Iterative
De Bruijn graph
short read
Assembler)
IDBA is a short read assembler
based on iterative De Bruijn
graph. It is developed under 64-bit
Linux, but should be suitable for
all unix-like system
De-Novo
assembly
Sanger, 454,
Solexa C++ Freeware
PosIX - Linux -
Linux 64
23
Lasergene
Lasergene is a comprehensive
DNA and protein sequence
analysis software suite comprised
of seven applications which
include functions ranging from
sequence assembly and SNP
detection, to automated virtual
cloning and primer design.
N/A Commercial Windows - Mac
OS X
MaSuRCA
assembler
MaSuRCA is whole genome
assembly software. It combines
the efficiency of the de Bruijn
graph and Overlap-Layout-
Consensus (OLC) approaches.
MaSuRCA can assemble data sets
containing only short reads from
Illumina sequencing or a mixture
of short reads and long reads
(Sanger, 454).
De-Novo
assembly
Sanger, Illumina,
454 C++ - Perl Freeware Linux
MIRA
(Mimicking
Intelligent Read
Assembly)
MIRA 3 è un assembler per EST e
Whole Genome Shotgun
Assemblly
Toolkit
Sanger, 454,
Solexa C++ GPL
Linux - Mac OS
X - UNIX
1. Chevreux B, Pfisterer T, Drescher B,
Driesel AJ, Müller WE, Wetter T, Suhai
S.. 2004. Genome Research
24
Newbler
The assembly/mapping program
developed by 454 Life Sciences
for of 454 data.
De-Novo
assembly 454, Sanger C++ Freeware Linux
Riferirsi alla pagina web del produttore.
http://my454.com/products/analysis-
software/index.asp
25
PASHA
PASHA is a parallel short read
assembler for large genomes
using de Bruijn graphs. Taking
advantage of both shared-memory
multi-core CPUs and distributed-
memory compute clusters,
PASHA has demonstrated its
potential to perform high-quality
de-novo assembly of large
genomes in reasonable time with
modest computing resources. Our
evaluation using three small real
paired-end datasets shows that
PASHA is able to produce better
assemblies with comparable
genome coverage and mis-
assembly rates compared to three
leading assemblers: Velvet,
ABySS and SOAPdenovo.
Moreover, PASHA achieves the
fastest speed for all three datasets
on a single CPU. For the human
genome, PASHA achieves
competitive assembly quality with
ABySS and is able to complete
the assembly in about 21 hours,
which is about 2.38× faster than
ABySS on the same hardware
configurations.
De-Novo
assembly Illumina C++ Freeware Linux
Yongchao Liu, Bertil Schmidt, and
Douglas L. Maskell: " Parallelized short
read assembly of large genomes using
de Bruijn graphs". BMC Bioinformatics,
2011, 12:354
26
Phrap
phrap is a program for assembling
shotgun DNA sequence data.
Among other features, it allows
use of the entire read and not just
the trimmed high quality part, it
uses a combination of user-
supplied and internally computed
data quality information to
improve assembly accuracy in the
presence of repeats, it constructs
the contig sequence as a mosaic of
the highest quality read segments
rather than a consensus, it
provides extensive assembly
information to assist in trouble-
shooting assembly problems, and
it handles large datasets.
De-Novo
assembly
Sanger, 454,
Solexa C Freeware Multipiattaforma
1. Bonfield JK, Staden R (1995): The
application of numerical estimates of
base calling accuracy to DNA
sequencing projects. Nucleic Acids Res.
1995 Apr 25;23(8):1406-10. PMID
7753633
Jump up;
2. Krawetz SA (1989): Sequence errors
described in GenBank: a means to
determine the accuracy of DNA
sequence interpretation. Nucleic Acids
Res. 1989 May 25;17(10):3951-7
Pipeline Pilot
Analysis and workflow
development of Next Generation
Sequencing and gene expression.
Assembly
Toolkit
C++ - Java - Perl
- R - Pilot Script Commercial Linux - Windows
27
QSRA
Quality-value guided Short Read
Assembler, created to take
advantage of quality-value scores
as a further method of dealing
with error. Compared to previous
published algorithms, our
assembler shows significant
improvements not only in speed
but also in output quality.
De-Novo
assembly
1. Bryant DW Jr, Wong WK, Mockler
TC. 2009. BMC Bioinformatics
Ray
de novo genome assembly is now
a challenge because of the
overwhelming amount of data
produced by sequencers. Ray
assembles reads obtained with
new sequencing technologies
(Illumina, 454, SOLiD) using
MPI 2.2 -- a message passing
inferface standard.
De-Novo
assembly
Illumina, Mix di
Illumina and 454 C++ GPL Linux - POSIX
1. Sébastien Boisvert, François
Laviolette, Jacques Corbeil.. 2010.
Journal of Computational Biology
28
SCARF
Scaffolded and Corrected
Assembly of Roche 454 A next-
gen sequence assembly tool for
evolutionary genomics. Designed
especially for assembling 454
EST sequences against high
quality reference sequences from
related species. SCARF was
created in order to knit together
low-coverage 454 contigs that do
not assemble during traditional de
novo assembly, using a reference
sequence library to orient the 454
sequences. SCARF is especially
well suited for non-contiguous or
low depth data sets such as EST
(expressed sequence tag) libraries.
SCARF can also be used to sort
and assemble a pool of 454
sequence data according to a set
of reference sequences (e.g. for
metagenomics).
De-Novo
assembly C GPLv3
Linux 32 - Linux
64
1. Barker, M. S., K. M. Dlugosch, A. C.
C. Reddy, S. N. Amyotte, and L. H.
Rieseberg. 2009. SCARF: Maximizing
next-generation EST assemblies for
evolutionary and population genomic
analyses. Bioinformatics 25(4): 535-
536.
29
SGA
SGA is a de novo assembler
designed to assemble large
genomes from high coverage
short read data.
Assembly
genomi
Illumina, Sanger,
(Roche 454, Ion
Torrent)
C++ GPLv3 Linux
1. Efficient de novo assembly of large
genomes using compressed data
structures - Jared T. Simpson and
Richard Durbin
30
SeqMan NGen
Sequence assembly software
using traditional, next-gen, and
third-gen techonologies.
Subsequent analysis of the
assembly, including SNP
discovery, coverage evaluation
and consensus annotation is
provided through full integration
with Lasergene.
Assembly
Toolkit N/A Commercial
Windows - Mac
OS X - Linux
Per questo tool ci sono 17 riferimenti
bibliografici, di seguito I primi 10:
1. Kumar S, Blaxter ML.. 2010. BMC
Genomics
2. Feldmeyer B, Wheat CW, Krezdorn
N, Rotter B, Pfenninger M.. 2011. BMC
Genomics
3. Koepke, T.. 2012. BMC Genomics
4. Stegemann S, Keuthe M, Greiner S,
Bock R. 2012. PNAS
5. Gyllborg MC, Sahl JW, Cronin DC
3rd, Rasko DA, Mandel MJ. 2012.
Journal of Bacteriology
6. Lemmon AR, Emme SA, Lemmon
EM. 2012. Systematic biology
7. Tulman ER, Liao X, Szczepanek SM,
Ley DH, Kutish GF, Geary SJ. 2012.
Microbiology
8. Nosil P, Gompert Z, Farkas TE,
Comeault AA, Feder JL, Buerkle CA,
Parchman TL. 2012. Proceedings:
Biological Sciences / The Royal Society
9. Hause BM, Stine DL, Sheng Z, Wang
Z, Chakravarty S, Simonson RR, Li F.
2012. Clinical and Vaccine Immunology
10. Stahl, B.. 2012. Journal of
Bacteriology
31
SeqPrep
Strips adapters and optionally
merges overlapping paired-end
(or paired-end contamination in
mate-pair libraries) illumina style
reads.
De-Novo
assembly C MIT POSIX
Sequencher
Desktop alignment software now
with plugins to MAQ and GSNAP
for NGS sequence date.
De-Novo
assembly
Dati di
tecnologie
tradizionali e
NGS
N/A Commercial Windows - Mac
OS X
SHARCGS
SHARCGS is a suitable tool for
fully exploiting novel sequencing
technologies by assembling
sequence contigs de novo with
high confidence and by
outperforming existing assembly
algorithms in terms of speed and
accuracy.
De-Novo
assembly Solexa Perl GPL Linux
1. Dohm JC, Lottaz C, Borodina T,
Himmelbauer H.. 2007. Genome
Research
SHORTY
SHORTY is targetted for de novo
assembly of microreads with mate
pair information and sequencing
errors. SHORTY has some novel
approach and features in
addressing the short read
assembly problem.
De-Novo
assembly C++ - Perl
1. Hossain MS, Azimi N, Skiena S..
2009. Bioinformatics
32
SHRAP
A sequencing protocol and
assembly methodology that
utilizes high-throughput short-
read technologies.
De-Novo
assembly
1. Sundquist A, Ronaghi M, Tang H,
Pevzner P, Batzoglou S.. 2007. PLoS
One
SOAPdenovo
SOAPdenovo, a short read de
novo assembly tool, is a package
for assembling short
oligonucleotide into contigs and
scaffolds.
De-Novo
assembly Solexa C GPLv3
Linux - Mac OS
X
1. Li R, Zhu H, Ruan J, Qian W, Fang
X, Shi Z, Li Y, Li S, Shan G,
Kristiansen K, Yang H, Wang J. 2009.
Genome Research
SOPRA
SOPRA is a tool designed to
exploit the mate pair/paired-end
information for assembly of short
reads. The main focus of the
algorithm is selecting a
sufficiently large subset of
simultaneously satisfiable mate
pair constraints to achieve a
balance between the size and the
quality of the output scaffolds.
Assembly
genomi
Illumina, SOLiD,
Sanger, 454 Perl GPL
Linux 64 - Mac
OS X
1. SOPRA: Scaffolding algorithm for
paired reads via statistical optimization -
Adel Dayarian, Todd P Michael and
Anirvan M Sengupta
33
SSAKE
SSAKE is written in PERL and
runs on Linux. SSAKE cycles
through short sequence reads
stored in a hash table and
progressively searches through a
prefix tree for the longest possible
identical overlap between any two
sequences. The algorithm was
used to assemble 25-36 bp
sequence reads from viral,
bacterial and fungal genomes and
on forty millions 25-mers
simulated using the whole-
genome shotgun (WGS) sequence
data from the Sargasso sea
metagenomics project.
Considering the number of
sequences to assemble, SSAKE is
robust and tractable.
De-Novo
assembly
Solexa, SOLiD,
Helicos Perl GPLv2 Linux
1. Rene´ L. Warren , Granger G.
Sutton1, Steven J. M. Jones and Robert
A. Holt - Assembling millions of short
DNA sequences using SSAKE -
Bioinformatics (2007) 23: 500-1
34
SR-ASM
SR-ASM algorithm is designed
for DNA assembly of the short
sequences coming from 454
sequencers.
De-Novo
assembly C++ Linux - UNIX
1. Blazewicz J, Bryja M, Figlerowicz M,
Gawron P, Kasprzak M, Kirton E, Platt
D, Przybytek J, Swiercz A, Szajkowski
L.. 2009. Comput Biol Chem.
SuccinctAssembly
Tools to build & analyze compact
versions of de Bruijn graphs.
De-Novo
assembly C
Commercial -
freeware Linux
1. Conway TC, Bromage AJ.. 2011.
Bioinformatics
SUTTA
De novo assembly algorithm for
assembling bacterial genomes
from second generation
sequencing data.
De-Novo
assembly
Commercial -
freeware
Linux 64 - Mac
OS X 64
1. Narzisi G, Mishra B.. 2010.
Bioinformatics
35
Taipan
Taipan uses greedy extensions
for contig construction but at each
step realizes enough of the
corresponding read graph to make
better decisions as to how
assembly should continue. We
show that this approach can
achieve an assembly quality at
least as good as the graph-based
approaches used in the popular
Edena and Velvet assembly tools
using a moderate amount of
computing resources.
De-Novo
assembly Illumina C Freeware Linux
VCAKE
De novo assembly of short reads
with robust error correction. An
improvement on early versions of
SSAKE.
De-Novo
assembly
Solexa,
(SOLiD?,
Helicos?)
C - Perl GPL Linux - Mac OS
X
1. Jeck WR, Reinhardt JA, Baltrus DA,
Hickenbotham MT, Magrini V, Mardis
ER, Dangl JL, Jones CD.. 2007.
Bioinformatics
Velvet
Velvet is a de novo genomic
assembler specially designed for
short read sequencing
technologies, such as Solexa or
454 or SOLiD.
De-Novo
assembly C GPL
Linux - Mac OS
X
1. Zerbino DR, Birney E.. 2008.
Genome Research;
2. Zerbino DR, McEwen GK, Margulies
EH, Birney E. 2009. PLoS One
36
Tabella 2: Lista dei software attualmente disponibili per de-novo sequencing.
VelvetOptimiser
VelvetOptimiser is a multi-
threaded Perl script for
automatically optimising the
parameter options for the Velvet
de novo sequence assembler.
De-Novo
assembly
Sanger, 454,
Solexa, SOLiD Perl GPLv2
Linux - Mac OS
X
ViralFusionSeq
Accurately discover viral
integration events and fusion
transcripts by the use of soft-
clipping information, read-pair
analysis, and targeted de novo
assembly.
Assembly
Toolkit Perl GPLv3 Linux 1. Jing-Woei Li. 2013. Bioinformatics
37
Di questi software elencati nella tabella precedente, sono stati presi in considerazione quelli più
utilizzati in letteratura presentandone uno studio comparativo come in Yong Lin et al.22
. I software
selezionati sono SSAKE (Warren et al., 2007), VCAKE (Jeck et al., 2007), SHARCGS (Dohm et
al., 2007), Euler-sr (Chaisson and Pevzner, 2008), Edena (Hernandez et al.,), Velvet (Zerbino and
Birney, 2008), Celera WGA Assembler (Miller et al., 2008), AbySS (Simpson et al., 2009) e
SOAPdenovo (Li et al., 2009). I software valutati sono riassunti nella successiva tabella con le varie
versioni e i sistemi operativi di esecuzione.
SOFTWARE VERSIONE E SISTEMA OPERATIVO
SSAKE v 3.7 – Linux
VCAKE v 2.0 - Linux, Mac OS X
Euler-sr v 1.1.2 – Linux
Edena v 2.1.1 - Linux, windows
Velvet v 1.0.18 - Linux, Mac OS X
AbySS v 1.2.6 - Linux, Mac OS X
SOAPdenovo v 1.05 - Linux x64, Mac OS X
Tabella 3: Software utilizzati per la valutazione in Yong Lin et al.
Anche se sono stati analizzati diversi criteri per la valutazione, quali il tempo di esecuzione,
l’utilizzo della RAM, N5023
e precisione di assemblaggio, i loro risultati sono stati basati su reads
simulate utilizzando un coverage 100× e un singolo tasso di errore di chiamata di base (1,0 %).
Ulteriori indagini sono necessarie per determinare se, e in che modo, questi strumenti di
assemblaggio sono differentemente influenzati da diverse grandezze di coverage, errori di
sequenziamento lunghezza delle reads e l'estensione di contenuto GC delle sequenze reads. Di
conseguenza, nello studio effettuato da Yong Lin et al., sono state studiate e confrontate le
prestazioni di sette tool più usati di de-novo assembly per tecnologie di sequenziamento di nuova
generazione, utilizzando una serie di parametri tra cui la lunghezza N50 (una misura standard di
connettività di assembly), profondità di coverage, la precisione di assembly , tempo di calcolo e
requisiti di memoria del computer e il loro utilizzo.
22
Lin Y, Li J, Shen H, Zhang L, Papasian CJ, Deng HW., Comparative studies of de novo assembly tools for next-
generation sequencing technologies., Bioinformatics. 2011 Aug 1;27(15):2031-7. doi: 10.1093/bioinformatics/btr319.
Epub 2011 Jun 2. 23
N50: la dimensione del contig per cui il 50% delle basi assemblate sono contenute in contigs di lunghezza N50 o
maggiore.
38
Il lavoro di Yong Lin et al. basandosi sui risultati delle loro analisi, hanno sviluppato linee guida
per la selezione ottima di diversi tool di assembly sotto differenti condizioni. Identificando e
riconoscendo le varie limitazioni dei specifici tool sotto differenti condizioni pratiche, Yong Lin et
al., hanno fornito anche un'utile guida e la direzione per migliorare gli attuali strumenti e/o la
progettazione di nuovi strumenti ad alte prestazioni.
Nell'analizzare i software in tabella, le prestazioni più alte sono date da valori più alti di N50, da
sequence coverage più alto, dai tassi di errore di assembly più bassi e dal consumo di risorse di
calcolo più basso (per consentire l’assembly dei genomi più grandi) . Ovviamente, le prestazioni dei
diversi tool di assembly sono dipendenti, in qualche misura, dalle condizioni di test. In generale,
SSAKE, Edena e Euler-sr hanno bisogno profondità superiori di coverage (~ 50×) rispetto a Velvet,
Abyss e SOAPdenovo (~ 30×) per generare lunghezze maggiori di N50; SOAPdenovo è stato il più
veloce di tutti gli strumenti , e ABySS ha quasi sempre usato meno spazio di memoria di tutti. In
tabella viene riassunto il risultato dello studio.
Tabella 4: Requisiti per la misura delle performance di assembly che comprendono, alto N50, elevato sequence
coverage (SC), basso tasso di errore di assembly (AER). Per diversi requisiti, si consiglia di utilizzare alcuni tool de-
novo con ordine di priorità in base alle proprietà delle sequenze reads, tra cui single-end/paired-end, contenuto di GC,
lunghezza della read e la lunghezza della sequenza. SE, single end reads, PE, paired end reads; Rigurado i tool: Eu,
Euler-sr, SS, SSAKE; Ed, Edena, AB, abisso, Ve, Velvet, così, SOAPdenovo.
7.2. SOFTWARE MAPPING SEQUENCING
Il mapping, a differenza del de-novo assembly, è il processo di confronto di ogni reads con il
genoma di riferimento. In pratica si ha a disposizione una sequenza di riferimento per allineare le
reads proveniente dal sequenziamento con tecnologie HTS. In questo modo, si ottiene un
allineamento o più allineamenti tra ogni reads e il genoma.
La tabella seguente presenta la maggior parte dei software attualmente sviluppati in grado di
lavorare con una sequenza di riferimento.
39
SOFTWARE BREVE DESCRIZIONE TIPOLOGIA TECNOLOGIA LINGUAGGIO LICENZA SO BIBLIOGRAFIA
ABMapper
Maps RNA-Seq reads to target
genome considering possible
multiple mapping locations and
splice junctions
Mapping C++ - Perl GPLv3 Linux
1. Lou S, Ni B, Lo LY, Kwok-
Wing Tsui S, Chan TF, Leung KS..
2010. Bioinformatics
2. Lou SK, Li JW, Qin H, Yim AK,
Lo LY, Ni B, Leung KS, Tsui SK,
Chan TF.. 2011. BMC
Bioinformatics
40
AGILE
A hash table based high throughput
sequence mapping algorithm for
longer 4A54 reads that uses diagonal
multiple seed-match criteria,
customized q-gram filtering and a
dynamic incremental search
approach among other heuristics to
optimize every step of the mapping
process.
Mapping C Linux
1. Sanchit Misra, Ankit Agrawal,
Wei-keng Liao, Alok Choudhary.
Anatomy of a Hash-based Long
Read Sequence Mapping
Algorithm for Next Generation
DNA Sequencing. Bioinformatics
2010; doi:
10.1093/bioinformatics/btq648.
2. Sanchit Misra, Ramanathan
Narayanan, Wei-keng Liao, Alok
Choudhary and Simon Lin.
pFANGS: Parallel High Speed
Sequence Mapping for Next
Generation 454-Roche Sequencing
Reads. In Proc. Ninth IEEE
International Workshop on High
Performance Computational
Biology (IPDPS 2010), April,
2010, Atlanta, GA.
3. Sanchit Misra, Ramanathan
Narayanan, Simon Lin and Alok
Choudhary. FANGS: High Speed
Sequence Mapping for Next
Generation Sequencing Reads. In
Proceedings of ACM Symposium
of Applied Computing (ACM
SAC), March 22-26, 2010, Sierre,
Switzerland.
41
Array Suite
(Array
Studio/Server)
Array Studio is a complete analysis
and visualization package for
NextGen sequencing data, as well as
other -OMIC data types. Array
Server is a backend enterprise server
for storage and analysis of -OMIC
and NextGen sequencing data.
Mapping C# Commercial Windows
BarraCUDA
Barracuda is a high-speed sequence
aligner based on BWA and utilizes
the latest Nvidia CUDA architecture
for accelerating alignments of
sequence reads generated by the
next-generation sequencers.
Mapping C - C++ -
CUDA GPLv3 Linux
1. Klus P, Lam S, Lyberg D,
Cheung MS, Pullan G, McFarlane
I, Yeo GS, Lam BY.. 2012. BMC
Research Notes
42
Bcbio-nextgen
Python scripts and modules for
automated next gen sequencing
analysis. These provide a fully
automated pipeline for taking
sequencing results from an Illumina
sequencer, converting them to
standard Fastq format, aligning to a
reference genome, doing SNP
calling, and producing a summary
PDF of results.
Mapping Python MIT Multipiattaforma
1. bcbio-nextgen: Automated,
distributed next-gen sequencing
pipeline - Roman Valls Guimera
BEAP
The Blast Extension and Assembly
Program (BEAP) uses a short
starting DNA fragment to
recursively blast nucleotide
databases to obtain all sequences
that overlaps to construct the a "full
length" sequence.
Mapping Perl Open Source Linux - UNIX
1. James E. Koltes, Zhi-Liang Hu,
and James M. Reecy. (2005)
"Localized Development of a High
Resolution Sequence Comparative
Map of Bovine Chromosome 6."
Plant & Animal Genome XIV
Conference, San Diego, CA,
January 15-19, 2005.
2. James E. Koltes, Zhi-Liang Hu,
Eric Fritz and James M. Reecy
(2009). BEAP: The BLAST
Extension and Alignment Program
— a tool for contig construction
and analysis of preliminary genome
sequence. ( BMC Research Notes
2009, 2:11 ).
43
Chipster
User-friendly NGS data analysis
software with built-in genome
browser and workflow functionality.
Chipster includes tools for ChIP-seq,
RNA-seq, miRNA-seq and MeDIP-
seq analysis, and functionality for
exome-seq and CGH-seq will soon
be added.
Mapping Java - R GPLv3 Multipiattaforma
1. Kallio MA, Tuimala JT,
Hupponen T, Klemela P, Gentile
M, Scheinin I, Koski M, Kaki J,
Korpelainen EI. 2011. BMC
Genomics
CLCbio
Genomics
Workbench
De novo and reference assembly
SNP and small indel detection and
annotation. Advanced and user-
friendly analyses of
genomictranscriptomic and
epigenomic NGS data in a graphical
user-interface. Wizard driven tools
and a freely available developer
toolkit SIMD implementation multi-
threading hybrid assembly
Integrated solution
Assembly
Toolkit
Sanger, 454,
Solexa, SOLiD Java - C++ Commercial
Windows - Mac
OS X - Linux
1. Zhao Q, Caballero OL, Levy S,
Stevenson BJ, Iseli C, de Souza SJ,
Galante PA, Busam D, Leversha
MA, Chadalavada K, Rogers YH,
Venter JC, Simpson AJ, Strausberg
RL.. 2009. PNAS
2. Wen KW, Dittmer DP, Damania
B.. 2009. J. Virol.
3. Tyler HL, Roesch LF, Gowda S,
Dawson WO, Triplett EW.. 2009.
Mol Plant Microbe Interact.
4. Anthony S. Amend, Keith A.
Seifert, Robert Samson, and
Thomas D. Bruns. 2010. PNAS
5. Petrie KL, Joyce GF.. 2010.
Nucleic Acids Research
6. Williams SL, Huang J, Edwards
YJ, Ulloa RH, Dillon LM, Prolla
44
TA, Vance JM, Moraes CT,
Züchner S.. 2010. Cell Metabolism
CloudBurst
CloudBurst is a parallel read-
mapping algorithm optimized for
mapping next-generation sequence
data to the human genome and other
reference genomes.
Mapping Java Open Source Multipiattaforma 1. Schatz MC. 2009.
Bioinformatics
GASSST
Fast and accurate aligner for short an
long reads Mapping C++ CeCILL Linux
1. Rizk, Guillaume and Lavenier,
Dominique. 2010. Bioinformatics
45
Geneious
Search, organize and analyze
genomic and protein information of
any size via desktop program that
provides publication ready images to
enhance the impact of your research.
Phylogenetics, Sequence analysis,
De-novo assembly, Whole Genome
Resequencing, Alignment, Systems
biology, Comparative genomics,
SNP discovery, InDel discovery,
Transcription Factor analysis,
Genomics, Population genetics,
Homology, Metagenomics, Read
alignment, Structural variation,
RNA-Seq, Motif analysis
Assembly
Toolkit
Sanger, 454,
Solexa Java
Commercial -
freeware
Windows - Mac
OS X - Linux -
Solaris
[1] Matthew Kearse, Richard Moir,
Amy Wilson, Steven Stones-Havas,
Matthew Cheung, Shane Sturrock,
Simon Buxton, Alex Cooper,
Sidney Markowitz, Chris Duran,
Tobias Thierer, Bruce Ashton,
Peter Meintjes1 and Alexei
Drummond, Geneious Basic: An
integrated and extendable desktop
software platform for the
organization and analysis of
sequence data, Bioinformatics
(2012) 28 (12): 1647-1649. doi:
10.1093/bioinformatics/bts199 First
published online: April 27, 2012
46
GenomeMapper
GenomeMapper is a short read
mapping tool designed for accurate
read alignments. It quickly aligns
millions of reads either with
ungapped or gapped alignments. It
can be used to align against multiple
genomes simulanteously or against a
single reference. If you are unsure
which one is the appropriate
GenomeMapper, you might want to
use the latter.
Mapping C Open Source Linux
1. Schneeberger K, Hagmann J,
Ossowski S, Warthmann N, Gesing
S, Kohlbacher O, Weigel D.. 2009.
Genome Biology
Geoseq
Instead of mapping the reads to
reference genomes or sequences,
Geoseq maps a reference sequence
against the sequencing data. It is
web-based, and holds pre-computed
data from public libraries.
Mapping Web-Based Multipiattaforma
1. Gurtowski J, Cancio A, Shah H,
George A, Homann R,
Sachidanandam R.. 2010. BMC
Bioinformatics
47
Gnumap
The Genomic Next-generation
Universal MAPper (gnumap) is a
program designed to accurately map
sequence data obtained from next-
generation sequencing machines
(specifically that of Solexa/Illumina)
back to a genome of any size.
Currently, gnumap is designed to be
used with the _int.txt data received
from the Solexa/Illumina machine.
Mapping C++ Open Source Linux - UNIX 64
1. Clement, N. L., Snell, Q., M. J.,
Hollenhorst, P. C., Purwar, J.,
Graves BJ, Cairns BR, Johnson
WE. 2009. Bioinformatics
Lasergene
Lasergene is a comprehensive DNA
and protein sequence analysis
software suite comprised of seven
applications which include functions
ranging from sequence assembly and
SNP detection, to automated virtual
cloning and primer design.
Mapping N/A Commercial Windows - Mac
OS X
48
MicroRazerS
MicroRazerS is a tool optimized for
mapping short RNAs onto a
reference genome.
Mapping C++ Open Source Linux
1. Anne-Katrin Emde, Marcel
Grunert, David Weese, Knut
Reinert and Silke Sperling.
MicroRazerS: rapid alignment of
small RNA reads. Bioinformatics
(2010) 26 (1): 123-124
MrFAST
mrFAST is designed to map short
reads generated with the Illumina
platform to reference genome
assemblies; in a fast and memory-
efficient manner.
Mapping C BSD UNIX
1. Alkan C, Kidd JM, Marques-
Bonet T, Aksay G, Antonacci F,
Hormozdiari F, Kitzman JO, Baker
C, Malig M, Mutlu O, Sahinalp SC,
Gibbs RA, Eichler EE. 2009.
Nature Genetics
Nexalign
Nexalign is a program to align
millions of short reads from next-
generation sequencing data sets to
reference genomes
Mapping C++ - R GPL UNIX
Novocraft
Novoalign is a program for mapping
short reads from the Illumina/SOLiD
sequencing platform(s) to a
reference genome.
Mapping C++ Commercial -
freeware
Mac OS X - Linux
64
1. Krawitz P, Rödelsperger C, Jäger
M, Jostins L, Bauer S, Robinson
PN.. 2010. Bioinformatics
49
PerM
PerM (Periodic Seed Mapping) uses
periodic spaced seeds to
significantly improve mapping
efficiency for large reference
genomes when compared to state-of-
the-art programs.
Mapping C++ Apache
License 2.0 Linux
1. Chen Y, Souaiaia T, Chen T..
2009. Bioinformatics
RazerS
RazerS allows the user to align
sequencing reads of arbitrary length
using either the Hamming distance
or the edit distance. The tool can
work either lossless or with a user-
defined loss rate at higher speeds.
Mapping C++ GPLv3 UNIX - Mac OS X
- Windows
1. Weese D, Emde AK, Rausch T,
Döring A, Reinert K.. 2009.
Genome Research
50
Readaligner
A tool for mapping (short) DNA
reads into reference sequences.
Align reads using either k-
mismatches or k-errors (mismatches,
insertions and deletions) model; see
README for different alignment
modes. Algorithms are based on
Burrows-Wheeler transform and
backward backtracking. Includes a
novel data structure called the
rotation index that finds alignments
with higher number of mismatches
in feasible time (but requires a larger
index and fixed length query reads).
Supports FASTA and FASTQ input,
and SAMTools output.
Mapping C++ Open Source Linux
1. V. Mäkinen, N. Välimäki, A.
Laaksonen and R. Katainen:
Unified View of Backward
Backtracking in Short Read
Mapping. To appear in Ukkonen
Festschrift 2010 (Eds. Tapio
Elomaa, Pekka Orponen, Heikki
Mannila), Springer-Verlag, LNCS
6060, pp. 182-195, 2010.
51
Segemehl
Map short reads to known genome
with tolerance for mismatches and
indels using suffix arrays for high
accuracy matching
Mapping C - C++ Open Source Linux - UNIX
1. Hoffmann, S, Otto C, Kurtz S,
Sharma CM, Khaitovich P, Vogel
J, Stadler PF, Hackelmueller J.
2009. PLoS Computational Biology
SeqMap
SeqMap is a tool for mapping large
amount of short sequences to the
genome.
Mapping C++ Open Source Multipiattaforma 1. Jiang H, Wong WH.. 2008.
Bioinformatics
Spiral Genetics
Spiral Genetics provides alignment
to reference, variant detection,
variant filtering and annotation for
any sized next generation
sequencing dataset. Using cloud
computing, the Spiral Platform can
produce results at ultra high speeds
through a web browser interface. No
computing infrastructure required.
Toolkit C++ Commercial Linux - Mac OS X
- Windows
52
ZOOM
ZOOM (Zillions Of Oligos
Mapped) is designed to map millions
of short reads, emerged by next-
generation sequencing technology,
back to the reference genomes, and
carry out post-analysis. ZOOM is
developed to be highly accurate,
flexible, and user-friendly with
speed being a critical priority.
Mapping Linux - Windows
1. ZOOM Lite: next-generation
sequencing data mapping and
visualization software.
Zhang Z, Lin H, Ma B.
Tabella 5: Lista dei software disponibili per il mapping di sequenze ad un riferimento conosciuto.
53
7.3. SOFTWARE MAPPING SEQUENCING CON SET DI POSSIBILI GIUNZIONI
NOTE DI SPLICING
Di software che effettuano mapping di sequenze su una di riferimento, si è ampiamente discusso
nella precedente sezione. In questa sezione si andranno ad identificare software che oltre a fornire in
input la sequenza con cui effettuare il confronto permette l’inserimento di sequenze le quali
potrebbero essere giunzioni note di splicing24
. Per descrivere brevemente lo splicing possiamo dire
che in biologia molecolare e in genetica, splicing è una modificazione del nascente pre-mRNA25
che avviene insieme o dopo la trascrizione, nella quale gli introni26
sono rimossi e gli esoni27
vengono uniti. Il termine splicing in pratica, indica uno dei processi, insieme al capping28
e alla
poliadenilazione29
, di maturazione del trascritto primario dei geni discontinui.
24
Splicing: Consultare http://it.wikipedia.org/wiki/Splicing per ulteriori dettagli e informazioni. 25
Pre-mRNA: Consultare http://it.wikipedia.org/wiki/Pre-mRNA per ulteriori dettagli e informazioni. 26
Introne: Consultare http://it.wikipedia.org/wiki/Introne per ulteriori dettagli e informazioni. 27
Esone: Consultare http://it.wikipedia.org/wiki/Esone per ulteriori dettagli e informazioni. 28
Capping: Consultare http://it.wikipedia.org/wiki/Capping per ulteriori dettagli e informazioni. 29
Poliadelinazione: Consultare http://it.wikipedia.org/wiki/Poliadenilazione per ulteriori dettagli e informazioni.
54
SOFTWARE BREVE DESCRIZIONE TIPOLOGIA TECNOLOGIA LINGUAGGIO LICENZA SO BIBLIOGRAFIA
Erange
ERANGE is a Python package for
doing RNA-seq and ChIP-seq.
RNA-Seq
Alignment Python Open source Multipiattaforma
1. Mortazavi A, Williams BA,
McCue K, Schaeffer L, Wold B.
2008. Nature Methods
IsoformEx
IsoformEx estimates transcript
expression levels and gene expression
levels from mRNA-Seq data.
RNA-Seq
Alignment Academic Use Linux 64
1. IsoformEx: isoform level gene
expression estimation using
weighted non-negative least
squares from mRNA-Seq data -
Hyunsoo Kim, Yingtao Bi,
Sharmistha Pal, Ravi Gupta and
Ramana V Davuluri
MapAl
MapAl is a tool for RNA-Seq
expression profiling that builds on the
established programs Bowtie and
Cufflinks. Allowing an incorporation of
‘gene models’ already at the alignment
stage almost doubles the number of
transcripts that can be measured
reliably.
RNA-Seq
Alignment Perl Open source Linux
55
OSA
OSA (Omicsoft Sequence Aligner), a
super-fast and accurate alignment tool
for RNA-Seq data. Benchmarked with
existing methods, OSA improves
mapping speed 4-10 folds with better
sensitivity and less false positives.
RNA-Seq
Alignment C# GPL
Linux - Mac OS
X - Windows
1. OSA: A fast and accurate
alignment tool for RNA-Seq -
Jun Hu, Huanying Ge, Matt
Newman and Kejun Liu
PERalign
A probabilistic framework is described
to predict the alignment to the genome
of all paired-end read transcript
fragments in a paired-end read dataset.
Starting from possible exonic and
spliced alignments of all end reads, our
method constructs potential splicing
paths connecting paired ends. An
expectation maximization method
assigns likelihood values to all splice
junctions and assigns the most probable
alignment for each transcript fragment.
RNA-Seq
Alignment C++ Open source Linux
1. Hu Y, Wang K, He X, Chiang
DY, Prins, JF, Liu J. 2010.
Bioinformatics
56
RNA-MATE
RNA-MATE is a computational
pipeline for alignment of data from
Applied Biosystems SOLID system.
Provides the possibility of quality
control and trimming of reads. The
genome alignments are performed
using mapreads and the splice junctions
are identified based on a library of
known exon-junction sequences. This
tool allows visualization of alignments
and tag counting.
RNA-Seq
Alignment Perl - Python GPL Linux
1. RNA-MATE: A recursive
mapping strategy for high-
throughput RNA-sequencing
data. Nicole Cloonan, Qinying
Xu, Geoffrey J. Faulkner, Darrin
F. Taylor, Dave T.P. Tang, and
Sean M. Grimmond -
Bioinformatics 2009,
25(19):2615-2616
57
RUM
RUM performs alignment based on a
pipeline, being able to manipulate reads
with splice junctions, using Bowtie and
Blat. The flowchart starts doing
alignment against a genome and a
transcriptome database executed by
Bowtie. The next step is to perform
alignment of unmapped sequences to
the genome of reference using BLAT.
In the final step all alignments are
merged to get the final alignment. The
input files can be in FASTA or FASTQ
format. The output is presented in
RUM and SAM format.
RNA-Seq
Alignment Perl Open source Linux
1. Comparative analysis of
RNA-Seq alignment algorithms
and the RNA-Seq unified
mapper (RUM) - Gregory R.
Grant, Michael H. Farkas, Angel
D. Pizarro, Nicholas F. Lahens,
Jonathan Schug, Brian P. Brunk,
Christian J. Stoeckert, John B.
Hogenesch and Eric A. Pierce
58
RNASEQR
RNASEQR accurately and effectively
map millions of RNA-seq sequences.
We have systematically compared
RNASEQR with four of the most
widely used tools using a simulated
data set created from the Consensus
CDS project and two experimental
RNA-seq data sets generated from a
human glioblastoma patient. Our
results showed that RNASEQR yields
more accurate estimates for gene
expression, complete gene structures
and new transcript isoforms, as well as
more accurate detection of single
nucleotide variants (SNVs).
RNASEQR analyzes raw data from
RNA-seq experiments effectively and
outputs results in a manner that is
compatible with a wide variety of
specialized downstream analyses on
desktop computers.
Python Open source Linux
1. RNASEQR—a streamlined
and accurate RNA-seq sequence
analysis program - Leslie Y
Chen, Kuo-Chen Wei, Abner
C.-Y. Huang, Kai Wang,
Chiung-Yin Huang, Danielle Yi,
Chuan Yi Tang, David J. Galas
and Leroy E. Hood
59
SAMMate
SAMMate is an open source GUI
software suite to process RNA-Seq
data. It is composed of two modules:
assemblySAM and SAMMate.
AssemblySAM employs a novel
method to localize and assemble RNA-
seq reads into RNA transcript
sequences.
SAMMate, a GUI RNA-seq
quantification pipeline, allows
biomedical researchers to quickly
process fasta/fastq and SAM/BAM
files, and is compatible with both
single-end and paired-end sequencing
technologies.
Open source Windows
1. Nguyen T, Deng N and Zhu
D: SASeq: A Selective and
Adaptive Shrinkage Approach to
Detect and Quantify Active
Transcripts using RNA-Seq.
Submitted.
2. Zhao Z, Nguyen T, Deng N,
Johnson K, Zhu D: SPATA: A
Seeding and Patching Algorithm
for de novo Transcriptome
Assembly. Bioinformatics &
Biomedicine Workshops, 2011
IEEE International Conference.
3. Xu G, Deng N, Zhao Z,
Flemington E, Zhu D. (2011)
SAMMate: A GUI tool for
processing short read alignment
information in SAM/BAM
format. Source Code for Biology
and Medicine.
4. Deng N, Puetter A, Zhang K,
Johnson K, Zhao Z, Taylor C,
Flemington E and Zhu D (2011)
Isoform-level microRNA-155
Target Prediction using RNA-
seq. Nucleic Acid Research.
60
SpliceSeq
SpliceViewer is a Java application that
allows researchers to investigate
alternative mRNA splicing patterns in
data from high-throughput mRNA
sequencing studies. Sequence reads are
mapped to splice graphs that
unambiguously quantify the inclusion
level of each exon and splice junction.
The graphs are then traversed to predict
the protein isoforms that are likely to
result from the observed exon and
splice junction reads. UniProt
annotations are mapped to each protein
isoform to identify potential functional
impacts of alternative splicing.
This tool may be used on a single
RNASeq sample to identify genes with
multiple spliceforms, on a pair of
samples to identify differential splicing
between the two, or on groups of
samples to identify statistically
significant group level differences in
splicing patterns.
Java Open source Multipiattaforma
1. Ryan MC, Cleland J, Kim R,
Wong WC, Weinstein JN(2012).
SpliceSeq: A Resource for
Analysis and Visualization of
RNA-Seq Data on Alternative
Splicing and Its Functional
Impacts. Bioinformatics,
10.1093.
61
X-Mate
A crucial step in the analysis of deep
sequencing data is mapping to a
reference genome. Accurate and
complete mapping greatly enhances the
potential discovery of biological results
and improves statistical predictions
while inaccurate or incomplete
mapping may lead to noise and reduced
coverage. We recently presented RNA-
MATE, a pipeline for the recursive
mapping of RNASeq data sets. With
the rapid increase in genome
resequencing projects, progression of
available mapping software and the
evolution of file formats, we present X-
MATE, an updated version of RNA-
MATE, capable of mapping both
RNASeq and DNA data sets and with
improved performance, output file
formats, configuration files, and
flexibility in core mapping software.
Perl Academic Use
X-MATE: A flexible system for
mapping short read data. David
Wood, Qinying Xu, John V.
Pearson, Nicole Cloonan, and
Sean M. Grimmond -
Bioinformatics (2011) 27(4):
580-581
62
Tabella 6: Lista dei software disponibili per il mapping di sequenze ad un riferimento conosciuto ed un insieme di possibili giunzioni per l’analisi.
63
7.4. SOFTWARE MAPPING PER IDENTIFICARE EVENTUALI SITI DI
SPLICING
Come già ampiamente descritto nei paragrafi precedenti, uno dei principali problemi dell’RNA-seq
è il bisogno di avere a disposizione dei software per l’analisi e . Il principale processo durante il
quale può avvenire la regolazione genica è la maturazione del pre-mRNA30
. Il pre-mRNA viene
rielaborato mediante rimozione degli introni e successivo montaggio degli esoni. Se da un pre-
mRNA vengono rimossi in maniera selettiva particolari esoni, si arriva alla sintesi di proteine
diverse. La maggior parte dei trascritti primari di mRNA contiene numerosi introni. Il meccanismo
di splicing riconosce i confini tra esoni e introni; ma che succederebbe se il pre-mRNA della β-
globina, contenente due introni, venisse tagliato dall’inizio del primo introne alla fine del secondo?
Verrebbero eliminati non solo i due introni, ma anche l’esone interposto. Ne risulterebbe una
proteina completamente nuova, senza le funzioni originarie della β-globina.
Uno splicing alternativo di questo tipo può costituire un meccanismo messo a punto appositamente
per generare una famiglia di proteine diverse a partire da un singolo gene. Nei mammiferi, per
esempio, esiste un unico tipo di pre-mRNA per la proteina strutturale chiamata tropomiosina, che
però viene tagliato in maniera differente in cinque tessuti distinti, per dare origine a cinque diversi
mRNA maturi. Questi vengono tradotti nelle cinque diverse forme di tropomiosina che si possono
trovare nel muscolo scheletrico, all'interno del muscolo liscio, nelle cellule del tessuto connettivo
(fibroblasti), in quelle del fegato e del cervello (Figura 6).
30
Maturazione dell’RNA: Per maggiori dettagli e informazioni consultare http://www.treccani.it/enciclopedia/rna-
apparati-per-la-maturazione-dell-rna_%28Enciclopedia-della-Scienza-e-della-Tecnica%29/# .
64
Figura 6: Lo splicing alternativo dà origine a diversi mRNA, e dunque a proteine diverse Nei mammiferi, la proteina
tropomiosina è codificata da un gene provvisto di 11 esoni. Il pre-mRNA della tropomiosina viene tagliato in modo
diverso nei diversi tessuti, dando origine alla produzione di cinque forme distinte della proteina. Figura estratta da
http://ebook.scuola.zanichelli.it/sadavabiologia/la-regolazione-durante-la-trascrizione/document-65# .
Prima che il genoma umano venisse sequenziato (nel 2001), si prevedeva di trovarvi un numero di
geni compreso tra 100 000 e 150 000. Fu davvero una sorpresa scoprire che invece erano solamente
24 000, molti meno degli mRNA prodotti! La maggior parte di questa differenza numerica deriva
dal meccanismo dello splicing alternativo. In effetti, indagini recenti hanno dimostrato che metà dei
geni umani va incontro a splicing alternativo. In pratica quindi, l’obiettivo dei software nella tabella
xxx è quello di ricercare dal mapping di sequenze ottenute mediante tecnologia NGS contro un
trascrittoma noto, siti di splicing alternativi a quelli già conosciuti.
65
SOFTWARE BREVE DESCRIZIONE TIPOLOGIA TECNOLOGIA LINGUAGGIO LICENZA SO BIBLIOGRAFIA
ABMapper
Maps RNA-Seq reads to target
genome considering possible
multiple mapping locations and
splice junctions
Genomics
Transcriptomics C++ - Perl GPLv3 Linux
1. Lou S, Ni B, Lo LY, Kwok-
Wing Tsui S, Chan TF, Leung
KS.. 2010. Bioinformatics
2. Lou SK, Li JW, Qin H, Yim
AK, Lo LY, Ni B, Leung KS,
Tsui SK, Chan TF.. 2011. BMC
Bioinformatics
Avadis NGS
Avadis NGS is a desktop software
platform for alignment, analysis,
visualization, and management of
data generated by next-generation
sequencing (NGS) platforms. It
supports workflows for RNA-Seq,
DNA-Seq, and ChIP-Seq analysis
and is designed with the biologist in
mind.
Toolkit Java - R Commercial Multipiattaforma
66
HMMSplicer
Here we introduce HMMSplicer, an
accurate and efficient algorithm for
discovering canonical and non-
canonical splice junctions in short
read datasets. HMMSplicer
identifies more splice junctions
than currently available algorithms
when tested on publicly available
A. thaliana, P. falciparum, and H.
sapiens datasets without a reduction
in specificity. HMMSplicer was
found to perform especially well in
compact genomes and on genes
with low expression levels,
alternative splice isoforms, or non-
canonical splice junctions. Because
HHMSplicer does not rely on pre-
built gene models, the products of
inexact splicing are also detected.
In addition, HMMSplicer provides
a score for every predicted junction
allowing the user to set a threshold
to tune false positive rates
depending on the needs of the
experiment. HMMSplicer is
implemented in Python. Code and
documentation are freely available
at the link below.
Python Open source Multipiattaforma
1. HMMSplicer: A Tool for
Efficient and Sensitive
Discovery of Known and Novel
Splice Junctions in RNA-Seq
Data Dimon MT, Sorber K,
Derisi JL - PLoS One 2010
67
MapSplice
The accurate mapping of reads that
span splice junctions is a critical
component of all analytic
techniques that work with RNA-seq
data. We introduce a second
generation splice detection
algorithm, MapSplice, whose focus
is high sensitivity and specificity in
the detection of splices as well as
CPU and memory efficiency.
RNA-Seq C++ GPL Linux - UNIX
1. MapSplice: Accurate
mapping of RNA-seq reads for
splice junction discovery - Kai
Wang; Darshan Singh; Zheng
Zeng; Stephen J. Coleman; Yan
Huang; Gleb L. Savich; Xiaping
He; Piotr Mieczkowski; Sara A.
Grimm; Charles M. Perou;
James N. MacLeod; Derek Y.
Chiang; Jan F. Prins; Jinze Liu
Nucleic Acids Research 2010;
doi: 10.1093/nar/gkq622
68
PASTA
PASTA is a complete pipeline for
the analysis of alternative splicing
using RNA-Sequencing data. The
first component of the pipeline,
described in the rest of this page,
implements a novel splice junction
detection algorithm based on
patterned subsequence alignments
and a detailed, species-specific
model of intronic context. The
method is highly sensitive, and is
able to reliably detect splice
junctions even at low sequencing
depths. The program is highly
configurable and easy to use. It is
distributed as a command-line tool
designed for inclusion in automated
RNA-Seq analysis pipelines in a
GNU/Linux environment.
RNA-Seq C Open source Linux
1. PASTA: splice junction
identification from RNA-
Sequencing data Tang S, Riva
A. BMC Bioinformatics. 2013;
14:116
69
SeqSaw
A package for mapping of spliced
reads and unbiased detection of
novel splice junctions from RNA-
seq data.
RNA-Seq C++ GPL Linux
1. Wang L, Wang X, Liang Y,
Zhang X.. 2011. Biochem
Biophys Res Commun.
SpliceMap
Detects splice junctions from
RNA-seq data. This method does
not depend on any existing
annotation of gene structures and is
capable of finding novel splice
junctions with high sensitivity and
specificity. It can handle long reads
(50–100 nt) and can exploit paired-
read information to improve
mapping accuracy.
RNA-Seq
Alignment Python - C++ Open source
Linux - Mac OS
X 64
1. KF Au, H Jiang, L Lin, Y
Xing, WH Wong. 2010. Nucleic
Acids Research
SplicingViewer
SplicingViewer is an integrated tool
developed to enable users to detect
the splice junctions, annotate
alternative splicing events, and
visualization of the patterns of
alternative splicing events.
RNA-Seq Java
GPL
Commercial
BioLicense
LGPL
BSD License
Linux - Mac OS
X - Windows
1. Detection, annotation and
visualization of alternative
splicing from RNA-Seq data
with SplicingViewer
Q Liu, C Chen, E Shen, F Zhao,
Z Sun, J Wu - Genomics, 2012 -
Elsevier
70
SplitSeek
De novo prediction of splice
junctions in short-read RNA-seq
data, suitable for detection of novel
splicing events and chimeric
transcripts.
RNA-Seq
Alignment Perl GPL
1. Ameur A, Wetterbom A,
Feuk L, Gyllensten U.. 2010.
Genome Biology
Supersplat
Using a genomic reference and
RNA-seq high-throughput
sequencing datasets, supersplat
empirically identifies potential
splice junctions at a rate of (~)11.4
million reads per hour.
RNA-Seq
Alignment C++
1. Bryant DW Jr, Shen R, Priest
HD, Wong WK, Mockler TC..
2010. Bioinformatics
TopHat
TopHat is a fast splice junction
mapper for RNA-Seq reads. It
aligns RNA-Seq reads to
mammalian-sized genomes using
the ultra high-throughput short read
aligner Bowtie, and then analyzes
the mapping results to identify
splice junctions between exons.
RNA-Seq
Alignment C++ Open source
Linux - Mac OS
X 64
1. TopHat: discovering splice
junctions with RNA-Seq
Cole Trapnell et al.
Bioinformatics (2009) 25:
1105–1111
71
TrueSight
TrueSight is a method which for the
first time combines RNA-seq read
mapping quality and coding
potential of genomic sequences into
a unified model. The model is
further utilized in a machine-
learning approach to precisely
identify SJs. Both simulations and
real data evaluations showed that
TrueSight achieved higher
sensitivity and specificity than
other methods.
RNA-Seq
Alignment C++ - Perl Open source Linux
1. TrueSight: a new algorithm
for splice junction detection
using RNA-seq - Yang Li,
Hongmei Li-Byarlay, Paul
Burns, Mark Borodovsky, Gene
E. Robinson and Jian Ma
Tabella 7: Lista dei software disponibili per il mapping di sequenze ad un riferimento conosciuto ed un insieme di possibili giunzioni per l’analisi.
72
8. DISCUSSIONI
L'emergere delle tecnologie HTS sta permettendo il sequenziamento dei genomi e trascrittomi ad un
costo notevolmente basso, e nello stesso tempo ha aperto un nuovo scenario nella conoscenza del
genotipo umano31
. Ad oggi, sono disponibili, come visto nei capitoli precedenti, una varietà di
strumenti software per l'analisi dei dati di sequenziamento di nuova generazione, che vanno da
software di allineamento di reads ad algoritmi per l'individuazione di varianti strutturali. Tuttavia,
anche se in tutte le sezioni di questo report si è discusso dei forti progressi compiuti negli ultimi
anni nell’analisi dei dati HTS, c'è ancora molto lavoro da fare. Innanzitutto, gli algoritmi per
l'analisi di reads ad alta profondità di coverage (DOC) dovrebbero essere migliorati per ottenere
maggiore risoluzione nell’identificazione di varianti strutturali di dimensioni inferiori a 1 KB. Al
momento, questo compito è stato affrontato utilizzando algoritmi di segmentazione già sviluppati
per i dati di array ad alta densità (aCGH). In secondo luogo, anche se diversi strumenti di assembly
sono stati adattati o sviluppati per la ricostruzione dell’intero genotipo umano da reads, questo
compito rimane un problema estremamente impegnativo. Tuttavia, le tecnologie HTS basate su
sequenziamento a singola molecola (SMS) assicurano di aumentare la lunghezza delle reads a
migliaia di coppie di basi32
che consentono il miglioramento delle prestazioni degli algoritmi di
assembly. Infine, vi è la necessità di nuovi algoritmi che permettono ai dati provenienti da
piattaforme diverse di combinarli in maniera tale da avere un grande impatto sul successo
complessivo di assembly de-novo33
,34
. Alla luce della capacità di in modo sistematico e determinare
il numero di copie in assoluto per qualsiasi segmento genomico , si prevede che le tecnologie HTS
andranno a sostituire le piattaforme basate su aCGH per la scoperta di nuove varianti strutturali.
Poiché queste piattaforme di sequenziamento diventano di uso più comune, vi è un crescente
bisogno di specialista di dati per estrarre informazioni biologiche dalle enormi quantità di dati
prodotti .
La finalità di questo report è stato dunque quello di presentare una panoramica esaustiva sui
software bioinformatici a supporto della tecnologia NGS per raggiungere gli obiettivi dell’attività
3.1. La maggior parte dei software individuati in questo report sono in grado di soddisfare i requisiti
dell’obiettivo prefissato per l’attività 3.1. In particolare la possibilità di applicare filtri sulla qualità
31
Alberto Magi, Matteo Benelli, Alessia Gozzini, Francesca Girolami, Francesca Torricelli and Maria Luisa Brandi,
Bioinformatics for Next Generation Sequencing Data, Genes 2010, 1, 294-307; 32
Eid, J.; Fehr, A.; Gray, J.; Luong, K.; Lyle, J.; Otto, G.; Peluso, P.; Rank, D.; Baybayan, P.; Bettman, B.; et al. Real-
time DNA sequencing from single polymerase molecules. Science 2009, 5910, 133-138; 33
Aury, J.; Cruaud, C.; Barbe, V.; Rogier, O.; Mangenot, S.; Samson, G.; Poulain, J.; Anthouard, V.; Scarpelli, C.;
Artiguenave, F.; et al. High quality draft sequences for prokaryotic genomes using a mix of new sequencing
technologies. BMC Genomics 2008, 9, 603; 34
Reinhardt, J.A.; Baltrus, D.A.; Nishimura, M.T.; Jeck, W.R.; Jones, C.D.; Dangl, J.L. De novo assembly using low-
coverage short read sequence data from the rice pathogen Pseudomonas syringae pv. oryzae. Genome Res. 2009, 19,
294–305.
73
delle basi sequenziate e tempi di esecuzione accettabili con adeguate risorse di calcolo. Ovviamente
è difficile effettuare un’analisi qualitativa massiva su tutti i software trovati perché ogni software
selezionato in una delle quattro tabelle, anche se hanno la stessa finalità (es. tutti quelli della Tabella
2 effetuano assembly de-novo) presentano caratteristiche diverse di struttura (es. diverso numero di
input, diversi algoritmi di assembly, diversi linguaggi di programmazione utilizzati, diversi sistemi
operativi di esecuzione, possibilità o meno di parallelizzazione). Di conseguenza, uno dei parametri
più importanti che ha pesato sulla scelta dei software elencati nelle diverse tabelle, è stato la
frequenza di utilizzo e il numero di riferimenti bibliografici segnalati dalla comunità scientifica che
lavora in questo ambito di ricerca. E’ di fatti vivo in questi ultimi anni, un forte dibattito in ambito
bioinformatico e biostatistico circa la definizione di standard per l’analisi degli algoritmi alla base
dei software di assembly/mapping di dati provenienti da tecnologie NGS. Infatti in letteratura non
esistono ad oggi molte pubblicazioni inerenti la comparazione e l’analisi di software per NGS.
Obiettivo e sfida dei prossimi anni è quello di sviluppare un sistema WEB-based e un workflow
standardizzato in grado di incorporare diversi software per assembly, visualizzazione e analisi su
larga scala di dati NGS di diverse tecnologie.