Giulio Barcaroli
Il processo di produzionedell’informazione statisticae l’opzione open source
Roma, 4 marzo 2008
Il software per la statistica ufficiale: dai sistemi proprietari a quelli open source
Il processo di produzione dell’informazione statisticae l’opzione open source
All’interno dell’ISTAT da alcuni anni è stata avviata una riflessione sulle reali possibilità di utilizzo di softwarelibero all’interno dei processi di produzionedell’informazione statistica
All’inizio, si è trattato di un processo spontaneo attuato in modo non pianificato e diffuso, su iniziativa di ricercatoried informatici dell’Istituto
Negli ultimi tre anni si è cominciato ad investire con decisione in questa direzione, coordinando i diversiinterventi
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
1
Roma, 4 marzo 2008
La scelta di esplorare soluzioni non proprietarie è stata fattatenendo conto dei seguenti obiettivi:
per ottemperare a direttive e linee-guida (Stanca 2003,Finanziaria 2007) che investono tutte le pubblicheamministrazioni; per ridurre i costi; per garantire maggiormente l’innovazione, permettendola rapida acquisizione e la sperimentazione di nuovesoluzioni; per partecipare allo sviluppo congiunto di soluzioniportabili e utilizzabili con altri partner quali:
altri enti del SISTAN; altri Istituti nazionali di statistica all’interno di:
• iniziative di sviluppo congiunto (vedi EUROSTAT);• progetti di cooperazione internazionale
Il processo di produzione dell’informazione statisticae l’opzione open source
2
Il processo di produzione
dell’informazione statistica e l’opzione
open source
La direttiva Stanca per l’open source (2003)
Roma, 4 marzo 2008
Analisi comparativa delle soluzioni - Valutazionecomparativa … tenendo conto … della possibilità di potersviluppare programmi informatici specifici e del riuso da parte di altre amministrazione dei programmi informaticisviluppati ad hoc
Da privilegiare le soluzioni che: assicurino l'interoperabilità e la cooperazione applicativatra i diversi sistemi informatici della Pubblica amministrazione; rendano i sistemi informatici non dipendenti da un unicofornitore o da un'unica tecnologia proprietaria; garantiscano la disponibilità del codice sorgente; esportino dati e documenti in più formati, di cui almenouno di tipo aperto
Il processo di produzione
dell’informazione statistica e l’opzione
open source
La finanziaria 2007
Roma, 4 marzo 2008
Con la Legge Finanziaria 2007 si dà sostegno ai progetti Che utilizzano e/o sviluppano applicazioni a codicesorgente aperto per la Pubblica Amministrazione.Gli strumenti che il CNIPA mette a disposizione della PA per contribuire al perseguimento di questi obiettivi consistonoin: un ambiente di sviluppo software cooperativo (ASC),uno strumento completo che permette di collaborare allo sviluppo di progetti Open Source per le necessità della Pubblica Amministrazione, nonché di ricercare qualiprogetti possono essere più adatti alle particolariesigenze della propria amministrazione; una “vetrina virtuale” che raccoglie le esperienze delle Pubbliche Amministrazioni italiane nell'uso di softwareOpen Source (eventualmente insieme a softwareproprietario) per le proprie esigenze.
Il processo di produzione
dell’informazione statistica e l’opzione
open source
I costi in ISTAT per l’acquisto e la manutenzione di alcuni software
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Software (acquisto e manutenzione) Spesa annua in euro
SAS
ORACLE
BLAISE
Microsoft
ModelEasy
717,288
214,704
163,087
145,515
31,000
Favorire l’innovazione
La continua valutazione comparativa di soluzionialternative è fondamentale non solo dal punto di vista dei costi, ma dell’innovazione.
Sotto questo aspetto, la dipendenza da un fornitore unicoè un fattore estremamente limitante, soprattutto in un ambiente di ricerca, nel quale la frontiera delle soluzionipossibili si muove continuamente.
Un ente di ricerca ha una necessità ancora maggiore di non essere vincolato dal punto di vista della continuaacquisizione e sperimentazione di soluzioni.
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Concorrere alla produzione globale di softwareper la statistica ufficiale
Proposta EUROSTAT di condivisione dello svilupposoftware nel Sistema Statistico Europeo
Partecipazione ad iniziative quali quella Adamsoft
Inserimento nella community di R: sviluppo di packageda condividere con l’intera comunità degli sviluppatori e degli utenti R
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
La strategia per l’open source all’internodell’Istituto Nazionale di Statistica
Utilizzo di strumenti open anziché proprietari
Adozione dell’approccio open per lo sviluppo
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
L’utilizzo di strumenti open
L’ISTAT ha appena concluso un processo di definizione deipropri standard tecnologici di sviluppo, riguardanti:
architetture sistemi linguaggi
In particolare, per ogni macrofase del processo di produzione dell’informazione statistica, sono stati individuati standard con l’obiettivo di minimizzare l’utilizzo di software proprietario.Laddove l’uso di software proprietario sia reso necessariodall’oggettiva superiorità o dagli investimenti già effettuati,si è provveduto ad affiancare tecnologie proprietarie con software non proprietario.
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Gli standard tecnologici di sviluppo
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Ambiente di riferimento
linguaggi SW generalizzati
Acquisizione
dati
Linux
Windows
Apache-Tomcat
Oracle
MySql
Oracle Developer,
Java, PHP, C
Teleform, DATISTAT,exFolia, BLAISE,CsPro, LimeSurvey,ACTR
Controllo e
correzione
Linux
Windows
Oracle
MySql
Oracle Developer,
Java, PHP, C, R
CONCORD-JAVA,
CANCEIS, DIESIS,
BANFF
Stime e
tabulazioni
Linux
Windows
Oracle
MySql
Java, PHP, C, R SMOL+ IMPAGINA,
R (SURVEY, EVER),
GENESEES
Diffusione
tradizionale
e web
Linux
Windows
Apache-Tomcat
Oracle
MySql
Oracle Developer,
Java, PHP, C, R
Mu-Argus, Tau-
Argus, SMOL,
Foxtrot.META,
Foxtrot.PD, Web.PD,
Foxtrot.MD, Web.MD,
Sdmx.ISTAT
Le attività in corso e pianificate
Gli obiettivi sono:
sviluppo delle nuove applicazioni con tecnologie open; eliminazione dai sistemi sviluppati in ISTAT delle componenti di software proprietario, per garantirne la portabilità e la fruibilità da parte altri soggetti.
Nel perseguire tali obiettivi, si intende massimizzare il riuso,favorito dalla disponibilità del codice sorgente.
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Sviluppo di nuove applicazioni con tecnologie open
appena rilasciato il sistema generalizzato RELAIS per il record linkage probabilistico, sviluppato in JAVA e R
in fase di sviluppo nuove versioni di sistemigeneralizzati che coprono il disegno dei campioni(MAUSS) e il calcolo delle stime campionarie coi relativierrori (GENESEES), utilizzando R anziché SAS
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Eliminazione dai sistemi sviluppati in ISTAT da componenti di software proprietario
software generalizzato ISTAR per la costruzione di webdata warehouse: è in corso di completamento, graziead un progetto di cooperazione, una versione del toolkitche sostituisce le componenti DBMS Oracle e OracleDeveloper, rispettivamente con MySql e Java
software generalizzato CONCORD per il controllo e la correzione degli errori: è in fase di rilascio la versionecon interfaccia Java anziché SAS/AF portabile in qualsiasi ambiente Linux o Windows
software generalizzato DIESIS per il controllo e la correzione degli errori in variabili sia categoriche che continue: tale software fa uso di CPLEX, in corso di sostituzione con equivalente strumento open
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Le potenzialità dell’open source: massimizzazione del riuso
Caso del software generalizzato per la produzione delle stime campionarie (calibrazione e calcolo varianza).
In corso il progetto di sviluppo di GENESEES-R, dove le funzionalità saranno così ottenute:
package “survey” di R per la calibrazione; package “survey” modificata per il calcolo analiticodella varianza campionaria; package “ever” sviluppata ex-novo in ISTAT per il calcolo della varianza campionaria col metodo dei campioni replicati (per stimatori di qualsivogliacomplessità).
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
L’adozione dell’approccio open
La rivoluzione indotta dall’open source è nell’adozione di una logica cooperativa di sviluppo, propria dei metodidi produzione dei sistemi aperti.
La coppia “ambiente di sviluppo cooperativo” e “vetrinavirtuale” è alla base di un tale approccio.
Esempi CNIPA:http://www.osspa.cnipa.it/home/ed R:http://cran.r-project.org/http://www.rforge.net/
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Un ambiente per lo sviluppo open in ISTAT
Per favorire l’adozione della modalità aperta di sviluppo,occorre individuare analoghi strumenti all’internodell’Istituto.
La “vetrina” può essere costituita da due elementi giàdisponibili o in corso di completamento: l’Osservatorio Tecnologico del Software (softwaregeneralizzato); il Catalogo Applicazioni (applicazioni riutilizzabili).L’ambiente per lo sviluppo cooperativo deve invece essereallestito. Dovrà garantire: gestione delle release e delle relative documentazioni; repository e versioning del codice sorgente; gestione dei task; gestione news e forum
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Le modalità di sviluppo e utilizzo del software:scenario con software proprietario
Le tecnologie e gli strumenti sono quelli messi a disposizione dal fornitore di software proprietario. Le informazioni sull’evoluzione dell’offerta sono datedai commerciali e dai siti-vetrina. L’evoluzione può essere orientata a logiche differentida quelle dell’utente. Esiste una spinta esterna ad adottare determinatesoluzioni. Le soluzioni innovative spesso non sono a costo zero. Le soluzioni innovative non sempre sonoimmediatamente reperibili e sperimentabili (logica del trial con scadenza prefissata). Le procedure vengono realizzate con strumenti di cuinon è disponibile il sorgente. Le procedure realizzate non sempre sono portabiliall’esterno.
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Le modalità di sviluppo e utilizzo del software:scenario con software open
Le tecnologie e gli strumenti sono quelli messi a disposizione dalle comunità di sviluppatori.
Le informazioni sull’evoluzione dell’offerta sonodisponibili in rete. Si scelgono gli strumenti la cui evoluzione è in lineacon quella dell’utente. La convenienza dell’utente è l’unica motivazione ad adottare una soluzione Il costo di acquisizione è nullo. Le soluzioni innovative sono immediatamente reperibilie sperimentabili da rete. Le procedure vengono realizzate con strumenti di cui è disponibile il sorgente, all’occorrenza modificabile. Le procedure realizzate sono sempre portabili, per definizione
Roma, 4 marzo 2008
Il processo di produzione
dell’informazione statistica e l’opzione
open source
Titolo del convegno anche su più righeanche su più righe
Necessità di un percorso condiviso che trasformil’ambiente di produzione del software per i processi di produzione e le sue modalità di fruizione da parte degli utenti (informatici e statistici)
Investimenti in formazione e trasformazione del mododi lavorare
Da clienti nel mercato a comunità scientifica
ConclusioniIl processo
di produzionedell’informazione
statistica e l’opzione open source
Roma, 4 marzo 2008