Metodi statistici per l’integrazione di dati provenienti
da fonti diverse
Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto
Sommario
1) Cosa vuol dire integrazione2) Record linkage: perché3) Il metodo di Fellegi e Sunter4) Come risolvere il problema con RELAIS
Cosa vuol dire integrazione
Integrare i dati: non è solo un problema informatico: ma sono necessarie analisi e procedure statistiche!
La procedura di integrazione può essere soggetta a errore: bisogna misurarlo
Diversi tipi di integrazione a seconda delle caratteristiche dei data set
Primo problema di integrazioneNome età reddito
Aldo Bianchi 30 25000
Giulia Rossi 20 14500
Carlo Verdi 45 38000
… … …
Nome età spese
Aldo Bianchi 30 30000
Pino Bianchi 30 27000
Carlo Rossi 45 20000
… … …
Questo problema prende il nome di record linkage (abbinamento esatto)
Bisogna cercare i record che appartengono allo stesso individuo
Secondo problema di integrazioneNome età reddito
Aldo Bianchi 30 25000
Giulia Rossi 20 14500
Carlo Verdi 45 38000
… … …
Nome età spese
Anna Gialli 30 32000
Pino Bianchi 30 27000
Carlo Rossi 45 20000
… … …Questi data set non hanno unità in comune, ma hanno variabili che è interessante studiare insieme
Le tecniche da usare vanno sotto il nome di statistical matching, o abbinamento statistico
Abbinamento statisticoL’abbinamento statistico può essere svolto anche su dati
aggregati. Esempio: elezioni 1990, OhioDem. Rep. Asten.
Neri ? ? ? 55 054
Bianchi ? ? ? 25 760
19896 10936 49928 80760
Possibile ottenere informazioni sul legame fra gruppo etnico e voto?
Dem. Rep. Asten.
Neri
Bianchi
Dem. Rep. Asten.
Neri 55 054
Bianchi 25 760
80760
Dem. Rep. Asten.
Neri 55 054
Bianchi 25 760
19896 10936 49928 80760
Disponibiledalle liste elettorali
Disponibile al terminedelle elezioni
Abbinamento statistico: esempi
Abbinamento fra indagine sui consumi e quella sui redditiAbbinamento fra indagine sui redditi e campione anonimo
di record fiscaliData set per microsimulazione
Abbinamento statistico
Dem. Rep. Asten.
Neri 0-25% 0-14% 30-61% 69%
Bianchi 0-25% 0-14% 0-31% 31%
25% 14% 61% 100%
Abbinamento statistico = “spremere” i dati!Riprendiamo l’esempio delle elezioni in Ohio
Dem. Rep. Asten.
Neri 69%
Bianchi 31%
25% 14% 61% 100%
Questa è una informazionein più rispetto alle marginali!
BibliografiaKadane, J.B. (1978), Some statistical problems in merging data files. In
Compendium of tax research, Department of Treasury, U.S. Gov- ernement Printing Office, Washington D.C., 159-179 (Reprinted in 2001, Journal of Official Statistics,17,423-433).
King, G. (1997), A Solution to the Ecological Inference Problem, Princeton University Press, Princeton.
D’Orazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and Practice, Wiley
Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical Matching, Journal of Official Statistics, pp. 69–88
Abbinamento esatto“Il libro della vita”
Dunn (1946)* descrive il record linkage in questi termini
…each person in the world creates a book of life. The book starts with the birth and ends with the death. Its pages are made up of all the principal events of life. Record linkage is the name given to the process of assembling the pages of this book into one volume. The person retains the same identity throughout the book. Except for advancing age, he is the same person…
*Dunn (1946) "Record Linkage". American Journal of Public Health 36 (12): 1412–1416.
Le motivazioni
1. informazione congiunta su due o più variabili osservate su fonti diverse
2. “contare” una popolazione3. sostituire parti di indagini con archivi4. creazione di una “lista” di una popolazione5. altri obiettivi di statistica ufficiale
(imputazione ed editing/migliorare la qualità del micro dato; studio del rischio di identificazione dei microdati rilasciati)
Record Linkage - caso semplice
ANome Cognome CAP Data di
nascitaLuogo di nascita
Codice fiscale
Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T
BNome Cognome CAP Data di
nascitaLuogo di nascita
Codice fiscale
RSSMRA70E18H501T
I due record si agganciano tramite il codice fiscale!
Record Linkage - caso meno semplice
ANome Cognome CAP Data di
nascitaLuogo di nascita
Codice fiscale
Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T
BNome Cognome CAP Data di
nascitaLuogo di nascita
Codice fiscale
Mario Rossi 00125 18/05/70 Roma ---
I due record si agganciano tramite un insieme di variabilicomuni che identificano i record
Record Linkage - caso più complicato
ANome Cognome CAP Data di
nascitaLuogo di nascita
Codice fiscale
Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T
BNome Cognome CAP Data di
nascitaLuogo di nascita
Codice fiscale
M. Russi 00152 18 maggio 1970
Ostia
I due record si agganciano tramite un insieme di variabilicomuni che identificano i record e sono affetti da errori o “problemi”
Record Linkage - caratteristiche
• Se esiste un codice identificativo o un insieme di variabili che può svolgere il compito di un codice identificativo, il problema del ricongiungimento dei record di due data set è banale.
• I metodi per il record linkage si occupano del caso in cui un unico codice identificativo non c’è, e le restanti variabili sono in grado di identificare le unità ma sono riportate con errore.
Schema delle operazioniSelezione delle
variabili di matchinge blocking
Editing dellevariabili
blocking
Metododeterministico
Metodoprobabilistico
Definizioneregole
Modello/stimavalutazione
Soglie perle decisioni
Output: 1:1 o molti a molti
Revisionemanuale
Valutazione errorinegli
abbinamenti
Preelaborazioni
Recordlinkage
Analisi
Dati due file A e B di numerosità NA e NB , si consideri l’insieme di cardinalità N=NANB Ω = {(a,b), a A e b B}. ∈ ∈
Si vogliono classificare le coppie in Ω nei due insiemi M e U tali che:
M = insieme delle coppieU = insieme delle non coppie
con M U = Ω , M U = .
Formalizzazione del problema
Le variabili di confrontoSi selezionano le k variabili di matching (tra quelle comuni ai due data sets e identificative dell’unità)
Per ogni coppia (a,b) Ω , si definisce un vettore i cui K elementi sono il risultato
del confronto tra le variabili di matching.
Ad esempio
AK
AA XXX ...21
altrimenti0
se1,
Bk
Ak
kba
XX
BK
BB XXX ...21
K ,...,, 21
1...1...11
......
1...1...01
......
1...0...10
......
0...0...00
......21 Kk XXXX
Frequenze
La Tabella di Contingenza
(a,b)M
(a,b)U
Il modello mistura
Il “peso” di abbinamento
UP
MPr
Fellegi e Sunter (1969) introducono una funzione costituita dal rapporto di verosimiglianza
sulla base del quale le coppie (a,b) possono essere ordinate e sottoposte ad un processo di classificazione negli insiemi M e U
La regola di decisioneIl criterio di classificazione è basato su due livelli di soglia scelti in modo opportuno che assegnano le coppie a tre possibili sottoinsiemi M*, Q , U*
UbaTr
QbaTrT
MbaTr
uba
ubam
mba
,
,
,
,
,
,
(a,b)M
(a,b)U
f
rQU* M*
Tm
La regola di decisioneTu
Le Fasi di un progetto di Record Linkage come proposte in RELAISPreparazione dei files di input (pre-processing);Riduzione dello spazio di ricerca delle coppie candidate;Selezione degli attributi identificativi comuni (variabili di matching);Scelta della funzione di confronto;Scelta del modello di decisione;
Stima delle probabilità di abbinamento (1)Valutazione dell’adattamento del modello ai dati (1)Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato”
Selezione degli abbinamenti univociValutazione dei risultati del Record linkage.
(1) fase caratteristica dei metodi probabilistici
BibliografiaScanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme -
n.16, IstatBatini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and
Techniques, Springer.Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage
techniques, Springer.RELAIS: http://www.istat.it/it/strumenti/metodi-e-software/software/relais
https://joinup.ec.europa.eu/software/relais/description