duplikaattien havaitseminen ja poisto dataflux …datan yhdistely, muokkaus ja keskittäminen...
TRANSCRIPT
Copyright © 2010 SAS Institute Inc. All rights reserved.
Duplikaattien havaitseminen ja poisto DataFlux välinein
SUGIF Technical Club 15.9.2011
Jarno LindqvistSAS Institute Oy
2
Copyright © 2010, SAS Institute Inc. All rights reserved.
Miten tiedonlaatu ja MDM liittyvät SASiin?
Source: TDWI Best Practice Report, Q4 2009
3
Copyright © 2010, SAS Institute Inc. All rights reserved.
Miksi DataFlux, eikös meillä jo ole NODUP?
SASin NODUP ja NODUPKEY (esim. PROC SORT) toimivat hyvin kun poistetaan identtisiä ilmentymiä
Se toimii hyvin myös silloin kun halutaan säilyttää jollakin kriteerillä ensisijainen
ilmentymä (tässä suurin Score) kun järjestelemme aineiston kriteerin mukaisesti
Silloin vain ensimmäiseksi järjestelty arvo jää talteen ja muut
poistetaan
4
Copyright © 2010, SAS Institute Inc. All rights reserved.
Entä kun ilmentymät eivät olekaan identtisiä?
� Perinteiset metodit kuten NODUP eivät tunnista ilmentymiä samaan henkilöön liittyviksi, koska päälekkäisiä avaimia ei ole
-> Tarvitaan joustavampia metodeja, joilla ilmentymät pystytään luokittelemaan samaan klusteriin kuuluviksi
5
Copyright © 2010, SAS Institute Inc. All rights reserved.
Mikä DataFlux?
� DataFlux on perustettu 1997 Pohjois-Carolinassa
� SASin tytäryhtiö vuodesta 2000
� Yli 2400 asiakasta globaalisti
� DataFlux tarjoaa ratkaisuja tiedonlaadun, data-integraation ja perustietojen hallinnan (MDM) alueille
� DataFlux Data Management Studio & Server
� qMDM Master Data Management
5
6
Copyright © 2010, SAS Institute Inc. All rights reserved.
Tiedonlaadun kehittämisen vaiheet
� Metadatan analysointi
� Ymmärrys siitä, mitä dataa on käytettävissä
� Datan profilointi
� Käsitys datan nykytilanteesta; eheydestä ja rakenteesta
� Datan laatu
� Korjaustoimenpiteet datan standardisoimiseksi
� Datan integrointi
� Datan yhdistely, muokkaus ja keskittäminen
� Monitorointi
� Tavoitellun laatutason ylläpito jatkuvan seurannan avulla
� Rikastaminen
� Datan täydentäminen ulkoisista lähteistä (esim. paikkatiedon avulla)
� Parhaan ilmentymän valinta
� Duplikaattien poisto ja ilmentymien yhdistäminen
7
Copyright © 2010, SAS Institute Inc. All rights reserved.
Mitä on parhaan ilmentymän tunnistus ja valinta?
� Ilmentymien tunnistaminen eri tietolähteissä sijaitsevasta datasta
� Sumean logiikan menetelmien hyödyntäminen klustereiden muodostamisessa match-koodien vertailun avulla
� Valintasääntöjen luominen, joiden mukaiset ilmentymät nostetaan klusterin muiden ilmentymien ohitse
� Parhaan ilmentymän valitseminen usean ilmentymän klusterista
� Jatkotoimet, eli poistuvien ilmentymien merkintä ja mahdollinen parhaan ilmentymän täydentäminen poistuvien ilmentymien tiedoilla
8
Copyright © 2010, SAS Institute Inc. All rights reserved.
DataFlux käyttää match-koodien vertaillessaan näennäisesti päällekkäistä dataa keskenään
Field Loan Current Acc Mortgage
Name Robert Smith Bob Smith Rob Smith
Address 14 Church Street Fourteen Church
Street
14 Church St.
City Swindon Swindon Swansea
Value 25000 2452.45 94000
Järjestelmä A Järjestelmä B Järjestelmä C
Nimi Aku Ankka A. Ankka Aku Rankka
Osoite Paratiisitie 13 Paratiisikatu 13 Paratiisit. 13
Kaupunki Ankkalinna Ankkalinna Ankkalinnoitus
Match-koodi GHWS$$EWT$ GHWS$$EWT$ GHWS$$WWT$
Järjestelmä
A
Järjestelmä
B
Järjestelmä
C
9
Copyright © 2010, SAS Institute Inc. All rights reserved.
Match-koodien luonti Data Management Studiossa
10
Copyright © 2010, SAS Institute Inc. All rights reserved.
Saman talouden asukkaiden klusterointi match-koodituksen avulla
Etunimi Sukunimi Katuosoite Puhelin MC1
(Sukunimi
ja
katuosoite)
MC2
(Katuosoite
ja puhelin)
MC3
(Sukunimi
ja puhelin)
Klusteri
ID
Tupu Ankka Paratiisitie 13 832-8239 $SV #V8 %A8 1
Hupu Ankka Paratiisitie 13 832-8239 $SV #V8 %S8 1
Lupu Ankka Paratiisitie 13 616-1504 $SV #V6 %S6 1
Mikki Hiiri Julle Ankan polku 6 688-2826 $GH #H3 %G6 2
Mortti Hiiri Julle Ankan polku 6 688-2857 $GH #H6 %R6 2
Vertti Hiiri Julle Ankan polku 6 688-2851 $GH #H1 %B6 2
11
Copyright © 2010, SAS Institute Inc. All rights reserved.
Duplikaattien poistaminen
Valintasäännöt tässä
Contact = useimmin toistuva ilmentymä
ID = suurin arvo (viimeksi päivitetty?)
Muita valintasääntöesimerkkejä
Pisin ilmentymä
Viimeksi päivitetty ilmentymä
Ulkoisesta lähteestä validoitu arvo
Tietyn patternin omaava arvo (99999)
12
Copyright © 2010, SAS Institute Inc. All rights reserved.
Luodaan “Paras ilmentymä”
�Täydennetään parasta ilmentymää valintasääntöjen mukaan
Valintasäännöt tässä
When Phone is Not Null, Select Phone
When State is Shortest Value, Select City and State
13
Copyright © 2010, SAS Institute Inc. All rights reserved.
Match-koodit, standardointi, klusterointi ja parhaan ilmentymän valinta Data Management Studiossa
Vaihe 1: Lähdedatan määrittely
Vaihe 2: Match-koodien luonti nimille
Vaihe 3: Match-koodien luonti muille kentille
Vaihe 4: Standardoidaan työpuhelinnumerot yleiseen muotoon
Vaihe 5: Klusteroidaan ilmentymät vertaamalla match-koodeja
Vaihe 6: Parhaan ilmentymän valinta klustereittain
Vaihe 7: Avataan ilmentymien vertailuikkuna tarkastelua varten
Copyright © 2010 SAS Institute Inc. All rights reserved.