duplikaattien havaitseminen ja poisto dataflux …datan yhdistely, muokkaus ja keskittäminen...

14
Copyright © 2010 SAS Institute Inc. All rights reserved. Duplikaattien havaitseminen ja poisto DataFlux välinein SUGIF Technical Club 15.9.2011 Jarno Lindqvist SAS Institute Oy

Upload: others

Post on 09-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

Copyright © 2010 SAS Institute Inc. All rights reserved.

Duplikaattien havaitseminen ja poisto DataFlux välinein

SUGIF Technical Club 15.9.2011

Jarno LindqvistSAS Institute Oy

Page 2: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

2

Copyright © 2010, SAS Institute Inc. All rights reserved.

Miten tiedonlaatu ja MDM liittyvät SASiin?

Source: TDWI Best Practice Report, Q4 2009

Page 3: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

3

Copyright © 2010, SAS Institute Inc. All rights reserved.

Miksi DataFlux, eikös meillä jo ole NODUP?

SASin NODUP ja NODUPKEY (esim. PROC SORT) toimivat hyvin kun poistetaan identtisiä ilmentymiä

Se toimii hyvin myös silloin kun halutaan säilyttää jollakin kriteerillä ensisijainen

ilmentymä (tässä suurin Score) kun järjestelemme aineiston kriteerin mukaisesti

Silloin vain ensimmäiseksi järjestelty arvo jää talteen ja muut

poistetaan

Page 4: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

4

Copyright © 2010, SAS Institute Inc. All rights reserved.

Entä kun ilmentymät eivät olekaan identtisiä?

� Perinteiset metodit kuten NODUP eivät tunnista ilmentymiä samaan henkilöön liittyviksi, koska päälekkäisiä avaimia ei ole

-> Tarvitaan joustavampia metodeja, joilla ilmentymät pystytään luokittelemaan samaan klusteriin kuuluviksi

Page 5: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

5

Copyright © 2010, SAS Institute Inc. All rights reserved.

Mikä DataFlux?

� DataFlux on perustettu 1997 Pohjois-Carolinassa

� SASin tytäryhtiö vuodesta 2000

� Yli 2400 asiakasta globaalisti

� DataFlux tarjoaa ratkaisuja tiedonlaadun, data-integraation ja perustietojen hallinnan (MDM) alueille

� DataFlux Data Management Studio & Server

� qMDM Master Data Management

5

Page 6: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

6

Copyright © 2010, SAS Institute Inc. All rights reserved.

Tiedonlaadun kehittämisen vaiheet

� Metadatan analysointi

� Ymmärrys siitä, mitä dataa on käytettävissä

� Datan profilointi

� Käsitys datan nykytilanteesta; eheydestä ja rakenteesta

� Datan laatu

� Korjaustoimenpiteet datan standardisoimiseksi

� Datan integrointi

� Datan yhdistely, muokkaus ja keskittäminen

� Monitorointi

� Tavoitellun laatutason ylläpito jatkuvan seurannan avulla

� Rikastaminen

� Datan täydentäminen ulkoisista lähteistä (esim. paikkatiedon avulla)

� Parhaan ilmentymän valinta

� Duplikaattien poisto ja ilmentymien yhdistäminen

Page 7: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

7

Copyright © 2010, SAS Institute Inc. All rights reserved.

Mitä on parhaan ilmentymän tunnistus ja valinta?

� Ilmentymien tunnistaminen eri tietolähteissä sijaitsevasta datasta

� Sumean logiikan menetelmien hyödyntäminen klustereiden muodostamisessa match-koodien vertailun avulla

� Valintasääntöjen luominen, joiden mukaiset ilmentymät nostetaan klusterin muiden ilmentymien ohitse

� Parhaan ilmentymän valitseminen usean ilmentymän klusterista

� Jatkotoimet, eli poistuvien ilmentymien merkintä ja mahdollinen parhaan ilmentymän täydentäminen poistuvien ilmentymien tiedoilla

Page 8: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

8

Copyright © 2010, SAS Institute Inc. All rights reserved.

DataFlux käyttää match-koodien vertaillessaan näennäisesti päällekkäistä dataa keskenään

Field Loan Current Acc Mortgage

Name Robert Smith Bob Smith Rob Smith

Address 14 Church Street Fourteen Church

Street

14 Church St.

City Swindon Swindon Swansea

Value 25000 2452.45 94000

Järjestelmä A Järjestelmä B Järjestelmä C

Nimi Aku Ankka A. Ankka Aku Rankka

Osoite Paratiisitie 13 Paratiisikatu 13 Paratiisit. 13

Kaupunki Ankkalinna Ankkalinna Ankkalinnoitus

Match-koodi GHWS$$EWT$ GHWS$$EWT$ GHWS$$WWT$

Järjestelmä

A

Järjestelmä

B

Järjestelmä

C

Page 9: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

9

Copyright © 2010, SAS Institute Inc. All rights reserved.

Match-koodien luonti Data Management Studiossa

Page 10: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

10

Copyright © 2010, SAS Institute Inc. All rights reserved.

Saman talouden asukkaiden klusterointi match-koodituksen avulla

Etunimi Sukunimi Katuosoite Puhelin MC1

(Sukunimi

ja

katuosoite)

MC2

(Katuosoite

ja puhelin)

MC3

(Sukunimi

ja puhelin)

Klusteri

ID

Tupu Ankka Paratiisitie 13 832-8239 $SV #V8 %A8 1

Hupu Ankka Paratiisitie 13 832-8239 $SV #V8 %S8 1

Lupu Ankka Paratiisitie 13 616-1504 $SV #V6 %S6 1

Mikki Hiiri Julle Ankan polku 6 688-2826 $GH #H3 %G6 2

Mortti Hiiri Julle Ankan polku 6 688-2857 $GH #H6 %R6 2

Vertti Hiiri Julle Ankan polku 6 688-2851 $GH #H1 %B6 2

Page 11: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

11

Copyright © 2010, SAS Institute Inc. All rights reserved.

Duplikaattien poistaminen

Valintasäännöt tässä

Contact = useimmin toistuva ilmentymä

ID = suurin arvo (viimeksi päivitetty?)

Muita valintasääntöesimerkkejä

Pisin ilmentymä

Viimeksi päivitetty ilmentymä

Ulkoisesta lähteestä validoitu arvo

Tietyn patternin omaava arvo (99999)

Page 12: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

12

Copyright © 2010, SAS Institute Inc. All rights reserved.

Luodaan “Paras ilmentymä”

�Täydennetään parasta ilmentymää valintasääntöjen mukaan

Valintasäännöt tässä

When Phone is Not Null, Select Phone

When State is Shortest Value, Select City and State

Page 13: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

13

Copyright © 2010, SAS Institute Inc. All rights reserved.

Match-koodit, standardointi, klusterointi ja parhaan ilmentymän valinta Data Management Studiossa

Vaihe 1: Lähdedatan määrittely

Vaihe 2: Match-koodien luonti nimille

Vaihe 3: Match-koodien luonti muille kentille

Vaihe 4: Standardoidaan työpuhelinnumerot yleiseen muotoon

Vaihe 5: Klusteroidaan ilmentymät vertaamalla match-koodeja

Vaihe 6: Parhaan ilmentymän valinta klustereittain

Vaihe 7: Avataan ilmentymien vertailuikkuna tarkastelua varten

Page 14: Duplikaattien havaitseminen ja poisto DataFlux …Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan

Copyright © 2010 SAS Institute Inc. All rights reserved.