copyright © 2012, oracle and/or its affiliates. all rights...
TRANSCRIPT
1 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
2 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
„Nem csak tiszta forrásból”
Adattisztaság, adatintegráció
Enterprise Data Quality
Fekete Zoltán
Principal sales consultant
https://blogs.oracle.com/zfekete
3 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Agenda
• Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás
• Enterprise Data Quality
• Oracle Data Integrator
• Oracle Data Integrator és Oracle Enterprise Data Quality
együttes előnyei
4 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Agenda
• Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás
• Enterprise Data Quality
• Oracle Data Integrator
• Oracle Data Integrator és Oracle Enterprise Data Quality
együttes előnyei
Copyright © 2012, Oracle and/or its affiliates. All rights reserved. #OracleDataIntegration 5
Az adattisztaság üzleti hatása
Rossz adatokkal Jó adatokkal
• Kisebb ROI
• Nagyobb projekt kockázat, idő, költség
• Drágább, következmények – rossz
számla, rossz kiszállítás, rossz
alkatrészek,…
• Nagyobb ROI
• Nagyobb agilitás
• Nagyobb hatékonyság
• Nagyobb ügyfél elégedettség
• Nagyobb skálázhatóság
„BI/DW implementációk
30%-a teljesen sikeres.
Miért?
Pénz és adattisztaság”
„Az adatintegráció és
adattisztaság az alkalmazás
bevezetés sikerének alapja,
pl. CRM, SCM és ERP.”
„#1 ok, ami miatt a
CRM projektek
elbuknak:
adattisztaság?
Adatok áradata Elemzők: növekvő mennyiség, komplexitás
“External data sources are proliferating - On average, organizations are integrating 14 external data sources, up from 11 a year ago.
- Aberdeen Group
“New data stored by enterprises exceeded 7 exabytes of data globally in 2010 and new data stored by consumers exceeded an additional 6 exabytes..”
- McKinsey Global Institute
“As data growth and complexity accelerates, companies should focus on quality assured data exchange (ensure data consistency and accuracy from the point of entry.”
- Aberdeen Group
“40% projected growth in global data generated per year vs 5% growth in global IT spending.”
- McKinsey Global Institute
7 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Cégek
Az adatok folyton változnak... a DQ romlik?
• 240 cég címe változik
• 150 üzleti telefonszám változik meg vagy szűnik meg
• 112 C-változás (CEO, CFO, stb.)
• 20 cég bukik meg
• 12 új cég jön létre
• 4 cég nevet változtat
Source: D&B, US Census Bureau, US Department of Health and Human Services, Administrative Office of the US Courts,
Bureau of Labor Statistics, Gartner, A.T Kearney, GMA Invoice Accuracy Study
• 5 769 személy változtat állást az USA-ban
• 2 748 személy címe változik
• 515 személy házasodik meg
• 263 személy válik el
• 186 személy jelent be magáncsődöt
Személyek
Törzsadatok,master data: 2% változás havonta
Termékek
• Termékek: 20% duplikátum
• 90% termék bevezetés rossz
• Kisker.: 40 milliárd $ vagy 3,5% értékesítés veszteség, termék infó gondok
• 60% számla hiba
• Global Data Sync: 30% IT költség csökkenés
1 óra alatt… 1 óra alatt… 1 év alatt…
2% monthly change is 27% évente, 61% 2 évente, 104% 3 év alatt!!!
Copyright © 2012, Oracle and/or its affiliates. All rights reserved. #OracleDataIntegration 8
Adatok: hibák és konzisztencia gondok
Eltérés vagy hiba
Példa Eltérés vagy
hiba Példa
Sorrend • Mark Douglas or Douglas Mark Olvasási hiba • Hannah, Hamah
Véletlen „javítás”
• Browne – Brown Hiányzó vagy
extra részek • George W Smith, George Smith, Smith
Összefűzés • Mary Anne, Maryanne Más nyelvi
adatok
• Khader AL Ghamdi, Khadir A.
AlGamdey
Becenév, alias • Chris – Christine, Christopher, Tina Kezdőbetűk
zavara • John Alan Smith, J A Smith
Zaj • Vessző, perjel, idézőjel, gondolatjel,... Betűcserék • Johnson, Jhonson
Rövidítés • Wlm/William, Mfg/Manufacturing Lokalizáció • Stanislav Milosovich – Stan Milo
Csonkítás • Credit Suisse First Bost Téves dátumok • 12/10/1915, 21/10/1951, 10121951,
00001951
Előtag variációk • MacDonald/McDonald/Donald Átírási
különbségek • Gang, Kang, Kwang
Elírás, elütés • P0rter, Beht Hangzó hibák • Graeme – Graham
9 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Agenda
• Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás
• Enterprise Data Quality
• Oracle Data Integrator
• Oracle Data Integrator és Oracle Enterprise Data Quality
együttes előnyei
10 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
• Honnan lehet megtudni?
• Mi a hatása az üzletre?
• Mit tegyünk?
Data Quality – „Illik az adat a célhoz”?
11 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Ellenőrzés – adatok „megfelelnek a célnak”?
• Understand current data ‘fitness for purpose’
• Estimate DQ impacts & ROI
• Identify critical issues & quick wins
Megismerés
Javítás
Védelem
Irányítás Your
Data
Your Experts
Current
issues,
gaps,
errors
Business &
data
standards
12 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Adatok javítása, alkalmazás telj. javítása
• Improve ROI and performance of existing applications
• Engage users and executives
• Bring data to a known, baseline quality – ready to roll-
out new applications and initiatives
Megismerés
Javítás
Védelem
Irányítás
Metrics,
KPIs
Fit for
purpose
data
Parse/
extract
Stand-
ardize
Match/
merge
Verify
Enrich
‘Gold’
data
Apply data standards
13 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
„DQ Firewall” – információ vagyon folyamatos védelme
• Continuous, consistent enforcement of standards
• High quality data drives ROI
• No more DQ projects!
Megismerés
Javítás
Védelem
Irányítás
Hub
Apply data standards/validate
External
sources/
feeds
Non-DQ/MDM-
aware Apps
DQ/MDM-
aware Apps Web
service
call
Oracle Data Integrator
E-LT/ETL Process
14 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
DQ irányítás – folyamatos folyamat javítás
• Monitor ongoing effectiveness
• Track and resolve issues
• Improve overall effectiveness
Understand
Improve
Protect
Irányítás
Target
system DQ
metrics
‘Gold’
data
Apply data standards
Source
system DQ
metrics
DQ
process
metrics
15 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Agenda
• Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás
• Enterprise Data Quality
• Oracle Data Integrator
• Oracle Data Integrator és Oracle Enterprise Data Quality
együttes előnyei
16 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Enterprise Data Quality – Datanomic, 2011.
17 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Enterprise Data Quality
Integrált DQ megoldás
Témakör-specifikus
Könnyen
használható
• Integrált DQ megoldás – profiling, cleansing, classification,
repurposing, matching & reporting
• Üzleti felhasználóknak
• Egyszerű konfiguráció és integráció „DQ Services”
• Integrált csoportmunka és menedzsment
• Specializált fő területekre: Parner és Termék
• Előre felépített folyamatok és tudás
• Megfelelő eszközt a feladathoz
• Kiterjeszthető tetszőleges területre, feladatra, folyamathoz
• Független: adatkör, piac, alkalmazás, ... • DQ nem csak a háttérmunkához • Felhasználók monitorozhatják a fontos adatokat
–Testreszabott dashboard
–Tartalom és elrendezés kiválasztása
• Üzleti kontextus: megértés és egyetértés
17
18 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
EDQ Console, a felhasználóra fókuszálva
Projekt
böngésző
Fő terület
Eredmények
Eszközpaletta
19 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Teljes DQ folyamat felépítése
„Egyszerű” vagy „komplex” folyamat
Folyamat áttekintő nézet: navigáció
• Teljes DQ funkcionalitás: egyetlen egységes felület és repository
20 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Rögtön bevethető kész feldolgozók: Processor
21 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Fontos: nyelv-specifikus, régió-specifikus és
ország-specifikus képességek
• Processorok: országokra, régiókra
• Teljes unicode megfelelés
22 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Fontos: nyelv-specifikus, régió-specifikus és
ország-specifikus képességek
23 | © 2011 Oracle Corporation
Profiling – adatok megértése, megismerése
Interaktív felfedezés, eloszlások vizsgálata,
kugró értékek lefúrással.
Jellemzők:
megismerés és mérés
24 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Adatok javítása és tisztítása
Profiling eredmények:
saját adatjavítási szabályok kialakítása
Gyári processorok a
szokásos feladatokhoz,
például: cím standardizálás
• Teljesen alakítható transzformációs szabályok
• Batch és Real-Time is
• Adatváltoztatás esetén is teljes kontroll
• Az eredeti adat is megőrződik (minden köztes lépés is)
• Forrás adatok: állomásoztatva, feldolgozva vagy „stream”-elve a folyamatban
25 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Nevek tisztítása
25
• Parse, standardizálás, transzformálás
• Részekre bontás
• Egyének, cégek azonosítása
• További attribútumok kitöltése
Name: Dr Ellen Van Der Heijde
Title: Dr
First: Ellen
Last: Van Der Heijde
Gender: Female
Name: Jalila Abdul-Alim (Do Not Call)
First: Jalila
Last: Abdul-Alim
Gender: Female
Note: Do Not Call
Title: Mr
First: R
Middle: J
Last: MacDonald
Gender: Male
Name: Mr RJ & Mrs FB MacDonald
Title: Mrs
First: F
Middle: B
Last: MacDonald
Gender: Female
Title: Ms
First: April
Last: James
Gender: Female
Name: Ms April James DBA AJ Designs
Company: AJ Designs
Nem csupán neveket:
címek, dátumok, telefonszámok, stb.
26 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Matching – ismétlődés kezelés, megelőzés • Üzleti felhasználóknak
• Rugalmas matching motor bármely adathoz, összehasonlító algoritmusok
• Template match processorok: személy, egyed, cím egyezőség vizsgálathoz
• Konfigurált match processorok újra felhasználása
• Konfigurálható kimenetek (linkek, csoportok, Master and Slaves, legjobb record)
• Batch és Real-Time is
Kész szabályok:
bekapcsolás, kikapcsolás,
testreszabás
27 | © 2011 Oracle Corporation
Parsing – Improve & Review data
Parse & classify
Megfelelő és vizsgálandó
rekordok
Review color
Passed
Copyright © 2012, Oracle and/or its affiliates. All rights reserved. #OracleDataIntegration 28
Big Data felhasználási eset
OC_Name at_ns:.oc.ERoss3g1
Identifier 1546863
Target_Entity
RCROOT at_ns:.oss.3g1RCROOT SNW NISTE05
RNC NISTE05
Event_Type QualityofServiceAlarm
Managed_Object
RCROOT at_ns:.oss.3g1RCROOT SNW NISTE05
RNC NISTE05
Probable_Cause ThresholdCrossed
Severity Warning
Event_Time 18/12/2012 19:10:16
State Outstanding
Notification_ID 3589640175"
NmsTags.AlarmId 38444174\n
NmsTags.ProposedRepair \n
NmsTags.ManagedObject
kalkan,SubNetwork=ONRM_ROOT_MO,SubNetwork=
NISTE05,MeContext=NISTE05,ManagedElement=1,R
ncFunction=1,UtranCell=WIS04296\n
NmsTags.SpecificProblem UtranCell_RrcEarlyReject\n
NmsTags.Class RCROOT\n
{"OC_Name": "at_ns:.oc.ERoss3g1","Identifier": "1546863","Target_Entity": "RCROOT
at_ns:.oss.3g1RCROOT SNW NISTE05 RNC NISTE05","Event_Type":
"QualityofServiceAlarm","Managed_Object": "RCROOT at_ns:.oss.3g1RCROOT SNW
NISTE05 RNC NISTE05","Probable_Cause": "ThresholdCrossed","Severity":
"Warning","Event_Time": "18/12/2012 19:10:16","State":
"Outstanding","Additional_Text":
"UtranCell_RrcEarlyReject\n\nstart_nms_tags\n@AlarmId=38444174\n@ManagedObj
ect=kalkan,SubNetwork=ONRM_ROOT_MO,SubNetwork=NISTE05,MeContext=NIST
E05,ManagedElement=1,RncFunction=1,UtranCell=WIS04296\n@SpecificProblem=Ut
ranCell_RrcEarlyReject\n@ProposedRepairAction=\n@Class=RCROOT\nend_nms_ta
gs \n\nSource:OSSRC_FM","Notification_ID": "3589640175"}
Parse & classify: komplex nemstrukturált,
félig strukturált adatokat
strukturált adatokká alakítja
Big Data
Operatív valós idejű riporting
29 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
EDQ Address Verification – cím kezelés
EDQ Address Verification Server
• Verify – cím kijavítása, pontosítása
• Worldwide address cleansing – over 240 countries – all populated countries on earth
• The most advanced error-tolerant parsing algorithms
• Geocode – a címhez a megfelelő koordináták hozzákapcsolása
• Generates a latitude/longitude coordinate for any address worldwide
• Leverages the most comprehensive multi-source geographical reference data
Global Knowledge Repository Data Packs
• Parse
• Transliterate
• Validate
• Format
Verify
Add
latitude/longitude
coordinates
Geocode
EDQ Parse and Standardize
EDQ Profile and Audit
EDQ Match and Merge
Copyright © 2012, Oracle and/or its affiliates. All rights reserved. #OracleDataIntegration 30
Felhasználói csoportok a folyamatban
Adatelemzők
Üzleti elemzők
Vezetők, tulajdonosok
Director felhasználók
Director Data Stewards
Director vezetők
Director felülbírálók
31 | © 2011 Oracle Corporation
Az üzleti felhasználónak
• Rövid betanulás,
hamar kamatozik
• Az üzleti probléma
gazdáinak
• Integrált csapatmunka,
együttműködés
32 | © 2011 Oracle Corporation
Match áttekintés
Independent End User Review of Matches
• Konfigurálható: Decision Workflow
• Full Audit Trail és megjegyzések
• Match / No Match döntésekre emlékezik
Áttekintés
Egyező rekordok
megtekintése
Manuális döntések
Döntés és megjegyzés: történet adatok
33 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Agenda
• Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás
• Enterprise Data Quality
• Oracle Data Integrator
• Oracle Data Integrator és Oracle Enterprise Data Quality
együttes előnyei
34 Copyright © 2011, Oracle and/or its affiliates. All rights
reserved.
Oracle Data Integrator 12c Fastest ETL/E-LT, Simpler Time-to-Value, Lowest TCO
Best in class performance, scalability
Lowered TCO, lightweight deployment
Improved usability and manageability
Heterogeneous
Open, standards-based
Any Data Warehouse
Any Planning System OLTP DB
Sources
Application Sources
Legacy Sources
Oracle Data Integrator Enterprise Edition
35 Copyright © 2011, Oracle and/or its affiliates. All rights
reserved.
Introduction
Oracle Data Integrator is the strategic go-forward ETL platform
from Oracle
Existing OWB customers are NOT being forced to migrate to ODI
Oracle offers “Lifetime Support” option for Sustaining Support on all OWB
features
Oracle Data Integrator 12c supports a phased migration approach
Execute and monitor existing OWB 11gR2 jobs from ODI 12c
Use the migration utility to convert existing OWB 11gR2 objects into their ODI
equivalents
Start new developments using ODI 12c
36 Copyright © 2011, Oracle and/or its affiliates. All rights
reserved.
OWB – ODI Migration Utility Overview
Versions supported
OWB 11.2.0.4 to ODI 12c
Design-time metadata migration only
Data Objects
Mappings
Separate command line utility
uses OWB SDK and ODI SDK
3 different running modes: Run/Dry Run/Fast Check
log and report files are available
37 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Agenda
• Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás
• Enterprise Data Quality
• Oracle Data Integrator
• Oracle Data Integrator és Oracle Enterprise Data Quality
együttes előnyei
38 Copyright © 2011, Oracle and/or its affiliates. All rights
reserved. Confidential – Oracle Restricted
• Csökkenti: ODI bevezetés idejét és kockázatot – 50% DW/BI projektek: rossz elfogadottság, sikertelenség:
nem figyeltek az adattisztaságra
– ETL mappingek: a specifikáción túl is kell valami
– Data Profiling: hibák, minták, formátumok időben felismerése az ETL folyamatban
– EDQ Profiling: adatok megismerése, megértése, szükséges mappingek megértése
• Adattárház töltése tiszta adatokkal – Rossz döntések elkerülése: rossz adatok alapján (garbage-in, garbage-out)
– Folyamatos adatjavítás: Data Governance/Data Stewardship
– Üzleti felhasználók bevonása az üzleti szabályok létrehozásába
– EDQ Batch Processing: pontos, konzisztens, teljes adatok
EDQ felhasználás az ODI-val együtt
39 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
EDQ és Oracle Data Integrator: felhasználás
Források
Célok
Pl. adattárház,
Exadata
Oracle Data
Integrator
Data Profiling Analyze and understand data
to build ODI mappings Automated Processes De-duplication, complex
cleansing and parsing
invoked in ODI workflow
Measure Ongoing Data Quality Assess quality of data
in target system. How well
is ETL working?
Enterprise Data
Quality
40 Copyright © 2011, Oracle and/or its affiliates. All rights
reserved. Confidential – Oracle Restricted
EDQ and ODI: teljes Data Quality folyamat
Sources
Oracle Enterprise Data Quality
Parsing Standardization Cleansing Matching Merging
Targets
Oracle Data Integrator
E-LT/ETL Process
- Continuous Quality Monitoring - Quality Alerts
4
Create new Data Quality Rules
2
- Add Data Quality to E-LT/ETL Flow
3
Profile Data 1
41
Desktop
Repositories
Information Management infrastruktúra ODI & EDQ megosztott architektúra
ODI Studio
Operator
Designer Topology
Security
Sources and Targets
Legacy Applications
ERP/CRM/PLM/SCM
Files / XML DBMS DW / BI / EPM
JVM
Java EE Application
ODI SDK
WebLogic 11g / Application Server
Data Sources Connection Pool
Web Service Container
ODI Public WS
Data Services
FMW Console ODI Plug-in
Servlet Container
ODI Console Java EE
Application
ODI SDK
Runtime WS
Java EE Agent
JVM
Runtime WS
Standalone Agent
EDQ Repository EDQ Result Schema
EDQ Engine EDQ WS
EDQ Match Review
EDQ Case Mgmt
Service Bus
EDQ Launchpad
Director
Administration
Console
Match Review
ODI Master Repository
ODI Work Repository #n
ODI Work Repository #1
Case Mgmt
…
ODI Server Mgmt EM Monitoring EDQ Server Mgmt
42
ODI és EDQ együttműködése
Példa: Slowly Changing Dimension betöltése
Staging Sources Target
Customers Prospects
Stg_Customers
DIM_Customers
ODI
extracts
Stg_Valid_Customers ODI
loads
1
2
3
E-LT
EDQ
Standardize, Parse
& Match w reference data
2
43 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Q&A
44 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.
Hasznos linkek
Oracle Enterprise Data Quality
• http://www.oracle.com/us/products/middleware/data-integration/enterprise-
data-quality/overview/index.html
• http://www.oracle.com/technetwork/middleware/oedq/overview/index.html
45 Copyright © 2012, Oracle and/or its affiliates. All rights
reserved.