data quality management by using sas data quality · nowe „podmioty” dla modeli predykcyjnych...
TRANSCRIPT
![Page 1: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/1.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Zarządzanie jakością danych
z wykorzystaniem SAS Data Quality
WEBINAR, 2016.03.01
Patryk ChoroŚ, SAS Institute
Zbigniew Wyszomierski, SAS Institute
![Page 2: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/2.jpg)
Company Confidential - For Internal Use Only
Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.
WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI
• Patryk Choroś
• Principal Business Solutions Manager
• Zbigniew Wyszomierski
• Product Management,
obszar: Data Management
• Dzisiejsze spotkanie jest pierwszym z
cyklu webinarów poświęconych
technologii SAS
• Na stronie www.sas.com/poland
dostępne jest agenda pozostałych
spotkań oraz nagrania z zakończonych
webinarów
• Zapraszamy do zadawania pytań
z wykorzystaniem funkcji „czatu”
![Page 3: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/3.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT
REPORTS
Data Integration ToolsJuly 29, 2015
Data Quality ToolsNovember 18, 2015
Source: Magic Quadrant for Data Integration Tools, July 29, 2015,
Eric Thoo, Lakshmi Randall.
Gartner RAS Core Research Note G00269320
Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah
and Ted Friedman, November 18, 2015
Gartner RAS Core Research Note: G00272508
![Page 4: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/4.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS POSITIONED IN THE LEADERS QUADRANT IN MAGIC QUADRANT
REPORTS
Source: Magic Quadrant for Advanced Analytics Platforms,
9 February 2015, Lisa Kart, Gareth Herschel, Alexander Linden, Jim Hare
Gartner RAS Core Research Note G00275788
Advanced Analytics PlatformsFebruary 9, 2016
Source: Magic Quadrant for Data Integration Tools, July 29, 2015,
Eric Thoo, Lakshmi Randall.
Gartner RAS Core Research Note G00269320
Source: Gartner Magic Quadrant for Data Quality Tools by Saul Judah
and Ted Friedman, November 18, 2015
Gartner RAS Core Research Note: G00272508
![Page 5: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/5.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
![Page 6: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/6.jpg)
Company Confidential - For Internal Use Only
Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.
ZARZĄDZANIE
JAKOŚCIĄ DANYCHDEFINICJA JAKOŚCI DANYCH
Data are of high quality "if they are fit for
their intended uses in operations,
decision making and planning"
(J. M. Juran)
http://en.wikipedia.org/wiki/Data_quality
![Page 7: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/7.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na zakres tematyczny:
Analizowane dane nie ulegają modyfikacji
• Proces określany terminem: profilowania danych
• Ocena jakości danych za pomocą zestawu miar\statystyk
• Możliwe podejście ad-hoc lub ujęcie systemowe
Analizowane dane ulegają przekształceniu
• Proces określany terminem: standaryzacji danych
• Wymagana definicja „wzorca \ standardu” rozumiejącego rodzaj
przetwarzanej informacji
• Standaryzacja – wymagany krok dla obszarów identyfikacji i deduplikacji
danych
![Page 8: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/8.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Identyfikacja rodzajów występujących błędów
• Błędy systemowe vs zdarzenia incydentalne
• Identyfikacja „luk” w przepływie danych w organizacji
![Page 9: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/9.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
• Rejestracja wyników na osi czasu
• Budowa własnych miar oceniających parametry jakościowe w danych
• Rozbudowane mechanizmy alertów
![Page 10: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/10.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Repozytorium reguł walidacyjnych
• Dowolność formuł walidacyjnych
• Hierarchia pomiędzy regułami
• Warstwa prezentacyjna, umożliwiająca identyfikację źródeł powstawania
błędów
![Page 11: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/11.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Repozytorium reguł walidacyjnych
![Page 12: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/12.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Repozytorium reguł walidacyjnych
![Page 13: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/13.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
• Analiza zależności w modelu danych
![Page 14: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/14.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
![Page 15: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/15.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
• Analiza zależności pomiędzy modelami danych
![Page 16: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/16.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
![Page 17: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/17.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
Jak wykorzystać proces profilowania
• Elastyczna sonda pomiarowa
![Page 18: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/18.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Profilowanie danych
• Assessment w projektach (w obszarze jakości danych)
![Page 19: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/19.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych
Wymagany wzorzec – SAS Quality Knowledge Base (QKB)
• Framework pozwalający na opis dowolnego języka:
Reguły fonetyczne
Konstrukcja gramatyczna
Ortografia i interpunkcja
Dodatkowe elementy: wielkość znaków, etc.
Słowniki z prawdopodobieństwami
• Polska wersja
• Elastyczność QKB:
Własne typy danych
![Page 20: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/20.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych - QKB
![Page 21: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/21.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych - QKB
![Page 22: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/22.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych
Wymagany wzorzec – SAS Quality Knowledge Base (QKB)
• Polska wersja
Adres
Data Urodzenia
Dowód osobisty
Numer Karty
Numer konta
Numer NIP
Numer PESEL
Płeć
Numer REGON
Numer telefonu
![Page 23: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/23.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych
Schematy standaryzacyjne
![Page 24: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/24.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Standaryzacja danych
Schematy standaryzacyjne
![Page 25: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/25.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Czyszczenie danych w praktyce
![Page 26: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/26.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Match codes i deduplikacja
• Identyfikacja\deduplikacja obiektów
System D
System E
System C
System B
PersonalID
ABC079675
FirstName
Zbigniew
Middle
Michał
LastName
Wyszomierski
PESEL
99082301232
Address
ul. A. Mickiewicza 64/4
Updated
2006-09-05System A
PersonalID
ABC079675
FirstName
Zbigniew
Middle
M
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Skoczna 6
Updated
2012-04-17
PersonalID
DB8881901
FirstName
Zbigniew
Middle
Michal
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Górna 53
Updated
2003/06/27
PersonalID
ABC079675
FirstName
Zbigniw
Middle
Michał
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Gwiaździsta 6 m.10
Updated
2010\02\14
PersonalID
AVU123456
FirstName
Zbigniew
Middle LastName
Wyszomirski
PESEL
99082301232
Address
ul. Mickiewicza 64/4
Updated
2012.09.11
![Page 27: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/27.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Master record
System D
System E
System C
System B
PersonalID
ABC079675
FirstName
Zbigniew
Middle
Michał
LastName
Wyszomierski
PESEL
99082301232
Address
ul. A. Mickiewicza 64/4
Updated
2006-09-05System A
3721B Zbigniew Michał Wyszomierski 99082301232 AVU070707 Skoczna 6 Warszawa PL 05-07730391-2441001 14239 30391-24430391244
EID Source Keys Survived Fields
PersonalID
ABC079675
FirstName
Zbigniew
Middle
M
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Skoczna 6
Updated
2012-04-17
PersonalID
DB8881901
FirstName
Zbigniew
Middle
Michal
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Górna 53
Updated
2003/06/27
PersonalID
ABC079675
FirstName
Zbigniw
Middle
Michał
LastName
Wyszomierski
PESEL
99082301232
Address
ul. Gwiaździsta 6 m.10
Updated
2010\02\14
PersonalID
AVU123456
FirstName
Zbigniew
Middle LastName
Wyszomirski
PESEL
99082301232
Address
ul. Mickiewicza 64/4
Updated
2012.09.11
![Page 28: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/28.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na tryb pracy:
Ad-hoc
• Wymagana funkcjonalność uruchamiana jest w trybie interaktywnym
Procesowy
• Zestaw wymaganych kroków definiowany jest w postaci diagramu
• Diagram analizy może być uruchamiany wg zadanego harmonogramu
![Page 29: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/29.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na tryb pracy: ad-hoc vs proces
![Page 30: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/30.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na tryb przetwarzania:
Batch
• Analiza wykonywana jest wg zadanych reguł np.: czasowych, na określonych
repozytoriach danych
Real-time
• Analiza danych może nastąpić już na etapie ich powstawania
• Aplikacja dziedzinowa wywołuje dodatkowe procesy\usługi DQ
![Page 31: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/31.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Batch
Real-time
![Page 32: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/32.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na wybraną architekturę rozwiązania:
Desktop
• Schemat\algorytm analizy i przetwarzanie odbywa się
na stacji roboczej
Serwer
• Projekt przetwarzania tworzony jest na desktopie
• Przetwarzanie odbywa się z wykorzystaniem serwera
In-database
• Komponenty DQ instalowane są w środowisku bazodanowym
• Minimalizacja transferu danych
![Page 33: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/33.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Serwer
• Transformacja(e) DQ jako element
procesu(ów) ETL/ELT
In-database
• Transformacje DQ instalowane w
środowiskach bazy danych
• SAS DataQuality Accelerator for …
Hadoop
Teradata
…
DQ
DQDQ
![Page 34: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/34.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
![Page 35: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/35.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
![Page 36: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/36.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
![Page 37: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/37.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
![Page 38: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/38.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
1
![Page 39: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/39.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
![Page 40: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/40.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
3
![Page 41: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/41.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
34
![Page 42: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/42.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
34
![Page 43: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/43.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
34
5
![Page 44: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/44.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
12
34
5
![Page 45: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/45.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY SAS DQ on Hadoop (SAS Data Loader) live
![Page 46: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/46.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Perspektywy zarządzania jakością danych
Ze względu na kontekst:
Projekt niezależny
• Procesy DQ służą ogólnej poprawie danych w określonych repozytoriach
Komponent tzw. SAS Business Solutions
• Procesy\funkcjonalność DQ są integralną częścią innych rozwiązań:
zarówno technicznych jak i biznesowych
• Jakość przygotowanych danych determinuje skuteczność określonych
procesów biznesowych
![Page 47: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/47.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Jakość danych w SAS Business Solutions
Predictive modeling & business intelligence:
Nowe „podmioty” dla modeli predykcyjnych
• Kontrakt -> Klient -> Gospodarstwo domowe
Pełniejsze i lepsze „jakościowo” wypełnienie atrybutów dla
wejściowych tabel analitycznych
Pełniejsze dane w warstwie raportowej
![Page 48: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/48.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Jakość danych w SAS Business Solutions
Predictive modeling
![Page 49: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/49.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Jakość danych w SAS Business Solutions
Risk management & fraud detection:
Poprawa identyfikowalności podmiotów
Skuteczniejsze wykrywanie powiązań pomiędzy podmiotami
Skuteczniejsza agregacja danych ze względu na atrybuty
podmiotów
Poprawa skuteczności modeli wspierających zarządzanie
ryzykiem, np.: ryzyko kredytowe
![Page 50: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/50.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS DATA QUALITY Jakość danych w SAS Business Solutions
Customer Intelligence:
Wsparcie działań sprzedażowych: lepsza identyfikowalność
podmiotów i powiązań pomiędzy nimi
Realizacja rozwiązań typu: widok 3600
Master Data Management
Budowa repozytoriów danych referencyjnych
Zależności pomiędzy obiektami
Automatyzacja działań marketingowych, np.: automatyczna
generacja ofert, opisów produktów etc.
![Page 51: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/51.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CIEKAWE DOŚWIADCZENIA WDROŻENIOWE
REFERENCJE SAS INSTITUTE POLSKA
![Page 52: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/52.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
REFERENCJE UFG
Rozmiar danych: 100 milionów wierszy (inicjalnie 72 mln)
Źródła danych: 4 systemy
Zakres danych: Dane o pojazdach, dane o ubezpieczonych, dane o kontrahentach
Opis wdrożenia:
• Zaprojektowanie algorytmów czyszczenia i uzupełniania danych: profilowanie, parsowanie, standaryzacja, walidacja, uzupełnianie słownikowe
• Udostępnianie danych za pośrednictwem usług sieciowych
• Pełne wdrożenie obejmujące wszystkie etapy projektu od prac analitycznych do uruchomienia produkcyjnego
Wyniki otrzymane po implementacji systemu:
• Stworzenie dedykowanej hurtowni danych ubezpieczeniowych wraz z ergonomicznym interfejsem składania zapytań
do centralnej, ogólnopolskiej bazy danych o ubezpieczeniach komunikacyjnych. UFG może realizować swoje
obowiązki ustawowe i spełniać oczekiwania rynku jako ośrodek informacji dla ubezpieczeń komunikacyjnych
• Nowe narzędzie pozwala firmom ubezpieczeniowym na szybkie sprawdzenie w ilu wypadkach uczestniczył właściciel
pojazdu i uwzględnienie tych informacji przy kalkulacji jego nowej składki za OC czy AC
• Przed wdrożeniem systemu liczba zapytań kierowanych do Ośrodka Informacji UFG przez zakłady ubezpieczeń
wynosiła ok. 17 tys. rocznie, natomiast w trakcie programu pilotażowego, który trwał od lutego do listopada ubiegłego
roku, ubezpieczyciele zadali łącznie 2,5 mln zapytań
![Page 53: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/53.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
REFERENCJE GŁÓWNY URZĄD STATYSTYCZNY
Rozmiar danych: około 5 TB
Źródła danych: narodowe rejestry spisowe (około 20 różnych źródeł danych)
Zakres danych: dane adresowe i kontaktowe, finansowe, ubezpieczeniowe, telekomunikacyjne, demograficzne i energetyczne
Opis wdrożenia:
Zakres procesu jakości danych: integracja i standaryzacja wszystkich głównych, narodowych rejestrów dla spisu powszechnego i rolnego
Główne techniki czyszczenia danych:
Kody dopasowania ,
Dystans Levenshtein-a,
Nakładanie schematów.
Polepszenie jakości danych zmierzone po zaimplementowaniu Data Quality:
• Np. rejestr PESEL: miasta 70,29%, ulice 85,67%
![Page 54: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/54.jpg)
Company Confidential - For Internal Use Only
Copyright © 2013, SAS Insti tute Inc. Al l r ights reserved.
WEBINAR ZARZĄDZANIE JAKOŚCIĄ DANYCH W ORGANIZACJI
• Patryk Choroś
• Zbigniew Wyszomierski
• Zapraszamy na kolejne webinary o
technologii SAS na
www.sas.com/poland
![Page 55: Data Quality Management by using SAS Data Quality · Nowe „podmioty” dla modeli predykcyjnych •Kontrakt -> Klient -> Gospodarstwo domowe Pełniejsze i lepsze „jakościowo”](https://reader033.vdocuments.net/reader033/viewer/2022050513/5f9d5c54b5858660c2170585/html5/thumbnails/55.jpg)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com
DZIĘKUJEMY ZA UDZIAŁ
PROSIMY O WYPEŁNIENIE ANKIETY