transformation lifecycle management mit nautilus · •nachvollziehbarkeit •verantwortlichkeit...
TRANSCRIPT
Transformation Lifecycle Managementmit Nautilus
Melanie HerschelUniversität Tü[email protected]
IBM Böblingen17. Februar, 2011
1
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Agenda
Vorstellung(the past)
TransformationLifecycle
Management(the future)
2
Datenherkunft(the present)
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Kurze Vorstellung
• 2003 - 2008: Wissenschaftliche Mitarbeiterin an der Humboldt-Universität zu Berlin und am Hasso-Plattner-Institut Potsdam (FG Informationsintegration/Informationssysteme, Prof. Felix Naumann).
• Datenintegration [VLDB05, EDBT10, ...]
• Datenreinigung in XML: XClean Projekt bei INRIA, FR [CIDR07,CAISE07] finanziert durch ein DAAD Doktorandenstipendium
• Domänen-unabhängige Dublettenerkennung [SIGMOD05, EDBT06, CIKM07, SynthesisLecture10,...]
• Domänen-abhängige Dublettenerkennung [VLDB08]in Kooperation mit der SCHUFA Holding AG
3
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
• 2008 - 2009: Postdoktorandin am IBM Almaden Research Center (Clio Gruppe, Howard Ho)
• Datenherkunft [VLDB09]
• Linked open dataIntegration von US-Regierungsdaten im MIDAS Projekt.
• Seit 2009: Wissenschaftliche Mitarbeiterin an der Universität Tübingen (FG Datenbanksysteme, Prof. Torsten Grust)
• Datenherkunft [VLDB10]gefördert durch die Baden-Württemberg Stiftung
• Transformation Lifecycle Management4
Kurze Vorstellung
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
• Mitglied diverser Programm Kommitees und Gutachterin für Fachzeitschriften.
• Mitorganisatorin des
• VLDB Workshops Quality in Databases (QDB 2009)
• ICDE Workshops Managing Data Throughout its Lifecycle (DaLi 2011)
• Gastherausgeberin der Sonderausgabe Informationsintegration der Zeitschrift “it - information technology” (Sommer 2012).
5
Kurze Vorstellung
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Agenda
Vorstellung(the past)
TransformationLifecycle
Management(the future)
6
Datenherkunft(the present)
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Warum Datenherkunft
• Nachvollziehbarkeit
• Verantwortlichkeit
• Wiederholbarkeit
• Korrektheit
7
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Datenherkunft im Überblick
8
Data Provenance
Existing data Missing data
why-provenance
how-provenance
where-provenance
instance-based provenance
query-based provenance
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Datenherkunft existierender DatenBeispiel
!"# &'()* +(',
!1 456+7)+&89#,) :56+
!2 4.+#7;)"<9'5= :.+#
!3 >#(#$765=#9,# %#(#$
""# !"#?1 !1?@ !1?2 !2?3 !3?@ !3
2"# !"# 2):6;/, =)>)<)*)69
0%1 !1 /5B,#+/.(#94>/ *$&#+,0%2 !1 >&#$3A94>/ %);B&'
0%3 !2 =.$C#(94>/ *$&#+,0%@ !3 D&+#(."E+/94>/ %);B&'
!"#$ !"#%
0!1 !2
0!2 !3
23"# 42"# 5(6,78/9
%-1 0%1 0?3%-2 0%1 0?1
%-3 0%2 0?@%-@ 0%@
!"#$ %&'()$#UserInterest*$&#+, %&'()$#-./
!$-&'()* ./),01 !%-&'()*456+7)+&89#,) :.+# 4.+#7;)"<9'5=4.+#7;)"<9'5= :56+ 456+7)+&89#,)4.+#7;)"<9'5= %#(#$ >#(#$765=#9,#>#(#$765=#9,# :.+# 4.+#7;)"<9'5=
!$-&'()* 2):6;/, 25806/)<;68/>#(#$765=#9,# >&#$3A94>/ :56+
Query1Pairs of connected users
Query2Pictures users are interested in
9
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Datenherkunft existierender DatenBeispiel
▸ T1: Bestellungen (Produktlisten) aufspalten
!Neues Schema: Bestellung(order-id, cust-id, date, prod-id, amount)
▸ T2: Kategorie selektieren
! Filter für Computer Kategorie
▸ T3: Join (und Projektion) über Bestellungen und Produkte
!Neues Schema: (order-id, date, prod-id, amount, prod-name, price, valid)
▸ T4: Aggregation und Pivotisierung
!Verkaufsmenge pro Quartal und Produkt
!Neues Schema: (prod-name, Q1, Q2, Q3, Q4)
▸ T5: Durchschnittsberechnung
!Neues Schema: (prod-name, Q1, Q2, Q3, AVG123, Q4)
▸ T6: Selektion für Verkaufsprünge
▸ T7: Projektion
!Neues Schema: Verkaufssprung(prod-name, AVG123, Q4) T2
T7
T6
T5
T4
T1
T3
10prod-id prod-name category price valid
Produkt Bestellungorder-id cust-id date prod-list
Verkaufssprungprod-name AVG123 Q4
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Arten der HerkunftsberechnungEager vs. Lazy
11
Eager (Vorberechnung) Lazy (on-demand Berechnung)
Vorteile
• Provenance direkt aus Transformationsergebnis berechenbar
→ Schnellerer Zugriff auf Provenance-Information
• Kann auf existierende Systeme ohne teures re-engineering angewendet werden.
• Keine zusätzlichen Speicherkosten.
• Keine längere Anfragebearbeitung.
Nachteile
• Komplexere Anfrage→Längere Anfragebearbeitung
• Größerer Speicherbedarf bei Materialisierung des Transformationsergebnisses.
• Komplexe Berechnung der Provenance
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Datenherkunft fehlender DatenBeispiel
#!" $%&'( )&%*
!: 012+3)+&45#,) >12+
!< 0.+#3?)"@5'17 >.+#
!= A#(#$3217#5,# %#(#$
!!" #!"9: !:9; !:9< !<9= !=9; !=
-!" #!" -'./01* 7'8'5'('/9
C%: !: /18,#+/.(#50A/ *$&#+,C%< !: A&#$=B50A/ %)?8&'
C%= !< 7.$D#(50A/ *$&#+,C%; != E&+#(."F+/50A/ %)?8&'
#!"+ #!"6
C!: !<
C!< !=
-:!" ;-!" 2&/*<319
%-: C%: C9=%-< C%: C9:
%-= C%< C9;%-; C%;
!"#$ %&'()$#UserInterest*$&#+, %&'()$#-./
#+,$%&'( =1'*4> #6,$%&'(012+3)+&45#,) >.+# 0.+#3?)"@5'170.+#3?)"@5'17 >12+ 012+3)+&45#,)0.+#3?)"@5'17 %#(#$ A#(#$3217#5,#A#(#$3217#5,# >.+# 0.+#3?)"@5'17
#+,$%&'( -'./01* -234/1'50/31A#(#$3217#5,# A&#$=B50A/ >12+
Query1Pairs of connected users
Query2Pictures users are interested in
012+3)+&45#,) 6A&' 6+.7#
012+3)+&45#,) 6+.7# 6#7.&8
Keinen Nutzer mit diesem Namen? Nutzer hat keine Interessen? Fehler in der Anfrage (Join statt Outer Join)? ...
12
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Query-based explanationsWhy-Not [Chapman09],
ConQuer [Tran10]
Instance-based explanationsMissing-Answers [Huang08], Artemis [VLDB09,VLDB10]
Arten der Datenherkunft fehlender DatenInstanz vs. Anfragebasiert
Warum fehlen bestimmte Daten im Ergebnis einer Anfrage Q?
A B
a b
a‘ b
B C
b c
b‘ c‘
S TA C
a c
a‘ c
a‘ c‘
!AC(S !B T)
Q
a‘ b‘
b c‘
a‘ $x $x c‘
13
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Artemis
• Generiert alle möglichen instanzbasierten Erklärungen.
• Berücksichtigt Seiteneffekte.
• Garantiert Korrektheit durch Verwendung eines Constraint-Solvers
• Als Eclipse Plugin implementiert.
14Contributed by Laure-Berti Equille
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Agenda
Vorstellung(the past)
TransformationLifecycle
Management(the future)
15
Datenherkunft(the present)
Manueller Transformation Lifecycle
State-of-the-art: manuelle Entwicklung
von Anfragen bzw. Datentransformationen.
Analyze
FixTest
16
Transformation Lifecycle Managementmit Nautilus
Semi-automatische Unterstützung des Prozesses
Analyze
FixTest
•Erklären existierender Daten
• Erklären fehlender Daten
• Interaktionen mit weiteren Anfragen
•Auswertung der Erklärungen
• Vorschlagen von “fixes”•Verwaltung & Analyse der Prozesshistorie
• Verwaltung & Analyse der Änderungen im Datenfluß17
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Interaktionen mit Nautilus
18
SQLdeveloper
Analyze
Fix
Test
Nautilus1 debugging scenario
2 explanations3 explanation annotations
4 query modification request5 query modifications
6 modification annotations7 modification decision
8 modification impact
time
9 impact annotation
http://www.nautilus-system.org
Berechnung der Datenherkunft
Berechnung von Änderungsvorschlägen aufgrund neuer Anforderungen an die Transformation bzw. aufgrund von Fehlern.
Berechnung und Zusammenfassung der Auswirkungen der Transformation.
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Nautilus Architektur
19
GUI
DBMetadatarepository
Eclipse Views & Editors
Explanation manager
Development cycle manager
Query modification manager
Explanation generator
Explanation annotator
Explanation annotation analyzer
Modification generator
Modification annotator
Modification annotation analyzer
AFT-inference engine
Modification impact analyzer
Explanation ranker Modification ranker
Modificationimpact annotator
Debugging scenario manager
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
Ausblick zur Eigenen Forschung
20
• Datenherkunft
• Algorithmus, der Datenherkunft existierender und fehlender Daten vereint.
• Verbesserung der Effizienz und der Interaktionsmöglichkeiten.
• Transformation Lifecycle Management
• Algorithmen für die Fix-Phase & Test-Phase
• Entwicklung und Validierung
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
LiteraturverzeichnisDatenherkunft fehlender Daten
21
• [Huang08] J. Huang, T. Chen, A. Doan, and J. F. Naughton. On theprovenance of non-answers to queries over extracted data. In Proceedings of the VLDB Endowment (PVLDB), 1(1), 2008.
• [Chapman09] A. Chapman and H. V. Jagadish. Why not? In International Conference on the Management of Data (SIGMOD), 2009.
• [Tran10] Q. T. Tran and C.-Y. Chan. How to ConQueR why-not questions. In International Conference on the Management of Data (SIGMOD), 2010.
• [VLDB09] Melanie Herschel, Mauricio A. Hernández et Wang Chiew Tan. Artemis: a system for analyzing missing answers. In Proceedings of the VLDB Endowment (PVLDB), 2(2), 2009.
• [VLDB10] Melanie Herschel and Mauricio A. Hernández. Explaining Missing Answers to SPJUA Queries. In Proceedings of the VLDB Endowment (PVLDB), 3, 2010.
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
LiteraturverzeichnisAusgewählte eigene Publikationen
22
Datenintegration
• [VLDB05] Alexander Bilke, Jens Bleiholder, Christoph Böhm, Karsten Draba, Felix Naumann, and Melanie Weis. Automatic data fusion with HumMer. In Very Large Data Bases (VLDB), 2005.
• [EDBT10] Jens Bleiholder, Sascha Szott, Melanie Herschel, and Felix Naumann. Using subsumption and complementation for data fusion. In Extending Database Technology (EDBT), 2010
Datenreinigung
• [CIDR07] Melanie Weis and Felix Naumann. DogmatiX tracks down duplicates in XML. In Conference on Management of Data (SIGMOD), 2005
• [CAISE07] Melanie Weis and Ioana Manolescu. Declarative XML data cleaning with XClean. In Conference on Advanced Information Systems Engineering (CAiSE), 2007
17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen
LiteraturverzeichnisAusgewählte eigene Publikationen
23
Dublettenerkennung
• [SIGMOD05] Melanie Weis and Felix Naumann. DogmatiX tracks down duplicates in XML. In Conference on Management of Data (SIGMOD), 2005
• [EDBT06] Sven Puhlmann, Melanie Weis and Felix Naumann. XML duplicate detection using sorted neighborhoods. In Extending Database Technology (EDBT), 2006
• [CIKM07] Luís Leitão, Pável Calado, and Melanie Weis. Structure-based inference of XML similarity for fuzzy duplicate detection. In Conference on Information and Knowledge Management (CIKM), 2007.
• [VLDB08] Melanie Weis, Felix Naumann, Ulrich Jehle, Jens Lufter, and Holger Schuster. Industry-scale duplicate detection. In Proceedings of the VLDB Endowment (PVLDB), 1(2), 2008.
• [SynthesisLecture10] Felix Naumann and Melanie Herschel. An Introduction to Duplication Detection. Morgan and Claypool Publishers, 2010.