home: doag e.v. - einsatz von oracle in der bi lehre · moviesite (internetseite mit informationen...
TRANSCRIPT
Einsatz von Oracle in der BI Lehre
Jorg BellanFlorian Langenbruch
Hochschule UlmInstitut fur Informatik
Fachgebiet Betriebliche Informationssysteme
21. April 2010
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Inhalt
1 Einleitung
2 Oracle BI Referenzumgebung
3 Oracle Data Mining
4 Fragen
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 2/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Ziele
Welche Inhalte sollen vermittelt werden?
Ziele
Erfahrung mit kommerziellen BI Tools und der OracleDatenbank
Veranschaulichen der Zusammenhange beim Aufbau einesDWH und Durchfuhrung von Ubungen
Erkennen von unterschiedlichen Problemen und Losungswegenim Vergleich zu Open Source Losungen wie MySQL undPentaho
Starken und Schwachen von verschiedenen Produktenselbst(!) erkennen
Interesse wecken fur Praktika oder Abschlussarbeiten im BIUmfeld
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 3/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Aufbau des DWH
Szenario der BI Umgebung
Beteiligte Systeme
Ausgangsbasis ist der kostenlose Dell DVD Store, bestehend ausRohdaten, Shell-Skripten und JSP Web-Frontend.
Online DVD Shop mit Kunden-, Produkt- und Bestelldaten
Das Data Warehouse integriert verschiedene Systeme
DVD Store (OLTP System)DVD Laden (OLTP System)MovieSite (Internetseite mit Informationen uber Filme, derenSchauspieler und verantwortliche Studios)
Gesamtgroße der Datenbank: ca. 10 GB (OLTP, CDWH,Staging Area etc.)
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 4/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Aufbau des DWH
Zentrale Daten
Woraus besteht die Referenzumgebung?
Aufgebaut wird auf einer Bachelorarbeit aus dem SS 2009Damals noch mit Oracle 11g Release 1 unter Windows 2003 Server32-bit
Virtuelle Maschine auf einem VMWare ESX ServerAMD Opteron (2,5 GHz) mit 2 Kernen, 4 GB Arbeitsspeicher
Betriebssystem: OpenSUSE 11.1 64-bit
Datenbank: Oracle 11g Release 2 Enterprise Edition
ETL: Oracle Warehouse Builder 11gR2
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 5/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Aufbau des DWH
Die Struktur der Referenzumgebung
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 6/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Aufbau des DWH
Beispielhaftes Mapping im Oracle Warehouse Builder
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 7/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Von Oracle 11gR1 auf 11gR2
Update auf das neue Release
Erfahrungen beim Releasewechsel
11gR2 zunachst nicht fur Windows verfugbar, somit Wechselauf Linux notwendig
Einspielen des logischen Backups (Data Pump) ohne Probleme
Schwieriger war das Update beim OWB→ Mappings wurden teilweise als fehlerhaft erkannt→ Mappings von Flat Files mussten neu erstellt werden, auchSynchronisierung schlug fehl
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 8/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Von Oracle 11gR1 auf 11gR2
Update auf das neue Release
Neu eingerichtete Funktionalitaten
Um dauerhaften Betrieb zu gewahrleisten, war es notwendig furDatensicherheit zu sorgen.
Einrichtung eines wochtenlichen Offline Backups mit Backupund Recovery
Direktzugriff auf Oracle Support mit Oracle EnterpriseManager (erleichtertes Einspielen von Updates undMoglichkeit zur Erstellung von Bug Reports)
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 9/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Von Oracle 11gR1 auf 11gR2
Erfahrungen
Gewonnene Erkenntnisse
Oracle 11g ist ein umfangreiches DBMS → Einarbeitungnotwendig
viele Einstellungsmoglichkeiten und hohes Maß an Kontrollemoglich
spezielle Features erleichtern die Entwicklung eines DWH, z.B.Change Data Capture (CDC)
sehr gute Performance, Erstellen des CDWH dauert nurwenige Minuten
Oracle stellt diverse Tools bereit, Auswahl ist nicht einfach
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 10/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Ausblick und weitere Vorhaben
Wie geht es weiter?
Ideen
MicroStrategy BI Plattform fur Reporting und OLAP
Moglichkeiten zum Einsatz fur Mobile BI vorhanden
Untersuchung von Analytic Workspaces: Performancevorteilebei OLAP oder Data Mining?
Entwicklung eines Wahlfachs, welches die Konzepte derOracle Datenbank und der BI Software vermittelt und einenVergleich zu Open Source Losungen bietet
Verwendung der Referenzumgebung, um Inhalte derVorlesungen ”Data Warehousing” (Bachelor) und”Informationsintegration” (Master) zu veranschaulichen
Oracle BPM Suite 10g Evaluation im Rahmen eines Seminarsim Masterstudium
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 11/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Inhalt
1 Einleitung
2 Oracle BI Referenzumgebung
3 Oracle Data Mining
4 Fragen
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 12/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Data Mining
Data Mining [1/2]
Abgrenzung zu Reporting und OLAP
Data Mining ist ein Prozess zur Analyse von großen Datenmengenmit automatischen und halbautomatischen Methoden, umaussagefahige Muster und Regeln zu finden.
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 13/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Data Mining
Data Mining [2/2]
Warum Data Mining?
Datenmenge zu groß fur klassische Datenanalyse
Hohe Anzahl von Tabellenspalten
Interessante Fragestellungen zur Unternehmensfuhrungkonnen nicht direkt abgeleitet werden
Prognosen fur die Zukunft ermoglichen
Nutzen von Data Mining
Neues Wissen aus vorhandenen Daten
Bessere Entscheidungsgrundlage
Fur Unternehmen −→ Wettbewerbsvorteile
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 14/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Data Mining
Prozess Modell fur Data Mining
CRISP-DM
CRoss Industry Standard Process for Data Mining
Vorgehens-Modell in mehreren Teilschritten
Figure: Abb. 1: CRISP-DM Prozess-Modell [http://www.crisp-dm.org/Process]Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 15/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Oracle Data Mining
Oracle Data Mining
Allgemeines
Data Mining seit der Version 9iR2 moglich(Enterprise Edition)
Data Mining mit In-Database Ansatz
In-Database Data Mining: in Anlehnung an Berger, C., Oracle White PaperOracle Data Mining 11g Release 2 - Competing on In-Database Analytics, 2010
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 16/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Oracle Data Mining
Oracle Data Mining
Oracle Data Miner
Data Miner seit Oracle 10gR1 verfugbar
Java GUI
Automatische Generierung von PL/SQL-Code
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 17/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Oracle Data Mining in der Hochschule Ulm
Beispielprojekt Data Mining Cup 2009
Aufgabenstellung Data Mining Cup 2009
Aufgabe aus dem Bereich des Buchgroßhandels
Daten der Libri GmbH
Trainings- und Vorhersagedaten
Ziel
Moglichst genaue Voraussage zu den Abverkaufszahlen von achtBuchtiteln in 2418 verschiedenen Verkaufsstellen
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 18/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Erfahrungsbericht
Daten Import
Oracle Data Miner
SQL Loader der Datenbank wird verwendet
Delimiter wahlbar
Datenvorschau
SQL Loader der Datenbank wird benutzt↪→ als Clientanwendung unpraktikabel
SQL Developer
Unterstutzt nur CSV-Dateien
Delimiter nicht einstellbar −→ Komma wird vorausgesetzt
Als Clientanwendung praktikabler
−→ Auch andere Tools verwenden
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 19/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Erfahrungsbericht
Daten Import - Tabellenlimit
Problem
Tabellenlimit von max. 1000 Spalten
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 20/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Erfahrungsbericht
Multi Record Data Format
1
−→ Multi Record Data Format Ansatz durch Oracle Dokumentation beschrieben
−→ Transformation von Single Record zum Multi Record fehlt in der Dokumentation!
1siehe http://download.oracle.com/docs/html/B10698_01/2data.htm#1005685
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 21/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Erfahrungsbericht
Weitere Schritte im CRISP-DM
Unterstutzung durch Oracle Data Miner in den Phasen DataUnderstanding und Data Preparation
Data Understanding
Statistische Werte (Min, Max, Average, Variance,...)
Histogramm
Data Preparation
Behandlung von fehlenden Werten
Ausreißerbehandlung
Normalisierung
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 22/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Erfahrungsbericht
Weitere Schritte im CRISP-DM - Modeling
Unterstutzung des Multi Record Data Format im Oracle DataMiner
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 23/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Erfahrungsbericht
Weitere Schritte im CRISP-DM - Fehler in GLM
Fehler bei der Modellierung mit der Data Mining MethodeGLM (Generalized Linear Model Regression)
Fehler datenunabhangig
Fehler an Oracle Support gemeldet
Losung des Fehlers nach mehreren Iterationen
Ergebnis nach Releasewechsel zu 11g R2
Vorhersage des Buchtitels T1 fur 1000 Buchladen
Absolute Abweichung vom Soll = 25
Statistisch nicht aussagekraftig!
Bietet aber eine gute Ausgangsbasis zur weiteren Bearbeitung
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 24/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Erfahrungsbericht
Erfahrungen
Gewonnene Erkentnisse
Eine direkte Anbindung an Oracle BI-Tools ist durch denIn-Database Ansatz moglich.
Bei Daten mit mehr als 1000 Attributen bietet Oracle dasMulti Record Data Format an, jedoch wird eineTransformation in dieses Tabellenformat nicht unterstutzt.
Die Behebung von Fehlern ist durch die Hilfe des personlichenSupports moglich.
Die Losung eines Fehlers kann auch mit Hilfe des Supportseinige Zeit in Anspruch nehmen.
Der Oracle Data Miner bietet nur eingeschrankteDaten-Visualisierungsmoglichkeiten.
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 25/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Erfahrungsbericht
Wie geht es weiter?
Data Mining Cup 2010
Umsatzmaximierung durch intelligentes Couponing
Anhand der vorhandenen Merkmale der Erstbestellung einesKunden wie z.B. Bestellmenge pro Warengruppe ist eineEntscheidung zu treffen ob dem Kunden ein Gutschein inHohe von 5,00 Euro zugesandt werden soll
Es sollen jene Kunden einen Gutschein erhalten, welche sichnicht von selbst fur eine erneute Bestellung entschiedenhatten.
Herausforderung
−→ Losen des Klassifikationsproblem mit Oracle Data Miningdurch Projektteam im Masterstudiengang Informationssysteme
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 26/27
Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen
Fragen
Fragen
Vielen Dank fur Ihre Aufmerksamkeit
Haben Sie noch Fragen?
Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 27/27