data warehouse

15
Data Warehouse I. Περιεχόμενα 1. Περιεχόμενα Σελ. 1 2. Τι είναι οι Αποθήκες Δεδομένων; Σελ. 3 3. Διαφορές μεταξύ Αποθήκης Δεδομένων Σελ. 4 και άλλων Βάσεων Δεδομένων 4. Τι κάνουν οι Αποθήκες Δεδομένων; Σελ. 5 5. Ποια είναι τα τμήματα μιας Αποθήκης Σελ. 6 6. Δεδομένων; 7. Πως σχεδιάζουμε μια Αποθήκη Δεδομένων Σελ. 7 8. Πως πάνε τα δεδομένα στην Αποθήκη Σελ. 8 Δεδομένων 9. Πως χρησιμοποιούμε μια Αποθήκη Σελ. 9 Δεδομένων 10. Πως συντηρούμε μια Αποθήκη Δεδομένων Σελ. 11 11. Πηγές – Βιβλιογραφία Σελ. 12 Νησιώτη Κλεονίκη Σελίδα 1

Upload: dpa2007

Post on 26-Oct-2014

27 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Data Warehouse

Data Warehouse

I. Περιεχόμενα

1. Περιεχόμενα Σελ. 1

2. Τι είναι οι Αποθήκες Δεδομένων; Σελ. 3

3. Διαφορές μεταξύ Αποθήκης Δεδομένων Σελ. 4

και άλλων Βάσεων Δεδομένων

4. Τι κάνουν οι Αποθήκες Δεδομένων; Σελ. 5

5. Ποια είναι τα τμήματα μιας Αποθήκης Σελ. 6

6. Δεδομένων;

7. Πως σχεδιάζουμε μια Αποθήκη Δεδομένων Σελ. 7

8. Πως πάνε τα δεδομένα στην Αποθήκη Σελ. 8

Δεδομένων

9. Πως χρησιμοποιούμε μια Αποθήκη Σελ. 9

Δεδομένων

10.Πως συντηρούμε μια Αποθήκη Δεδομένων Σελ. 11

11. Πηγές – Βιβλιογραφία Σελ. 12

Νησιώτη Κλεονίκη Σελίδα 1

Page 2: Data Warehouse

Data Warehouse

Πριν μερικά χρόνια οι ανάγκες σε όλους τους τομείς, κυρίως στους επιχειρηματικούς θα λέγαμε, περιορίζονταν στην οργάνωση και επεξεργασία της πληροφορίας με αρκετά θα λέγαμε απλές δομές, γεγονός που είχε ως αποτέλεσμα τη συσσώρευση ενός μεγάλου όγκου από πληροφορίες, ο οποίος με το πέρασμα του χρόνου αυξήθηκε. Πρόσφατα, κυρίως, οι οργανισμοί δίνουν όλο και μεγαλύτερη έμφαση σε εφαρμογές όπου τρέχοντα και παλαιότερα (ιστορικά) δεδομένα αναλύονται και εξετάζονται προσεκτικά για την εξαγωγή συμπερασμάτων που αφορούν κάποιες χρήσιμες τάσεις, καθώς και για την δημιουργία «ομάδων» δεδομένων, με αποτέλεσμα την υποστήριξη λήψης αποφάσεων υψηλού επιπέδου (υποστήριξη αποφάσεων). Περίπλοκα αιτήματα υποστήριξης αποφάσεων τα οποία βλέπουν δεδομένα σε πολλές τοποθεσίες γίνονται ολοένα και πιο σημαντικά. Ένας τρόπος υποστήριξης τέτοιων αιτημάτων είναι να δημιουργηθεί ένα αντίγραφο όλων των δεδομένων σε κάποια τοποθεσία και να χρησιμοποιηθεί αυτό το αντίγραφο αντί της μετάβασης σε καθεμιά πηγή δεδομένων ξεχωριστά. Μια τέτοια συλλογή αντιγραμμένων δεδομένων ονομάζεται Αποθήκη ή Αρχιτεκτόνημα Δεδομένων (Data Warehouse - DW).

Ο τεράστιος όγκος πληροφοριών κρύβει μέσα του "γνώση" η οποία είναι ανεξερεύνητη. Συσχετίσεις μεταξύ δεδομένων, αλληλουχίες γεγονότων, προβλέψεις για στόχους και πολλά άλλα είναι θαμμένα μέσα στα δεδομένα και περιμένουν με κάποιον τρόπο να έρθουν στην επιφάνεια. Η γνώση αυτή είναι κρυμμένη γιατί τα δεδομένα εξαρχής είναι οργανωμένα σε δομές οι οποίες εξυπηρετούν συγκεκριμένους σκοπούς.

Νησιώτη Κλεονίκη Σελίδα 2

Page 3: Data Warehouse

Data Warehouse

II. Τι είναι οι Αποθήκες Δεδομένων;

Ένας από τους πιο ολοκληρωμένους ορισμούς που υπάρχουν για τα Data Warehouses είναι η εξής: Αποθήκη δεδομένων ονομάζεται η βάση δεδομένων που σχεδιάστηκε για ανάλυση και επεξεργασία δεδομένων. Τα δεδομένα αποσπούνται από διάφορα, κυρίως επιχειρησιακά, συστήματα σε μια μονό ολοκληρωμένο κεφάλαιο πληροφοριών. Το Data Warehouse είναι μια αποθήκη από ολοκληρωμένες πληροφορίες οι οποίες είναι διαθέσιμες για querying (ερωτήσεις) και Analysis (ανάλυση). Καθώς οι σχετικές πληροφορίες γίνονται διαθέσιμες ή τροποποιούνται, η πληροφορία εξάγεται από την πηγή και μετατρέπεται σε κάποιο γνωστό μοντέλο π.χ. σχεσιακό μοντέλο και ολοκληρώνεται με την ενσωμάτωση των ήδη υπάρχον δεδομένων και την αποθήκευση. Είναι θα λέγαμε ένα χαρακτηριστικό παράδειγμα ασύγχρονης ομοιοποίησης, όπου τα αντίγραφα ενημερώνονται σχετικά σποραδικά. Η κεντρική ιδέα πίσω από την προσέγγιση Data warehousing είναι να εξάγει, να φιλτράρει και να ολοκληρώνει τη σχετική πληροφορία in advance of queries (σε σχέση με ερωτήματα). Γενικά μπορούμε να πούμε ότι μια Αποθήκη Δεδομένων είναι μια  μεγάλη Βάση Δεδομένων με κάποιες συγκεκριμένες λειτουργίες, όπου ο χρήστης έχει πρόσβαση μόνο για ανάγνωση (read-only access).

Νησιώτη Κλεονίκη Σελίδα 3

Page 4: Data Warehouse

Data Warehouse

III.Διαφορές μεταξύ Αποθήκης Δεδομένων και άλλων Βάσεων Δεδομένων

Οι Αποθήκες Δεδομένων περιέχουν δεδομένα συγκεντρωμένα από πολλές πηγές, που συμπληρώνονται με συνοπτική πληροφορία και καλύπτουν μεγάλες χρονικές περιόδους. Όπως αναφέραμε και παραπάνω, οι Αποθήκες Δεδομένων είναι και αυτές Βάσεις Δεδομένων. Είναι όμως πολύ μεγαλύτερες από άλλου είδους Βάσεις Δεδομένων. Τα μεγέθη τους συνήθως κυμαίνονται από μερικά gigabytes έως terabytes. Τα συνήθη φορτία εργασιών περιλαμβάνουν απρόβλεπτα, αρκετά σύνθετα αιτήματα ενώ είναι σημαντικοί οι άμεσοι χρόνοι απόκρισης. Αυτά τα χαρακτηριστικά είναι που κάνουν την διαφορά των εφαρμογών αποθηκών δεδομένων από τις εφαρμογές απευθείας επεξεργασίας συναλλαγών και πρέπει για την επιτευχθούν αποτελέσματα ικανοποιητικά να χρησιμοποιηθεί διαφορετικός σχεδιασμός του DBMS καθώς και διαφορετικές τεχνικές υλοποίησης. Για πολύ μεγάλες Αποθήκες Δεδομένων απαιτείται ένα κατανεμημένο DBMS με καλή κλιμάκωση και υψηλή διαθεσιμότητα.

Νησιώτη Κλεονίκη Σελίδα 4

Page 5: Data Warehouse

Data Warehouse

IV. Τι κάνουν οι Αποθήκες Δεδομένων;

Οι βασικές λειτουργίες-ιδιότητες μιας Αποθήκης Δεδομένων είναι:Χρησιμοποιείται συχνά  ως βάση σε Συστήματα Στήριξης Αποφάσεων (DSS)Χρησιμοποιείται για συλλογή πληροφοριών.

Από μια Αποθήκη Δεδομένων δεν διαγράφουμε ποτέ τίποτα, αυτό έχει ως αποτέλεσμα να συγκεντρώνεται ένας μεγάλος όγκος πληροφοριών που αποτελούν ιστορικά στοιχεία του οργανισμού - επιχείρησης που κατέχει την Αποθήκη Δεδομένων.

Συνδυάζει όλες τις πληροφορίες που κατέχει από διάφορες πηγές (OLTP, Spreadsheets, web, κείμενα κ.λπ.) τα ελέγχει για ακρίβεια και τα οργανώνει έτσι ώστε οι χρήστες να ανακαλύπτουν εύκολα αυτό που επιθυμούν.Συχνά οι Αποθήκες Δεδομένων τμηματοποιούνται σε άλλες μικρότερες εξειδικευμένες Αποθήκες Δεδομένων τις λεγόμενες Data Marts.

Αυτές είναι συχνά προτιμότερες καθώς έχουν μικρότερο κόστος υλοποίησης και χρειάζονται μικρότερο χρονικό διάστημα για να τις κατασκευάσουμε.

Η αξία της Αποθήκης Δεδομένων είναι τελικά στην δυνατότητα ανάλυσης που παρέχει. Τα δεδομένα σε μια Αποθήκη Δεδομένων προσπελαύνονται και αναλύονται χρησιμοποιώντας διάφορα εργαλεία, συμπεριλαμβανομένων των μηχανών αιτημάτων OLAP, αλγορίθμων εξόρυξης δεδομένων, εργαλείων οπτικοποίησης πληροφορίας, στατιστικά πακέτα και γεννήτριες εκτυπώσεων.

Νησιώτη Κλεονίκη Σελίδα 5

Page 6: Data Warehouse

Data Warehouse

V. Ποια είναι τα τμήματα μιας Αποθήκης Δεδομένων;

Μια αποθήκη δεδομένων αποτελείται από διάφορα τμήματα:

Data Marts Σχεσιακές Βάσεις ΔεδομένωνΤμήμα Προετοιμασίας Δεδομένων (Data Preparation Area)Υπηρεσίες Παρουσίασης ΔεδομένωνΕφαρμογές Ανάλυσης για τους τελικούς χρήστες 

Παρακάτω αναλύουμε κάποια από αυτά:

ΣΧΕΣΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ (RELATIONAL DATABASES): Οι Σχεσιακές βάσεις δεδομένων χρησιμοποιούνται από το σύστημα μιας Αποθήκης Δεδομένων για να "καθαρίσουν" και να μετασχηματίσουν τις εισερχόμενες πληροφορίες . Οι Αποθήκες Δεδομένων διαχειρίζονται τεράστιες ποσότητες πληροφοριών , γι' αυτό και οι Σχεσιακές Βάσεις δεδομένων πρέπει να βοηθήσουν γίνεται γρήγορα η εισαγωγή, κατάταξη και ευρετηριοποίηση των δεδομένων.

ΥΠΗΡΕΣΙΕΣ ΠΑΡΟΥΣΙΑΣΗΣ ΔΕΔΟΜΕΝΩΝ (PRESENTATION SERVICES): Μια αποθήκη δεδομένων θα ήταν άχρηστη σε μια επιχείρηση χωρίς τα κατάλληλα εργαλεία που θα βοηθήσουν το χρήστη στη διαδικασία ανάλυσης και εκτίμησης των δεδομένων. Ορισμένα από τα εργαλεία είναι:

Απλές αναφορέςΓια παράδειγμα, αναφορές στο τέλος κάθε μήνα για το σύνολο των πωλήσεων

Εξειδικευμένες εφαρμογές Data MiningOLAP-MOLAP-ROLAPΚύβοι που περιέχουν πολυδιάστατους πίνακες.

Στην ουσία είναι πίνακες που συνδυάζουν δεδομένα από διάφορους πίνακες για την καλύτερη ανάλυση κάποιων αποτελεσμάτων. Για παράδειγμα, το τμήμα Πωλήσεων παρατηρεί πως υπήρξε αύξηση των πωλήσεων των παγωτών τον Δεκέμβριο. Ψάχνοντας μέσα στα δεδομένα του κύβου για το μήνα αυτό ανακαλύπτει πως υπήρχε μια ανεξήγητη (κατ' άλλα) άνοδος της θερμοκρασίας. 

Νησιώτη Κλεονίκη Σελίδα 6

Page 7: Data Warehouse

Data Warehouse

VI. Πως σχεδιάζουμε μια Αποθήκη Δεδομένων

Ο σχεδιασμός Αποθήκης Δεδομένων δεν είναι μια τελείως απλή διαδικασία. Υπάρχουν πολλές προκλήσεις. Πρέπει να σχεδιαστεί ένα καλό σχήμα βάσης δεδομένων που θα φιλοξενήσει μια ενοποιημένη συλλογή δεδομένων τα οποία έχουν αντιγραφεί από διάφορες πηγές. Πριν προχωρήσουμε στον σχεδιασμό και στην υλοποίηση μιας Αποθήκης Δεδομένων οφείλουμε να λάβουμε υπόψη του ορισμένα πράγματα:

Τα δεδομένα πρέπει να οργανωθούν με τέτοιο τρόπο ώστε να υπάρχει άμεση πρόσβαση στην πληροφορία που επιθυμεί ο χρήστης να αναλύσειΤα δεδομένα όταν εισέρχονται στην Αποθήκη Δεδομένων έχουν ήδη "καθαριστεί" και επαληθευτεί δεν χρειάζεται λοιπόν να δημιουργηθούν Verification Tables

Πρέπει να δημιουργηθούν πίνακες "γεγονότων" και πίνακες "διαστάσεων"  και να τεθούν ευρετήρια σε όλα τα πεδία που αποτελούν κλειδιά αυτών των πινάκων.

Για να δημιουργήσουμε μια Αποθήκη Δεδομένων θα πρέπει να σχεδιάσουμε πρώτα το σχεσιακό της μοντέλο. Ορισμένα και δύο από τα πιο δημοφιλή σχεσιακά μοντέλα που χρησιμοποιούμε είναι τα παρακάτω:

       --  Star Schema: Αποτελείται από έναν πίνακα γεγονότων και πολλούς πίνακες διαστάσεων

-- Snowflake Schema: Μπορούμε να πάρουμε από πολλούς πίνακες γεγονότων

   Σε μερικές πιο πολύπλοκες Αποθήκες Δεδομένων μπορεί να υπάρχουν πολλαπλοί απλοί πίνακες και έναν αριθμό πινάκων διαστάσεων, κάποιοι από τους οποίους είναι τμήματα πολλών απλών και άλλοι τμήμα ενός μόνο. Τι σημαίνει όμως αυτό;

Θα το κατανοήσουμε μέσω ενός παραδείγματος. Έστω ότι έχουμε δεδομένα τόσο για τις πωλήσεις προϊόντων όσο και για τα στοιχεία απογραφής τους. Από τη φύση τους τα δεδομένα αυτά είναι διαφορετικά , θα έπρεπε λοιπόν να είναι αποθηκευμένα σε διαφορετικούς πίνακες. Ωστόσο ορισμένοι πίνακες , όπως ο πίνακας διαστάσεων "Προϊόν" θα μπορούσε να περιέχει και τους δύο, ενώ κάποιοι άλλοι όπως ο πίνακας "Αποθήκη" να περιέχει μόνον τον έναν.

Νησιώτη Κλεονίκη Σελίδα 7

Page 8: Data Warehouse

Data Warehouse

VII. Πως πάνε τα δεδομένα στην Αποθήκη Δεδομένων

Τα δεδομένα εξάγονται από τις λειτουργικές βάσεις δεδομένων και τις εξωτερικές πηγές, «καθαρίζονται» ώστε να ελαχιστοποιηθούν τα σφάλματα και να συμπληρωθεί η πληροφορία που λείπει όπου αυτό είναι εφικτό και μετασχηματίζονται ώστε να διορθωθούν οι σημασιολογικές ασυνέπειες. Ο μετασχηματισμός των δεδομένων επιτυγχάνεται ορίζοντας μια σχεσιακή όψη βασισμένη σε πίνακες των πηγών των δεδομένων. Η φόρτωση των δεδομένων περιλαμβάνει την υλοποίηση τέτοιου είδους όψεων καθώς και την αποθήκευση αυτών στην Αποθήκη Δεδομένων. Εξαιτίας του μεγάλου όγκου δεδομένων η φόρτωση είναι αργή. Η σειριακή φόρτωση ενός terabyte δεδομένων μπορεί να διαρκέσει και εβδομάδες και η φόρτωση ενός gigabyte μπορεί να διαρκέσει ώρες. Επομένως, ο παραλληλισμός είναι απαραίτητος για την φόρτωση των Αποθηκών Δεδομένων. Αφού λοιπόν έχουν εισαχθεί τα δεδομένα πρέπει να γίνει επαλήθευση τους ανάμεσα στους πίνακες διαστάσεων και στους πίνακες γεγονότων (referential integrity) δηλ., όλες οι εγγραφές να σχετίζονται με τις κατάλληλες εγγραφές στους κατάλληλους πίνακες.

Επιπλέον θα πρέπει να επαληθευτεί πως κάθε εγγραφή των πινάκων γεγονότων σχετίζεται με μία εγγραφή στον κάθε πίνακα διαστάσεων που περιλαμβάνει ο κύβος. Για παράδειγμα, ΠροϊόνΠωλήσεις (fact Table) συσχετίζεται σε κάποιο κύβο με τις διαστάσεις Πελάτες, Προϊόν, πελάτες, καταστήματα. Το αντίστροφο δεν είναι ανάγκη να ισχύει.  

Νησιώτη Κλεονίκη Σελίδα 8

Page 9: Data Warehouse

Data Warehouse

VIII. Πως χρησιμοποιούμε μια Αποθήκη Δεδομένων

Η χρήση των Αποθηκών Δεδομένων είναι πλέον ένα καθημερινό γεγονόςγια τις σημερινές επιχειρήσεις ανά τον κόσμο. Συνεχώς εξελίσσονται νέοι τρόποι για το πως χρησιμοποιεί και αναλύσει κανείς τα δεδομένα μιας Αποθήκης Δεδομένων. Ακολουθούν μερικοί:

Sql queriesOlap and Data Mining

Ms Office

Συγκεκριμένα κυρίως Excel και Access

Offline Olap CubesWeb agents

Hypertext Analysis and Transformation

Information visualization

Data marts

Παρακάτω αναλύουμε κάποιους από αυτούς:

OLAP

Ονομάζεται η Απευθείας Αναλυτική Επεξεργασία (online analytical processing - OLAP). Είναι ένα από τα τρία βασικά εργαλεία ανάλυσης. Συγκεκριμένα, είναι εφαρμογές που υποστηρίζουν μια κατηγορία αιτημάτων τυποποιημένου στυλ που περιλαμβάνουν συνήθως τελεστές ομαδοποίησης και συνάθροισης και παρέχουν άριστη υποστήριξη για σύνθετες συνθήκες τύπου Boole, στατιστικές συναρτήσεις και χαρακτηριστικά για ανάλυση χρονικών δεδομένων.

WEB AGENTS

Είναι προγράμματα που εκτελούν κάποια ορισμένη διαδικασία που χρησιμοποιεί το web . Εκτελούνται ανεξάρτητα από κάποια χειροκίνητη παρέμβαση.

 Alexa- Internet surf engine Copernic - Meta-search utility

Νησιώτη Κλεονίκη Σελίδα 9

Page 10: Data Warehouse

Data Warehouse LiveAgent Pro- Agent script builder in Java

Smart Bookmarks - URL manager      

HYPERTEXT ANALYSIS AND TRANSFORMATION

Είναι εργαλεία που αναλύουν και μετασχηματίζουν δεδομένα που λαμβάνονται από ιστοσελίδες.

Alta Vista search  Integrity - Data cleaning and Transformation 

Cambio - Data extraction and Transformation 

Intelligent Miner for Text

INFORMATION VISUALIZATION   

Εργαλεία που βοηθάνε στο να βρεθούν συσχετίσεις μεταξύ δεδομένων και να ξαναοργανωθούν με τέτοιο τρόπο ώστε να μας βοηθήσουν στην εργασία μας. Τα εργαλεία αυτά απαιτούν τα δεδομένα να είναι δομημένα σε Star Schema ή κάτι ανάλογο.

Discovery for Developers SemioMap - Info-space Navigator

Visual Insights - Multidimensional data visualizer

VizControls - Toolkit of visualization techniques

Νησιώτη Κλεονίκη Σελίδα 10

Page 11: Data Warehouse

Data Warehouse

IX. Πως συντηρούμε μια Αποθήκη Δεδομένων

Βασικά σημεία της συντήρησης μιας Αποθήκης Δεδομένων είναι η ανανέωση των δεδομένων, την παρακολούθηση των δεδομένων καθώς και τα back-up της. Δηλαδή η αποθήκευση των παλαιότερων δεδομένων για ασφάλεια σε κάποιο άλλο σημείο. Παρακάτω θα αναφέρουμε παραπάνω πληροφορίες για τα θέματα αυτά.

Ανανέωση Δεδομένων

Μετά την φόρτωση των δεδομένων θα πρέπει να ληφθούν επιπλέον μέτρα έτσι ώστε τα δεδομένα να ανανεώνονται περιοδικά για να ανακλώνται οι μεταβολές που συμβαίνουν στις πηγές για να απομακρύνονται περιοδικά από την αποθήκη , συνήθως σε αρχειακά μέσα δεδομένα που είναι πολύ παλιά. Είναι μια διαδικασία σχεδόν εφάμιλλη αυτής της αρχικής εισαγωγής των δεδομένων στη βάση, μόνο που είναι λιγότερο πολύπλοκη. Συνήθως γίνεται μια φορά το μήνα, βδομάδα ή μέρα ανάλογα με τον όγκο των πληροφοριών. Ανανεώνοντας τα δεδομένα δεν σημαίνει όμως πως αυτόματα ανανεώνονται και οι OLAP cubes (αυτό γίνεται μόνο όταν ξαναεπεξεργαστούν (reprocessed)).  

Παρακολούθηση Δεδομένων

Είναι μια σημαντική ενέργεια στη συντήρηση Αποθηκών Δεδομένων η παρακολούθηση των δεδομένων ανά πάσα στιγμή σε αυτή. Αυτή η καταγραφή στοιχείων πραγματοποιείται αποθηκεύοντας πληροφορία για τα δεδομένα της Αποθήκης Δεδομένων στους καταλόγους του συστήματος.

Back-up

Το κάθε πότε θα παίρνονται back-ups της Αποθήκης Δεδομένων εξαρτάται από την στρατηγική που ακολουθεί ο κάθε Administrator της βάσης.Ωστόσο θα πρέπει να ληφθεί υπόψη ότι μια Αποθήκη Δεδομένων περιλαμβάνει πολλά ιστορικά στοιχεία επομένως δεν είναι αναγκαίο να λαμβάνονται συνεχώς Full back ups .  

Νησιώτη Κλεονίκη Σελίδα 11

Page 12: Data Warehouse

Data Warehouse

X. Πηγές – Βιβλιογραφία

1) «Συστήματα Διαχείρισης Βάσεων Δεδομένων» Τόμος Β’ των

Raghu Ramakrishnan, Johannes Gehrke,

μετάφραση: Δημήτριος Αχιλ. Δέρβος,

Γεώργιος Ευαγγελίδης , εκδόσεις

«Τζιόλα», 2η Έκδοση

2) www.liaison.gr/public/solutions/

data_warehouses/ warehouses_el.htm

3) www.cs.uoi.gr/~pvassil/courses/

diplomatikes/2003_2004/dw.html

4) www.astrolavos.tuc.gr/contents/glossaryDSSgr.htm

5) www.go-online.gr/ebusiness/specials/ article.html

6) is.memphis.edu/teams/dataassurance /projects/dw

7) www.upenn.edu/computing/group/sug/presentation/nov00/sld005.htm

Νησιώτη Κλεονίκη Σελίδα 12