curs - gvmd 1
DESCRIPTION
cursTRANSCRIPT
18.11.2015
1
GESTIUNEA VOLUMELOR GESTIUNEA VOLUMELOR MARI DE DATEMARI DE DATE
ACADEMIA DE STUDII ECONOMICE BUCUREŞTIFACULTATEA DE CIBERNETICĂ, STATISTICĂ ŞI INFORMATICĂ ECONOMICĂ
Programul de masterat profesionalBAZE DE DATE – SUPORT PENTRU AFACERI
BUCUREŞTI2015-2016
Obiectivul general al disciplinei
Însuşirea de către studenţi a unor noţiunifundamentale privind gestiunea volumelormari de date, cu accent pe depozitele dedate, proiectarea, implementarea şiutilizarea acestora în contextul soluţiilor deInteligenţa Afacerii.
2
Cadre didactice
Lect.univ.dr. Iuliana Botha – [email protected]
Lect.univ.dr. Vlad Diaconiţa – [email protected]
Lect.univ.dr. Alexandra Florea – [email protected]
3
Desfăşurarea modulului GVMDMarţi, 17.11.2015 - Lect.univ.dr. Iuliana BOTHA, sala 2101 (1800-2100)
Aspecte fundamentale privind depozitele de date şi realizarea acestora
Aspecte fundamentale privind conceptul Big Data
Miercuri, 18.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2101 (1800-2100)
Workshop: Data warehouse tuning
Joi, 19.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2101 (1800-2100)
Workshop: Data warehouse tuning
Vineri, 20.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2017 (1800-2100)
Workshop: Data warehouse tuning
Luni, 23.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2017 (1800-2100)
Studiu de caz: Big Data. Depozite de date. Implementări practice.
Marţi, 24.11.2015 - Seminar GVMD – G1: Lect.univ.dr. Alexandra FLOREA, sala 2017 (1800-2100)
Miercuri, 25.11.2015 - Seminar GVMD – G2: Lect.univ.dr. Vlad DIACONIŢA, sala 2017 (1800-2100)
Joi, 26.11.2015 - Seminar GVMD – G1: Lect.univ.dr. Alexandra FLOREA, sala 2017 (1800-2100)
Vineri, 27.11.2015 - Seminar GVMD – G2: Lect.univ.dr. Vlad DIACONIŢA, sala 2017 (1800-2100)
Sâmbătă, 05.12.2015 - EXAMEN, sala 2203 (1030-1200)
18.11.2015
2
Modalitate evaluare
Examen final – 70%
Subiecte tip grilă
Seminar – 30%
Activitate desfăşurată la seminar
SAU
Articol ştiinţific
Reexaminare: se susţine examenul (100%).
Notă: Se poate veni direct la examen, fără a avea activitate la seminar sau articol predat (nota finalăva fi max.7)
5
Modalitate evaluare
Articolul ştiinţific
Se poate realiza în grup de cel mult 4 studenţi
Va aborda problematica volumelor mari de date
Va trata în cel puţin 10 pagini:
aspecte teoretice prezentate sintetic, comparaţii
prezentări de produse informatice, cu exemplificări
Va conţine referinţe la materiale de specialitate (cărţi, articole, resurse Web)
Se redactează în limba engleză conform cerinţelor de la:http://dbjournal.ro/guide.html
În urma evaluării, poate fi publicat în revista Database Systems Journalhttp://dbjournal.ro
6
Bibliografie
I.Lungu (coord.), A.Bâra. C.Bodea, I.Botha,V.Diaconiţa, A.Florea, A.Velicanu - Tratat de baze dedate. Vol I. Baze de date. Organizare, proiectare şiimplementare, editura ASE, Bucureşti, 2011, România
M.Velicanu, I.Lungu, I.Botha, A.Bâra, A.Velicanu,E.Rednic – Sisteme de baze de date evoluate, edituraASE, Bucureşti, 2009, România
Resurse Web...
7
GESTIUNEA VOLUMELOR MARI DE DATE
Depozite de date
Realizarea depozitelor de date
Big Data
Baze de date NoSQL
18.11.2015
3
Aspecte fundamentale privind depozitele de date
GESTIUNEA VOLUMELOR MARI DE DATE
Evoluţia organizării datelor
10
Fişiere de date
Baze de date
Depozite de date
Baze de date
NoSQL
Evoluţia organizării datelor
Depozitele de date reprezintă rezultatul interferenţei mediuluieconomic şi al tehnologiilor informatice avansate.
Realizarea depozitelor de date trebuie privită în contextulrealizării sistemelor destinate Inteligenţei Afacerii, carenecesită abordări specifice ale ciclului de dezvoltare care săse concentreze pe cerinţele de afaceri ale organizaţiei.
Aceste sisteme sunt orientate mai mult spre oportunităţile deafaceri decât spre cerinţele sau nevoile curente şi trebuie săofere suport decizional la nivel departamental sau chiar lanivelul întregii organizaţii în funcţie de scopul pentru care aufost proiectate.
11
Evoluţia organizării datelor
12
control operaţional vs. asistarea deciziilor strategice
OLTP (On-Line Transaction Processing) vs. OLAP (On-Line Analytical Processing)
tranzacţii vs. interogări
redundanţă controlată vs. redundanţă impusă
date curente vs. date istorice
detaliu vs. agregare
relaţional vs. multidimensional
18.11.2015
4
Modelul de date multidimensional
Este caracterizat prin elementele sale:
Structura modelului multidimensional
Operaţiile realizate asupra datelor
Restricţiile de integritate
13
Structura modelului multidimensional
Conţine:
tabelele de fapte cu atribute de tip măsuri sau metrici
tabelele de tip dimensiune în care regăsim niveluriierarhice, atribute de identificare şi atribute dedescriere
metadate
14
• structuri compuse formate din atribute structurate pe diverse niveluri ierarhice în funcţie de care sunt grupate datele
• conţin atribute care sunt de obicei descriptive şi sunt folosite ca sursă pentru limitareaînregistrărilor afişate în cadrul rapoartelor analitice
Dimensiuni
• structuri logice utilizate pentru ordonarea nivelurilor de reprezentare a datelor• sunt utilizate şi pentru definirea căilor de navigare în interiorul dimensiunilor şi oferă
instrumentelor de analiză OLAP posibilitatea de detaliere graduală a datelor în rapoarteIerarhii
• poziţii în cadrul ierarhiilor• relaţiile între diferite niveluri sunt relaţii de tipul părinte-copil• nivelurile unei ierarhii sunt esenţiale pentru determinarea tipurilor de navigări care se pot
realiza în dimensiuni
Niveluri
• dimensiunile conţin atribute care reprezintă calificative specifice• există două tipuri de atribute: de identificare a dimensiunii şi a fiecărui nivel în parte şi
atribute descriptiveAtribute
• tabelele centrale care conţin atribute de tip măsuri (metrici) şi chei externe către tabeleledimensiuni
• conţin de obicei date numerice care pot fi însumate şi analizate pe fiecare nivel din ierarhiiledimensiunilor
Tabele de fapte
• corespund atributelor din tabelele de fapte şi sunt de regulă de natură numerică• se pot clasifica după mai multe criterii: modalitatea de calcul, tipurile de funcţii agregate
utilizate, modalităţile de însumare şi agregare în funcţie de dimensiuni.
Măsuri (metrici)
• cea mai importantă componentă a depozitului de date• conţin descrierea structurii de date, informaţii despre provenienţa datelor, algoritmii de agregare,
mapările de la mediul operaţional la depozitul de date, statistici privind utilizarea depozitului etc.• se pot clasifica astfel: metadate administrative, pentru utilizatorii finali, pentru optimizare
Metadate
Operaţii realizate asupra modelului multidimensional
Navigarea pe nivelurile ierarhice (drill down şi roll up)
Rotaţiile
Secţiuni
Extensii ale operatorilor relaţionali (operatorii CUBE şiROLLUP)
16
18.11.2015
5
Restricţii de integritate
restricţiile de integritate structurale: restricţia de unicitate acheii şi restricţia entităţii aplicate în cazul atributelor deidentificare ale tabelelor de fapte şi ale dimensiunilor,restricţia referenţială aplicată pentru stabilirea legăturii dintretabelele de fapte şi dimensiuni şi dependenţele între datepentru determinarea legăturii existente între anumite atributesau metrici
restricţiile de integritate de comportament: restricţii dedomeniu şi restricţii temporale aplicate pentru valorileatributelor şi a metricilor
restricţia de asociere a nivelurilor prin care se defineşterealizarea legăturilor unui nivel inferior cu nivelul superior încadrul unei ierarhii şi se specifică formula de agregare.
17
Modele de reprezentare a obiectelor depozitelor de date
Există două variante de reprezentare a obiectelordepozitelor de date:
Prin utilizarea extensiilor modelului relaţional (model propus deRalph Kimball)
Prin structurarea obiectelor unui depozit sub forma elementelorunui cub de date
Ambele variante reprezintă obiectele modeluluimultidimensional sub formă de schemă a depozitului dedate, conţinând colecţii de tabele de fapte, dimensiunietc.
Există mai multe tipuri de scheme utilizate în modelareamultidimensională, diferenţa fiind dată de modurile încare se pot aranja obiectele în cadrul acestora 18
Extensii ale modelului relaţional Schema stea
Schema de tip stea are următoarele caracteristici:
între tabela de fapte şi dimensiuni există joncţiuni de egalitate;
cheile primare ale dimensiunilor se regăsesc printre atributelecheii compuse a tabelei de fapte;
atributele tabelei de fapte care nu participă la joncţiune pot fiagregate.
Principalul avantaj al acestui model este optimizareaperformanţei de răspuns la interogări
19
Extensii ale modelului relaţional Schema stea
20
18.11.2015
6
Extensii ale modelului relaţional Schema stea
21
Ierarhie în cadrul unei tabele dimensiune
Extensii ale modelului relaţional Schema fulg de nea
Variantă a modelului stea în care o parte din tabeleledimensiune sunt normalizate, iar datele sunt distribuite întabele suplimentare
Diferenţa între modelul stea şi modelul fulg de nea estecă tabelele dimensiune din acesta pot fi păstrate înforma normalizată, ceea ce determină o redundanţăcontrolată
Poate reduce performanţa extragerii de date deoarecesunt necesare mai multe joncţiuni între tabele la osingură interogare
22
Extensii ale modelului relaţional Schema fulg de nea
23
Extensii ale modelului relaţional Schema galaxie
Asociere de scheme de tip stea, care conţine tabele defapte suplimentare
Legătura dintre stele se realizează prin intermediuldimensiunilor, astfel încât o dimensiune va face parte dinuna sau mai multe stele
24
18.11.2015
7
Extensii ale modelului relaţional Schema galaxie
25
Modele bazate pe cuburi multidimensionale
Un mod mai simplu de vizualizare a datelor estereprezentarea într-un spaţiu cartezian definit pe toatedimensiunile depozitului de date
Acesta poate fi numit cub de date, fiind un spaţiu de datelogic şi nu unul fizic
În analiza multidimensională cubul de date cu mai multde trei dimensiuni poartă denumirea de cub n-dimensional sau hipercub
26
Modele bazate pe cuburi multidimensionale
27
PRODUS
TIMP
LOCATIE
locaţie
prod
us
T1 T2 T3
furnizor F1 furnizor F2 furnizor F3
timp
Definirea depozitelor de date
Depozitul de date (sens larg) - o bază de date de foarte maridimensiuni care este întreţinută separat de bazele de dateoperaţionale ale unei organizaţii şi care este construită dindate provenite din sisteme sursă prin extragere, filtrare,transformare şi stocare în depozite speciale, în scopulsprijinirii proceselor decizionale.
Depozitele de date sprijină prelucrarea informaţiilor pentruanaliză, furnizând o platformă solidă de consolidare a dateloristorice. Un depozit de date este un ansamblu de dateconsistente, din punct de vedere semantic, care serveşte la oimplementare fizică a unui model de date pentru sprijinireadeciziei şi stochează informaţii pe care o organizaţie le solicităîn luarea deciziilor strategice.
28
18.11.2015
8
Definirea depozitelor de date
Depozitul de date (sens William Harvey Inmon:“părintele” noţiunii de data warehouse) - un ansamblude colecţii de date orientat pe subiecte, integrate, istoriceşi nevolatile destinată sprijinirii procesului de luare adeciziilor manageriale
29
Aplicaţii ale depozitelor de date
Domeniul telecomunicaţiilor
analiza folosirii reţelei
determinarea profilurilor clienţilor
profitabilitatea serviciilor oferite
Domeniul bancar
managementul riscului
analiza profitabilităţii
determinarea profilurilor clienţilor
Domeniul comerţului cu amănuntul
analiza trendului vânzărilor
campaniile de marketing
determinarea profilurilor consumatorilor
etc. 30
Scopul organizării datelor în depozite de date
Scopul principal al realizării depozitelor de date se referă
la suportul pentru analize complexe şi dinamice asupra
datelor istorice şi curente ale organizaţiei.
31
Obiectivele depozitelor de date
Asigurarea accesului cât mai rapid la datele organizaţiei
Utilizarea datelor din depozite direct în analize, fără alteprelucrări suplimentare
Stocarea de date istorice
Orientarea depozitului pe subiectele importante aleprocesului economic (clienţi, furnizori, produse, activităţi)faţă de datele operaţionale (BD sau fişiere) care suntorientate pe aplicaţii
32
18.11.2015
9
Caracteristici ale depozitelor de date
Datele dintr-un depozit de date trebuie să fie consistente
Calitatea datelor din depozitele de date trebuie verificată şiasigurată, fiind un factor determinant pentru procesul de analiză
Redundanţa este creată în mod intenţionat prin denormalizare şiagregare pentru a permite un acces mai rapid la date
Sursele de date pentru depozitul de date provin în principal dindatele importate din sistemul informatic operaţional, dar mai potproveni şi din datele de arhivă, precum şi din surse externe
Integrarea datelor reprezintă atât o consecinţă importantă a realizăriidepozitului de date, cât şi raţiunea pentru care acesta este creat
Actualizarea este foarte rară, deci dinamica lipseşte
Din punctul de vedere al aplicaţiilor care folosesc depozitul de date,accesul la date este doar pentru citire
Mecanismele de integritate sunt inutile33
Arhitectura depozitelor de date
Elementele care alcătuiesc un depozit de date pot fiinterconectate în mai multe tipuri de arhitecturi în funcţiede rolul, funcţionalitatea şi de viziunea utilizatorilorasupra acestora
Astfel se pot distinge următoarele tipuri de arhitecturi:
arhitectura pe componente
arhitectura pe niveluri
arhitectura funcţională a depozitelor de date
34
Arhitectura depozitelor de dateArhitectura pe componente
Arhitectura pe componente evidenţiază componentele DD şi legăturiledintre ele: depozitul de date, sursa de date, interfeţele de analiză
35
Arhitectura depozitelor de dateArhitectura pe componente
Există trei etape în procesul de realizare a unui depozitde date:
extragere – etapa în care datele sunt extrase din sursele de date
transformare – etapa în care datele sursă sunt transformate într-un format adecvat
încărcare – etapa în care datele sunt încărcate în depozitul dedate
36
18.11.2015
10
Acţiuni în procesul de realizare a unui depozit de date:
extragerea datelor din datele operaţionale sau din surse externe,urmat de copierea lor în depozitul de date. Acest proces trebuie,cel mai adesea, să transforme datele în structura şi formatulintern al depozitului;
filtrarea datelor, pentru a exista certitudinea că datele suntcorecte şi pot fi utilizate pentru luarea deciziilor;
încărcarea datelor corecte în depozitul de date;
agregarea datelor: totaluri precalculate, subtotaluri, valori medii,sume etc., care se preconizează că vor fi cerute şi folosite deutilizatori. Aceste agregări sunt stocate în depozitul de dateîmpreună cu datele importate din sursele interne şi externe.
37
Arhitectura depozitelor de dateArhitectura pe componente
Procesul ETL (Extract-Transform-Load)
38
Procesul ELT (Extract-Load-Transform)
39
Arhitectura depozitelor de dateArhitectura pe niveluri
Arhitectura pe niveluri evidenţiază modul de implementare a DD într-unmediu de reţea de calculatoare, pe trei straturi: inferior, mediu, superior
40
Depozite de date
Server de Date Strat inferior
Surse de date operaţionale
transformare
Servere specializate (OLAP, DATA MINING)
Strat mediu
extragere
Strat superior Rapoarte, analize, interogări
18.11.2015
11
Arhitectura depozitelor de dateArhitectura funcţională
Arhitectura funcţională împarte DD în trei module distincte: modululoperaţional, modulul central al depozitului de date şi modulul strategic deafaceri
41
Extragerea şi procesarea datelor pentru analiză Utilitare pentru accesul la date
Data Marts Replicare şi distribuire
Depozitul de date central
Extragere, Transformare şi Încărcare (ETI) Date operaţionale: secvenţiale, nerelaţionale, relaţionale, fişiere,
surse externe
Modulul Strategic
Modulul Central
Modulul Operaţional
Sisteme operaţionale, sisteme informatice integrate
Sisteme IA
Tipuri de depozite de date
Tipuri de depozite de date în funcţie de aria de cuprindere
depozite la nivelul organizaţiei (Enterprise Warehouse)
concentrări de date (Data Marts)
depozite virtuale de date (Virtual Data warehouse).
Tipuri de depozite de date în funcţie de suportul decizional oferit
Depozitul de date de tip organizaţional sau „galactic” (Galactic Data Warehouse)
Depozitul de date orientat pe procese de afacere (Business Process DataWarehouse)
Depozitul de date departamental (Departamental Data Warehouse)
Concentrări de date de tip proces de afaceri (Business Process Data Mart)
Concentrări de date departamentale (Departamental Data Mart)
Tipuri de depozite de date în funcţie de modelul de dateimplementat
Depozitele de date relaţionale
Depozitele de date multidimensionale
Depozitele de date hibride 42
Aspecte comparative privind organizarea datelor în baze de date şi în depozite de date
43
Criteriu Modelul relaţional Modelul multidimensional
Organizarea datelor Tabela Dimensiuni, tabele de fapte, cub de date
Procesele Operaţionale Informaţionale
Execuţie Tranzacţii Analize
Utilizatori Toate categoriile Manageri, analişti de date
Operaţia tipică Actualizare Raportare şi analiză
Frecvenţa operaţiilor Zilnice Asistarea deciziei
Caracterul datelor Curente Istorice
Nivelul de sinteză Primitive, detaliere Sintetizare, consolidare
Acces Citire, scriere Citire
Focalizare Culegere date Furnizare informaţii
Sursa de date este Validată Filtrată, transformată
Volum de date Redus, de ordinul GB Mare, de ordinul TB
Priorităţi Performanţe, disponibilitate Flexibilitate, autonomie
Software necesar SGBD Specializat, SGBD
Criterii de evaluare a depozitelor de date
performanţă – depinde de dimensiunile depozitului de date şi vizeazărealizarea de analize complexe într-un timp cât mai scurt;
scalabilitate şi mentenanţă – depozitele trebuie să poată firedimensionate în funcţie de structura şi de mediul de afaceri fără apierde însă din performanţă;
integrarea datelor – sursele de date ale depozitului de date trebuie săfie multiple şi variate, bazate atât pe date interne rezultate dinprocesul operaţional cât şi pe date externe organizaţiei, referitoare laevoluţia pieţei, legislaţie, concurenţă, relaţii cu alte organizaţii;
suport pentru sistemele de Inteligenţa Afacerii – depozitul de datetrebuie să permită extragerea datelor în vederea realizării analizelormultidimensionale de tip OLAP şi a extragerii de cunoştinţe din date(data mining).
44
18.11.2015
12
Facilităţi oferite de depozitele de date sistemelor de Inteligenţa Afacerii
Depozitele de date sunt destinate managerilor şi analiştilorangrenaţi în luarea deciziilor strategice privind dezvoltarea şiviitorul organizaţiilor
Pentru a obţine informaţiile dorite, depozitele de date suntsupuse unor prelucrări complexe, cu ajutorul unor metodespecifice, cum ar fi: analiza multidimensională a datelor,metode statistice superioare de prognoză, metodematematice aplicate unui volum foarte mare de date.
Aceste metode presupun folosirea unui software specializatdeosebit de complex, bazat pe noi tehnologii informatice:extrageri de cunoştinţe din date (data mining), OLAP (OnlineAnalytical Processing).
45
Realizarea depozitele de date
GESTIUNEA VOLUMELOR MARI DE DATE
Modalităţi de realizare a depozitelor de date
Realizarea depozitelor de date este condiţionată de o serie decerinţe specifice sistemelor de IA, iar ciclul de dezvoltare alacestor sisteme şi implicit al depozitelor de date, este iterativ
În ceea ce priveşte abordarea activităţilor de realizare adepozitului de date se alege una dintre variantele:
realizarea de sus în jos (top-down) care porneşte cu proiectarea şiplanificarea completă. Soluţia este scumpă, solicită timp îndelungat pentrudezvoltare şi îi lipseşte flexibilitatea determinată de dificultăţile care potapărea la realizarea modelelor de date pentru întreaga organizaţie
realizarea de jos în sus (bottom-up) porneşte cu experimente şi prototipuri.Permite unei organizaţii să meargă înainte cu cheltuieli considerabil mai micişi să evalueze beneficiile tehnologiei înainte de a face angajamentesemnificative în această direcţie.
realizarea mixtă presupune că o organizaţie poate exploata caracterulplanificat şi strategic al abordării top-down atât timp cât reţine avantajeleimplementării rapide şi oportune a aplicaţiilor după abordarea bottom-up. 47
Metodologii utilizate la realizarea depozitelor de date
Din punctul de vedere al ciclului de viaţă putem aplica două tipuride metode: Metoda în cascadă presupune o analiză structurată şi sistematică pe fiecare
etapă
Metoda în spirală implică generarea rapidă de sisteme funcţionale din ce înce mai complete, la intervale scurte, între două versiuni succesive.
Din punctul de vedere al modului de abordare putem aplica: metodologii structurate presupun diviziunea în subsisteme pe baza funcţiilor
identificate sau în funcţie de date
metodologii orientate-obiect bazate pe conceptele de obiect şi clasă permitutilizarea a trei tipuri diferite de modele pentru realizarea unui depozit dedate:
modelul static – prin care se modelează obiectele şi relaţiile lor în cadruldepozitului
modelul dinamic – sunt descrise interacţiunile dintre obiecte
modelul funcţional – prin care se realizează transformarea valorii datelor cuajutorul operaţiilor şi proceselor.
48
18.11.2015
13
Etape de realizare a depozitelor de date
Din analiza diferitelor metodologii de realizare a depozitelorde date se pot deduce o serie de activităţi, care pot fisintetizate în necesitatea parcurgerii următorilor paşi/etape:
1. Strategia de realizare
2. Planificarea (modelarea) cerinţelor
3. Implementarea
4. Exploatarea
49
Strategia de realizare a depozitelor de date
1. Determinarea contextului organizaţional
2. Realizarea unei viziuni preliminare de ansamblu asupracerinţelor
3. Realizarea auditului preliminar referitor la sistemele sursă
4. Identificarea surselor de date externe
5. Definirea versiunilor depozitului de date
6. Definirea arhitecturii preliminare a depozitului de date
7. Evaluarea mediilor de dezvoltare a depozitului de date
50
Modelarea depozitelor de date
1. Alcătuirea echipei de lucru
2. Analiza cerinţelor informaţionale
3. Auditarea sistemelor sursă
4. Proiectarea schemelor depozitului de date
5. Transformarea câmpurilor sursă în câmpurile destinaţie
6. Încărcarea datelor istorice în depozitul de date
7. Selectarea mediilor de dezvoltare
8. Crearea prototipului pentru versiunea curentă
51
Implementarea depozitelor de date
1. Definirea ariei de cuprindere a depozitului de date şi specificareamodului de transformare a datelor sursă
2. Crearea planului de implementare pentru versiunea curentă adepozitului
3. Implementarea propriu-zisă a depozitului de date
a) Achiziţia şi configurarea mediului de dezvoltare
b) Obţinerea copiilor colecţiilor de date operaţionale
c) Finalizarea proiectării schemei fizice a depozitului de date
d) Construirea sau configurarea subsistemelor de extragere şi transformare
e) Construirea subsistemului pentru asigurarea calităţii datelor
f) Construirea subsistemului pentru încărcarea depozitului de date
4. Rafinarea schemei depozitului de date
5. Metadatele din depozitul de date
6. Modul de acces la date
7. Încărcarea depozitului de date
8. Instruirea utilizatorilor
9. Testarea depozitului de date52
18.11.2015
14
Exploatarea depozitelor de date
1. Încărcarea periodică a depozitului de date
2. Calcularea indicatorilor statistici referitori la depozitul de date
3. Menţinerea calităţii datelor
4. Evaluarea mărimii depozitului de date
5. Refacerea datelor în caz de accidente
53
Instrumente şi medii de dezvoltare utilizate pentru realizarea depozitelor de date
Instrumente Oracle: Discoverer Administrator, Oracle WarehouseBuilder, Oracle Data Integrator
Instrumente Microsoft: Microsoft SQL Server Analysis Services
Instrumente IBM: InfoSphere Warehouse
Instrumente SAP: Business Objects
54
Studiu de caz. Modelarea unui depozit de date
GESTIUNEA VOLUMELOR MARI DE DATE
Modelarea depozitului de date
Definirea modelului conceptual (de afaceri)
Definirea modelului logic (dimensional)
Definirea modelului fizic
56
18.11.2015
15
Modelarea depozitului de date.Definirea modelului conceptual.
Definirea cerinţelor de afaceri
Identificarea măsurilor de afaceri
Identificarea dimensiunilor
Stabilirea granularităţii
Identificarea regulilor de afaceri
Verificarea surselor de date
57
Modelarea depozitului de date.Definirea modelului conceptual.
58
Măsuri:
Volum vânzărivolum costuri
Dimensiuni:
ProdusClient
Locaţie
Timp
Ierarhii:
Categorie_produs –> Grupa_produs –> Subgrupa_produs –> Produs
Tara –> Regiune –> Oras
An –> Trimestru –> Luna –> Zi
Modelarea depozitului de date.Definirea modelului logic.
Identificarea tabelelor de fapte:
Transformarea măsurilor de afaceri în tabele de fapte
Analizarea sistemelor sursă pentru identificarea altor eventuale măsuri
Identificarea măsurilor de bază şi a celor derivate
Identificarea tabelelor dimensiune
Realizarea legăturilor între tabelele dimensiune şi cele de fapte
59 60
Modelarea depozitului de date.Definirea modelului logic.
18.11.2015
16
Modelarea depozitului de date.Definirea modelului fizic.
Transformarea modelului logic într-unul fizic
Definirea strategiei de stocare
Definirea strategiei de indexare
Definirea strategiei de partiţionare
Actualizarea metadatelor
61
Aspecte fundamentale privind conceptul Big Data
GESTIUNEA VOLUMELOR MARI DE DATE
“You can’t manage what you don’t measure.”(Peter Drucker)
Big Data
Desemnează una din cele mai noi evoluții îndomeniul sistemelor de baze de date evoluate,integrării sistemelor și al Business Intelligence.
Descrie colecţii de date de dimensiuni foarte mari șicare se află în creștere exponențială în timp.
Pe scurt, astfel de date sunt atât de mari și decomplexe, încât niciunul dintre instrumenteletradiționale de gestiune al datelor nu este în măsurăsă le stocheze sau să le proceseze eficient.
63
Big Data
Big Data se definește ca fiind tehnologia care permitelucrul cu volume mari de date, care depășesccapacitatea uzuală de stocare și de procesare oferităde bazele de date, în scopul obţinerii de avantajecompetitive.
Se pot stoca şi analiza date provenite din fișiere de tiplog sau chiar text scris de utilizatori (în urma activităţiipe rețele sociale sau forumuri, articole etc.) pentru a leface folositoare în procesul de asistare a deciziilor.
64
18.11.2015
17
Big Data
„acele resurse informaționale de volum mare, vitezăcrescută și varietate mare, care necesită noi formede prelucrare pentru a permite luarea unor deciziiavansate, descoperirea de noi perspective deînțelegere a lucrurilor și optimizarea proceselor”(Gartner Group, 2012)
65
Big Data
“date care depăşesc capacitatea convenţională deprocesare a sistemelor de baze de date. Datele suntprea mari, se modifică cu viteză crescută şi nurespectă stricteţea arhitecturilor de baze de date.”(Forbes, 2012)
66
Big Data - necesitate
prelucrarea unui volum mare de date aduce plus devaloare companiilor.
se pune accentul pe completitudinea datelor, îndetrimentul acurateței lor.
ideea generală este de a aduna date cât mai multeși cât mai variate, chiar dacă uneori nu secunoaşte încă utilitatea acestora și nici nu se poategaranta exactitudinea lor.
67
Big Data – sursele de date
Din punctul de vedere al poziționării față decompanie:
date proprii (interne);
date provenind din exteriorul firmei (externe), dar care suntutile modelului de afaceri al firmei.
Din punctul de vedere al modului de generare:
generate intenționat de om, prin evidențele în format digitalpe care le ține;
generate automat de diverse device-uri: senzori, telefoanemobile, tablete, aparate foto digitale, sateliți etc.
68
18.11.2015
18
Big Data – sursele de date
Din punctul de vedere al dinamicii:
date statice;
date de flux (streaming).
Din punctul de vedere al structurii interne:
date structurate: respectă o anumită regulă sau model deorganizare internă;
date nestructurate: nu respectă un model predefinit deorganizare;
date semi-structurate: prezintă o formă slabă destructurare, pe care o respectă uneori doar aproximativ.
69
Big Data – caracteristici
Caracteristici ale Big Data – 3V –> 5V –> 7V:
1. Volum
2. Varietate
3. Viteză
4. Veridicitate
5. Validitate
6. Volatilitate
7. Valoare
70
Big Data – caracteristici
1. Volumul. Este caracteristica esențială pentru BigData (de ordinul zettabytes).
2. Varietatea. Se referă la multitudinea surselor degenerare și a tipurilor de date (date de tip text,numerice, imagini, audio, video, streaming, serii detimp, date social media), precum şi la varietateaformatelor de lucru, structurare și forme deprezentare a datelor.
71
Big Data – caracteristici
3. Viteza. Este legată de ritmul în care surselefurnizează fluxuri continue de date și decapacitatea de preluare, prelucrare și valorificare(uneori în timp real) a acestor fluxuri.
4. Veridicitatea. Big Data reflectă fapte reale încare se poate avea încredere, cu condiţia să fieluate în considerare eventualele abateri șizgomotul informațional care caracterizează uneletipuri de date.
72
18.11.2015
19
Big Data – caracteristici
5. Validitatea. Se definește prin corectitudinea șiacuratețea datelor, în raport cu scopul în care suntutilizate.
6. Volatilitatea. Se referă la perioada de timp în caredatele rămân relevante și merită să fie păstrate,ţinându-se cont de volumul de stocat și de dificultateaasigurării securității pe perioade mari de timp.
7. Valoarea. Exprimă potențialul de a genera valoarede business pentru companii, conferind avantajecompetitive acelor firme care gestionează Big Data.
73
Big Data – aplicabilitate
Optimizarea proceselor de afaceri
Publicitatea orientata catre client
Imbunatatirea sanatatii si a serviciilor medicale
Imbunatatirea performantelor sportive
Imbunatatirea domeniului stiintei si al cercetarii
Optimizarea peformantei dispozitivelor si a masinariilor
Imbunatatirea sistemelor de securitate si a eficientei politiei
Imbunatatirea si optimizarea administrativa si de infrastructura aoraselor si tarilor
Tranzactiile financiare
Imbunatatirea domeniului energetic
74
Evoluţia organizării datelor
75
Fişiere de date
Baze de date
Depozite de date
Baze de date
NoSQL
Baze de date NoSQL
Au apărut în contextul Big Data, pentru a rezolvaproblema regăsirilor rapide pe aceste volume maride date;
Permit lucrul eficient cu date nestructurate, precume-mail sau multimedia;
Lucrează cu texte XML, CSV sau JSON,stochează documente întregi, obiecte, coloane cuvalori ale unor caracteristici etc.;
Folosesc mai multe limbaje de interogare diferite(NoSQL - “not only” SQL).
76
18.11.2015
20
Tipuri de baze de date NoSQL
1. BD care stochează asocieri cheie-valoare(Cassandra, DyanmoDB, Azure Table Storage, Riak)
2. BD pe coloane(HBase, BigTable, HyperTable)
3. BD organizate pe document(MongoDB, CouchDB)
4. BD organizate ca graf(Neo4J, Polyglot)
77