Download - DWO - Pertemuan 2 & 3
Abdul Kadir S. Sudarshan (Comp. Science and Engineering Dept,
IIT, Bombay) Anindya Datta (Georgia Institute of Technology) DR. R. Seshadri
2
Part 1 : Review data, informasi Part 2 : Pengenalan Data Warehouse Part 3 : Karakteristik Data Warehouse Part 4 : Task 1
3
4
Data warehouse adalah basis data yang menyimpan data sekarang dan data masa lalu yang berasal dari berbagai sistem operasional dan sumber yang lain (sumber eksternal) yang menjadi perhatian penting bagi manajemen dalam organisasi dan ditujukan untuk keperluan analisis dan pelaporan manajemen dalam rangka pengambilan keputusan
Data warehouse digunakan untuk mendukung pengambilan keputusan, bukan untuk melaksanakan pemrosesan transaksi
Data warehouse hanya berisi informasi-informasi yang relevan bagi kebutuhan pemakai yang dipakai untuk pengambilan keputusan
5
6
Database (OLTP)Database (OLTP) Data Warehouse (OLAP)Data Warehouse (OLAP)
Menangani data saat iniMenangani data saat ini Data bisa saja disimpan pada beberapa Data bisa saja disimpan pada beberapa
platformplatform Data diorganisasikan berdasarkan Data diorganisasikan berdasarkan
fungsi atau operasi seperti penjualan, fungsi atau operasi seperti penjualan, produksi, dan pemrosesan pesananproduksi, dan pemrosesan pesanan
Pemrosesan bersifat berulangPemrosesan bersifat berulang Untuk mendukung keputusan harian Untuk mendukung keputusan harian
(operasional)(operasional) Melayani banyak pemakai operasionalMelayani banyak pemakai operasional Berorientasi pada transaksiBerorientasi pada transaksi
Lebih cenderung menangani data Lebih cenderung menangani data masa lalumasa lalu
Data disimpan dalam satu Data disimpan dalam satu platformplatform
Data diorganisasikan menutut Data diorganisasikan menutut subjek seperti pelkanggan atau subjek seperti pelkanggan atau produkproduk
Pemrosesan sewaktu-waktu, tak Pemrosesan sewaktu-waktu, tak terstruktur, dan bersifat heuristikterstruktur, dan bersifat heuristik
Untuk mendukung keputusan yang Untuk mendukung keputusan yang strategisstrategis
Untuk mendukung pemakai Untuk mendukung pemakai manajerial yang berjumlah relatif manajerial yang berjumlah relatif sedikitsedikit
Berorientasi pada analisisBerorientasi pada analisis
1. Data operasional dalam organisasi, misalnya basis data pelanggan dan produk, dan
2. Sumber eksternal yang diperoleh misalnya melalui Internet, basis data komersial, basis data pemasok atau pelanggan
Berbagai data yang berasal dari sumber digabungkan dan diproses lebih lanjut oleh manajer data warehouse dan disimpan dalam basis data tersendiri.
Selanjutnya, perangkat lunak seperti OLAP dan data mining dapat digunakan oleh pemakai untuk mengakses data warehouse
7
8
9
11
Data Warehouse: A Multi-Tiered ArchitectureData Warehouse: A Multi-Tiered Architecture
DataWarehouse
ExtractTransformLoadRefresh
OLAP Engine
AnalysisQueryReportsData mining
Monitor&
IntegratorMetadata
Data Sources Front-End Tools
Serve
Data Marts
Operational DBs
Othersources
Data Storage
OLAP Server
12
Data warehouse dan OLAP didasarkan pada multidimensional data model.
Model ini merepresentasikan data dalam bentuk data cube, data dimodelkan dan ditampilkan sebagai multiple dimension.
Data cube ini didasarkan pada dimensions table dan facts table.
13
Multidimensional yang berarti bahwa terdapat banyak lapisan kolom dan baris (Ini berbeda dengan tabel pada model relasional yang hanya berdimensi dua)
Berdasarkan susunan data seperti itu, amatlah mudah untuk memperoleh jawaban atas pertanyaan seperti: “Berapakah jumlah produk 1 terjual di Jawa Tengah pada tahun n-3?”
14
15
Multidimensional Data ModelMultidimensional Data Model
Kumpulan dari Kumpulan dari measures measures numerik, yang numerik, yang bergantung pada sekumpulah bergantung pada sekumpulah dimensions.dimensions. Cnth: measure Cnth: measure SalesSales, dimensions , dimensions
ProductProduct (key: pid), (key: pid), LocationLocation (locid), (locid), and and TimeTime (timeid).(timeid).
8 10 1030 20 50
25 8 15 1 2 3 timeid
pid
11
12
13
11 1 1 2511 2 1 811 3 1 1512 1 1 3012 2 1 2012 3 1 5013 1 1 813 2 1 1013 3 1 1011 1 2 35
pid
loci
dsa
les
locid
Slice locid=1is shown:
tim
eid
Merepresentasikan proses bisnis, yaitu model proses bisnis sebagai bentuk (artifact) pada data model.
Mengandung elemen ‘pengukuran’ atau metrik atau fakta pada proses bisnis. “jumlah penjualan bulanan” pada proses
bisnis Penjualan. dll
Terdapat foreign key untuk tabel dimensi. Berisi ribuan kolom
16
Merepresentasikan who, what, where, when and how of sebuah pengukuran/artifact.
Merepresentasikan entities yang real, bukan proses bisnis.
Memberikan konteks pengukuran (subject) Sebagai contoh :
Pada tabel fakta Penjualan. Karakteristik dari pengukuran ‘jumlah penjualan bulanan’ bisa terdiri dari lokasi (Where), waktu (When), produk yang terjual (What).
17
Atribut pada tabel dimensi merupakan kolom-kolom yang ada pada tabel dimensi. Pada tabel dimensi lokasi, atribut bisa merupakan Kode Pos, kota, kode negara, negara, dll. Secara umum, atribut pada tabel dimensi digunakan untuk pelaporan dengan menggunakan batasan kueri, contoh where
Country='USA'. Atribut pada tabel dimensi juga mengandung satu atau beberapa hierarchical relationships. Sebelum mendesain data warehouse, harus ditentukan dulu mengandung elemen apa saja data warehouse yang akan dibuat. Misalkan jika ingin membuat data warehouse yang mengandung “jumlah penjualan bulanan” yang melibatkan semua lokasi, waktu, dan produk, maka dimensinya adalah :
LokasiWaktuProduct
18
19
Bukan ER Diagram Design harus mencerminkan
multidimensional view Star Schema Snowflake Schema Fact Constellation Schema
20
21
Order NoOrder NoOrder DateOrder Date
Customer NoCustomer NoCustomer Customer NameNameCustomer Customer AddressAddressCityCity
SalespersonIDSalespersonIDSalespersonNaSalespersonNamemeCityCityQuotaQuota
OrderNOOrderNOSalespersonIDSalespersonIDCustomerNOCustomerNOProdNoProdNoDateKeyDateKeyCityNameCityNameQuantityQuantityTotal Price
ProductNOProductNOProdNameProdNameProdDescrProdDescrCategoryCategoryCategoryDescriptionCategoryDescriptionUnitPriceUnitPrice
DateKeyDateKeyDateDate
CityNameCityNameStateStateCountryCountry
OrderOrder
CustomerCustomer
SalespersoSalespersonn
CityCity
DateDate
ProductProduct
Fact TableFact Table
22
Model dimana data warehouse terdiri dari satu tabel pusat yang besar (tabel fakta).
Ada satu table untuk tiap dimensi Pada star schema, satu dimensi diwakili
oleh satu tabel dan masing-masing tabel diwakili oleh beberapa atribut.
23
24
Example of a Snowflake Example of a Snowflake SchemaSchema
Order NoOrder NoOrder DateOrder Date
Customer NoCustomer NoCustomer Customer NameNameCustomer Customer AddressAddressCityCity
SalespersonIDSalespersonIDSalespersonNaSalespersonNamemeCityCityQuotaQuota
OrderNOOrderNOSalespersonIDSalespersonIDCustomerNOCustomerNOProdNoProdNoDateKeyDateKeyCityNameCityNameQuantityQuantityTotal Price
ProductNOProductNOProdNameProdNameProdDescrProdDescrCategoryCategoryCategoryCategoryUnitPriceUnitPrice
DateKeyDateKeyDateDateMonthMonth
CityNameCityNameStateStateCountryCountry
OrderOrder
CustomerCustomer
SalespersoSalespersonn
CityCity
DateDate
ProductProduct
Fact TableFact Table
CategoryNaCategoryNamemeCategoryDeCategoryDescrscr
MontMonthhYearYear YearYear
StateNameStateNameCountryCountry
CategoryCategory
StateState
MonthMonthYearYear
25
Ada mekanisme normalisasi tabel dimensi
Mudah untuk dimaintain Butuh kapasitas penyimpanan yang
relatif lebih kecil Efektifitas browsing/select data
berkurang karena harus melibatkan banyak kueri dari berbagai macam tabel
26
27
Fact Constellation Ada beberapa tabel fakta yang digunakan
bersama-sama (share) beberapa tabel dimensi.
Dapat berupa kumpulan skema star
28
Lanjutan model multidimensi Hirarki Ulasan tentang hirarki waktu
OLAP dan kemampuan OLAP Latihan Modeling
Membuat model untuk OLTP Membuat model untuk OLAP
29
30
Hirarki DimensiHirarki DimensiUntuk setiap dimensi, kumpulan Untuk setiap dimensi, kumpulan nilai-nilai bisa diatur dalam hirarki:nilai-nilai bisa diatur dalam hirarki:
PRODUCT TIME LOCATION
category week month state
pname date city
year
quarter country
Data warehouse dapat dibangun sendiri dengan menggunakan perangkat pengembangan aplikasi ataupun dengan menggunakan perangkat lunak khusus yang ditujukan untuk menangani hal ini
Beberapa contoh perangkat lunak yang digunakan untuk administrasi dan manajemen data warehouse: HP Intelligent Warehouse (Hewlett
Packard) FlowMark (IBM) SourcePoint (Software AG)
31
Menentukan misi dan sasaran bisnis bagi pembentukan data warehouse
Mengidentifikasi data dari basis data operasional dan sumber lain yang diperlukan bagi data warehouse
Menentukan item-item data dalam perusahaan dengan melakukan standarisasi penamaan data dan maknanya
Merancang basis data untuk data warehouse Membangun kebijakan dalam mengarsipkan data
lama sehingga ruang penyimpanan tak menjadi terlalu besar dan agar pengambilan keputusan tidak menjadi terlalu lamban.
Menarik data produksi (operasional) dan meletakkan ke basis data milik data warehouse
32
Bagian dari data warehouse yang mendukung kebutuhan pada tingkat departemen atau fungsi bisnis tertentu dalam perusahaan. Karakteristik yang membedakan data mart dan data warehouse adalah sebagai berikut (Connolly, Begg, Strachan 1999). Data mart memfokuskan hanya pada kebutuhan-
kebutuhan pemakai yang terkait dalam sebuah departemen atau fungsi bisnis.
Data mart biasanya tidak mengandung data operasional yang rinci seperti pada data warehouse.
Data mart hanya mengandung sedikit informasi dibandingkan dengan data warehouse. Data mart lebih mudah dipahami dan dinavigasi.
33
SmartMart (IBM) Visual Warehouse (IBM) PowerMart (Informatica)
34
OnLine Analytical Processing Suatu jenis pemrosesan yang
memanipulasi dan menganalisa data bervolume besar dari berbagai perspektif (multidimensi). OLAP seringkali disebut analisis data multidimensi.
35
Data multidimensi adalah data yang dapat dimodelkan sebagai atribut dimensi dan atribut ukuran
Contoh atribut dimensi adalah nama barang dan warna barang, sedangkan contoh atribut ukuran adalah jumlah barang
36
37
Konsolidasi (roll up) melibatkan pengelompokan data. Sebagai contoh kantor-kantor cabang dapat dikelompokkan menurut kota atau bahkan propinsi. Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala istilah rollup digunakan untuk menyatakan konsolidasi
Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi, yang memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail
Slicing and dicing (atau dikenal dengan istilah pivoting) menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang
38
39
40
Express Server (Oracle) PowerPlay (Cognos Software) Metacube (Informix/Stanford
Technology Group) HighGate Project (Sybase) MondrianOLAP – now part of Pentaho
Project
41
Latihan Membuat model untuk OLTP Latihan Membuat model untuk OLAP
42
The Monash Main Bookshop adalah mitra pemasok buku pelajaran kepada mahasiswa untuk kelas-kelas yang diselenggarakan di lima kampus milik universitas. The Monash Main Bookshop memiliki toko cabang yang terletak di setiap kampus.
Beberapa minggu sebelum awal semester setiap departemen akademik mengirimkan informasi kepada Monash Main Bookshop tentang mata kuliah yang akan ditawarkan di kampus masing-masing pada semester berikutnya. Untuk setiap mata pelajaran Monash Main Bookshop membutuhkan rincian pendaftaran mahasiswa yang diproyeksikan di setiap kampus, buku-buku teks yang dibutuhkan, dan semua dosen untuk setiap mata pelajaran.
Staf Main Bookshop kemudian mempersiapkan pesanan pembelian (PO) yang dikirim ke berbagai penerbit yang memasok buku-buku pelajaran. Departemen akademik akan diberikan informasi mengenai buku yang tidak tersedia, sehingga buku teks alternatif dapat dipesan.
Pesanan buku tiba di toko buku kampus cabang yang tepat disertai dengan slip pengepakan. Slip pengepakan tersebut kemudian diverifikasi oleh staf toko buku. Jika pesanan yang disampaikan sudah benar, departemen akademik yang terkait ditagih oleh toko buku untuk buku-buku pelajaran yang mereka telah pesan. 43
Cari studi kasus (case study) untuk ERD Modeling. Tulis alamat webnya dalam file doc(x) dan beri nama “kelompokxx-kelas-tugas1.doc(x)” dan kirimkan ke FB saya (mohamad afandi) melalui pesan maksimal : Selasa, 18 maret 2014, sebelum jam 09.30 (Kelas B), Kamis, 20 Maret 2014 sebelum jam 13.00 (Kelas A)untuk saya setujui/tidak setujui.
Pantau reply saya melalui pesan FB maksimal sampai: Selasa,18/3/2014, 10.30. (Kelas B) Kamis, 20/3/2014, 14.00 (Kelas A)
Jika sudah disetujui, lanjutkan dengan membuat ERD-nya untuk dikumpulkan maksimal senin, 24 maret 2014, 09.30 melalui Dropbox. Format penamaan file sama dengan di atas. 44
45