Pertemuan III Data Warehouse

Sehubungan dengan libur jumat besok, maka diharapkan mendownload materi kuliah dari blog ini. Setelah kemarin membahas pembuatan fact table, maka pertemuan III direncanakan membahas disain fisik. Disain fisik berarti menghitung kapasitas harddisk, menentukan jenis server dan databasenya. Membuat diagram jaringan dan sebagainya.

appress1

Berikut resensi singkat keempat buku text tentang data warehouse dan OLAP.

Bab I: Pengenalan Data Warehouse

1.1. Pengertian Data Warehouse

1.2. Perkembangan Data Warehouse saat ini

1.3. Trend Data Warehouse di Masa Depan

Bab II: Arsitektur Data Warehouse

2.1. Aliran Data Arsitektur

2.2. Aliran Data Sistem

Bab III: Metodologi Pengembangan Data Warehouse

3.1. Waterfall Metodology

3.2. Iterative Metodology

3.3. Kesimpulan

Bab IV: Functional & Non-Functional Requirements

4.1. Identifikasi Area Bisnis

4.2. Memahami Operasi Bisnis

4.3. Mendefinisikan Functional Requirements

4.4. Mendefinisikan Non-Functional Requirements

Bab V: Pemodelan Data

5.1. Dimensi Tabel

5.2. Hirarki Data

5.3. Disain dan Normalisasi Data Store

Bab VI: Disain Database Fisik

6.1. Hardware Platform

6.2. Storage Consideration

6.3. Mengkonfigurasi Database

6.4. Membuat dan Menormalisasi Data Store

6.5. Membuat Views

6.6. Partitioning

Bab VII: Ekstraksi Data

7.1. Pengenalan ETL

7.2. Pendekatan dan Arsitektur ETL

7.3. Ekstraksi Database Relasional

7.4. Ekstraksi dari Sumber Lain

Bab VIII: Pengumpulan Pada Data Warehouse

8.1. Loading Bertahap

8.2. Firewall Data

8.3. Menggunakan SSIS untuk mengumpulkan NDS

8.4. Teknik Pengumpulan Lainnya

Bab IX: Menjamin Kualitas Data

9.1. Proses Menentukan Kualitas Data

9.2. Data Cleansing and Matching

9.3. Cross-Checking dengan Sumber Eksternal

9.4. Aturan-aturan terhadap kualitas data

9.5. Action: Reject, Allow atau Fix

9.6. Logging dan Auditing

9.7. Teknik Pembuatan Laporan

Bab X: Metadata

10.1. Definisi Metadata

10.2. Peran Metadata dalam Data Warehouse

10.3. Proses Metadata ETL

10.4. Kualitas Metadata

10.5. Audit Terhadap Metadata

10.6. Penggunaan Metadata

10.7. Perawatan Metadata

Bab XI: Membuat Laporan (Report)

11.1. Laporan dalam Data Warehouse

11.2. Perlu tidaknya membuat laporan

11.3. Bentuk dan Parameter Laporan

11.4. Grouping, Shorting dan Filtering

11.5. Penyederhanaan Report

11.6. Laporan Database Multidimensi

11.7. Manajemen Laporan

Bab XII: Database Multidimensional

12.1. Definisi Database Multidimensional

12.2. Online Analytical Processing (OLAP)

12.3. Membentuk Database Multidimensional

12.4. Memproses Database Multidimensional

12.5. Mengatur Database Multidimensional

Bab XIII: Penggunaan Data Warehouse Pada Business Intelligence

13.1. BI Report

13.2. BI Analytic

13.3. BI Data Mining

13.4. BI Dashboard

13.5. BI Alert

13.6. BI Portal

Bab XIV: Penggunaan Data Warehouse untuk CRM

14.1. View Pelanggan Tunggal

14.2. Delivery dan Respon Data

14.3. Analisa Konsumen

14.4. Personalisasi

Daftar Pustaka

Imhoff, Claudia, et all. 2003. Mastering Data Warehouse Design – Relational and Dimensional Techniques. Canada: Willey Publishing, Inc.

Kozielsky, Stanislaw, Robert Wrembel. 2009. New Trend in Data Warehousing and Data Analysis. USA: Springer Science+Business Media, LLC.

Prabu, S, N. Venatesan. Data Mining and Warehousing. New Delhi: New Age International (P) Ltd, Publishers.

Rainardi, Vincent. 2008. Building a Data Warehouse: With Example in SQL Server. New York: Springer-Verlag New York, Inc.

Daftar Istilah:

OLAP = Online Analytical Processing

OLTP = Online Transaction Processing

ETL=Extraction, Transportation, Transformation & Loading

BI = Business Intelligence

EIS = Expert Information System

ERP = Enterprise Resources Planning

CRM = Customer Relation Management

DW = Data Warehouse

Claudia Imhoff

Menjelaskan di pendahuluan hubungan data warehouse dengan Business Intelligence. Dilanjutkan dengan hierarchy dan teknik disain baik untuk on line transaction maupun repository. Dijelaskan istilah Data Mart sebagai penyedia data.

Kozielsky

Buku ini merupaan kumpulan tulisan-tulisan seperti jurnal tentang data warehouse. Tulisan pertama oleh Torben B. Paderson menceritakan trend terbaru data warehouse yang mengintegrasikan berbagai platform data. Disebutkan bahwa data warehouse bertujuan membantu BI dalam mengambil kesimpulan atau prediksi. Prediksi tergantung dari data yang dipakai patokan (past data). Diperkenalkan juga istilah R-Cube.

Kamel Boukhalfa (hal 200-an) lebih menjelaskan DW dalam bentuk database. Karena kebanyakan DW berukuran besar (hingga terrabyte), maka diperlukan konsep partitioning data agar query yang dilakukan lebih cepat. Partitioning yang dikenalkan adalah horizontal partitioning dan Bitmap Join Indexes (BJI).

Sebagian besar tulisan dalam buku ini terlalu “high” bagi pemula. Kecuali jika memiliki dasar yang bagus dalam algoritma dan oracle database 10g.

S. Prabhu

Buku ini cukup baik menjelaskan data mining dan data warehouse bagi pemula. Konsep dasar dibeberkan dengan hati-hati agar pembaca tidak salah dalam memahaminya. Bab pertama menjelaskan dasar-dasar data mining dan data warehousing. Data mining memerlukan teori learning dengan istilah Knowledge Discovery In Database (KDD). Dijelaskan konsep clustering dengan algoritma-algoritmanya.

Pembahasan mengenai data warehouse dimulai dari bab 6 yang menjelaskan konsep data, DDL, DML serta primary key pada relational database management system. Hal 68 menjelaskan lebih detil OLAP server. Bab 7 menjelaskan disain DW, DW adalah suatu database (telah dinormalisasi agar tidak redundant) yang menyimpan informasi yang diperuntukan melayani permintaan para pengambil keputusan. Central DW menjelaskan istilah cube dan permasalahan2 yang muncul. Bab penting ini juga menjelaskan macam-macam skema yang ada dgn sebelumnya dijelaskan Fact Tables. Lalu diselesaikan dengan penjelasan jenis2 partitioning, Data Mart, backup & Recovery dan performance tuning.

Vincent Rainardi

Di antar ke-3 buku, yang lebih menkhususkan ke data warehouse sepertinya buku ini. Dimulai dengan konsep data warehouse seperti yang telah dijelaskan oleh S. Prabhu, ditambah dengan metodologi pengembangan sistemnya. ETL lebih dijelaskan secara rinci di buku ini, ditambah pembuatan report dan testing. Terakhir dilengkapi dengan administrating data warehouse yaitu monitoring & managing (security and databases). Kelebihan buku sepertinya dapat dijadikan praktek dan bukan sekedar teori (dengan sql server).

Sedangkan untuk materi lengkap dapat di download di sini. part 1. Part2. part3.

NOTE: di download semua ya, lalu diekstrak part 1-nya.