Pertemuan IX: Clustering

Hari/Tgl/Ruang/Mata Kuliah/Dosen/: Jumat/18-06-2010/Data Mining/Rahmadya Trias H., ST, MKom.

Salah satu kemampuan manusia yang alami adalah memisahkan sesuatu. Misal kita sebar berbagai jenis jeruk, lalu kita suruh seorang anak mengumpulkan sesuai dengan jenis jeruk, warna jeruk atau kualitas jeruk (rusak atau tidak) maka dengan mudah anak tersebut sanggup mengumpulkannya. Karakteristik tersebut dapat dimengerti oleh manusia, tapi tidak oleh sistem. Kita harus mendefinisikan sistem dengan baik, sebab jangan-jangan ada bola dianggap sebagai jeruk!

Dalam data mining, pengelompokkan berdasarkan isi suatu field, apakah gender, indeks prestasi, pendapatan atau sebagainya, sesuai dengan kebutuhan. Dalam Microsoft BI development sudah tersedia machine learning-nya yang diberi nama Micorosoft Clustering. Cara mengerjakannya mudah saja, tinggal memanggil database yang akan diolah.

Dalam praktek pada malam ini, sedikit ada error yang diakibatkan oleh sistem analysis service yang tidak “Up” karena suatu hal (masih misterius). Cara menyelesaikan masalah tersebut dengan mudah lewat configuration manager pada MS SQL Server. Tinggal di “Start” saja.

Clustering sangat bermanfaat, misalkan  jika seorang marketing ingin memasarkan mobil, tinggal mencari data yang tercluster dimana paling banyak orang yang belum memiliki mobil padahal berpenghasilan menengah ke atas. OKEH.

Pertemuan VIII: Naive Bayes dengan BI Dev Studio 2005

Hari/Tgl/MK/Ruang/Dosen: Jumat/21-05-2010/Prakt. Data Mining/Lab-Hardware/Rahmadya Trias, ST, MKom.

Setelah pada pertemuan sebelum UTS dipelajari teknik mengolah data dengan metode naive bayes sederhana dengan excel, sekarang saatnya menggunakan software komersial untuk database berukuran besar seperti Microsoft Business Intelligent Development Studio 2005. Untuk yang gratisan dapat menggunakan software WEKA buatan Prof. Waikato.

Buka Ms BI Dev Studio, ambil contoh database, di sini yang digunakan adalah kasus senat partai demokrat dan republik USA. Untuk UAS diharapkan mampu sendiri mengolah database lainnya. Untuk melihat langkah-langkah pengolahan data, KLIK DI SINI.

Note: Tutorial dibuat dengan program screen2exe yang dapat didonlot di www.screen-record.com, yang bisa dijalankan tanpa software tambahan (ie, mozilla, flash player, dsb). Untuk beberapa antivirus mungkin dianggap adware/malware.

Latihan Naive Bayes Sederhana

Coba kerjakan kasus di bawah ini:

Prediksijika anggota dewan memilih kasus century, markus pajak dan Miranda Gultom dengan jawaban sebagai berikut:

1. Ya, Ya dan Ya

2. Ya, Tidak dan Ya

3. Tidak, tidak dan Tidak

4. Tidak, Tidak dan Tidak

5. Tidak, Ya dan Tidak

NOTE: Bahan UTS adalah Decision Tree, jangan lupa bawa kalkulator yang ada fungsi logaritmik-nya.

Pertemuan III Data Warehouse

Sehubungan dengan libur jumat besok, maka diharapkan mendownload materi kuliah dari blog ini. Setelah kemarin membahas pembuatan fact table, maka pertemuan III direncanakan membahas disain fisik. Disain fisik berarti menghitung kapasitas harddisk, menentukan jenis server dan databasenya. Membuat diagram jaringan dan sebagainya.

appress1

Berikut resensi singkat keempat buku text tentang data warehouse dan OLAP.

Bab I: Pengenalan Data Warehouse

1.1. Pengertian Data Warehouse

1.2. Perkembangan Data Warehouse saat ini

1.3. Trend Data Warehouse di Masa Depan

Bab II: Arsitektur Data Warehouse

2.1. Aliran Data Arsitektur

2.2. Aliran Data Sistem

Bab III: Metodologi Pengembangan Data Warehouse

3.1. Waterfall Metodology

3.2. Iterative Metodology

3.3. Kesimpulan

Bab IV: Functional & Non-Functional Requirements

4.1. Identifikasi Area Bisnis

4.2. Memahami Operasi Bisnis

4.3. Mendefinisikan Functional Requirements

4.4. Mendefinisikan Non-Functional Requirements

Bab V: Pemodelan Data

5.1. Dimensi Tabel

5.2. Hirarki Data

5.3. Disain dan Normalisasi Data Store

Bab VI: Disain Database Fisik

6.1. Hardware Platform

6.2. Storage Consideration

6.3. Mengkonfigurasi Database

6.4. Membuat dan Menormalisasi Data Store

6.5. Membuat Views

6.6. Partitioning

Bab VII: Ekstraksi Data

7.1. Pengenalan ETL

7.2. Pendekatan dan Arsitektur ETL

7.3. Ekstraksi Database Relasional

7.4. Ekstraksi dari Sumber Lain

Bab VIII: Pengumpulan Pada Data Warehouse

8.1. Loading Bertahap

8.2. Firewall Data

8.3. Menggunakan SSIS untuk mengumpulkan NDS

8.4. Teknik Pengumpulan Lainnya

Bab IX: Menjamin Kualitas Data

9.1. Proses Menentukan Kualitas Data

9.2. Data Cleansing and Matching

9.3. Cross-Checking dengan Sumber Eksternal

9.4. Aturan-aturan terhadap kualitas data

9.5. Action: Reject, Allow atau Fix

9.6. Logging dan Auditing

9.7. Teknik Pembuatan Laporan

Bab X: Metadata

10.1. Definisi Metadata

10.2. Peran Metadata dalam Data Warehouse

10.3. Proses Metadata ETL

10.4. Kualitas Metadata

10.5. Audit Terhadap Metadata

10.6. Penggunaan Metadata

10.7. Perawatan Metadata

Bab XI: Membuat Laporan (Report)

11.1. Laporan dalam Data Warehouse

11.2. Perlu tidaknya membuat laporan

11.3. Bentuk dan Parameter Laporan

11.4. Grouping, Shorting dan Filtering

11.5. Penyederhanaan Report

11.6. Laporan Database Multidimensi

11.7. Manajemen Laporan

Bab XII: Database Multidimensional

12.1. Definisi Database Multidimensional

12.2. Online Analytical Processing (OLAP)

12.3. Membentuk Database Multidimensional

12.4. Memproses Database Multidimensional

12.5. Mengatur Database Multidimensional

Bab XIII: Penggunaan Data Warehouse Pada Business Intelligence

13.1. BI Report

13.2. BI Analytic

13.3. BI Data Mining

13.4. BI Dashboard

13.5. BI Alert

13.6. BI Portal

Bab XIV: Penggunaan Data Warehouse untuk CRM

14.1. View Pelanggan Tunggal

14.2. Delivery dan Respon Data

14.3. Analisa Konsumen

14.4. Personalisasi

Daftar Pustaka

Imhoff, Claudia, et all. 2003. Mastering Data Warehouse Design – Relational and Dimensional Techniques. Canada: Willey Publishing, Inc.

Kozielsky, Stanislaw, Robert Wrembel. 2009. New Trend in Data Warehousing and Data Analysis. USA: Springer Science+Business Media, LLC.

Prabu, S, N. Venatesan. Data Mining and Warehousing. New Delhi: New Age International (P) Ltd, Publishers.

Rainardi, Vincent. 2008. Building a Data Warehouse: With Example in SQL Server. New York: Springer-Verlag New York, Inc.

Daftar Istilah:

OLAP = Online Analytical Processing

OLTP = Online Transaction Processing

ETL=Extraction, Transportation, Transformation & Loading

BI = Business Intelligence

EIS = Expert Information System

ERP = Enterprise Resources Planning

CRM = Customer Relation Management

DW = Data Warehouse

Claudia Imhoff

Menjelaskan di pendahuluan hubungan data warehouse dengan Business Intelligence. Dilanjutkan dengan hierarchy dan teknik disain baik untuk on line transaction maupun repository. Dijelaskan istilah Data Mart sebagai penyedia data.

Kozielsky

Buku ini merupaan kumpulan tulisan-tulisan seperti jurnal tentang data warehouse. Tulisan pertama oleh Torben B. Paderson menceritakan trend terbaru data warehouse yang mengintegrasikan berbagai platform data. Disebutkan bahwa data warehouse bertujuan membantu BI dalam mengambil kesimpulan atau prediksi. Prediksi tergantung dari data yang dipakai patokan (past data). Diperkenalkan juga istilah R-Cube.

Kamel Boukhalfa (hal 200-an) lebih menjelaskan DW dalam bentuk database. Karena kebanyakan DW berukuran besar (hingga terrabyte), maka diperlukan konsep partitioning data agar query yang dilakukan lebih cepat. Partitioning yang dikenalkan adalah horizontal partitioning dan Bitmap Join Indexes (BJI).

Sebagian besar tulisan dalam buku ini terlalu “high” bagi pemula. Kecuali jika memiliki dasar yang bagus dalam algoritma dan oracle database 10g.

S. Prabhu

Buku ini cukup baik menjelaskan data mining dan data warehouse bagi pemula. Konsep dasar dibeberkan dengan hati-hati agar pembaca tidak salah dalam memahaminya. Bab pertama menjelaskan dasar-dasar data mining dan data warehousing. Data mining memerlukan teori learning dengan istilah Knowledge Discovery In Database (KDD). Dijelaskan konsep clustering dengan algoritma-algoritmanya.

Pembahasan mengenai data warehouse dimulai dari bab 6 yang menjelaskan konsep data, DDL, DML serta primary key pada relational database management system. Hal 68 menjelaskan lebih detil OLAP server. Bab 7 menjelaskan disain DW, DW adalah suatu database (telah dinormalisasi agar tidak redundant) yang menyimpan informasi yang diperuntukan melayani permintaan para pengambil keputusan. Central DW menjelaskan istilah cube dan permasalahan2 yang muncul. Bab penting ini juga menjelaskan macam-macam skema yang ada dgn sebelumnya dijelaskan Fact Tables. Lalu diselesaikan dengan penjelasan jenis2 partitioning, Data Mart, backup & Recovery dan performance tuning.

Vincent Rainardi

Di antar ke-3 buku, yang lebih menkhususkan ke data warehouse sepertinya buku ini. Dimulai dengan konsep data warehouse seperti yang telah dijelaskan oleh S. Prabhu, ditambah dengan metodologi pengembangan sistemnya. ETL lebih dijelaskan secara rinci di buku ini, ditambah pembuatan report dan testing. Terakhir dilengkapi dengan administrating data warehouse yaitu monitoring & managing (security and databases). Kelebihan buku sepertinya dapat dijadikan praktek dan bukan sekedar teori (dengan sql server).

Sedangkan untuk materi lengkap dapat di download di sini. part 1. Part2. part3.

NOTE: di download semua ya, lalu diekstrak part 1-nya.