XIII MINING OLAP CUBES

Oleh : Rahmadya Trias H., ST, MKom.

 

Online Analytical Processing (OLAP) pertama kali dikemukakan oleh E.F. Codd pada tahun 1994. Banyak kegunaannya terutama untuk Sistem Pengambil Keputusan (Decision Support System) yang melibatkan multiple database.

OLAP saat ini hampir pasti digunakan untuk sistem berbasis Business Intelligent (BI) bersama dengan data mining. Terdiri dari Tabel Fakta (Fact Table) dengan beberapa dimensi (dimensions) dengan bentuk hierarchy. Sasarannya adalah bagaimana menemukan informasi yang berguna dari suatu cube.

13.1. Pengenalan OLAP

Online Transaction Processing (OLTP) ditujukan untuk merekam transaksi harian, misalnya transaksi penjualan, pembelian dan perbankan. OLTP tidak memiliki perangkat yang cukup untuk menganalisa, oleh karena itu diperlukan sistem OLAP yang digunakan dalam sistem DSS.

Cube adalah database dengan dimensi banyak (multidimensions) dengan bentuk hirarkinya. Misalnya, dalam pola All Product -> Category -> Sub Category -> Product Name. Kemudian tiap Cube memiliki ukuran (measure) yang berasal dar tabel fakta.


Gambar 13.1. Skema OLAP

13.2. Pembuatan CUBE

Buka kembali SQL Server BI Dev Studio, buat project baru degan mengambil database “MovieClick”. Berbeda dengan data source view yang lalu hanya satu tabel, untuk membuat cube kita harus memiliki tabel fakta dan dimensi. Untuk database movieclick, kita memiliki satu dimensi yaitu Customer dan tabel fakta misalnya yang disewa.

Langkah berikutnya adalah kita merelasikan antara dimensi dengan tabel fakta. Jangan sampai salah arahnya. Coba sendiri ya … Cao (Bersambung)

XII NEURAL NETWORK

Oleh: Rahmadya Trias H., ST, MKom.

Sesuai dengan namanya Jaringan Syaraf Tiruan berupaya meniru logika syaraf biologis manusia yang terdiri dari neuron dan sinapsis. Tiap neuron berupaya mengarahkan masukan menuju keluaran yang tepat hasil proses pembelajaran (training).

12.1. Pengenalan Neural Network

Model NN pertama kali diperkenalkan oleh Warren McCulloch dan Walter Pits tahun 1940 yang berusaha memodelkan bagaimana syaraf biologis otak bekerja. Pada tahun 1982, John Hopfield menemukan metode terkenal perambatan balik (backpropagation).

Dalam data mining, NN dimanfaatkan dalam tugas-tugas klasifikasi dan regresi. Di antara metode lainnya seperti decision tree dan naive bayes, NN dalam prosesnya memakan waktu yang lebih lama. Selain itu, agak sulit dalam melakukan interpretasi hasilnya.

NN baik digunakan dalam proses segmentasi dan dapat digunakan baik untuk data kontinyu maupun diskrit.

12.2. Cara Kerja Neural Network

Langkah pertama NN adalah dengan menyusun jumlah Neuron yang diperlukan dari satu set database yang akan di-mining. Selanjutnya dilakukan proses pembelajaran untuk menentukan bobot (weight) tiap neuron-nya.


Gambar 12.1. Pembobotan

Normalization dan Pemetaan (Mapping) digunakan untuk menentukan neuron-neuron anggota NN. Metode-metode yang digunakan antara lain: z-score, z-axis, log score dan sebagainya. Metode paling sederhana adalah: V=(A-Amin)/(Amax-Amin).


Gambar 12.2. Normalization dan Pemetaan

12.4. NN dengan Microsoft BI Development

Berikutnya kita akan mencoba memanfaatkan Microsoft BI Development untuk membuat Mining dengan teknik Microsoft Neural Network. Microsoft Neural Network secara otomatis akan melakukan Normalisasi dan mapping, misalnya usia akan dipecah menjadi group-group usia 20-22, 22-23 dan seterusnya. Selain itu kita dapat melihat struktur untuk usia 22-23 yang berjenis kelamin wanita, janda tanpa anak dan berapa peluang terhadap kepemilikan rumah (menyewa atau memiliki sendiri).


Gambar 12.3. Hasil Keluaran Microsoft Neural Network

Coba lakukan untuk data “Movie Click”. Gunakan Key, Input dan Predic yang sama dengan Decision Tree.

XI CLUSTERING

Oleh: Rahmadya Trias H., ST, MKom.

Clustering adalah mengumpulkan sederetan data sejenis dalam satu cluster yang membedakan dengan cluster lainnya. Ciri yang mendasari pengelompokkan berdasarkan variabel tertentu dari database. Tentu saja makin banyak variabel yang mendasari pengelompokkan, proses pengklasteran makin rumit.

11.1. Pengenalan Microsoft Clustering

Microsoft clustering bekerja menemukan peng-groupan secara alami dari data yang kita meliki dengan cara mencari variabel-variabel tersembunyi. Manfaat utama dari clustering, misalnya jika kita akan memasarkan suatu produk, katakanlah mobil, maka tentu saja kita akan mencari data-data dalam suatu cluster yang memiliki ciri-ciri tidak memiliki mobil tetapi berpenghasilan di atas rata-rata.

Ada dua metode yang digunakan untuk pengklusteran yaitu K-Means dan Expectation Maximization (EM). K-Means melakukan pengklusteran dengan menghitung jarak (distance) rata-rata satu kluster dengan kluster lainnya. Pusat kluster bergeser sesuai dengan jarak rata-ratanya. Metode ini sering diistilahkan dengan Hard clustering karena satu objek tepat hanya menjadi anggota suatu kluster.

Berbeda dengan K-Means, EM cenderung menggunakan probabilitas dalam pengklusteran. Kurva yang dipakai adalah kurva Bell. Karena antara satu kluster dengan kluster lainnya bisa overlapping, maka metode ini sering diistilahkan dengan nama Soft Clustering.


Gambar 11.1. Metode K-Means (Kiri) dan Metode EM (Kanan)

11.2. Pemodelan Clustering

Pemodelan diperlukan untuk melakukan clustering pada data set milik kita. Variabel yang menjadi basis klusterifikasi harus kita pilih setepat mungkin. Klusterifikasi dimanfaatkan untuk menganalisis, misalnya analisa terhadap kerugian penjualan. Sebaiknya model yang kita buat lebih dari satu untuk menghindari bias.


Gambar 11.2. Model Kluster

11.3. Klusterifikasi dengan Microsoft BI Development

Akhirnya kita mencoba melakukan klusterifikasi dengan aplikasi dari microsoft, yaitu Microsoft Clustering. Langkah pembuatan project sama dengan bab-bab terdahulu hanya saat memodelkan Mining Structure kita memilih teknik yang digunakan dengan teknik Microsoft Clustering. Key, Input dan Predict agak berbeda. Pada Clustering, kita memiliki Input dan Predict dengan variabel (Field) yang sama.

Dan yang terpenting adalah kemampuan membaca hasil pengolahan Microsoft BI Development yang terdiri dari view-view: Cluster Diagram, Cluster Characteristic dan Cluster Discrimination.


Gambar 11.3. Cluster Diagram

Coba Sendiri dengan Data “Movie Click” !!! Klasifikan berdasarkan Gender, Jenis Kelamin dan Status Perkawinan.