Mempersiapkan Data dan Training Model ANFIS, JST dan SVM

Dalam machine learning dikenal beberapa jenis data antara lain: data training dan data testing. Terkadang data training dipisah menjadi data training dan target. Dalam prakteknya, data training menggunakan sebagaian prosentase dengan sisanya dijadikan data tasting untuk pengujian model.

Excel dapat digunakan untuk mempersiapkan data training walaupun memiliki beberapa keterbatasan dalam mengelola “big data”. Untuk data yang tidak terlalu besar, aplikasi bawaan ms office ini cukup dapat diandalkan.

Walaupun cross validation banyak diterapkan saat ini, tetapi dengan 80% data training dan sisanya untuk testing (20%) sudah cukup untuk mengukur akurasi model yang dirancang. Sebagai contoh data training berikut dapat digunakan, dengan data latihnya. Berikut langkah proses mempersiapkan data training dan data testing.

1. ANFIS

Untuk ANFIS data training dan target digabung menjadi satu. Formatnya karena sudah sesuai dengan format pentabelan di Excel maka cukup menyiapkan data training saja. Gunakan dua kode ini untuk mengimport data dengan Matlab.

  • load(‘data.dat’);
  • load(‘testing.dat’);

Untuk ANFIS, fungsi “anfisedit” disediakan Matlab untuk melatih ANFIS lewat data yang ada. Karena isian sudah dalam bentuk DAT maka sebenarnya dua kode di atas hanya digunakan nanti untuk testing dan training lewat model lainnya seperti JST, SVM, dll.

Pastikan training data muncul dengan tiga kelas sesuai dengan data (kelas 1, 2 dan 3). Berikutnya “Generate FIS” diklik untuk meramu FIS yang masih kosong.

Angka 3 di atas berarti ada 3 komponen MF di tiap input. Jumlah angka yang muncul menandakan jumlah masukan, di sini ada empat input yang merupakan variabel penentu output. Tipe MF ada banyak, di sini akan digunakan “trimf” yang paling sederhana (linear). Gunakan saja defaultnya (3 komponen di tiap inputan), yang merepresentasikan kondisi “low”, “medium”, dan “high”. Output gunakan saja konstan. ANFIS hanya tersedia di jenis fuzzy “Sugeno”. Tekan “Struktur” di sisi kanan untuk melihat sekilas Network yang siap dilatih.

Berikutnya masuk ke panel “Train FIS” untuk melatih Network. Ada dua pilihan pembelajaran: hybrid dan backpropagation. Gunakan saja “hybrid”. Berikut merupakan hasil training dengan 3 epoch (mirip iterasi).

Error tampak di layar utama (sekitar 0.1445). Simpan hasil pelatihan lewat “File” – “Export” – Pilih file.

Setelah nama fuzzy diisi (berekstensi *.fis) maka model siap diuji dengan data testing yang sudah ada. Misalnya diberi nama “anfisiris.fis”. Untuk testing gunakan kode berikut ini:

  • anfisiris=readfis(‘anfisiris.fis’);
  • prediksi=evalfis(testing(:,1:4);
  • tes=testing(:,1:4)
  • hasil=evalfis(tes,anfisiris)

Terakhir adalah menghitung akurasi dengan cara prosentase MAPE (Mean Average Percentage Error)-nya:

Jika dibandingkan maka akan tampak beberapa yang error, misalnya di sini ada satu yang error, jadi nilai MAPE-nya= 1/39 *100 = 2,56 %. Atau akurasinya = 100-2,56 = 97,44%. Sedangkan jika ingin mengetahui prediksi mana saja yang tidak akurat dapat menggunakan matriks confusion.

  • target=testing(:,5);
  • target=transpose(target);
  • prediksi=transpose(round(hasil));
  • c=confusionmat(target,prediksi)
  • c =
  • 13 0 0
  • 0 13 0
  • 0 1 12

Cara membaca matriks confusion adalah sebagai berikut. Kolom merupakan prediksi sementara baris adalah aktualnya (dalam hal ini sama dengan target (testing di kolom kelima). Fungsi “round” ditambahkan pada hasil untuk mencari kelas prediksi terdekat, misalnya 2.7 dikategorikan kelas “3”. Diagonal pada matriks confusion menyatakan akurasi. Perhatikan di baris kedua kolom ketiga, di sini harusnya 13 tetapi berisi 12 karena ada satu prediksi 3 (baris ketiga) tetapi kenyataannya 2 (kolom kedua).

2. Neural Networks (Jaringan Syaraf Tiruan)

JST perlu memisahkan data training dengan target (labelnya). Selain itu, formatnya juga berbeda dengan data pada ANFIS, dimana variabel berdasarkan baris. Untuk itu perlu modifikasi data yang ada berdasarkan “data.dat” dan “testing.dat”. Berikut ini kode untuk data training dan targetnya.

  • load(‘data.dat’);
  • load(‘testing.dat’);
  • datalatih=data(:,1:4);
  • datalatih=transpose(datalatih);
  • target=data(:,5);
  • target=transpose(target);

Coba cek dengan fungsi “size”, pastikan jumlah baris merepresentasikan jumlah variabel, sementara jumlah kolom merepresentasikan jumlah data. Berikutnya buat JST kosong dan latih.

  • network=newff(datalatih,target,[81 81]);
  • network=train(network,datalatih,target);

Perlu disiapkan data untuk testing.

  • tesdata=testing(:,1:4);
  • tesdata=transpose(tesdata);
  • targettes=testing(:,5);
  • targettes=transpose(targettes);

Selanjutnya menggunakan fungsi “sim” untuk memprediksi.

  • hasil=sim(network,tesdata);
  • aktual=targettes;
  • prediksi=round(hasil);
  • c=confusionmat(aktual,prediksi);
  • c =
  • 13 0 0 0
  • 0 11 2 0
  • 0 4 6 3
  • 0 0 0 0

Dari matriks confusion di atas dapat diketahui precision-nya (atau dikenal juga dengan nama MAPE). Caranya adalah membandingkan total yang benar (angka di sisi diagonal) dengan total data testing.

  • 13+11+6
  • ans =
  • 30
  • ans/39
  • ans =
  • 0.7692

Akurasi yang dihasilkan (MAPE) adalah 76.92%.

3. Support Vector Machine (SVM)

SVM hanya memisahkan dua kelas yang berbeda. Jika ada lebih dari dua kelas, maka perlu modifikasi dengan menggunakan lebih dari satu garis pemisah. Salah satu tekniknya adalah membuat pohon keputusan. Misalnya ada tiga kelas (kelas 1, kelas 2 dan kelas 3) maka perlu dibuat tiga garis pemisah, misalnya kita beri nama svm1, svm2 dan svm3.

  • svm1, pemisah antara kelas 1 dan kelas 2
  • svm 2, pemisah antara kelas 1 dan kelas 3, dan
  • svm 3, pemisah antara kelas 2 dan kelas 3

 

(source: link)

Selanjutnya, dibuat logika if-else untuk mengarahkan garis pemisah yang sesuai (atau dengan teknik lain yang sesuai). Berikut ini salah satu contohnya:

  • test1=svmclassify(svm1,datatesting)
  • if test1==1
  • test2=svmclassify(svm2,datatesting)
  • if test2==1
  • class=’1′
  • else
  • class=’3′
  • end
  • else
  • test3=svmclassify(svm3,datatesting)
  • if test3==2
  • class=’2′
  • else
  • class=’3′
  • end
  • end

Untuk membuat garis pemisah, Matlab menyediakan fungsi “svmtrain”. Jika ingin membuat garis pemisah antara kelas 1 dan kelas 2 (svm1) diperlukan data latih yang memiliki kelas 1 dan kelas 2 (tanpa menyertakan kelas 3) disertai dengan group-nya (dalam JST dikenal dengan istilah target).

  • svm1=svmtrain(train,group)

Di sini “train” merupakan data gabungan kelas 1 dan kelas 2, begitu pula “group” merupakan kelas yang sesuai dengan “train”. Gunakan excel untuk memilah-milah antara kelas 1 dengan kelas lainnya untuk membuat svm2, dan svm3.

 

Competitive Network dan Contoh Implementasinya

Tipe network ini menghasilkan keluaran yang terbesar sebagai pemenang. Misal ada tiga input sebesar 1,2, dan 3, maka pemenangnya adalah input ketiga (sebesar 3). Berikut notasi standar competitive network.

Fungsi competitive network pada matlab adalah “compet”. Buka command window pada Matlab dan coba fungsi “compet”. Untuk lebih jelasnya silahkan buka help dengan mengetik “help compet” di command window.

  • a=[1;2;3];
  • compet(a)
  • ans =
  • 0
  • 0
  • 1
  • compet(-a)
  • ans =
  • 1
  • 0
  • 0

Perhatikan kode di atas. Jika ingin menemukan nilai tertinggi gunakan fungsi compet(a) sementara jika ingin mencari terendah, gunakan compet(-a). Biasanya mencari nilai terendah digunakan dalam menentukan mana yang paling mirip (similar) antara beberapa hasil output. Tentu saja ada sedikit modifikasi kode untuk memberitahu hasil minimum suatu inputan.

Misal kita beri nama tiga input tersebut berturut-turut “nilai A”, “nilai B” dan “nilai C”. Maka sistem diminta menampilkan nilai mana yang terkecil? Lanjutkan dengan kode berikut ini.

  • input1=[“nilai A”;”nilai B”;”nilai C”];
  • hasil=compet(-a);
  • [ind,result]=find(hasil);
  • minimum=input1(ind)
  • minimum =
  • “nilai A”

Lebih simple dibandingkan dengan menggunakan “if-else” berikut ini yang jauh lebih panjang jumlah baris programnya, apalagi yang akan dibandingkan sangat banyak.

  • if (a(1)<a(2)) && (a(1)<a(3))
  • minimum=’Nilai A’
  • else
  • if a(2)<a(3)
  • minimum=’Nilai B’
  • else
  • minimum=’Nilai C’
  • end
  • end
  • minimum =
  • ‘Nilai A’

Membuat Mask (Bingkai) Pada Citra & Manfaatnya

Postingan ini bermaksud menginformasikan problem ketika pencocokan pola citra kurang berhasil akibat pola yang tidak memiliki bingkai. Ketika dengan Autoassociative Memory diminta memprediksi angka satu berikut (lihat yang berwarna putih).

Prediksi di sebelah kanan memang tepat angka satu, tetapi terpotong di bagian atas dan bawahnya. Kita coba untuk menambahkan bingkai pada citra yang akan dilatih dan diterka.

Menambahkan Nol di Sekitar Matriks

Misal angka nol di bawah akan dibuatkan bingkainya. Langkah pertama adalah mengetahui ukuran matriks angka nol tersebut.

Gunakan fungsi size di Matlab. Setelah itu dengan fungsi “zeros” buat matriks berukuran dua digit lebih banyak dari ukuran sebelumnya. Misalnya matriks di atas memiliki ukuran baris x kolom sebesar 5 x 3 maka buatlah matriks nol dengan ukuran 7 x 5.

  • imshow(nol,’InitialMagnification’,’fit’)
  • nolmask=zeros(7,5);
  • nolmask(2:6,2:4)=nol;
  • imshow(nolmask,’InitialMagnification’,’fit’)

Perhatikan angka nol (yang berwarna putih) telah memiliki bingkai (warna hitam di sekelilingnya). Berikutnya kita coba melatih jaringan syaraf tiruan (JST) yang sebelumnya tanpa bingkai. Diuji dengan angka satu udah ok: hasil: “satu” (sebelah kiri) dan yang sebelah kanan nol dengan sedikit error berhasil mendeteksi (hasil deteksi: “nol”).

Instal Matlab Mobile (Android)

Matlab pertama kali diciptakan untuk memanipulasi matriks dengan cepat dan praktis. Oleh karena itu diberi nama “Matlab” singkatan dari Matrix Laboratory. Kemampuan yang sesederhana kalkulator diimbangi dengan pemrograman yang berat membuat aplikasi ini banyak disukai oleh peneliti-peneliti yang bermain dengan komputasi. Tidak lengkap sepertinya saat ini jika ada aplikasi yang tidak ada versi androidnya. Matlab pun menyediakan aplikasi versi android yang dapat digunakan oleh peneliti dan mahasiswa dimanapun berada. Postingan ini sekedar membagikan info bagaimana instal aplikasi Matlab via android ini.

1. Mengunduh Aplikasi

Berhubung smartphone saya menggunakan sistem operasi android maka mau tidak mau menggunakan playstore untuk mengunduhnya.

Tekan tombol Install untuk memulai instal aplikasi Matlab android ini. Sepertinya tidak perlu dijelaskan lebih jauh, butuh beberapa menit untuk menginstalnya. Pastikan Matlab siap digunakan.

2. Sign Up

Langkah berikutnya adalah mendaftar akun di www.mathworks.com. Tahap ini didahului oleh instal upgrade aplikasi. Sangat dianjurkan jika Anda punya lisensi Matlab, tetapi jika tidak tentu saja tidak perlu upgrade.

Satu hal penting untuk dapat mendaftar akun di Matlab adalah email resmi, bukan gmail, yahoo, dan sejenisnya. Setelah memasuki regional, lanjutkan dengan aktivasi dengan cara mengklik link yang dikirimkan via email resmi tersebut.

3. Testing

Selamat, Anda telah berhasil menginstal Matlab mobile. Berikut ini saya coba memanipulasi matriks, menampilkan citra dan menjalankan salah satu fungsi, yaitu normalisasi Euclidean. Beberapa juga sudah saya coba membuat plot/grafik, dapat dilaksanakan juga. Selamat mencoba, semoga bermanfaat.

Associative Memory Jaringan Syaraf Tiruan dengan Matlab

Jaringan Syaraf Tiruan (JST) ditemukan oleh ilmuawan ilmu komputer dengan maksud menciptakan sistem yang menyerupai otak manusia. Salah satu kemampuan otak manusia adalah mengingat sesuatu. Perhatikan piramida taksonomi bloom di bawah ini.

Tingkat paling rendah dari otak kita adalah mengingat, dilanjutkan pemahaman, dan seterusnya hingga membuat (creating). Postingan berikut ini memperlihatkan kemampuan JST dalam mengingat suatu citra, misalnya huruf dan angka.

Kasus. Berikut ini contoh kasus untuk membuat JST yang mampu mengingat dan memahami. Jika diberikan masukan angka 7 maka JST diharapkan mengeluarkan huruf “t”. Dengan kata lain JST selain mengingat juga memahami prinsip asosiasi, jika “7” maka “t”.

Anda diminta untuk:

  • 1. Membuat JST
  • 2. Menentukan parameter-parameter JST
  • 3. Menguji JST

Penyelesaian. Untuk mudahnya, gunakan Matlab dalam perhitungannya. Masuk ke jendela command window.

1. Model JST yang tepat untuk menyelesaikan masalah ini adalah “Symmetric Hard Limit Associator” dengan metode pembelajaran Hebbian.

Di sini P merupakan input yang akan dilatih (angka “7”) sementara A merupakan keluarannya. Untuk melatihnya di sini angka “t” merupakan target pelatihannya. Pertama-tama siapkan dua matriks baris P dan T yang masing-masing menunjukan angka “7” dan huruf “t”.

  • >> P=[1 1 1 1;0 0 0 1;0 0 1 0;0 1 0 0]
  • P =
  • 1 1 1 1
  • 0 0 0 1
  • 0 0 1 0
  • 0 1 0 0

Pastikan P menunjukan angka “7”. Selanjutnya mengubah 0 menjadi -1. Sebenarnya bisa saja langsung dari pembuatan matris P di atas, tetapi mengetik -1 membutuhkan dua proses, lebih lama dari mengetik angka 0. Jadi dengan instruksi berikut Matriks P menjadi -1 seluruh angka nol-nya.

  • >> P=P*2-1
  • P =
  • 1 1 1 1
  • -1 -1 -1 1
  • -1 -1 1 -1
  • -1 1 -1 -1

Selanjutkan jadikan matriks P ini menjadi matriks kolom dengan memanfaatkan fungsi “reshape” Matlab.

  • >> P=reshape(transpose(P),[16,1])

Matriks P menjadi matriks kolom yang berukuran 16×1. Lakukan hal yang sama untuk matriks target nya (huruf “t”).

  • >> T=[0 1 0 0;1 1 1 1;0 1 0 0;0 1 1 1];
  • >> T=T*2-1;

T=reshape(transpose(T),[16,1])

2. Parameter-parameter JST antara lain bobot yang dihitung dengan persamaan: W = TPT dengan superscript T artinya “transpose”.

  • >> W=T*transpose(P)
  • >> size(W)

Perhatikan bobot W yang berisi matriks W yang berukuran 16×16.

3. Untuk mengujinya, masukan saja matriks P dan kalikan dengan W. Pastikan hasilnya adalah matriks T.

  • >> A = hardlims(W*P);
  • >> matriksA=reshape(A,[4 4])
  • >> matriksA=transpose(matriksA)
  • matriksA =
  • -1 1 -1 -1
  • 1 1 1 1
  • -1 1 -1 -1
  • -1 1 1 1

Gunakan fungsi “imshow” untuk melihat matriksA apakah sama dengan target T.

  • >> imshow(matriksA,’InitialMagnification’,’fit’)

Tampak huruf t yang diperoleh (di sini angka 1 ditunjukan dengan warna putih, sementara angka -1 dengan warna hitam). Selamat, Anda telah berhasil membuat JST yang bisa mengingat dan memahami suatu pola (huruf dan angka).

Melihat Network Hasil Training dengan NNTOOL

Secanggih apapun alat bantu tetap saja kita butuh pengetahuan akan prinsip-prinsip kerjanya. Begitu pula Matlab yang dalam meramu Jaringan Syaraf Tiruan (JST) menawarkan toolbox NNTOOL. Selain dengan toolbox berbasis Graphic User Interface (GUI), Matlab di versi awal hanya menyediakan toolbox berbentuk fungsi, yaitu newff.

Pelatihan/Training

Sebagai contoh kasus, misalnya kita diminta meramu JST untuk merubah masukan menjadi keluaran berdasarkan logika XOR. Perlu diketahui, riset JST sempat terhenti karena tidak sanggup menyelesaikan kasus sederhana tersebut. Barulah setelah multilayer JST baru dapat diselesaikan masalah tersebut. Pertama-tama kita siapkan dulu data trainingnya:

  • >> data=[1 1 0 0; 1 0 1 0];
  • >> target=[0 1 1 0];
  • >> net=newff(data,target,[2]);
  • >> net=train(net,data,target);

Berikutnya akan muncul jendela progress pelatihan. Karena hanya sederhana, prosesnya cepat.

Untuk menguji hasil training tes saja dengan mensimulasikan JST dengan input data. Pastikan outputnya sesuai dengan target.

  • >> sim(net,data)
  • ans =
  • 0.9980 0.9845 0.9612 0.5277

Perhatikan jawaban di atas, cukup banyak error-nya, harusnya [0 1 1 0]. Ok, anggap saja sudah akurat. Setelah disimpan dengan mengetik “save xor” di command window network tersimpan dalam bentuk file xor.mat yang siap digunakan nanti. Jika tidak disimpan maka ketika Matlab dimatikan maka hasil pembelajaran (training) tentu saja akan hilang.

Melihat Bobot dan Bias

Nah, untuk melihat bobot dan bias banyak yang tidak mengetahui. Padahal inti dari teori JST adalah bagaimana menemukan bobot dan bias yang tepat. Jalankan NNTOOL dengan mengetik nntool pada command window.

>>nntool

Jendela Network/Data Manager akan muncul. Tekan Import untuk melihat network hasil pembelajaran.

 

Berikutnya klik ganda net pada sisi Networks untuk melihat isi dari JST yang pernah kita latih dulu. Lihat sisi Weight/Bias. Bobot dan bias tampak di tiap sisi, baik masukan, hidden layer dan keluaran. Selamat mencoba.

 

Training, Validating, Testing dan Corpus

Empat kata di atas, terutama tiga pertama merupakan istilah yang banyak disebut dalam literatur machine learning. Sementara yang keempat, Corpus, muncul belakangan ketika banyaknya pihak-pihak yang berkontribusi dengan membagikan file big data yang dimilikinya. Postingan kali ini sedikit menambah penjelasan mengenai penggunaan istilah-istilah di atas.

Training

Istilah ini merupakan pengkhususan dari arti sebenarnya: pelatihan/pembelajaran. Teringat ketika presentasi hasil penelitian di kampus yang dihadiri oleh beragam bidang ilmu. Salah satu peserta dari fakultas agama Islam memprotes manfaat dari training yang katanya tidak perlu karena menghambur-hamburkan dana. Peserta dari fakultas teknik, terutama jurusan informatika, hanya bisa tersenyum karena maklum istilah training di penelitian itu adalah proses melatih model agar diperoleh parameter yang tepat, bukan pelatihan berupa kursus, workshop, dan sejenisnya. Diperlukan data yang disertai dengan label dalam proses training ini. Banyak metode yang digunakan, biasanya backpropagation dengan turunannya gradient descent atau levenberg marquardt (LM). Data training ini dikenal dengan istilah training set.

Validating

Jika training membutuhkan data beserta label agar diperoleh parameter yang tepat, misalnya untuk jaringan syaraf tiruan (JST) berupa bobot dan bias, validating berisi data beserta label pula yang dimaksudkan untuk menguji hasil training apakah sudah akurat atau belum. Jika beruntung, hasil validasi akurat, biasanya di atas 75%. Jika belum harus di-training ulang. Data untuk validasi biasanya sebagian data training. Istilah data untuk validasi adalah development set, held-out set, atau validation set. Terkadang sebagian data training dipakai untuk validasi, kemudian secara bergantian yang tadinya buat training menjadi testing, yang dikenal dengan istilah cross validation.

Testing

Data testing atau dikenal dengan istilah testing set wajib dijalankan setelah validasi. Fungsinya membuktikan apakah model sudah sesuai dalam artian akurat di validasi dan akurat juga di kenyataannya. Data yang digunakan untuk testing merupakan data real yang tidak digunakan untuk training. Tentu saja tidak “fair” menggunakan data training untuk testing, ibarat ujian, soal yang diujikan diberitahu terlebih dahulu.

Corpus

Corpus merupakan kumpulan data spesifik. Jamaknya dikenal dengan nama Corpora. Data ini biasanya digunakan untuk testing yang berasal dari lembaga yang bersedia men-share untuk pembelajaran bersama, misalnya data aeronatika, video, suara, gambar, dan lain-lain. Jika Anda menginstal Python, disertakan juga Corpora secara opsional, karena memang ukurannya yang besar. Tentu saja Corpus ini dipergunakan biasanya untuk pengujian metode/algoritma apakah akurat atau tidak. Sementara untuk data spesifik tertentu, misal pengambilan keputusan kredit bank, pemberian beasiswa, penyetujuan proposal, perlu mencari data real yang ada jika tidak ada yang men-share karena memang data tersebut khusus/spesifik dimana tiap institusi/lokasi/objek penelitian berbeda-beda karakteristiknya. Yuk, yang punya data, bagi-bagi, untuk membantu riset teknologi informasi, terutama yang punya data bidang kesehatan.