Riset Tentang Web Mining

Lanjutan dari postingan yang lalu. Semua orang pasti memiliki jawaban yang sama tentang pentingnya aplikasi web, yaitu sangat penting. Mulai dari facebook, google, baca berita, dan mencari informasi lainnya selalu menggunakan aplikasi berbasis web. Walaupun saat ini aplikasi android sudah menjamur, tetapi tetap saja web menjadi hub yang menghubungkan client dengan server aplikasi dan server data. Perkembangannya yang sangat cepat membuat riset di bidang ini harus secepat mungkin karena satu teknologi akan segera usang seiring berjalannya waktu.

Banyak Anak Muda yang Tertarik

Web mining merupakan ilmu yang baru. Anak-anak muda karena sudah mengenal web sejak sekolah menengah tidak akan merasa kesulitan untuk mempelajarinya. Terkadang mereka lebih mahir dari pada guru-guru bahkan dosennya. Ketika saya mengikuti wawancara untuk mendapatkan beasiswa S3, saya iseng meminjam proposal milik peserta yang kebanyakan masih muda. Kebanyakan mereka ingin riset yang ada hubungannya dengan web, misalnya semantik web.

Bukan hanya untuk riset, banyak orang menggunakan web untuk mencari uang (affiliate marketing) dengan teknologi-teknologi yang dikembangkan seperti web crawler ataupun robot-robot yang diistilahkan dengan nama bot.

Bidang-bidang Riset Web Mining

Sesuai dengan unsur katanya, web mining berarti menggali informasi yang ada di web. Berbeda dengan data mining yang menggali informasi dari data terstruktur, web mining menggali informasi dari data semi-structure bahkan unstructured. Web mining lebih sulit karena jenis datanya yang tidak terstruktur dan terkadang banyak data “sampah” yang mengganggu proses penggalian data.

Untuk melakukan riset, langkah pertama yang harus ditempuh adalah mempelajari prinsip-prinsip dasar yang sudah baku di buku teks. Jangan sampai kita melakukan riset terhadap sesuatu yang sudah “established”. Teori-teori di buku biasanya sudah fix dan diakui kebenarannya oleh hampir peneliti-peneliti di dunia. Biasanya mahasiswa S3 terkadang mengambil mata kuliah bidang yang akan diriset sebelum masuk ke kandidasi (syarat untuk diperbolehkan meneliti). Langkah berikutnya adalah men-searching jurnal-jurnal terkini tentang web mining.

Untuk buku silahkan baca buku-buku yang beredar, terutama yang bahasa Inggris, misalnya “Mining the web” dan buku-buku semantic web lainnya (Linoff & Berry, 2001; Yu, 2011). Di sini disebutkan ada tiga aktivitas Web mining yang penting:

  • Mining structure
  • Mining usage
  • Mining content

Structure Mining

Silahkan masuk ke salah satu bidang web mining di atas. Yang pertama adalah Mining structure. Penggalian ini bermaksud mencari struktur dari web, biasanya link-link yang ada dalam suatu halaman. Halaman mana saja yang kerap menjadi target dari halaman yang lain? Halaman mana yang menunjuk ke halaman-halaman lain? dan seterusnya. Grafik yang sering dibuat adalah graf berarah yang menunjukan hubungan satu halaman dengan halaman lainnya. Penerapan yang sering dibuat adalah menghitung sitasi terhadap suatu halaman. Istilah yang sering muncul adalah hub, authorities, dan populer site. Tidak hanya melibatkan halaman yang berbeda, struktur lokal pun masuk dalam domain structure mining asalkan melibatkan hubungan-hubungan link.

Mining Usage Pattern

Di sini ada tambahan kata “pattern” karena biasanya yang digali adalah pola penggunaan suatu page. Dua bidang utamanya adalah clickstream analysis dan web logs. Masalah-masalah yang muncul adalah bersih atau tidaknya page yang dikoleksi. Oleh karena itu diperlukan langkah-langkah sebagai berikut:

  • Filtering
  • Despidering (anti spider)
  • User identification
  • Sessionalization, dan
  • Path completian.

Mining Content

Menggali isi web-web yang berserakan di dunia maya membutuhkan keahlian dalam menangani text/string karena sebagian besar web tidak terstruktur. Baca dan pelajari information retrieval dari buku-buku yang tersedia, misalnya buku yang gratis didonlot dari penerbitnya ini. Konsep-konsep stemming, dan sejenisnya (recall, precission, dll) banyak di bahas di buku tersebut. Oiya, sebagian saya tulis di post tentang information retrieval. Silahkan riset jika tertarik, saya sendiri masih meraba-raba, jika tidak sanggup ya back to basic: spatial data optimization.

Ref:

  • Linoff, G. S., & Berry, M. J. A. (2001). Mining the Web. United States of America: Wiley.
  • Yu, L. (2011). A Developer’s Guide to the Semantic Web. New York: Springer.

 

Export ArcGIS beserta Basemap ke Format Lain

Salah satu fungsi ArcGIS adalah untuk presentasi. Presentasi di sini bisa berupa cetakan (print out) atau file. Terkadang karena tidak semua orang memiliki ArcGIS, maka perlu mengkonversi file project ArcGIS ke format lain. Salah satu format yang terkenal adalah gambar (JPG, BMP, dan TIFF) dan PDF. Ada format-format lain yang bertipe vektor. Di sini akan dibahas untuk yang tipe gambar atau dikenal dengan istilah raster.

Salah satu fasilitas yang cukup penting untuk presentassi dan pembuatan peta pada ArcGIS adalah basemap. Kita coba tambahkan basemap, untuk memperjelas peta yang akan dikonversi ke gambar. Ada beragam basemap yang tersedia di ArcGIS. Untuk mengaksesnya silahkan masuk ke menu tambah layer pada gambar di bawah ini.

Salah satu yang terkenal adalah OpenStreetMap yang menunjukan jalan-jalan di seluruh dunia. Pilih dengan mouse lalu tekan Add untuk menambahkan basemap di layer. Oiya, saya mencoba Streets ternyata hasilnya tidak sedetil OpenStreetMap.

Jika sudah maka masuk ke file dilanjutkan dengan export map untuk mengisi pilihan format yang cocok. Lanjutkan dengan mengisi nama file beserta formatnya. Untuk informasi detilnya silahkan kunjungi situs resminya.

Untuk PDF sepertinya banyak fasilitas yang dapat digunakan, misalnya jika layout yang dibuat di arcGIS lebih dari satu halaman (lihat cara membuat layout). Resolusi yang pas untuk peta seukuran Bekasi adalah kira-kira 200 dot per in (dpi). Jika kurang maka basemap kurang jelas (blur), tetapi kalau kebesaran bisa hang pabila komputer tidak kuat (ram dan prosesor-nya). Hasilnya dapat dilihat sebagai berikut:

Sayangnya untuk basemap Google atau Bing tidak bisa dikonversi ke JPG (hanya gambar shapefilenya saja yang tercetak) padahal baik Bing maupun Google memiliki fasilitas yang lengkap untuk citra satelitnya (lihat cara menginstall plugin Bingmap/Google). Tetapi untuk menunjukan jalan dan wilayah tertentu sepertinya fasilitas bawaan ArcGIS sudah ampuh. Selamat mencoba.

Mengisi IEEE Copyright untuk Publikasi

Mungkin banyak pembaca yang sudah terbiasa mengisi form IEEE copyright yang biasanya diminta oleh pengelola jurnal atau seminar sebelum tulisan dipublikasi lewat IEEE. Saya sendiri baru dua kali, dan seperti biasa masalah lupa merupakan kendala utama. Terpaksa email-email yang dahulu dibuka-buka lagi untuk contekan. Untuk yang baru pertama kali, mungkin postingan ini bisa sedikit membantu.

Setelah mengunduh form dari link yang disediakan pengelola seminar (misalnya ICIC 2017), buka dengan Pdf reader yang bisa mengisi TEXT karena harus ada isian yang diisi. Banyak software yang tersedia di internet, misalnya Foxit Pdf reader. Dengan menggunakan menu Comment tinggal menempatkan text box di lokasi isian.

Bagi yang tidak suka menginstal software Pdf reader yang bisa mengisi text box, bisa dengan cara mengkonversi form IEEE itu menjadi ms word. Banyak fasilitas online yang tersedia misalnya link ini. Tinggal upload file pdf kemudian file doc siap diunduh dan diisi.

Sekarang masalahnya adalah mengisinya. Ada lima isian yang harus diisi yaitu: 1) judul paper, 2) Author, 3) Nama jurnal/conference, 4) Nama dan tanda tangan, 5) Tanggal penandatanganan. Biasanya, panitia seminar sudah mengisikan nama conference yang akan dilaksanakan.

Kemudian bagian penandatanganan sedikit hati-hati karena ada tiga isian tanda-tangan. Isi pada bagian di bawah General Terms, jangan pada isian US Government .. dan Crown … Nama dan tanggal bisa diisi dengan ketikan atau tulis tangan seperti saya (maklum darurat, sedang pelatihan IELTS 3 bulan di jogja).

Setelah itu di-scan dan kirim ke panitia. Itu merupakan paper pertama saya (diselenggarakan oleh universitas indonesia), terindeks di IEEE dan Scopus, sejak tulisan ini dibuat sudah disitasi dua kali. Yang terpenting sebenarnya adalah naskah diterima dulu, direvisi dan siap publish. Sekian, semoga sedikit bermanfaat.

 

 

 

Mining the Web – Bidang Yang Kian Penting Saat ini

Menurut Prof. Rhenald Kasali, beberapa perusahaan ternama akhir-akhir ini jatuh secara tiba-tiba karena fenomena “disruption”. Fenomena ini merupakan bagian dari konsep “the invisible hand” dari Adam Smith kira-kira se-abad yang lalu. Tapi fenome disruptive muncul karena kejatuhannya yang tiba-tiba tanpa adanya gejala-gejala, ibarat serangan jantung, perusahaan-perusahaan raksasa tumbang mengenaskan. Laporan keuangan yang ok, tidak ada indikasi penetrasi atau serangan dari pesaing, tapi entah mengapa tiba-tiba ditinggalkan konsumen dan hancur. Di sisi lain, digrebeknya grup saracen yang berbasis online, dipenjaranya seorang gubernur karena rekamannya yg beredar online, tokoh aliran tertentu yang masih menunggu diperiksa, dan hal-hal lainnya mewarnai dunia digital di tanah air.

Dulu sempat mengajar e-commerce dan data mining tetapi tidak begitu membahas masalah dampaknya di masyarakat. Ternyata sangat besar. Konsumen mulai bergeser dari offline menjadi online (elektronik). Demo besar-besaran perusahaan taksi ternama di tanah air merupakan suatu sinyal akan adanya perubahaan perilaku konsumen dari offline transaction menjadi online. Dari sisi data mining, yang saya ajarkan (maupun buku yang diterbitkan) hanya berfokus ke database konvensional saja (bukan berbasis web). Oleh karena itu, upgrade ke versi web untuk mendukung terapannya dalam e-commerce sepertinya harus dimulai.

Ketika main ke perpustakaan, saya menjumpai buku lama terbitan 2001 yang membahas data mining pada web. Tahun-tahun itu merupakan tahun mulai berkembangnya riset-riset berbasis web yang hasilnya adalah aplikasi-aplikasi yang banyak dijumpai oleh orang-orang seperti sosial media, entertainment, dan sejenisnya. Berikut intro yang sari sarikan dari buku tersebut.

E-Commerce

Sesuai dengan namanya, e-commerce menjembatani antara produsen dengan konsumen lewat kanal/saluran baru yaitu transaksi elektronik, itu saja. Tetapi ternyata dengan pemanfaat media online dampaknya sangat besar walaupun tidak ada yang berubah dari sistem produksi, penentuan harga, laproan penjualan, dan sebagainya. Hal-hal yang membedakannya adalah kemampuan media online untuk menyediakan layanan yang cepat dalam menawarkan barang lewa “search engine”nya dalam bentuk rekomendasi, mampu mengingat history seorang pelanggan di waktu yang lampau, dan mampu secara cepat mengontrol persediaan barang mengikuti tren pemesanan barang oleh konsumen. Itu saja sudah cukup menghajar pemain-pemain lama yang tidak sadar akan bahayanya lengah terhadap media elektronik online.

E-Media

Selain perdagangan barang real, ternyata media terkena imbas dari media online. Mungkin mereka bisa bertahan karena karakter media yang tajam dalam melihat gejala-gejala adanya suatu fenomena, sehingga beberapa surat kabar bisa dengan “smooth” beralih dari media cetak ke online. Tetapi tentu saja media online memiliki keunggulan dibanding versi cetak karena media cetak tidak bisa mengetahui siapa saja yang telah membaca berita di dalamnya. Media online bisa mengetahui berita-berita yang menarik minat konsumen sehingga di masa yang akan bisa menulis berita-berita yang disukainya itu. Selain itu, media online memiliki karakteristik khusus yang “custom” dimana konsumen bisa memilih berita mana yang ingin diakses, khususnya yang berupa video. Inilah sepertinya yang dikhawatirkan oleh televisi-televisi lokal yang berbasis gelombang frekuensi yang dalam satu waktu tertentu hanya menyiarkan satu acara tertentu. Tinggal menunggu iklan yang lewat, jika tidak ada yang beriklan sepertinya siap-siap mengucapkan kata “selamat tinggal” (mungkin masih bisa bertahan untuk kampanye pemilu).

E-Markets

Saya, atau mungkin kita, pernah kecewa ketika telah membeli sesuatu ternyata ada tempat lain yang menjual dengan harga lebih murah, sakitnya tuh di sini. Dengan e-markets beberapa situs telah menyediakan fasilitas yang membandingkan harga-harga produk, seperti tike pesawat, hotel, dan lain sebagainya. Konsumen tinggal menilai sendiri, cari yang murah atau yang mahal tapi lebih nyaman. Selain itu, situs e-markets bisa menawarkan sesuatu selain yang dibeli, sehingga lebih banyak kemungkinan barang yang berhasil dijual. Sebenarnya ini menguntungkan konsumen juga karena tidak perlu jalan atau naik ekskalator mencari produk tertentu, kecuali memang ingin jalan-jalan.

Brands/Merk

Ini merupakan hal penting yang menunjukan kualitas suatu produk terhadap konsumen. Dari jaman dulu, konsep tentang “branding” tidak berubah. Konsumen cenderung membeli produk yang telah dikenalnya lama. Kematian suatu merk terkadang mengindikasikan kematian suatu perusahaan. Namun saat ini kualitas merk sangat-sangat tergantung dengan media online. Dua kali kecelakaan pada maskapai MAS sudah cukup menurunkan brand maskapai itu. Dan sialnya lagi, maraknya media sosial terkadang menyediakan hoax-hoax yang mengganggu brand suatu produk. Oleh karena itu tiap perusahaan sepertinya menyediakan tim yang memantau pergerakan brand di media online.

Sungguh pembahasan yang menarik. Masih banyak aspek-aspek lain yang bisa dipelajari dari aplikasi web, seperti periklanan, target marketing, customer value, real time considerations, understanding customers and business processes, experimental design for marketing, dll. Semoga tulisan ini bisa berlanjut.

Ref

Linoff, G. S., & Berry, M. J. A. (2001). Mining the Web. United States of America.

Melihat Data Network Hasil Training JST – Versi GUI

Pada postingan yang lalu telah dibahas cara mengetahui hasil training Jaringan Syaraf Tiruan (JST) dengan command window. Begitu juga bagaimana mengupdate salah satu parameternya, misalnya bias dan bias, sudah dibahas. Tetapi beberapa pembaca sepertinya agak kesulitan dengan instruksi-instruksi lewat command window. Oleh karena itu di sini akan dibahas cara yang jauh lebih mudah yaitu dengan “nntool”, salah satu GUI bawaan Matlab untuk merakit JST.

Sebenarnya masalah ini muncul ketika saya mencari kembali hasil training JST untuk peramalan (lihat post peramalan dengan JST di sini). Masalah yang sering dijumpai adalah “lupa”, karena banyaknya yang harus dikerjakan terkadang membuat seseorang lupa. Untungnya saya aktif menulis, tinggal masukan kata kunci di kolom “search” blog, catatan terdahulu yang dicari langsung ketemu. Jadi blog itu seperti catatan yang disimpan di “awan (cloud)” yang bisa diakses di mana saja dan kapan saja. Buka Matlab dan ketik nntool di command window.

Sebelumnya load terlebih dahulu Mat-file hasil training yang berisi variabel-variabel network. Di sini saya ada 7 variabel network yang saya sendiri lupa konfigurasinya. Setelah menekan “Import” di nntool maka muncul pilihan variabel yang akan dilihat. Ambil salah satu variabel hasil loading yang ada di workspace Matlab, dilanjutkan dengan kembali menekan Import setelah memilihnya.

Tekan Ok ketika ada informasi bahwa netwok telah berhasil diimpor. Tutup lagi sementara jendela Import to network/Data Manger. Perhatikan nntool kini telah muncul Network1 hasil impor. Untuk melihat isi dari variabel itu dobel klik saja di variabel tersebut.

Sebenarnya gambar di atas sudah cukup untuk mengetahui struktur JST yang telah dilatih dahulu. Misalnya input yang berjumlah 4 variabel dengan 1 keluaran. Hidden layer yang terletak di tengah tampak berjumlah sembilan. Gambar di atas khusus untuk Matlab versi 2013 ke atas, sementara Matlab versi yang terdahulu tidak memunculkan informasi tentang neuron-neuronnya. Silahkan tekan View/Edit Weights jika ingin melihat konfigurasi bobot-bobotnya. Kebetulan saya memiliki 4 variabel data yang akan dicoba prediksi dengan JST tersebut. Atau jika tidak ada, buat saja sendiri di command window. Tambahkan data input di nntool.

Tekan tombol Simulate pada network untuk memprediksi. Cara ini bisa juga dengan command window lewat instruksi sim.

Ada pesan untuk melihat nntool karena hasilnya dikirim ke sana. Jika sudah kembali ke nntool, tekan dua kali Output. Tampak hasilnya.

Sepertinya dengan nntool tidak banyak mengetik, alias tinggal klak-klik mouse saja. Jadi dengan empat masukan pada data akan menghasilkan satu keluaran (0.48). Di sini sebaiknya kita menggunakan normalisasi data, kalau bisa normal Euclidean, karena matrix yang dibuat dengan normal euclidean ortogonal yang disukai JST.

Perbedaan Penggunaan Lahan dan Penutupan Lahan

Penggunaan lahan dan penutupan lahan (land use and land cover) merupakan bidang riset yang saat ini gencar diteliti dari berbagai disiplin ilmu. Mulai dari geografi, lingkungan, kesehatan, bahkan saya sendiri dari informatika ikut juga berpartisipasi. Bidang riset ini bercirikan data spasial dan temporal. Untuk yang baru kenal ada baiknya bisa membedakan istilah-istilah itu, terutama padanannya dengan bahasa Indonesia yang baku.

Penggunaan Lahan (Land Use)

Penggunaan lahan sering diistilahkan dengan peruntukan lahan atau juga tata guna lahan (Baja, 2012). Artinya adalah bentuk penggunaan lahan oleh masyarakat. Apakah digunakan untuk pertanian, perkebunan, perumahan, atau dibiarkan saja (tidak digunakan). Bagi yang kurang begitu mengetahui perbedaan penggunaan dengan penutupan lahan, biasanya lebih aman menggunakan istilah penggunaan lahan, walaupun sebenarnya ada sedikit perbedaan dengan penutupan lahan.

Penutupan Lahan (Land Cover)

Berbeda dengan penggunaan lahan, penutupan lahan lebih memaknai lahan dari sisi bio-fisikanya, yaitu jenis bio-fisika yang ada di suatu lokasi tertentu, seperti tumbuhan, air, pertanian, bangunan, dan sebagainya. Berbeda dengan penggunaan lahan, penutupan lahan mudah dideteksi dengan penginderaan jarak jauh. Frekuensi tertentu dari sensor pada satelit dapat membedakan tanaman dengan bangunan, air, atau bahkan antara tumbuh-tumbuhan hutan dengan pertanian (agriculture). Penggunaan lahan tertentu seperti sekolah, rumah sakit, hotel, dan industri masuk dalam jenis ‘bangunan’ dari sisi penutupan lahan. Citra satelit sangat sulit mendeteksi perbedaan penggunaan lahan berjenis bangunan itu. Tetapi riset sedang berjalan untuk mengatasinya. Beberapa penggunaan lahan misalnya pertanian dan kehutanan (agriculture vs vegetation), dapat dibedakan dengan teknik pengolahan citra terkini. Konvensi standar pewarnaan pun sudah ada untuk tiap-tiap penggunaan dan penutupan lahan (Anderson, Hardy, & Roach, 1976).

Saat ini alih guna lahan (land use change) banyak diteliti, dan menjadi materi wajib mahasiswa jurusan remote sensing and Geographic Information System (RS-GIS). Software yang bisa digunakan pun beragam dari Dyna Clue hingga IDRISI Selva (Eastman, 2012). Silahkan dicoba.

Referensi:

Anderson, J. T., Hardy, E. E., & Roach, J. T. (1976). A Land use and Land Cover Classification System for Use with Remote Sensing Data. United States of America. Retrieved from https://pubs.usgs.gov/pp/0964/report.pdf

Baja, S. (2012). Perencanaan Tata Guna Lahan dalam Pengembangan Wilayah – Pendekatan Spasial & Aplikasinya. Yogyakarta: Andi Offset.

Eastman, J. (2012). IDRISI selva tutorial. Idrisi production. Clark Labs-Clark Universit. Retrieved May 1, 2017, from https://clarklabs.org/wp-content/uploads/2016/10/TerrSet-Tutorial.pdf

Memecah Kelas Hasil Klasifikasi di ArcGIS

Salah satu tugas penting penelitian mengenai land use adalah klasifikasi citra satelit. Biasanya hasil pengolahan citra yang utama adalah unsupervised classification yang harus dicek lagi akurasinya dengan data real yang lebih akurat (ground view), misalnya aerial view, study lapangan dengan GPS, ataupun cara lain (Google earth, bing aerial, dll). Hasil klasifikasi perlu dipilah misalnya builtup saja, vegetasi saja, dan kelas-kelas lainnya. Dengan ArcGIS untuk memilahnya tidak terlalu sukar, hanya dengan simbologi sudah cukup untuk memisahkan satu kelas dengan kelas lainnya. Misalnya gambar di bawah ini adalah kelas-kelas hasil unsupervised classification pada IDRISI yang diekspor ke ArcGIS.

Dobel klik saja pada peta klasifikasi yang sudah di-geret dari file-nya lewat Catalog. Selanjutnya misalnya yang berwarna merah mudah adalah air, dan akan kita pisahkan dengan yang lain. Tinggalkan saja air dan yang lainnya remove dari symbology.

Jangan lupa konversi dahulu menjadi Unique Values agar bisa dipilah kelasnya. Tekan OK dan peta hasilnya dapat dilihat di bawah ini. Setelah itu jika akan dikonversi ke Google Earth pro dalam format KMZ atau KML tinggal konversi saja seperti dibahas pada postingan yang lalu. Selamat mencoba.