Peralatan Data Sains

Saat ini bidang-bidang ilmu memerlukan instrumen dalam analisis data yang ada. Instrumen tersebut biasanya terkait dengan informatika atau ilmu komputer. Tentu saja bidang-bidang ilmu seperti kedokteran, ekonomi, psikologi, dan lain-lain akan memerlukan waktu jika diharuskan belajar ilmu komputer. Oleh karena itulah pakar-pakar ilmu komputer berusaha menyediakan sarana berupa aplikasi agar bidang lain selain informatika dapat memanfaatkan metode atau teknik yang dikembangkan oleh pakar ilmu komputer untuk menyelesaikan problem masing-masing bidang/disiplin ilmu.

Tahun 2008 merupakan tahun yang mengesankan karena di tahun itu perkuliahan pasca sarjana bidang ilmu komputer saya mulai. Bidang ilmu komputer merupakan bidang baru karena sarjana saya yang cukup berbeda, yaknik teknik mesin. Tiap jumat malam dan sabtu, dengan mengendarai motor suzuki thunder, perjalanan bekasi ke jakart terasa ringan, walau kalau dipikir-pikir saat ini, kaget juga, mengapa saya kuat berkendara roda dua sejauh itu. Salah satu dosen kebetulan bukan doktor bidang ilmu komputer, namun memiliki kemampuan dan juga kebijaksanaan dalam mengajari para mahasiswa terkait ilmu komputer. Salah satunya adalah data mining, dimana Dr. Prabowo Pudjo Widodo, kerap membagikan software-software untuk mengelola data mining, salah satunya adalah RapidMiner.

Walaupun software itu sejatinya untuk peneliti non komputer, tetapi cocok juga untuk praktik dasar-dasar data mining (dalam bahasa Indonesia diberi istilah penambangan data). Nah, saat ini RapidMiner sudah ada versi 2025 yang dikenal dengan sebutan Altair AI Studio. Seperti penamaan standar, nama depan berarti vendornya, yakni Altair. Seperti Microsoft Word, berarti Microsoft itu vendornya. Visualisasi, analisa statistik, pengolahan data, dan pekerjaan-pekerjaan sains data lainnya dapat dimanfaatkan oleh software free tersebut (asalkan data <= 10.000 record). Memang software lain, seperti tableau, atau power BI lebih powerful, tapi berbayar.

Salah satu paket menarik dari RapidMiner adalah AutoModel. Di sini kita jika punya satu set data, khususnya dalam format CSV, ketika diunggah ke RapidMiner maka secara otomatis akan diberikan rekomendasi apa saja yang bisa dilakukan, seperti Clustering, Prediction/Inference, Regression, Association Rule, dan lain-lain. Silahkan lihat postingan berikut mengenai fungsi-fungsi dalam Data Mining.

Predictive Analysis – DTree

Clustering – KMeans

Market Basket Analysis

Association Rule

Era Open Source Mulai

Kira-kira satu atau dua tahun yang lalu, beberapa proyek meminta untuk implementasi AI di aplikasi berbasis web. Kebetulan karena jamannya pilpres dan pilkada, teknik scrapping berita di media online kemudian mengecek sentimen dan emosi dari postingan banyak yang minta. Alhasil mengingat keterbatasan yang ada, Naive Bayes, SVM dan metode klasik lainnya jadi andalan. Dengan data terbatas bisa dilatih model yang mampu mengetahui sentimen dari berita online, dengan akurasi yang tidak jauh dari 80%.

Waktu itu ChatGPT mulai muncul dan tentu saja mengalahkan model-model klasik lainnya. Salah satu keterbatasannya adalah jika ingin memanfaatkan fasilitas model GPT itu, harus berlangganan, dan karena berbasis Application Programming Interface (API), mesin AI tidak berada di sisi kita, melainkan hanya ‘menyewa’. Biayanya pun tidak tanggung-tanggung, hitungan per kata.

Untuk menghitung sentimen, dengan metode klasik pun bisa, tapi jika diminta membuat ringkasan (summary), meringkas, melaporkan (reporting), tentu saja mengandalkan model LLM gratis, waktu itu masih kurang akurat. Namun toh, aplikasi bisa berjalan dengan tetap pengguna mengecek ulang keakuratannya dan tidak serta-merta percaya.

Waktu terus berjalan, Donald Trump tampil dan mengumumkan perang dagang dengan China. Nah, di sinilah muncul DeepSeek, AI buatan China yang mengungguli ChatGPT dari sisi kalkulasi matematis. Bukan hanya itu, mesin AI-nya pun dibagikan secara cuma-cuma dalam skema Opensource. Sehingga pengguna tidak perlu berlangganan jika ingin memanfaatkan Generative AI tersebut. Bayangkan, bagaimana hebohnya pengguna yang sudah terlanjur berlangganan ChatGPT, dipastikan akan beralih ke yang gratis. Walaupun tentu saja masih banyak yang ragu, tapi toh, model yang dibagikan itu karena open source, bisa terlihat struktur dalamnya. Ada beberapa bias, khususnya informasi terkait Taiwan, yang menurut DeepSeek masih bagian dari China. Sebelumnya, model QWEN dari Alibaba juga mulai menyaingi ChatGPT, yang cocok untuk bisnis, tapi dari sisi matematis masih kalah dengan DeepSeek.

Kelebihan DeepSeek ternyata tidak didukung oleh situs onlinenya yang terkadang ‘sibuk’ ketika ditanya, terutama ketika memanfaatkan fasilitas ‘deepthink’ dan ‘web’. Namun, toh bisa kita install di laptop kita dan dapat berjalan walau tanpa terkoneksi ke jaringan, sangat cocok untuk yang tidak punya pulsa. Berikut video bagaimana menginstallnya di Mac, dengan bantuan situs Ollama [Link] dan interface Chatbox [Link].