Stopwords Removal Bhs Indonesia – via Sastrawi

Dalam text processing, selain menghilangkan karakter-karakter non bahasa seperti hashtag, website symbols, dan lain-lain, perlu juga menghilangkan stopwords yang merupakan kata yang kurang bermakna untuk diproses karena hampir di setiap berkas ada, misalnya ‘dan’,’atau’, ‘untuk’, dan lain-lain. Bayangkan misalnya kita searching di Google dengan kata kunci ‘A dan B’ maka kata ‘dan’ tentu saja tidak perlu di-searching karena hampir semua dokumen ada kata itu.

Natural Language Processing (NLP) merupakan bidang ilmu komputer yang fokus ke bahasa, sehingga mau tidak mau antara satu bahasa dengan bahasa lain pasti berbeda. Untuk bahasa Inggris, Natural Language Toolkit (NLTK) pada library Scikit Learn sudah lama ada, sementara untuk bahasa Indonesia, tersedia library Sastrawi yang dapat digunakan untuk menghilangkan Stopwords, selain tentu saja untuk Stemming dalam menghilangkan imbuhan (awalan, sampiran dan akhiran). Lebih lengkapnya dapat dilihat pada video berikut.