Stopwords Removal Bhs Indonesia – via Sastrawi

Dalam text processing, selain menghilangkan karakter-karakter non bahasa seperti hashtag, website symbols, dan lain-lain, perlu juga menghilangkan stopwords yang merupakan kata yang kurang bermakna untuk diproses karena hampir di setiap berkas ada, misalnya ‘dan’,’atau’, ‘untuk’, dan lain-lain. Bayangkan misalnya kita searching di Google dengan kata kunci ‘A dan B’ maka kata ‘dan’ tentu saja tidak perlu di-searching karena hampir semua dokumen ada kata itu.

Natural Language Processing (NLP) merupakan bidang ilmu komputer yang fokus ke bahasa, sehingga mau tidak mau antara satu bahasa dengan bahasa lain pasti berbeda. Untuk bahasa Inggris, Natural Language Toolkit (NLTK) pada library Scikit Learn sudah lama ada, sementara untuk bahasa Indonesia, tersedia library Sastrawi yang dapat digunakan untuk menghilangkan Stopwords, selain tentu saja untuk Stemming dalam menghilangkan imbuhan (awalan, sampiran dan akhiran). Lebih lengkapnya dapat dilihat pada video berikut.

Iklan

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.