Dalam sesi kali ini, kita mempelajari penggunaan model BERT untuk tugas Name Entity Recognition (NER). NER adalah proses dalam Natural Language Processing (NLP) yang bertujuan untuk mengidentifikasi dan mengklasifikasikan entitas-entitas penting dalam teks seperti nama produk, organisasi, lokasi, tanggal, dan lainnya. Dengan bantuan model seperti BERT, proses identifikasi ini dapat dilakukan secara otomatis dengan tingkat akurasi yang cukup tinggi.
Model BERT (Bidirectional Encoder Representations from Transformers) merupakan salah satu model berbasis transformer yang dikembangkan untuk mengatasi keterbatasan model-model sebelumnya seperti LSTM yang bersifat serial dan lebih lambat. Kelebihan BERT adalah kemampuannya untuk memproses data secara paralel, sehingga jauh lebih cepat dan efisien, khususnya dalam konteks pemrosesan bahasa alami.
Untuk penggunaan dalam bahasa Indonesia, model yang digunakan adalah IndoBERT, yaitu versi BERT yang telah disesuaikan dengan karakteristik bahasa Indonesia. Dalam praktiknya, IndoBERT digunakan bersama dengan pustaka Transformers di lingkungan Google Colab. Instalasi dan pemanggilan model dilakukan secara langsung dari cloud, sehingga prosesnya cukup lancar tanpa kendala bandwidth lokal.
Selama demonstrasi, dilakukan proses instalasi tokenizer dan pemuatan model IndoBERT yang telah fine-tuned khusus untuk tugas NER. Setelah model berhasil dimuat, dilakukan pengujian terhadap beberapa teks berbahasa Indonesia. Hasilnya menunjukkan bahwa entitas-entitas seperti ORGANIZATION (ORG), PRODUCT (PRD), LOCATION (LOC), dan DATE berhasil dikenali dengan cukup baik. Meskipun sempat ditemukan beberapa ketidaksesuaian hasil, masalah tersebut dapat diatasi dengan mencocokkan versi model dan tokenizer yang digunakan.
Terakhir, dilakukan pengujian dengan teks yang lebih kompleks untuk melihat konsistensi hasil. Model berhasil mengenali entitas dengan benar seperti nama organisasi, produk, tanggal, dan lokasi. Evaluasi ini menunjukkan bahwa penggunaan IndoBERT untuk tugas NER pada teks bahasa Indonesia cukup efektif, meskipun tetap diperlukan pemilihan model yang sesuai dan validasi hasil secara manual untuk memastikan akurasi maksimal.