Mata kuliah ini termasuk mata kuliah yang baru dan cukup menarik dimana banyak riset yang sedang dilakukan berkaitan dengan tema yang sesuai dengan konten perkuliahan yang wajib bagi mahasiswa manajemen informasi. Materi ini cukup sulit dan luas karena gabungan Information Retrieval dengan Data Mining. Buku yang digunakan berasal dari buku text yang dibuat oleh Crishtoper Manning dan kawan-kawan dari Stanford University dan diterbitkan oleh Cambridge Univ. Press.
Konsep yang ditampilkan bagi saya merupakan hal baru walaupun setiap hari saya menggunakannya ketika searching di Google. Mungkin mahasiswa IT yang masih muda-muda pernah merasakannya di bangku kuliah Undergraduate-nya. Mungkin maksud perkuliahan ini bagus yaitu jika data terstruktur dioleh dengan Data Mining tetapi jika data tidak terstruktur, misalnya tulisan blog ini, maka mau tidak mau haru menggunakan Text Mining dengan konsep mengambil data dengan metode-metode yang dianjutkan di buku tersebut. Beberapa aplikasi telah menyediakan tool untuk menerapkan metode tersebut seperti contoh pada Matlab. Aplikasi ini menyediakan fungsi-fungsi untuk melakukan sorting dan pencarian berbasis text. Buku yang sering saya gunakan, dan telah diterapkan di mata kuliah Decision Support Technologies (DST) yaitu Text Mining With Matlab karangan Rafael E. Banchs.
Waktu itu saya menggunakan metode ini untuk kasus Big Data dimana jutaan record yang berisi pengarang, afiliasi, dan atribut-atribut lainnya harus dibersihkan karena beberapa record berisi duplikasi. Terkadang satu pengarang yang sama terekam beberapa kali, dan kita harus mendeteksinya terlebih dahulu sebelum diverifikasi apakah mereka adalah satu orang yang sama. Berikut ini video dari hasil script sederhana kami: