Pada pembahasan kali ini kita akan fokus pada Latent Semantic Indexing atau Latent Semantic Analysis dan melakukan pemodelan topik menggunakan Scikit-learn. Jika Anda ingin mengimplementasikan pemodelan topik menggunakan Gensim, Anda dapat merujuk ke artikel Menemukan Tema Dokumen Tersembunyi ini .
Apa itu Pemodelan Topik?
Pemodelan Topik adalah teknik tanpa pengawasan untuk menemukan tema dokumen yang diberikan. Ini mengekstrak kumpulan kata kunci yang terjadi bersamaan. Kata kunci yang muncul bersamaan ini mewakili sebuah topik. Misalnya, saham, pasar, ekuitas, reksa dana akan mewakili topik ‘investasi saham’.
Apa itu Pengindeksan Semantik Laten?
Latent Semantic Indexing (LSI) atau Latent Semantic Analysis (LSA) adalah teknik untuk mengekstraksi topik dari dokumen teks tertentu. Ini menemukan hubungan antara istilah dan dokumen. Konsep LSI digunakan dalam pengelompokan dokumen, pencarian informasi, dan mesin rekomendasi. LSI menemukan topik laten menggunakan Dekomposisi Nilai Singular.
Implementasi Coding LSI menggunakan Scikit learn
1. Muat Data
Pada langkah ini, Anda akan memuat dataset. Anda dapat mengunduh data dari tautan berikut :
2. Hasilkan Fitur TF-IDF
Pada langkah ini, Anda akan membuat matriks TF-IDF untuk dokumen yang diberikan. Di sini, Anda juga akan melakukan operasi prapemrosesan seperti tokenisasi, dan menghapus stopword.
3. Melakukan SVD
SVD adalah teknik dekomposisi matriks yang memfaktorkan matriks dalam produk matriks. Scikit-learn menawarkan TruncatedSVD untuk melakukan SVD. Mari kita lihat contoh di bawah ini:
4.Ekstrak topik dan istilah
Setelah melakukan SVD, kita perlu mengekstrak topik dari matriks komponen. Mari kita lihat contoh di bawah ini:
Hasil runing :
Pada contoh di atas, Anda dapat melihat 10 topik. Jika Anda melihat kata kunci Topik 0([‘s’, ‘trump’, ‘said’, ‘EU’, ‘t’]) mewakili Politik AS dan Eropa. Demikian pula, Topik 1 tentang Pemilu AS dan Topik 2 tentang Football League. Ini adalah bagaimana Anda dapat mengidentifikasi topik dari daftar tag. Di sini kami telah mengambil 10 topik yang dapat Anda coba dengan berbagai topik dan memeriksa kinerjanya. Bagaimana masuk akal. Untuk memilih sejumlah topik, Anda juga dapat menggunakan koherensi topik yang dijelaskan dalam artikel Menemukan Tema Dokumen Tersembunyi .
jika ingin bertanya atau memberi saran silahkan komen di bawasini ?..
0 Comments