Pengindeksan Semantik Laten menggunakan Scikit-Learn

Pada pembahasan kali ini kita akan fokus pada Latent Semantic Indexing atau Latent Semantic Analysis dan melakukan pemodelan topik menggunakan Scikit-learn. Jika Anda ingin mengimplementasikan pemodelan topik menggunakan Gensim, Anda dapat merujuk ke artikel Menemukan Tema Dokumen Tersembunyi ini .

Apa itu Pemodelan Topik?

Pemodelan Topik adalah teknik tanpa pengawasan untuk menemukan tema dokumen yang diberikan. Ini mengekstrak kumpulan kata kunci yang terjadi bersamaan. Kata kunci yang muncul bersamaan ini mewakili sebuah topik. Misalnya, saham, pasar, ekuitas, reksa dana akan mewakili topik ‘investasi saham’.

Apa itu Pengindeksan Semantik Laten?

Latent Semantic Indexing (LSI) atau Latent Semantic Analysis (LSA) adalah teknik untuk mengekstraksi topik dari dokumen teks tertentu. Ini menemukan hubungan antara istilah dan dokumen. Konsep LSI digunakan dalam pengelompokan dokumen, pencarian informasi, dan mesin rekomendasi. LSI menemukan topik laten menggunakan Dekomposisi Nilai Singular.

Implementasi Coding LSI menggunakan Scikit learn

1. Muat Data
Pada langkah ini, Anda akan memuat dataset. Anda dapat mengunduh data dari tautan berikut :

2. Hasilkan Fitur TF-IDF
Pada langkah ini, Anda akan membuat matriks TF-IDF untuk dokumen yang diberikan. Di sini, Anda juga akan melakukan operasi prapemrosesan seperti tokenisasi, dan menghapus stopword.

3. Melakukan SVD

SVD adalah teknik dekomposisi matriks yang memfaktorkan matriks dalam produk matriks. Scikit-learn menawarkan TruncatedSVD untuk melakukan SVD. Mari kita lihat contoh di bawah ini:

4.Ekstrak topik dan istilah
Setelah melakukan SVD, kita perlu mengekstrak topik dari matriks komponen. Mari kita lihat contoh di bawah ini:

Hasil runing :

Pada contoh di atas, Anda dapat melihat 10 topik. Jika Anda melihat kata kunci Topik 0([‘s’, ‘trump’, ‘said’, ‘EU’, ‘t’]) mewakili Politik AS dan Eropa. Demikian pula, Topik 1 tentang Pemilu AS dan Topik 2 tentang Football League. Ini adalah bagaimana Anda dapat mengidentifikasi topik dari daftar tag. Di sini kami telah mengambil 10 topik yang dapat Anda coba dengan berbagai topik dan memeriksa kinerjanya. Bagaimana masuk akal. Untuk memilih sejumlah topik, Anda juga dapat menggunakan koherensi topik yang dijelaskan dalam artikel Menemukan Tema Dokumen Tersembunyi .

jika ingin bertanya atau memberi saran silahkan komen di bawasini ?..

Baca juga :   Klasifikasi Menggunakan Metode Ensemble Learning pada Twitter

0 Comments

Submit a Comment

Your email address will not be published. Required fields are marked *

Pengindeksan Semantik Laten menggunakan Scikit-Learn

by | Apr 18, 2023 | web mining | 0 comments

DAFTAR BACA

Cara Mengunggah Konten ke GitHub Menggunakan Visual Studio Code

Cara Mengunggah Konten ke GitHub Menggunakan Visual Studio Code

GitHub adalah platform hosting yang populer untuk mengelola dan berbagi proyek pengembangan perangkat lunak. Mengunggah konten ke GitHub memungkinkan Anda menyimpan, membagikan, dan berkolaborasi dengan pengembang lain dalam proyek Anda. Dalam artikel ini, kami akan...

Cara clustering menggunakan bahasa pemrograman python

Cara clustering menggunakan bahasa pemrograman python

Sebelum kita bahas lebih dalam lagi alangkah baiknya kita harus tahu apa itu clustering, clustering adalah teknik dalam machine learning yang digunakan untuk mengelompokkan data yang serupa menjadi beberapa kelompok (cluster) berdasarkan kemiripan di antara data...

Analisis sentimen klasifikasi ulasan film menggunakan python

Analisis sentimen klasifikasi ulasan film menggunakan python

Analisis sentimen klasifikasi ulasan film Saat ini perusahaan ingin mengerti, apa yang salah dengan produk terbaru mereka? apa pendapat pengguna dan masyarakat umum tentang fitur terbaru? Anda dapat mengukur informasi tersebut dengan akurasi yang baik menggunakan...

Cara crawling data website berita dengan program python dengan mudah

Cara crawling data website berita dengan program python dengan mudah

crawling data berita adalah proses pengumpulan informasi dari website berita secara otomatis dengan menggunakan perangkat lunak tertentu yang disebut "crawler" atau "spider". Crawler akan memindai dan mengambil data dari setiap halaman website berita yang ditentukan,...

Klasifikasi Menggunakan Metode Ensemble Learning pada Twitter

Klasifikasi Menggunakan Metode Ensemble Learning pada Twitter

Ensemble Learning adalah proses di mana beberapa model, seperti pengklasifikasi atau ahli, secara strategis dihasilkan dan digabungkan untuk memecahkan kecerdasan komputasi tertentu.masalah. Ensemble Learning utamanya digunakan untuk meningkatkan (klasifikasi,...

Blajar crawling data dari twitter

Blajar crawling data dari twitter

Blajar crawling data dari twitter Crawling adalah semacam pengambilan data dari media sosial kemudian di kumpulkan menjadi satu untuk di evakuasi dan di bentuk agar menjadi sebuah penelitian. Prosesnya cukup mudah tergantung kamu ingin mengambil data dari sosial media...