Klasifikasi Menggunakan Metode Ensemble Learning pada Twitter

Ensemble Learning adalah proses di mana beberapa model, seperti pengklasifikasi atau ahli, secara strategis dihasilkan dan digabungkan untuk memecahkan kecerdasan komputasi tertentu.masalah. Ensemble Learning utamanya digunakan untuk meningkatkan (klasifikasi, prediksi, perkiraan fungsi, dll.) kinerja model, atau mengurangi kemungkinan pemilihan model yang buruk.

Twitter

Twitter adalah situs berita dan jejaring sosial online tempat orang berkomunikasi dalam pesan singkat yang disebut tweet. Tweeting adalah memposting pesan singkat untuk siapa saja yang mengikuti kita di Twitter, dengan harapan kata-kata kita dapat bermanfaat dan menarik bagi orang lain.

Instalasi Library Python

Pada tahap ini dilakukan instalasi library-library yang nantinya dibutuhkan untuk menjalankan program, berikut adalah library yang dibutuhkan :

Snscrape

Snscrape merupakan perpustakaan / library sumber terbuka (open source) yang ditulis dengan bahasa pemrograman python dan berguna untuk melakukan scraping atau ekstraksi dari jejaring sosial. Pada program ini kita akan menggunakan Snscrape untuk mengambil/mengekstrak data Tweets dari Twitter.

Pandas

Pandas merupakan perpustakaan / library sumber terbuka (Open Source) yang ditulis dengan bahasa pemrograman python dan berguna untuk melakukan analisis dan manipulasi data, khususnya untuk memanipulasi tabel numerik dan deret waktu. Pada program ini kita akan memanfaatkan Pandas DataFrame untuk menempatkan data hasil crawling.

Sastrawi

Sastrawi merupakan perpustakaan / library sumber terbuka yang ditulis dengan bahasa pemrograman python dan berguna untuk melakukan pengurangan kata-kata yang ter- infleksi dalam bahasa Indonesia ke bentuk baku-nya atau sesuai dengan standar kamus.

Scikit-learn

Scikit-learn adalah library machine learning open source untuk bahasa pemrograman Python. Ini fitur berbagai klasifikasi, regresi, algoritma pengelompokan, dan alat yang efisien untuk data mining dan analisis data. Ini dibangun di atas NumPy, SciPy, dan Matplotlib.

Menulis Script Konfigurasi Snscrape

Pada tahap ini akan dibuat script kofigurasi Snscrape, script ini sendiri berupa modul yang berisi fungsi-fungsi untuk melakukan crawling dan scraping data tweet yang berada pada Twitter. Berikut adalah penjelasan singkat mengenai script tersebut.

Variable tersebut merupakan variable yang berguna untuk mendefinisikan “search query” yang akan digunakan untuk mencari topik spesifik di twitter, “jumlah tweet” yang nantinya akan diambil, serta sebuah wadah berupa “list” yang nantinya akan digunakan untuk menyimpan data hasil scrape.

Loop ini berfungsi untuk mengambil tiap data tweet yang berhasil diambil dari twitter berdasarkan query yang telah kita definisikan sebelumnya. Pada loop tersebut terdapat pengecekan kondisi yang akan mengecek jumlah tweet yang berhasil diambil, selama loop ini belum mencapai batas jumlah tweet yang kita tentukan sebelumnya, maka loop ini akan terus melakukan penambahan data tweet ke wadah(list) yang telah dibuat sebelumnya.

Variable diatas berfungsi untuk mendefinisikan data tweet yang sebelumnya telah ditempatkan di wadah(list), dalam bentuk Pandas Dataframe.

Hasil

Melakukan Pengecekan Berkas Hasil Scrape Lama

Karena setelah melakukan scraping data tweet kita perlu memberikan label secara manual, maka untuk menghindari berkas lama tertimpa oleh berkas baru, disini kita akan melakukan pengecekan berkas hasil scrape lama, apakah ada pada direktori atau tidak. Jika berkas hasil scrape lama tidak ditemukan pada direktori, maka hasil scrape sebelumnya (yang ada pada Pandas Dataframe) akan diespor menjadi berkas csv.

Baca juga :   Cara Mengunggah Konten ke GitHub Menggunakan Visual Studio Code

0 Comments

Submit a Comment

Your email address will not be published. Required fields are marked *

Klasifikasi Menggunakan Metode Ensemble Learning pada Twitter

by | Nov 22, 2022 | web mining | 0 comments

DAFTAR BACA

Cara Mengunggah Konten ke GitHub Menggunakan Visual Studio Code

Cara Mengunggah Konten ke GitHub Menggunakan Visual Studio Code

GitHub adalah platform hosting yang populer untuk mengelola dan berbagi proyek pengembangan perangkat lunak. Mengunggah konten ke GitHub memungkinkan Anda menyimpan, membagikan, dan berkolaborasi dengan pengembang lain dalam proyek Anda. Dalam artikel ini, kami akan...

Cara clustering menggunakan bahasa pemrograman python

Cara clustering menggunakan bahasa pemrograman python

Sebelum kita bahas lebih dalam lagi alangkah baiknya kita harus tahu apa itu clustering, clustering adalah teknik dalam machine learning yang digunakan untuk mengelompokkan data yang serupa menjadi beberapa kelompok (cluster) berdasarkan kemiripan di antara data...

Analisis sentimen klasifikasi ulasan film menggunakan python

Analisis sentimen klasifikasi ulasan film menggunakan python

Analisis sentimen klasifikasi ulasan film Saat ini perusahaan ingin mengerti, apa yang salah dengan produk terbaru mereka? apa pendapat pengguna dan masyarakat umum tentang fitur terbaru? Anda dapat mengukur informasi tersebut dengan akurasi yang baik menggunakan...

Pengindeksan Semantik Laten menggunakan Scikit-Learn

Pengindeksan Semantik Laten menggunakan Scikit-Learn

Pada pembahasan kali ini kita akan fokus pada Latent Semantic Indexing atau Latent Semantic Analysis dan melakukan pemodelan topik menggunakan Scikit-learn. Jika Anda ingin mengimplementasikan pemodelan topik menggunakan Gensim, Anda dapat merujuk ke artikel Menemukan...

Cara crawling data website berita dengan program python dengan mudah

Cara crawling data website berita dengan program python dengan mudah

crawling data berita adalah proses pengumpulan informasi dari website berita secara otomatis dengan menggunakan perangkat lunak tertentu yang disebut "crawler" atau "spider". Crawler akan memindai dan mengambil data dari setiap halaman website berita yang ditentukan,...

Blajar crawling data dari twitter

Blajar crawling data dari twitter

Blajar crawling data dari twitter Crawling adalah semacam pengambilan data dari media sosial kemudian di kumpulkan menjadi satu untuk di evakuasi dan di bentuk agar menjadi sebuah penelitian. Prosesnya cukup mudah tergantung kamu ingin mengambil data dari sosial media...