Penerapan Algoritma Textrank

Uploaded by ZakaFahmi



October 5, 2022

TextRank adalah algoritma peringkat berbasis grafik untuk memproses teks. TextRank menghasilkan ekstraksi kalimat sebagai ringkasan. Salah satu kelebihan dari algoritma ini, tidak diperlukannya pelatihan menggunakan data training pada algoritma yang digunakan.

Thank you for reading this post, don't forget to subscribe!

Dalam melakukan proses peringkasan, algoritma TextRank terdiri dari beberapa tahap yaitu tahap preprocessing, tahap representasi graf dengan melakukan perhitungan nilai content overlap similarity dan nilai TextRank, serta tahap pemeringkatan kalimat.

Pertama-tama, dokumen akan dimasukkan ke dalam sistem. Dokumen yang dimasukkan merupakan single-document. Kemudian di dalam sistem, dokumen tersebut dipecah menjadi kalimat-kalimat tunggal yang berdiri sendiri. Setiap kalimat akan direpresentasikan sebagai vertex dan kumpulan vertex inilah yang membangun sebuah graf. Vertex di dalam graf tersebut akan terhubung oleh edges. Edges ini didapatkan dari perhitungan nilai similiarity antarkalimat.

Selanjutnya akan dicari nilai dari semua vertex dengan menggunakan algoritma TextRank. Setelah didapatkan nilai dari semua vertex, maka diurutkanlah nilai tersebut dari nilai yang tertinggi ke nilai yang terendah untuk menghasilkan daftar kalimat top-rank.

Kalimat yang berada di daftar urutan teratas akan dipilih menjadi ringkasan ekstraktif untuk dokumen tersebut. Banyaknya kalimat yang akan menjadi hasil ringkasan tergantung dari persentase nilai kompresi yang ditentukan oleh user. Dalam penelitian ini, akan dihasilkan ringkasan yang masih mengandung setengah kalimat yang ada dalam dokumen dan tiga perempat kalimat dari dokumen. Informasi dokumen semakin banyak yang hilang apabila hasil ringkasan hanya berisi seperempat kalimat dari seluruh dokumen. Sehingga user dapat memilih nilai kompresi 50% atau 75%.

A. Preprocessing

Preprocessing terdiri dari 2 tahap yaitu segmentasi dan tokenisasi. Pada tahap segmentasi, kalimatkalimat dalam dokumen dipecah menjadi kalimatkalimat tunggal. Pemecahan dokumen ini dilakukan dengan menggunakan splitter, yaitu berupa tanda baca titik (“.”), tanda seru (“!”), tanda tanya (“?”), dan newline (Pinandhita, 2013). Dalam proses segmentasi ini, gelar seseorang dan suatu singkatan harus dapat dikenali. Misalnya gelar pada nama seorang presiden Indonesia “Ir. H. Joko Widodo” dan pada nama spesies bahasa latin “E .coli”. Kemudian pada tahap tokenisasi, tiap kalimat akan dipecah menjadi kata-kata/frasa yang berdiri sendiri dan terpisah oleh spasi.

B.Overlap Similarity

TextRank merupakan graph-based ranking algorithm (graf dengan model pemeringkatan) untuk pemrosesan teks dari dokumen bahasa alami atau manusia. Dokumen yang diolah berupa dokumen tunggal (single-document) (Pinandhita, 2013). Terdapat dua jenis pengelolahan bahasa dalam TextRank, yaitu TextRank for keyword extraction (ekstraksi kata kunci) dan TextRank for sentence extraction (ekstraksi kalimat).

Pada TextRank for sentence extraction akan dibangun sebuah graf yang berisi hubungan antarkalimat dalam dokumen. Vertex di dalam graf ini direpresentasikan sebagai unit satuan yang akan diberikan peringkat. Vertex ini mempunyai similiarity yang dihubungkan oleh edges. Jenis similiarty yang digunakan adalah content overlap. Similiarity disini juga dapat ditentukan dengan menggunakan cosine similarity, tergantung dari kebutuhan sistem yang akan dibangun.

Content overlap antara dua kalimat didefinisikan sebagai jumlah kata yang sama (word overlap) antara kedua kata dan dinormalisasi dengan membagi jumlah word overlap dengan panjang tiap kalimat. Pembobotan tidak dilakukan karena nilai kesamaan antarkalimat langsung dihitung berdasarkan banyaknya kata yang sama antarkalimat.