ANALISIS PENGARUH COMPRESSION RATE TERHADAP KUALITAS RINGKASAN BERITA MENGGUNAKAN LATENT SEMANTIC ANALYSIS BERBASIS TF-IDF DAN BERT-BASE INDONESIAN

Rizky, Muhammad (2025) ANALISIS PENGARUH COMPRESSION RATE TERHADAP KUALITAS RINGKASAN BERITA MENGGUNAKAN LATENT SEMANTIC ANALYSIS BERBASIS TF-IDF DAN BERT-BASE INDONESIAN. Skripsi thesis, UPN "Veteran" Yogyakarta.

[thumbnail of 2_COVER_123210035_MUHAMMAD RIZKY.pdf] Text
2_COVER_123210035_MUHAMMAD RIZKY.pdf

Download (236kB)
[thumbnail of 4_PENGESAHAN PENGUJI_MUHAMMAD RIZKY_123210035.pdf] Text
4_PENGESAHAN PENGUJI_MUHAMMAD RIZKY_123210035.pdf

Download (164kB)
[thumbnail of 5_PENGESAHAN PEMBIMBING_MUHAMMAD RIZKY_123210035.pdf] Text
5_PENGESAHAN PEMBIMBING_MUHAMMAD RIZKY_123210035.pdf

Download (146kB)
[thumbnail of 3_ABSTRAK_MUHAMMAD RIZKY_123210035.pdf] Text
3_ABSTRAK_MUHAMMAD RIZKY_123210035.pdf

Download (253kB)
[thumbnail of 6_DAFTAR ISI_MUHAMMAD RIZKY_123210035.pdf] Text
6_DAFTAR ISI_MUHAMMAD RIZKY_123210035.pdf

Download (215kB)
[thumbnail of 7_DAFTAR PUSTAKA_MUHAMMAD RIZKY_123210035.pdf] Text
7_DAFTAR PUSTAKA_MUHAMMAD RIZKY_123210035.pdf

Download (305kB)
[thumbnail of 1_SKRIPSI FULLTEXT_MUHAMMAD RIZKY_123210035.pdf] Text
1_SKRIPSI FULLTEXT_MUHAMMAD RIZKY_123210035.pdf
Restricted to Repository staff only

Download (4MB)
Official URL: upnyk.ac.id

Abstract

Pertumbuhan jumlah berita digital yang masif setiap harinya menyebabkan informasi
berlebih (information overload) yang menyulitkan pembaca dalam menangkap inti informasi
secara efisien. Untuk menjawab tantangan tersebut, teknologi peringkasan teks otomatis
diperlukan guna menyajikan informasi penting dalam bentuk yang lebih ringkas. Salah satu
metode yang sering digunakan adalah Latent Semantic Analysis (LSA), terutama dalam
kombinasi dengan pembobotan TF-IDF. Namun, metode ini memiliki keterbatasan dalam
memahami makna kata secara kontekstual. Sementara itu, embedding kontekstual seperti
BERT-Base Indonesian memiliki potensi besar untuk menghasilkan representasi kalimat
yang lebih bermakna, namun belum banyak diteliti dalam konteks integrasi dengan LSA
untuk bahasa Indonesia. Oleh karena itu, penelitian ini bertujuan untuk membandingkan
kualitas ringkasan antara pendekatan LSA berbasis TF-IDF dan LSA berbasis embedding
BERT-Base Indonesian, khususnya dalam kaitannya dengan variasi compression rate.
Penelitian ini menggunakan data dari dataset IndoSum yang terdiri dari ribuan
dokumen berita berbahasa Indonesia. Setiap kalimat pada dokumen diubah menjadi
representasi vektor menggunakan dua pendekatan berbeda, yakni TF-IDF dan BERT-Base
Indonesian 522M. Representasi tersebut kemudian diproses menggunakan metode LSA
untuk memilih kalimat-kalimat penting dalam dokumen dan membentuk ringkasan
berdasarkan rasio kompresi yang bervariasi antara 0,1 hingga 0,8. Evaluasi kualitas
ringkasan dilakukan dengan membandingkan hasil ringkasan sistem terhadap ringkasan
referensi manusia menggunakan metrik ROUGE-1, ROUGE-2, dan ROUGE-L.
Hasil penelitian menunjukkan bahwa pendekatan LSA berbasis embedding BERT�Base Indonesian memberikan performa lebih baik dibandingkan LSA berbasis TF-IDF. Nilai
ROUGE-1 tertinggi sebesar 0,4101 dicapai pada compression rate 0,4, ROUGE-2 tertinggi
sebesar 0,3248 pada compression rate 0,7, dan ROUGE-L mencapai 0,3521 juga pada
compression rate 0,7. Sementara itu, pendekatan LSA berbasis TF-IDF memperoleh nilai
ROUGE-1 tertinggi sebesar 0,4012 pada compression rate 0,4, ROUGE-2 sebesar 0,3260
pada compression rate 0,8, dan ROUGE-L sebesar 0,3515 pada compression rate 0,6.
Temuan ini memperkuat pentingnya pemilihan parameter kompresi yang tepat, dan
menunjukkan bahwa integrasi representasi kontekstual berbasis BERT mampu
meningkatkan kualitas ringkasan dalam aspek kebermaknaan dan struktur kalimat.
Penelitian ini juga memberikan dasar empiris untuk mengarahkan pengembangan sistem
peringkasan otomatis berbahasa Indonesia yang lebih adaptif dan akurat.
Kata kunci: compression rate, Latent Semantic Analysis, TF-IDF, BERT-base Indonesian,
ROUGE

Item Type: Tugas Akhir (Skripsi)
Additional Information: Muhammad Rizky (Penulis - 123210035) ; Dhimas Arief Dharmawan (Pembimbing)
Uncontrolled Keywords: compression rate, Latent Semantic Analysis, TF-IDF, BERT-base Indonesian, ROUGE
Subjek: Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Divisions: Fakultas Teknik Industri > (S1) Informatika
Depositing User: UPA Perpustakaan
Date Deposited: 04 Nov 2025 01:35
Last Modified: 04 Nov 2025 01:35
URI: http://eprints.upnyk.ac.id/id/eprint/45282

Actions (login required)

View Item View Item