Rizky, Muhammad (2025) ANALISIS PENGARUH COMPRESSION RATE TERHADAP KUALITAS RINGKASAN BERITA MENGGUNAKAN LATENT SEMANTIC ANALYSIS BERBASIS TF-IDF DAN BERT-BASE INDONESIAN. Skripsi thesis, UPN "Veteran" Yogyakarta.
|
Text
2_COVER_123210035_MUHAMMAD RIZKY.pdf Download (236kB) |
|
|
Text
4_PENGESAHAN PENGUJI_MUHAMMAD RIZKY_123210035.pdf Download (164kB) |
|
|
Text
5_PENGESAHAN PEMBIMBING_MUHAMMAD RIZKY_123210035.pdf Download (146kB) |
|
|
Text
3_ABSTRAK_MUHAMMAD RIZKY_123210035.pdf Download (253kB) |
|
|
Text
6_DAFTAR ISI_MUHAMMAD RIZKY_123210035.pdf Download (215kB) |
|
|
Text
7_DAFTAR PUSTAKA_MUHAMMAD RIZKY_123210035.pdf Download (305kB) |
|
|
Text
1_SKRIPSI FULLTEXT_MUHAMMAD RIZKY_123210035.pdf Restricted to Repository staff only Download (4MB) |
Abstract
Pertumbuhan jumlah berita digital yang masif setiap harinya menyebabkan informasi
berlebih (information overload) yang menyulitkan pembaca dalam menangkap inti informasi
secara efisien. Untuk menjawab tantangan tersebut, teknologi peringkasan teks otomatis
diperlukan guna menyajikan informasi penting dalam bentuk yang lebih ringkas. Salah satu
metode yang sering digunakan adalah Latent Semantic Analysis (LSA), terutama dalam
kombinasi dengan pembobotan TF-IDF. Namun, metode ini memiliki keterbatasan dalam
memahami makna kata secara kontekstual. Sementara itu, embedding kontekstual seperti
BERT-Base Indonesian memiliki potensi besar untuk menghasilkan representasi kalimat
yang lebih bermakna, namun belum banyak diteliti dalam konteks integrasi dengan LSA
untuk bahasa Indonesia. Oleh karena itu, penelitian ini bertujuan untuk membandingkan
kualitas ringkasan antara pendekatan LSA berbasis TF-IDF dan LSA berbasis embedding
BERT-Base Indonesian, khususnya dalam kaitannya dengan variasi compression rate.
Penelitian ini menggunakan data dari dataset IndoSum yang terdiri dari ribuan
dokumen berita berbahasa Indonesia. Setiap kalimat pada dokumen diubah menjadi
representasi vektor menggunakan dua pendekatan berbeda, yakni TF-IDF dan BERT-Base
Indonesian 522M. Representasi tersebut kemudian diproses menggunakan metode LSA
untuk memilih kalimat-kalimat penting dalam dokumen dan membentuk ringkasan
berdasarkan rasio kompresi yang bervariasi antara 0,1 hingga 0,8. Evaluasi kualitas
ringkasan dilakukan dengan membandingkan hasil ringkasan sistem terhadap ringkasan
referensi manusia menggunakan metrik ROUGE-1, ROUGE-2, dan ROUGE-L.
Hasil penelitian menunjukkan bahwa pendekatan LSA berbasis embedding BERT�Base Indonesian memberikan performa lebih baik dibandingkan LSA berbasis TF-IDF. Nilai
ROUGE-1 tertinggi sebesar 0,4101 dicapai pada compression rate 0,4, ROUGE-2 tertinggi
sebesar 0,3248 pada compression rate 0,7, dan ROUGE-L mencapai 0,3521 juga pada
compression rate 0,7. Sementara itu, pendekatan LSA berbasis TF-IDF memperoleh nilai
ROUGE-1 tertinggi sebesar 0,4012 pada compression rate 0,4, ROUGE-2 sebesar 0,3260
pada compression rate 0,8, dan ROUGE-L sebesar 0,3515 pada compression rate 0,6.
Temuan ini memperkuat pentingnya pemilihan parameter kompresi yang tepat, dan
menunjukkan bahwa integrasi representasi kontekstual berbasis BERT mampu
meningkatkan kualitas ringkasan dalam aspek kebermaknaan dan struktur kalimat.
Penelitian ini juga memberikan dasar empiris untuk mengarahkan pengembangan sistem
peringkasan otomatis berbahasa Indonesia yang lebih adaptif dan akurat.
Kata kunci: compression rate, Latent Semantic Analysis, TF-IDF, BERT-base Indonesian,
ROUGE
| Item Type: | Tugas Akhir (Skripsi) |
|---|---|
| Additional Information: | Muhammad Rizky (Penulis - 123210035) ; Dhimas Arief Dharmawan (Pembimbing) |
| Uncontrolled Keywords: | compression rate, Latent Semantic Analysis, TF-IDF, BERT-base Indonesian, ROUGE |
| Subjek: | Q Science > QA Mathematics > QA75 Electronic computers. Computer science |
| Divisions: | Fakultas Teknik Industri > (S1) Informatika |
| Depositing User: | UPA Perpustakaan |
| Date Deposited: | 04 Nov 2025 01:35 |
| Last Modified: | 04 Nov 2025 01:35 |
| URI: | http://eprints.upnyk.ac.id/id/eprint/45282 |
Actions (login required)
![]() |
View Item |
