ANALISIS KOMPARATIF MODEL BERBASIS BERT (INDOBERT, INDOBERTWEET, MBERT) PADA KLASIFIKASI SMS SPAM PENIPUAN BERBAHASA INDONESIA TUGAS AKHIR

Sakti Maulana Ibrahim, . (2026) ANALISIS KOMPARATIF MODEL BERBASIS BERT (INDOBERT, INDOBERTWEET, MBERT) PADA KLASIFIKASI SMS SPAM PENIPUAN BERBAHASA INDONESIA TUGAS AKHIR. Skripsi thesis, Universitas Pembangunan Nasional Veteran Yogyakarta.

	Text (Abstrak) ABSTRAK.pdf Download (224kB)
	Text (Cover) Cover.pdf Download (113kB)
	Text (Daftar Isi) Daftar Isi.pdf Download (178kB)
	Text (Daftar Pustaka) Daftar Pustaka.pdf Download (168kB)
	Text (Pengesahan Pembimbing) Pengesahan Pembimbing.pdf Download (274kB)
	Text (Pengesahan Penguji) Pengesahan Penguji.pdf Download (196kB)
	Text (Full Text) Naskah TA Final.pdf Restricted to Repository staff only Download (1MB)

Official URL: https://upnyk.ac.id/

Abstract

Perkembangan Perkembangan teknologi komunikasi digital mendorong meningkatnya penggunaan layanan pesan singkat (SMS) sebagai media penyampaian informasi. Namun, tingginya volume SMS juga diiringi dengan maraknya spam penipuan (fraud) yang merugikan pengguna, sehingga diperlukan metode otomatis untuk membedakan pesan asli (ham) dan spam penipuan secara akurat. Penelitian ini berfokus pada klasifikasi SMS berbahasa Indonesia dengan memanfaatkan pendekatan deep learning berbasis Bidirectional Encoder Representations from Transformers (BERT). Tujuan penelitian adalah menerapkan serta membandingkan kinerja tiga model pralatih, yaitu IndoBERT, IndoBERTweet, dan Multilingual BERT (mBERT) dalam mendeteksi spam penipuan pada SMS.
Dataset penelitian berupa SMS berbahasa Indonesia yang diproses melalui tahapan pra-pemrosesan teks dan tokenisasi menggunakan tokenizer masing-masing model. Model kemudian dilakukan fine-tuning untuk tugas klasifikasi biner (ham dan fraud). Evaluasi performa dilakukan menggunakan skema Stratified 5-Fold Cross Validation dengan metrik accuracy, precision, recall, dan F1-score, serta memberikan perhatian khusus pada F1-score kelas fraud karena kesalahan deteksi pada kelas ini berdampak lebih serius. Selain itu, dilakukan pengujian tambahan tanpa cross validation menggunakan skema pembagian data 70:15:15 sebagai pembanding, serta analisis kesalahan prediksi untuk mengidentifikasi karakteristik pesan yang masih sulit diklasifikasikan oleh model. Penelitian ini juga melakukan pengujian menggunakan dataset eksternal untuk melihat ketahanan (robustness) model terhadap perbedaan karakteristik data.
Hasil pengujian menunjukkan bahwa IndoBERT memberikan performa terbaik dan paling stabil pada evaluasi internal dengan akurasi 97,56% ± 0,79 dan F1-score fraud 96,73% ± 0,97, diikuti oleh IndoBERTweet dengan akurasi 97,11% ± 1,20 dan F1-score fraud 96,10% ± 1,62, serta mBERT dengan akurasi 95,78% ± 0,93 dan F1-score fraud 94,38% ± 1,35. Dari sisi efisiensi, IndoBERT juga menjadi model dengan waktu pelatihan rata-rata paling cepat dibanding dua model lainnya. Pada pengujian ketahanan (robustness) menggunakan dataset eksternal, IndoBERTweet menunjukkan performa rata-rata terbaik dengan akurasi 91,56% ± 5,11 dan F1-score fraud 90,46% ± 6,26. Temuan ini mengindikasikan bahwa pemilihan model pralatih berbahasa Indonesia seperti IndoBERT efektif untuk performa internal, sementara IndoBERTweet cenderung lebih tangguh pada variasi data di luar dataset pelatihan.

Item Type:	Tugas Akhir (Skripsi)
Additional Information:	Sakti Maulana Ibrahim (123220101) Agus Sasmito Aribowo (Pembimbing)
Uncontrolled Keywords:	Klasifikasi SMS, Spam Penipuan, BERT, IndoBERT, IndoBERTweet, mBERT, Fine-tuning, Cross Validation.
Subjek:	T Technology > T Technology (General) T Technology > T Technology (General) > T201 Patents. Trademarks T Technology > TA Engineering (General). Civil engineering (General)
Divisions:	Fakultas Teknik Industri > (S1) Informatika
Depositing User:	Indah Lestari
Date Deposited:	06 Mar 2026 04:34
Last Modified:	06 Mar 2026 04:34
URI:	http://eprints.upnyk.ac.id/id/eprint/47250

Actions (login required)

View Item