ANALISIS PERBANDINGAN METODE WORD2VEC DAN TF-IDF PADA KLASIFIKASI SPAM EMAIL MENGGUNAKAN SUPPORT VECTOR MACHINE

Kaifa Ahlal Katamsyi, . (2026) ANALISIS PERBANDINGAN METODE WORD2VEC DAN TF-IDF PADA KLASIFIKASI SPAM EMAIL MENGGUNAKAN SUPPORT VECTOR MACHINE. Tugas Akhir thesis, Universitas Pembangunan Nasional Veteran Yogyakarta.

[thumbnail of Cover_123220006.pdf] Text
Cover_123220006.pdf

Download (286kB)
[thumbnail of Abstrak_123220006.pdf] Text
Abstrak_123220006.pdf

Download (337kB)
[thumbnail of Halaman Pengesahan_123220006.pdf] Text
Halaman Pengesahan_123220006.pdf

Download (342kB)
[thumbnail of Daftar isi_123220006.pdf] Text
Daftar isi_123220006.pdf

Download (1MB)
[thumbnail of Daftar pustaka_123220006.pdf] Text
Daftar pustaka_123220006.pdf

Download (162kB)
[thumbnail of Fulltext_123220006.pdf] Text
Fulltext_123220006.pdf
Restricted to Repository staff only

Download (4MB)
Official URL: https://upnyk.ac.id

Abstract

Penggunaan email sebagai media komunikasi digital terus meningkat pada individu maupun organisasi karena bersifat cepat, efisien, dan terdokumentasi. Peningkatan intensitas pertukaran informasi melalui email turut mendorong tingginya arus pesan masuk, termasuk pesan yang tidak relevan atau tidak diinginkan. Perkembangan tersebut diikuti oleh bertambahnya email spam yang tidak hanya mengganggu produktivitas, tetapi juga berpotensi menjadi media phishing, penipuan, maupun penyebaran malware sehingga meningkatkan risiko terhadap keamanan informasi.
Untuk mengatasi hal tersebut, diperlukan sistem klasifikasi yang mampu membedakan email spam dan ham secara akurat. Penelitian ini menganalisis dan membandingkan kinerja dua metode representasi teks, yaitu TF-IDF dan Word2Vec, pada model Support Vector Machine (SVM) kernel RBF untuk klasifikasi spam email pada dataset berbahasa Indonesia dan Inggris. Tahapan penelitian meliputi pengumpulan data, pre-processing (cleaning, case folding, tokenization, stopword removal, lemmatization, dan stemming), ekstraksi fitur menggunakan TF-IDF dan Word2Vec, serta evaluasi menggunakan confusion matrix. Pemilihan parameter terbaik dilakukan melalui optimasi parameter pada metode representasi teks menggunakan Grid Search dan skema K-Fold Cross Validation. Selain itu, penelitian ini juga mengembangkan sistem klasifikasi spam email yang diuji menggunakan black-box testing.
Hasil pengujian menunjukkan bahwa optimasi parameter meningkatkan performa kedua metode, dengan peningkatan Word2Vec yang relatif lebih besar dibanding baseline. Pada dataset Bahasa Indonesia, TF-IDF dan SVM memperoleh Accuracy 0.9498 dan F1-Score 0.9416, meningkat menjadi Accuracy 0.9594 dan F1-Score 0.9540 setelah optimasi. Pada dataset Bahasa Inggris, TF-IDF dan SVM memperoleh Accuracy 0.9521 dan F1-Score 0.9443, meningkat menjadi Accuracy 0.9558 dan F1-Score 0.9490. Sementara itu, Word2Vec dan SVM meningkat dari Accuracy 0.9063 menjadi 0.9491 pada dataset Indonesia, dan dari Accuracy 0.9100 menjadi 0.9476 pada dataset Inggris setelah optimasi. Secara keseluruhan, TF-IDF menunjukkan performa yang lebih optimal dan konsisten pada kedua dataset, sehingga efektif digunakan sebagai pendekatan klasifikasi spam email berbasis machine learning.

Item Type: Tugas Akhir (Tugas Akhir)
Additional Information: Kaifa Ahlal Katamsyi (Penulis - 123220006) Ahmad Taufiq Akbar (Pembimbing)
Uncontrolled Keywords: Spam Email, TF-IDF, Word2Vec, Support Vector Machine, Klasifikasi Teks
Subjek: T Technology > T Technology (General)
Divisions: Fakultas Teknik Industri > (S1) Informatika
Depositing User: Bayu Pambudi
Date Deposited: 02 Feb 2026 08:22
Last Modified: 02 Feb 2026 08:22
URI: http://eprints.upnyk.ac.id/id/eprint/46948

Actions (login required)

View Item View Item