ANALISIS KINERJA ALGORITMA RANDOM FOREST UNTUK DETEKSI EMAIL PHISHING MENGGUNAKAN TEKNIK EKSTRAKSI FITUR TEKS DAN EVALUASI MODEL

CHOIRUNNISA, NABILLA ALYA (2025) ANALISIS KINERJA ALGORITMA RANDOM FOREST UNTUK DETEKSI EMAIL PHISHING MENGGUNAKAN TEKNIK EKSTRAKSI FITUR TEKS DAN EVALUASI MODEL. Skripsi thesis, UPN Veteran Yogyakarta.

	Text COVER.pdf Download (106kB)
	Text ABSTRAK.pdf Download (167kB)
	Text SCAN HAL PENGESAHAN PEMBIMBING.pdf Download (111kB)
	Text SCAN HAL PENGESAHAN PENGUJI.pdf Download (138kB)
	Text DAFTAR ISI.pdf Download (180kB)
	Text DAFTAR PUSTAKA.pdf Download (163kB)
	Text SIDANGKU.pdf Restricted to Repository staff only Download (6MB)

Official URL: https://upnyk.ac.id/

Abstract

Meningkatnya penggunaan email dalam aktivitas sehari-hari meningkatkan resiko serangan phishing, yaitu serangan dalam dunia maya yang dilakukan dengan tujuan untuk memperoleh informasi sensitif dengan berpura-pura menjadi entitas yang sah. Email phishing sering kali disamarkan dengan teknik yang sulit dibedakan dari email sah. Oleh karena itu diperlukan metode yang efektif untuk mendeteksi email phishing secara akurat. Penelitian ini bertujuan untuk menganalisis kinerja algoritma Random Forest dalam mendeteksi email phishing menggunakan teknik ekstraksi fitur teks Term Frequency-Inverse Document Frequency (TF-IDF) serta mengevaluasi kinerja model menggunakan matriks akurasi, presisi, recall, dan F-1 Score.

Data yang digunakan pada penelitian ini bersumber dari situs Kaggle dengan mengambil sampel sebanyak 5000 data email. Tahapan preprocessing meliputi penggabungan kolom ‘subject’ dan ‘body’, mengubah kolom ‘label’ dari numerik menjadi kategorikal, proses cleaning, proses case folding, proses tokenization, proses stopwords removal, dan proses whitespace trimming. Selanjutnya dilakukan ekstraksi fitur teks menggunakan TF-IDF untuk menghasilkan representasi numerik dari teks pada setiap kata dalam email kemudian data dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian. Model klasifikasi dibangun menggunakan algoritma Random Forest dengan parameter 50 pohon keputusan dan kedalaman maksimal 10. Evaluasi kinerja model dilakukan berdasarkan hasil prediksi terhadap data pengujian dengan menggunakan confusion matrix untuk menghitung akurasi, presisi, recall, dan F-1 Score.

Hasil pengujian menunjukkan bahwa model Random Forest menggunakan TF-IDF yang dikembangkan dapat mendeteksi email phishing dengan hasil akurasi sebesar 98%, presisi sebesar 98%, recall sebesar 99%, dan F-1 score sebesar 98%. Hasil matriks akurasi tersebut menunjukkan bahwa kombinasi TF-IDF dan Random Forest efektif untuk klasifikasi email phishing. Penelitian ini membuktikan bahwa teknik ekstraksi fitur teks yang tepat dikombinasikan dengan algoritma pembelajaran mesin berbasis ensemble learningdapat meningkatkan efektivitas sistem deteksi serangan siber berbasis email secara signifikan. Hasil penelitian ini diharapkan dapat menjadi acuan bagi pengembang aplikasi deteksi email phishing secara lebih efektif dan efisien.

Kata Kunci: Email Phishing, Random Forest, TF-IDF, Confusion Matrix, Evaluasi Model

Item Type:	Thesis (Skripsi)
Additional Information:	NABILLA ALYA CHOIRUNNISA (Penulis - 123210193) ; Ahmad Taufiq Akbar (Pembimbing)
Uncontrolled Keywords:	Email Phishing, Random Forest, TF-IDF, Confusion Matrix, Evaluasi Model
Subjek:	Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Divisions:	Fakultas Teknik Industri > Informatika (S1)
Depositing User:	Bayu Pambudi
Date Deposited:	16 Jul 2025 07:04
Last Modified:	16 Jul 2025 07:04
URI:	http://eprints.upnyk.ac.id/id/eprint/43133

Actions (login required)

View Item