ANALISIS KINERJA ALGORITMA RANDOM FOREST UNTUK DETEKSI EMAIL PHISHING MENGGUNAKAN TEKNIK EKSTRAKSI FITUR TEKS DAN EVALUASI MODEL

CHOIRUNNISA, NABILLA ALYA (2025) ANALISIS KINERJA ALGORITMA RANDOM FOREST UNTUK DETEKSI EMAIL PHISHING MENGGUNAKAN TEKNIK EKSTRAKSI FITUR TEKS DAN EVALUASI MODEL. Skripsi thesis, UPN Veteran Yogyakarta.

[thumbnail of COVER.pdf] Text
COVER.pdf

Download (106kB)
[thumbnail of ABSTRAK.pdf] Text
ABSTRAK.pdf

Download (167kB)
[thumbnail of SCAN HAL PENGESAHAN PEMBIMBING.pdf] Text
SCAN HAL PENGESAHAN PEMBIMBING.pdf

Download (111kB)
[thumbnail of SCAN HAL PENGESAHAN PENGUJI.pdf] Text
SCAN HAL PENGESAHAN PENGUJI.pdf

Download (138kB)
[thumbnail of DAFTAR ISI.pdf] Text
DAFTAR ISI.pdf

Download (180kB)
[thumbnail of DAFTAR PUSTAKA.pdf] Text
DAFTAR PUSTAKA.pdf

Download (163kB)
[thumbnail of SIDANGKU.pdf] Text
SIDANGKU.pdf
Restricted to Repository staff only

Download (6MB)
Official URL: https://upnyk.ac.id/

Abstract

Meningkatnya penggunaan email dalam aktivitas sehari-hari meningkatkan resiko serangan phishing, yaitu serangan dalam dunia maya yang dilakukan dengan tujuan untuk memperoleh informasi sensitif dengan berpura-pura menjadi entitas yang sah. Email phishing sering kali disamarkan dengan teknik yang sulit dibedakan dari email sah. Oleh karena itu diperlukan metode yang efektif untuk mendeteksi email phishing secara akurat. Penelitian ini bertujuan untuk menganalisis kinerja algoritma Random Forest dalam mendeteksi email phishing menggunakan teknik ekstraksi fitur teks Term Frequency-Inverse Document Frequency (TF-IDF) serta mengevaluasi kinerja model menggunakan matriks akurasi, presisi, recall, dan F-1 Score.

Data yang digunakan pada penelitian ini bersumber dari situs Kaggle dengan mengambil sampel sebanyak 5000 data email. Tahapan preprocessing meliputi penggabungan kolom ‘subject’ dan ‘body’, mengubah kolom ‘label’ dari numerik menjadi kategorikal, proses cleaning, proses case folding, proses tokenization, proses stopwords removal, dan proses whitespace trimming. Selanjutnya dilakukan ekstraksi fitur teks menggunakan TF-IDF untuk menghasilkan representasi numerik dari teks pada setiap kata dalam email kemudian data dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian. Model klasifikasi dibangun menggunakan algoritma Random Forest dengan parameter 50 pohon keputusan dan kedalaman maksimal 10. Evaluasi kinerja model dilakukan berdasarkan hasil prediksi terhadap data pengujian dengan menggunakan confusion matrix untuk menghitung akurasi, presisi, recall, dan F-1 Score.

Hasil pengujian menunjukkan bahwa model Random Forest menggunakan TF-IDF yang dikembangkan dapat mendeteksi email phishing dengan hasil akurasi sebesar 98%, presisi sebesar 98%, recall sebesar 99%, dan F-1 score sebesar 98%. Hasil matriks akurasi tersebut menunjukkan bahwa kombinasi TF-IDF dan Random Forest efektif untuk klasifikasi email phishing. Penelitian ini membuktikan bahwa teknik ekstraksi fitur teks yang tepat dikombinasikan dengan algoritma pembelajaran mesin berbasis ensemble learningdapat meningkatkan efektivitas sistem deteksi serangan siber berbasis email secara signifikan. Hasil penelitian ini diharapkan dapat menjadi acuan bagi pengembang aplikasi deteksi email phishing secara lebih efektif dan efisien.

Kata Kunci: Email Phishing, Random Forest, TF-IDF, Confusion Matrix, Evaluasi Model

Item Type: Thesis (Skripsi)
Additional Information: NABILLA ALYA CHOIRUNNISA (Penulis - 123210193) ; Ahmad Taufiq Akbar (Pembimbing)
Uncontrolled Keywords: Email Phishing, Random Forest, TF-IDF, Confusion Matrix, Evaluasi Model
Subjek: Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Divisions: Fakultas Teknik Industri > Informatika (S1)
Depositing User: Bayu Pambudi
Date Deposited: 16 Jul 2025 07:04
Last Modified: 16 Jul 2025 07:04
URI: http://eprints.upnyk.ac.id/id/eprint/43133

Actions (login required)

View Item View Item