FAKHRUDDIN, HAFIDH RIDWAN (2022) PENERAPAN METODE SMOTE-RANDOM FOREST PADA IMBALANCED DATASET UNTUK CREDIT SCORING. Diploma thesis, Universitas Pembangunan Nasional "Veteran" Yogyakarta.
Text
123180121_Hafidh Ridwan F_Abstrak.pdf Download (1MB) |
|
Text
123180121_Hafidh Ridwan F_Daftar Isi.pdf Download (1MB) |
|
Text
123180121_Hafidh Ridwan F_Daftar Pustaka.pdf Download (1MB) |
|
Text
123180121_Hafidh Ridwan F_Halaman Pengesahan Pembimbing .pdf Download (535kB) |
|
Text
123180121_Hafidh Ridwan Fakhruddin_Cover.pdf Download (469kB) |
|
Text
123180121_Hafidh Ridwan Fakhruddin_Cover.pdf Download (469kB) |
|
Text
123180121_Hafidh Ridwan Fakhruddin_Skripsi Full.pdf Restricted to Repository staff only Download (4MB) |
Abstract
Imbalanced Data dalam klasifikasi adalah salah satu topik yang penting dalam data mining
dan Machine Learning. Pada kasus nyata di kehidupan, dataset mengenai nasabah yang berkaitan
dengan penentuan kelayakan pemberian kredit adalah salah satu dari sekian jenis dataset yang
identik dengan ketimpangan tinggi antar kelas di dalamnya. Dalam klasifikasi tidak seimbang
biner terdapat salah satu kelas yang memiliki lebih banyak instance sehingga dimaknai sebagai
kelas mayoritas dan kelas lain dengan lebih sedikit instance yang dimaknai sebagai kelas
minoritas. Model yang terbuat dari data tidak seimbang beresiko besar menyebabkan prediksi kelas
minoritas yang rendah dan overfitting karena informasi dari kelas mayoritas lebih mendominasi
daripada kelas minoritas, hal tersebut berdampak pada diragukannya kualitas data dan keputusan
dalam sistem klasifikasi.
Menggunakan metode SMOTE yang diusulkan sebelum masuk tahap klasifikasi dengan
Random Forest. Dataset imbalanced akan melalui proses ekstrapolasi dengan SMOTE sehingga
dihasilkan data sintesis pada data minoritas (bad) sebanyak 400 data sintesis dari yang sebelumnya
hanya berjumlah 200 data, persebaran data menjadi seimbang dengan masing-masing kelas good
dan bad berjumlah 600 data. Selanjutnya pada tahap klasifikasi dengan Random Forest, data yang
telah seimbang akan melalui proses resampling bootstrap dengan pengembalian sehingga dataset
terbagi ke dalam beberapa subset data. Beberapa pohon (CART) akan terbentuk sesuai dengan
jumlah subset, setiap pohon akan dianalisis sehingga menghasilkan prediksi masing-masing. Hasil
klasifikasi akhir ditentukan berdasarkan voting atau pengambilan suara terbanyak dari hasil
prediksi setiap pohon yang terbentuk. Model yang telah dibangun akan diuji kehandalannya
dengan confusion matrix. Dari tabel confusion matrix akan diketahui nilai accuracy, precision,
recall, specificity, f1-score, dan AUC-ROC.
Hasil pengujian terbaik didapatkan pada model SMOTE-Random Forest dengan nilai
akurasi 84%, presisi 86%, sensitivitas 81%, spesifisitas 87%, F1 Score 83%, dan AUC 84%.
Sedangkan pada metode Random Forest tanpa SMOTE, didapatkan nilai akurasi 74%, presisi 81%,
sensitivitas 87%, spesifisitas 34%, F1 Score 84%, dan AUC 60%. Terdapat kenaikan sebesar 10%
pada akurasi, 5% pada presisi, 53% pada spesifisitas, dan 24% pada AUC. Dengan hasil tersebut,
SMOTE-Random Forest dikategorikan sebagai model klasifikasi yang baik.
Kata kunci : Klasifikasi, Credit scoring, Imbalanced data, SMOTE, Random Forest.
Item Type: | Thesis (Diploma) |
---|---|
Uncontrolled Keywords: | Klasifikasi, Credit scoring, Imbalanced data, SMOTE, Random Forest. |
Subjects: | H Social Sciences > H Social Sciences (General) |
Divisions: | Faculty of Engineering, Science and Mathematics > School of Engineering Sciences |
Depositing User: | Eny Suparny |
Date Deposited: | 13 Dec 2022 04:07 |
Last Modified: | 20 May 2024 07:41 |
URI: | http://eprints.upnyk.ac.id/id/eprint/31889 |
Actions (login required)
View Item |