IMPLEMENTASI ENSEMBLE SMOTE DAN PCA UNTUK MENGATASI IMBALANCED PADA DATASET MEDIS PENDERITA STROKE BERDIMENSIONALITAS TINGGI

WIBOWO, HAFIZH FIRMANSYAH RAIHANANDI (2023) IMPLEMENTASI ENSEMBLE SMOTE DAN PCA UNTUK MENGATASI IMBALANCED PADA DATASET MEDIS PENDERITA STROKE BERDIMENSIONALITAS TINGGI. Other thesis, UPN "Veteran" Yogyakarta.

[thumbnail of 1. Skripsi Fulltext_123160178_Hafizh Firmansyah R.W.pdf] Text
1. Skripsi Fulltext_123160178_Hafizh Firmansyah R.W.pdf
Restricted to Repository staff only

Download (3MB)
[thumbnail of 2. Abstrak_123160178_Hafizh Firmansyah R.W.pdf] Text
2. Abstrak_123160178_Hafizh Firmansyah R.W.pdf

Download (13kB)
[thumbnail of 3. Cover_123160178_Hafizh Firmansyah R.W.pdf] Text
3. Cover_123160178_Hafizh Firmansyah R.W.pdf

Download (221kB)
[thumbnail of 4. Lembar Pengesahan_123160178_Hafizh Firmansyah R.W.pdf] Text
4. Lembar Pengesahan_123160178_Hafizh Firmansyah R.W.pdf

Download (496kB)
[thumbnail of 5. Daftar Isi_123160178_Hafizh Firmansyah R.W.pdf] Text
5. Daftar Isi_123160178_Hafizh Firmansyah R.W.pdf

Download (237kB)
[thumbnail of 6. Daftar Pustaka_123160178_Hafizh Firmansyah R.W.pdf] Text
6. Daftar Pustaka_123160178_Hafizh Firmansyah R.W.pdf

Download (144kB)

Abstract

Deteksi dini penyakit stroke memiliki peranan penting dalam mencegah dan mengurangi
jumlah kematian. Meskipun demikian, data medis yang komprehensif dan seimbang mengenai
stroke masih terbatas. Data medis mengenai stroke umumnya berukuran besar, memiliki banyak
fitur, dan distribusi kelas yang tidak seimbang (imbalanced). Hal ini menjadi masalah karena
algoritma klasifikasi cenderung dominan pada kelas mayoritas dan mengabaikan kelas
minoritas, serta dimensi data yang tinggi dapat menyebabkan redundansi fitur. Oleh karena itu,
data yang tidak seimbang dan berdimensi tinggi dapat menyebabkan kinerja algoritma
pembelajaran mesin seperti Naïve Bayes, K-Nearest Neighbors, dan Decision Tree menjadi
kurang optimal.
Untungnya, dalam bidang pembelajaran mesin terdapat metode penggabungan
(ensemble) dengan mengintegrasikan metode SMOTE untuk menyeimbangkan data melalui
pendekatan over-sampling dan metode PCA untuk mengurangi dimensionalitas data dengan
mereduksi jumlah fitur. Sedangkan data yang digunakan adalah data sekunder dari repositori
kaggle, khususnya dataset medis stroke. Data yang didapatkan kemudian dibagi menjadi data
latih sebesar 80% dan data uji sebesar 20%. Selanjutnya dilakukan 2 skenario pemodelan
dengan tahapan hyperparameter tuning dan 10-fold cross validation.
Hasil penelitian menunjukan peningkatan kinerja klasifikasi yang ditandai dengan
meningkatnya nilai AUC secara berturut-turut sebesar 0,12 untuk Naïve Bayes, 0,08 untuk KNN
dan Decision Tree, serta peningkatan yang signifikan pada nilai G-Mean sebesar 0,22 untuk
Naïve Bayes, 0.35 untuk KNN, dan 0,26 untuk Decision Tree. Meskipun ensemble SMOTE dan
PCA memberikan peningkatan kinerja yang baik pada nilai AUC dan G-Mean, namun terjadi
penurunan pada nilai akurasi sebesar 0,14 pada Naïve Bayes, 0,12 pada KNN dan 0,10 pada
Decision Tree. Penurunan ini terjadi karena SMOTE mensintesis sampel baru pada kelas
minoritas agar seimbang dengan kelas mayoritas. Hal ini tentu mengakibatkan peningkatan
ukuran data dan membebani kinerja algoritma klasifikasi. Di sinilah peran PCA dibutuhkan
untuk mengurangi dimensi fitur dari 10 fitur menjadi 8 fitur dengan tetap mempertahankan 95%
kandungan informasi, sehingga menghasilkan data yang lebih kecil dan sederhana.
Kata Kunci : Stroke, Imbalanced, Dimensionalitas, SMOTE, PCA, hyperparameter tuning, 10-
fold cross validation, Naïve Bayes, K-Nearest Neighbors, Decision Tree

Item Type: Thesis (Other)
Uncontrolled Keywords: Stroke, Imbalanced, Dimensionalitas, SMOTE, PCA, hyperparameter tuning, 10- fold cross validation, Naïve Bayes, K-Nearest Neighbors, Decision Tree
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Engineering, Science and Mathematics > School of Electronics and Computer Science
Depositing User: A.Md Apriliani Kusuma Wardhani
Date Deposited: 25 Jul 2023 03:51
Last Modified: 25 Jul 2023 03:51
URI: http://eprints.upnyk.ac.id/id/eprint/36549

Actions (login required)

View Item View Item