WIBOWO, HAFIZH FIRMANSYAH RAIHANANDI (2023) IMPLEMENTASI ENSEMBLE SMOTE DAN PCA UNTUK MENGATASI IMBALANCED PADA DATASET MEDIS PENDERITA STROKE BERDIMENSIONALITAS TINGGI. Other thesis, UPN "Veteran" Yogyakarta.
Text
1. Skripsi Fulltext_123160178_Hafizh Firmansyah R.W.pdf Restricted to Repository staff only Download (3MB) |
|
Text
2. Abstrak_123160178_Hafizh Firmansyah R.W.pdf Download (13kB) |
|
Text
3. Cover_123160178_Hafizh Firmansyah R.W.pdf Download (221kB) |
|
Text
4. Lembar Pengesahan_123160178_Hafizh Firmansyah R.W.pdf Download (496kB) |
|
Text
5. Daftar Isi_123160178_Hafizh Firmansyah R.W.pdf Download (237kB) |
|
Text
6. Daftar Pustaka_123160178_Hafizh Firmansyah R.W.pdf Download (144kB) |
Abstract
Deteksi dini penyakit stroke memiliki peranan penting dalam mencegah dan mengurangi
jumlah kematian. Meskipun demikian, data medis yang komprehensif dan seimbang mengenai
stroke masih terbatas. Data medis mengenai stroke umumnya berukuran besar, memiliki banyak
fitur, dan distribusi kelas yang tidak seimbang (imbalanced). Hal ini menjadi masalah karena
algoritma klasifikasi cenderung dominan pada kelas mayoritas dan mengabaikan kelas
minoritas, serta dimensi data yang tinggi dapat menyebabkan redundansi fitur. Oleh karena itu,
data yang tidak seimbang dan berdimensi tinggi dapat menyebabkan kinerja algoritma
pembelajaran mesin seperti Naïve Bayes, K-Nearest Neighbors, dan Decision Tree menjadi
kurang optimal.
Untungnya, dalam bidang pembelajaran mesin terdapat metode penggabungan
(ensemble) dengan mengintegrasikan metode SMOTE untuk menyeimbangkan data melalui
pendekatan over-sampling dan metode PCA untuk mengurangi dimensionalitas data dengan
mereduksi jumlah fitur. Sedangkan data yang digunakan adalah data sekunder dari repositori
kaggle, khususnya dataset medis stroke. Data yang didapatkan kemudian dibagi menjadi data
latih sebesar 80% dan data uji sebesar 20%. Selanjutnya dilakukan 2 skenario pemodelan
dengan tahapan hyperparameter tuning dan 10-fold cross validation.
Hasil penelitian menunjukan peningkatan kinerja klasifikasi yang ditandai dengan
meningkatnya nilai AUC secara berturut-turut sebesar 0,12 untuk Naïve Bayes, 0,08 untuk KNN
dan Decision Tree, serta peningkatan yang signifikan pada nilai G-Mean sebesar 0,22 untuk
Naïve Bayes, 0.35 untuk KNN, dan 0,26 untuk Decision Tree. Meskipun ensemble SMOTE dan
PCA memberikan peningkatan kinerja yang baik pada nilai AUC dan G-Mean, namun terjadi
penurunan pada nilai akurasi sebesar 0,14 pada Naïve Bayes, 0,12 pada KNN dan 0,10 pada
Decision Tree. Penurunan ini terjadi karena SMOTE mensintesis sampel baru pada kelas
minoritas agar seimbang dengan kelas mayoritas. Hal ini tentu mengakibatkan peningkatan
ukuran data dan membebani kinerja algoritma klasifikasi. Di sinilah peran PCA dibutuhkan
untuk mengurangi dimensi fitur dari 10 fitur menjadi 8 fitur dengan tetap mempertahankan 95%
kandungan informasi, sehingga menghasilkan data yang lebih kecil dan sederhana.
Kata Kunci : Stroke, Imbalanced, Dimensionalitas, SMOTE, PCA, hyperparameter tuning, 10-
fold cross validation, Naïve Bayes, K-Nearest Neighbors, Decision Tree
Item Type: | Thesis (Other) |
---|---|
Uncontrolled Keywords: | Stroke, Imbalanced, Dimensionalitas, SMOTE, PCA, hyperparameter tuning, 10- fold cross validation, Naïve Bayes, K-Nearest Neighbors, Decision Tree |
Subjects: | T Technology > T Technology (General) |
Divisions: | Faculty of Engineering, Science and Mathematics > School of Electronics and Computer Science |
Depositing User: | A.Md Apriliani Kusuma Wardhani |
Date Deposited: | 25 Jul 2023 03:51 |
Last Modified: | 25 Jul 2023 03:51 |
URI: | http://eprints.upnyk.ac.id/id/eprint/36549 |
Actions (login required)
View Item |