PERBANDINGAN JARAK EUCLIDEAN DISTANCE DAN COSINE SIMILARITY PADA ALGORITMA K-NEAREST NEIGHBOR UNTUK KLASIFIKASI JURNAL INTERNASIONAL

Agatha, Salsabilla (2024) PERBANDINGAN JARAK EUCLIDEAN DISTANCE DAN COSINE SIMILARITY PADA ALGORITMA K-NEAREST NEIGHBOR UNTUK KLASIFIKASI JURNAL INTERNASIONAL. Other thesis, UPN Veteran Yogyakarta.

[thumbnail of SKRIPSI FULL_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf] Text
SKRIPSI FULL_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf
Restricted to Repository staff only

Download (2MB)
[thumbnail of COVER_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf] Text
COVER_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf

Download (134kB)
[thumbnail of ABSTRAK_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf] Text
ABSTRAK_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf

Download (14kB)
[thumbnail of PENGESAHAN_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf] Text
PENGESAHAN_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf

Download (151kB)
[thumbnail of DAFTAR ISI_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf] Text
DAFTAR ISI_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf

Download (30kB)
[thumbnail of DAFTAR PUSTAKA_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf] Text
DAFTAR PUSTAKA_SALSABILLA AGATHA_123180025_INFORMATIKA.pdf

Download (15kB)

Abstract

Dengan semakin banyaknya jurnal ilmiah yang dipublikasikan secara daring, kebutuhan
akan sistem klasifikasi kategori jurnal yang efisien dan akurat menjadi sangat penting.
Dalam mengklasifikasi jurnal dibutuhkan 2 parameter utama yaitu judul dan abstrak. Pada
penelitian ini dilakukan 4 tahap. Pertama, pre-processing dataset yang mencakup case
folding, tokenizing, stopword removal, dan stemming. Kedua, dilakukan pembobotan kata
menggunakan Term Frequency-Inverse Document Frequency (TF-IDF). Setelah
pembobotan, dilakukan penerapan algoritma K-Nearest Neighbor (K-NN). Di salah satu
proses K-NN terdapat perhitungan jarak metriks. Pada penelitian ini perhitungan jarak
cosine similarity dan euclidean distance dibandingkan. Hasil penelitian menunjukkan bahwa
terdapat perbedaan dalam kinerja algoritma K-Nearest Neighbor (K-NN) berdasarkan kedua
metode perhitungan jarak tersebut. Terakhir, pengujian dengan confusion matrix. Cosine
similarity cenderung memberikan hasil yang lebih baik dalam mengukur kemiripan antar
dokumen teks, terutama dalam konteks klasifikasi teks yang melibatkan banyak dimensi dan
variasi kata. Hasil akurasi terbesar oleh cosine similarity sebesar 0,8249 pada k = 23. Di sisi
lain, euclidean distance, meskipun sederhana dan intuitif, kurang efektif dalam menangani
data teks yang memiliki dimensi tinggi. Hasil akurasi terbesar oleh euclidean distance
sebesar 0,8209 pada k = 23.
Kata kunci: K-Nearest Neighbor (K-NN), Cosine Similarity, Euclidean Distance, Jarak
metriks, Text mining, Jurnal

Item Type: Thesis (Other)
Uncontrolled Keywords: K-Nearest Neighbor (K-NN), Cosine Similarity, Euclidean Distance, Jarak metriks, Text mining, Jurnal
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Engineering, Science and Mathematics > School of Engineering Sciences
Depositing User: A.Md.SI Indah Lestari Wulan Aji
Date Deposited: 31 Jul 2024 06:39
Last Modified: 31 Jul 2024 06:40
URI: http://eprints.upnyk.ac.id/id/eprint/40536

Actions (login required)

View Item View Item