PENGEMBANGAN SISTEM REKOMENDASI KARYA ILMIAH MEDIS DENGAN PENDEKATAN KEMIRIPAN SEMANTIK MENGGUNAKAN FASTTEXT DAN TF-IDF

Sudarto, Muhammad Khadafie Satya (2024) PENGEMBANGAN SISTEM REKOMENDASI KARYA ILMIAH MEDIS DENGAN PENDEKATAN KEMIRIPAN SEMANTIK MENGGUNAKAN FASTTEXT DAN TF-IDF. Other thesis, UPN Veteran Yogyakarta.

[thumbnail of Cover_123190072_Muhammad Khadafie Satya Sudarto.pdf] Text
Cover_123190072_Muhammad Khadafie Satya Sudarto.pdf

Download (100kB)
[thumbnail of Abstrak_123190072_Muhammad Khadafie Satya Sudarto.pdf] Text
Abstrak_123190072_Muhammad Khadafie Satya Sudarto.pdf

Download (221kB)
[thumbnail of Lembar Pengesahan Pembimbing_123190072_Muhammad Khadafie Satya Sudarto.pdf] Text
Lembar Pengesahan Pembimbing_123190072_Muhammad Khadafie Satya Sudarto.pdf

Download (225kB)
[thumbnail of Lembar Pengesahan Penguji_123190072_Muhammad Khadafie Satya Sudarto.pdf] Text
Lembar Pengesahan Penguji_123190072_Muhammad Khadafie Satya Sudarto.pdf

Download (250kB)
[thumbnail of Daftar Isi_123190072_Muhammad Khadafie Satya Sudarto.pdf] Text
Daftar Isi_123190072_Muhammad Khadafie Satya Sudarto.pdf

Download (146kB)
[thumbnail of Daftar Pustaka_123190072_Muhammad Khadafie Satya Sudarto.pdf] Text
Daftar Pustaka_123190072_Muhammad Khadafie Satya Sudarto.pdf

Download (183kB)
[thumbnail of Skripsi_123190072_Muhammad Khadafie Satya Sudarto.pdf] Text
Skripsi_123190072_Muhammad Khadafie Satya Sudarto.pdf
Restricted to Repository staff only

Download (4MB)

Abstract

Peningkatan jumlah artikel ilmiah di bidang medis selama beberapa dekade terakhir,
terutama pasca-pandemi COVID-19, telah menciptakan tantangan bagi peneliti dan praktisi
kesehatan dalam menemukan artikel yang relevan secara efisien. Kendala tersebut terdiri dari
kompleksitas istilah medis, variasi terminologi, serta keterbatasan waktu. Penelitian ini
bertujuan untuk mengembangkan sistem rekomendasi berbasis Content-Based Filtering dengan
memanfaatkan penggabungan metode TF-IDF dan fastText. TF-IDF digunakan untuk
mengekstrak informasi relevan dari artikel, sementara fastText membantu menangkap
kemiripan semantik antar istilah medis.
Dataset yang digunakan berjumlah 4500 yang diperoleh dari situs Elsevier berisikan data
informasi karya ilmiah medis yang meliputi, judul, Digital Object Identifier(DOI), abstrak, link
artikel, tanggal publikasi, nama publikasi, dan isi artikel dengan lingkup topik yang dibatasi
pada bidang tertentu. Proses pra-pemrosesan data dilakukan melalui enam tahap, yaitu
penghapusan duplikat, case folding menjadi lowercase, tokenisasi, filter karakter non-alfabet,
penghapusan stopwords, dan lemmatisasi menggunakan library SpaCy. Setelah melalui
tahapan pra-pemrosesan data, data tersebut digunakan sebagai input training model fastText
dengan parameter tertentu menggunakan library gensim, sementara skor TF-IDF dihitung
untuk menentukan bobot setiap kata dalam dokumen. Hasil penggabungan kedua metode
tersebut menghasilkan representasi dokumen berbasis fastText dengan pembobotan TF-IDF.
Sistem ini diimplementasikan menggunakan framework Flask dan dilakukan sebuah
skenario pengujian dengan lima query yang dirancang untuk mencakup berbagai topik medis.
Evaluasi dilakukan menggunakan metrik Normalized Discounted Cumulative Gain (NDCG),
menghasilkan rata-rata nilai NDCG sebesar 0,955. Nilai tertinggi sebesar 1.0 diperoleh pada
query ketiga dan keempat, sementara query pertama dan kelima memperoleh nilai mendekati
sempurna, masing-masing 0,968 dan 0,961. Query kedua menunjukkan nilai terendah, yaitu
0,847, mengindikasikan adanya artikel teratas yang kurang sesuai dengan ekspektasi
partisipan. Survei terhadap partisipan yang memiliki latar belakang di bidang kesehatan
menunjukkan bahwa 25% partisipan merasa sistem berhasil mengatasi variasi istilah medis
sepenuhnya, sementara 75% merasa masih ada istilah yang tidak teratasi. Selanjutnya, seluruh
partisipan menilai sistem cukup membantu memahami topik medis meskipun terdapat variasi
istilah. Terakhir, sebagian besar partisipan menilai sistem cukup efektif dalam
menyederhanakan pencarian artikel medis, meskipun 25% responden merasa efektivitas sistem
masih perlu ditingkatkan.
Kata Kunci: fastText, TF-IDF, NDCG, Content-Based Filtering, semantik, istilah medis, artikel ilmiah.

Item Type: Thesis (Other)
Uncontrolled Keywords: fastText, TF-IDF, NDCG, Content-Based Filtering, semantik, istilah medis, artikel ilmiah.
Subjects: Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Q Science > QA Mathematics > QA76 Computer software
Divisions: Faculty of Engineering, Science and Mathematics > School of Electronics and Computer Science
Depositing User: Bayu Setya Pambudi
Date Deposited: 27 Dec 2024 01:48
Last Modified: 27 Dec 2024 01:48
URI: http://eprints.upnyk.ac.id/id/eprint/41923

Actions (login required)

View Item View Item