IMPLEMENTASI METODE TRANSFORMER-BASED MODEL (IndoBERT) UNTUK DETEKSI CLICKBAIT DENGAN MEMPERTIMBANGKAN POLA BAHASA DAN FITUR PENERBIT

Hadyan Baktiadi, . (2026) IMPLEMENTASI METODE TRANSFORMER-BASED MODEL (IndoBERT) UNTUK DETEKSI CLICKBAIT DENGAN MEMPERTIMBANGKAN POLA BAHASA DAN FITUR PENERBIT. Skripsi thesis, Universitas Pembangunan Nasional Veteran Yogyakarta.

[thumbnail of Cover_123220090.pdf] Text
Cover_123220090.pdf

Download (129kB)
[thumbnail of Halaman Pengesahan_123220090.pdf] Text
Halaman Pengesahan_123220090.pdf

Download (465kB)
[thumbnail of Abstrak_123220090.pdf] Text
Abstrak_123220090.pdf

Download (1MB)
[thumbnail of Daftar Isi_123220090.pdf] Text
Daftar Isi_123220090.pdf

Download (490kB)
[thumbnail of Daftar Pustaka_123220090.pdf] Text
Daftar Pustaka_123220090.pdf

Download (1MB)
[thumbnail of Fulltext_123220090.pdf] Text
Fulltext_123220090.pdf
Restricted to Repository staff only

Download (2MB)
Official URL: https://upnyk.ac.id/

Abstract

Penelitian ini bertujuan untuk mengimplementasikan model berbasis Deep Learning, khususnya arsitektur Transformer IndoBERT, dalam mendeteksi clickbait pada judul berita berbahasa Indonesia dengan mengintegrasikan fitur identitas penerbit. Dengan berkembangnya media daring dalam ekosistem Attention Economy, perhatian pengguna menjadi komoditas utama yang diperebutkan. Kondisi ini mendorong banyak penerbit berita untuk memprioritaskan trafik di atas akurasi dengan menggunakan judul clickbait yang memicu respons emosional serta memanfaatkan kesenjangan informasi pembaca. Meskipun berbagai model deteksi clickbait telah dikembangkan sebelumnya, sebagian besar penelitian terdahulu hanya berfokus pada analisis fitur teks (judul) dan mengabaikan fakta bahwa setiap media penerbit memiliki tingkat sensasionalisme serta gaya redaksional yang berbeda-beda.
Penelitian ini menggunakan dataset sekunder CLICK-ID, khususnya subset all_agree, yang memuat data judul berita dari 12 penerbit berita daring utama di Indonesia. Data tersebut melalui tahap prapemrosesan sistematis berupa pembersihan data, case folding, tokenisasi menggunakan tokenizer bawaan IndoBERT, serta rekayasa fitur untuk mengubah identitas penerbit menjadi representasi vektor numerik (embedding). Dua skenario model dikembangkan untuk evaluasi komparatif: Model Baseline yang hanya mengekstraksi 768 dimensi input dari teks judul, dan Model Usulan yang menggabungkan (melalui operasi concatenation) vektor teks judul tersebut dengan 8 dimensi vektor embedding identitas penerbit. Proses fine-tuning pada model dilakukan menggunakan optimizer AdamW, fungsi Cross Entropy Loss, aktivasi Softmax untuk prediksi kelas, serta penerapan strategi early stopping guna mencegah terjadinya overfitting selama pelatihan.
Hasil pengujian menunjukkan bahwa pengintegrasian fitur identitas penerbit mampu meningkatkan kinerja deteksi secara drastis. Model Usulan yang menggunakan fitur penerbit berhasil mencapai tingkat akurasi sebesar 95,93%, presisi 95,95%, recall 93,33%, dan F1-Score 94,62% dengan nilai Area Under the Curve (AUC) mencapai 0,99. Sebagai perbandingan, Model Baseline yang hanya menggunakan teks judul berita mencapai akurasi 93,26% dan F1-Score 91,21% dengan nilai AUC 0,98. Signifikansi peningkatan performa ini divalidasi lebih lanjut melalui uji statistik McNemar's Test yang menghasilkan p-value sebesar 0,0000662, jauh di bawah tingkat signifikansi 0,05. Penelitian ini mengonfirmasi secara empiris bahwa reputasi dan gaya bahasa spesifik dari media penerbit merupakan indikator yang sangat kuat dalam klasifikasi clickbait. Hasil dari pengembangan model klasifikasi ini diharapkan dapat diimplementasikan lebih lanjut sebagai sistem penyaringan informasi otomatis, seperti ekstensi peramban (browser extension), untuk membantu pengguna internet menghindari informasi yang sensasional atau menyesatkan.

Item Type: Tugas Akhir (Skripsi)
Additional Information: HADYAN BAKTIADI (Penulis - 123220090); Rifki Indra Perwira (Pembimbing 1)
Uncontrolled Keywords: deteksi clickbait, IndoBERT, identitas penerbit, Natural Language Processing, deep learning
Subjek: Q Science > QA Mathematics > QA75 Electronic computers. Computer science
T Technology > T Technology (General)
Divisions: Fakultas Teknik Industri > (S1) Informatika
Depositing User: Bayu Pambudi
Date Deposited: 21 May 2026 03:45
Last Modified: 21 May 2026 03:45
URI: http://eprints.upnyk.ac.id/id/eprint/48637

Actions (login required)

View Item View Item