Deteksi Kata Tidak Baku Dalam Kalimat Bahasa Indonesia Menggunakan Model Trigram Dan Laplace Smoothing

Ahmad Farhan Mulya Adiguna, . (2025) Deteksi Kata Tidak Baku Dalam Kalimat Bahasa Indonesia Menggunakan Model Trigram Dan Laplace Smoothing. Skripsi thesis, UNIVERSITAS PEMBANUNGAN NASIONAL VETERAN YOGYAKARTA.

[thumbnail of 1_COVER_123200100.pdf] Text
1_COVER_123200100.pdf

Download (200kB)
[thumbnail of 2_ABSTRAK_123200100.pdf] Text
2_ABSTRAK_123200100.pdf

Download (236kB)
[thumbnail of 3_HALAMAN PENGESAHAN_123200100.pdf] Text
3_HALAMAN PENGESAHAN_123200100.pdf

Download (777kB)
[thumbnail of 4_DAFTAR ISI_123200100.pdf] Text
4_DAFTAR ISI_123200100.pdf

Download (211kB)
[thumbnail of 5_DAFTAR PUSTAKA_123200100.pdf] Text
5_DAFTAR PUSTAKA_123200100.pdf

Download (176kB)
[thumbnail of 6_SKRIPSI FULL_123200100.pdf] Text
6_SKRIPSI FULL_123200100.pdf
Restricted to Repository staff only

Download (6MB)
Official URL: https://upnyk.ac.id/

Abstract

Penggunaan Bahasa Indonesia dalam media sosial dan platform digital sering kali tidak mengikuti kaidah kebakuan, baik dari segi ejaan maupun pemilihan kata. Fenomena ini menimbulkan tantangan dalam pengembangan sistem pemrosesan bahasa alami (Natural Language Processing/NLP), khususnya dalam deteksi kesalahan dan normalisasi teks. Penelitian ini bertujuan untuk mengembangkan sistem deteksi kata tidak baku dalam kalimat Bahasa Indonesia menggunakan model trigram karakter dengan penerapan teknik Laplace Smoothing. Pendekatan ini dipilih karena mampu memperkirakan probabilitas kemunculan kata berdasarkan konteks tiga karakter sebelumnya, sekaligus mengatasi masalah data sparsity pada model bahasa.
Data yang digunakan meliputi kamus KBBI sebagai acuan kata baku, Spelling Error Correction in Indonesian Language (SPECIL) sebagai sumber pasangan kata baku dan tidak baku, serta Twitter Emotion Dataset sebagai korpus pelatihan model trigram. Proses penelitian meliputi tahap pra-pemrosesan teks, pembentukan model trigram, penerapan teknik Laplace Smoothing, serta evaluasi sistem berdasarkan metrik precision, recall, dan F1-score. Sistem dirancang untuk mengklasifikasikan kata dalam kalimat menjadi tiga kategori, yaitu baku, tidak baku (dikenali SPECIL), dan tidak baku (probabilitas trigram rendah).
Hasil pengujian menunjukkan bahwa sistem yang dikembangkan mampu mendeteksi kata tidak baku dengan tingkat ketepatan yang baik dan stabil, bahkan untuk kata dengan variasi penulisan yang jarang ditemukan dalam data pelatihan. Penerapan Laplace Smoothing terbukti efektif dalam mencegah probabilitas nol pada kombinasi trigram langka, sehingga meningkatkan kemampuan model dalam memprediksi bentuk kata yang lebih alami. Sistem ini dapat diimplementasikan dalam aplikasi berbasis web sebagai alat bantu pemeriksa ejaan atau normalisasi teks otomatis. Dengan demikian, penelitian ini memberikan kontribusi terhadap pengembangan teknologi NLP untuk Bahasa Indonesia, khususnya dalam peningkatan kualitas teks digital dan pelestarian kebakuan bahasa.

Kata kunci: deteksi kata tidak baku, trigram, Laplace smoothing, Bahasa Indonesia, NLP

Item Type: Tugas Akhir (Skripsi)
Additional Information: AHMAD FARHAN MULYA ADIGUNA (PENULIS - 123200100) HERLINA JAYADIANTI (PEMBIMBING)
Uncontrolled Keywords: deteksi kata tidak baku, trigram, Laplace smoothing, Bahasa Indonesia, NLP
Subjek: T Technology > T Technology (General)
Z Bibliography. Library Science. Information Resources > Z665 Library Science. Information Science
Divisions: Fakultas Teknik Industri > (S1) Informatika
Depositing User: Indah Lestari
Date Deposited: 23 Oct 2025 04:15
Last Modified: 23 Oct 2025 04:15
URI: http://eprints.upnyk.ac.id/id/eprint/44858

Actions (login required)

View Item View Item