PENERAPAN METODE TESSERACT OCR ENGINE DAN REGULAR EXPRESSION UNTUK PENGOLAHAN CITRA DOKUMEN SURAT DI LINGKUNGAN JURUSAN TEKNIK INFORMATIKA UPN "VETERAN" YOGYAKARTA

Aqillasari, Yolanda Putri (2020) PENERAPAN METODE TESSERACT OCR ENGINE DAN REGULAR EXPRESSION UNTUK PENGOLAHAN CITRA DOKUMEN SURAT DI LINGKUNGAN JURUSAN TEKNIK INFORMATIKA UPN "VETERAN" YOGYAKARTA. Diploma thesis, UPN "Veteran" Yogyakarta.

Preview	Text COVER.pdf Download (240kB) \| Preview
Preview	Text Pengesahan Pembimbing.pdf Download (515kB) \| Preview
Preview	Text DAFTAR PUSTAKA.pdf Download (140kB) \| Preview
Preview	Text DAFTAR ISI-1.pdf Download (165kB) \| Preview
	Text SKRIPSI FULL_Yolanda Putri Aqillasari_(123150040) Informatika.pdf Restricted to Repository staff only Download (9MB)
Preview	Text COVER.pdf Download (240kB) \| Preview
Preview	Text ABSTRAK-2.pdf Download (148kB) \| Preview

Abstract

Pada suatu organisasi maupun instansi penggunaan media surat dinilai lebih
informatif dalam menyampaikan informasi yang bersifat resmi dan penting. Surat resmi dari
suatu instansi memiliki nilai hukum dan dapat dijadikan sebagai alat bukti historis, sehingga
pengagendaan surat-surat tersebut perlu dilakukan. Teknologi OCR (optical character
recognition) dengan Tesseract OCR Engine dapat diterapkan untuk membantu proses
pendataan agenda surat tersebut, yaitu dengan melakukan proses ekstraksi informasi dari
citra dokumen surat yang kemudian akan menghasilkan data digital untuk dapat diolah
sesuai kebutuhan. Namun hasil akurasi Tesseract akan berkurang apabila terdapat objek
gangguan pada citra yang akan diproses.
Solusi dari permasalahan ini dapat diatasi dengan menambahkan image
preprocessing sebelum proses pengenalan oleh Tesseract untuk meningkatkan kualitas citra,
sehingga hasil pengenalan karakter menjadi lebih baik. Tahapan image preprocessing yang
dilakukan yaitu scaling, brightness, grayscale, gaussian filtering, otsu thresholding dan
erosi. Selanjutnya data hasil pengenalan OCR akan diklasifikasikan menggunakan algoritma
Regular Expression. Adapun data yang diambil adalah data nama instansi pengirim, nomor
surat, tanggal surat, perihal dan penerima surat.
Hasil yang didapat dari pengujian yang telah dilakukan pada 15 dokumen surat
dengan format penulisan yang berbeda, akurasi Tesseract OCR dapat ditingkatkan dengan
menerapkan image preprocessing. Nilai rata-rata akurasi untuk pengenalan karakter pada
citra surat tanpa image preprocessing sebesar 73,503388%, sedangkan pada citra surat
dengan image preprocessing menghasilkan nilai akurasi rata-rata sebesar 90,58362%.
Sehingga nilai peningkatan rata-rata yang dihasilkan pada pengenalan objek citra surat yaitu
sebesar 17,08023%. Selain itu algoritma Regular Expression dapat digunakan untuk proses
klasifikasi data dengan nilai rata-rata akurasi yang dihasilkan untuk atribut nama instansi
pengirim sebesar 91,26785%, atribut nomor surat sebesar 90,36643%, atribut tanggal surat
sebesar 93,25311%, atribut perihal sebesar 91,69876% dan untuk atribut penerima surat
sebesar 92,89901%.
Kata Kunci : Surat, Optical Character Recognition, Tessercat OCR Engine, Regular
Expression

Item Type:	Tugas Akhir (Diploma)
Uncontrolled Keywords:	Surat, Optical Character Recognition, Tessercat OCR Engine, Regular Expression
Subjek:	Z Bibliography. Library Science. Information Resources > ZA Information resources > ZA4050 Electronic information resources
Divisions:	x. Eprints Lama > 3
Depositing User:	Eny Suparny
Date Deposited:	16 Mar 2021 08:35
Last Modified:	16 Mar 2021 08:35
URI:	http://eprints.upnyk.ac.id/id/eprint/24962

Actions (login required)

View Item