Ekstraksi Informasi Berbasis Visual-Teks Dari Poster Menggunakan LayoutLMv3 dan Google Vision API

IBNU TAUFICK AHRAZA, IBNU (2025) Ekstraksi Informasi Berbasis Visual-Teks Dari Poster Menggunakan LayoutLMv3 dan Google Vision API. Skripsi thesis, UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN YOGYAKARTA.

[thumbnail of 1. Cover_123210192.pdf] Text
1. Cover_123210192.pdf

Download (149kB)
[thumbnail of 2. Abstrak_123210192.pdf] Text
2. Abstrak_123210192.pdf

Download (214kB)
[thumbnail of 3. Halaman Pengesahan Pembimbing_123210192.pdf] Text
3. Halaman Pengesahan Pembimbing_123210192.pdf

Download (185kB)
[thumbnail of 4. Halaman Pengesahan Penguji_123210192.pdf] Text
4. Halaman Pengesahan Penguji_123210192.pdf

Download (200kB)
[thumbnail of 5. Daftar Isi_123210192.pdf] Text
5. Daftar Isi_123210192.pdf

Download (264kB)
[thumbnail of 6. Daftar Pustaka_123210192.pdf] Text
6. Daftar Pustaka_123210192.pdf

Download (197kB)
[thumbnail of 7. FullSkripsi_123210192.pdf] Text
7. FullSkripsi_123210192.pdf
Restricted to Repository staff only

Download (4MB)
Official URL: https://www.upnyk.ac.id/

Abstract

Ekstraksi informasi dari poster acara merupakan sebuah tantangan karena dokumen ini memiliki tata letak yang bervariasi dan mengandung elemen teks serta visual yang saling berintegrasi. Pendekatan yang ada sekarang dinilai kurang fleksibel terhadap variasi format tata letak dokumen yang bergaya. Oleh karena itu, penelitian ini bertujuan mengembangkan sistem ekstraksi informasi jadwal dari poster acara seminar dengan memanfaatkan pemahaman multimodal yang mampu beradaptasi pada variasi tata letak yang ekstrim.
Metode pre-processing yang digunakan meliputi normalisasi gambar hingga ukuran 1000 piksel, dilanjutkan dengan pengenalan teks menggunakan Google Cloud Vision API untuk mengekstraksi teks poster pada level kata, kemudian dilakukan pelabelan berdasarkan informasi jadwal acara yang selanjutnya disimpan ke Google Calendar. Untuk kebutuhan pelabelan yang lebih detail, label dipecah menggunakan skema BIO agar entitas yang berbeda tetapi memiliki label sama dapat dibedakan, dengan proses pelabelan BIO didasarkan pada hasil pengenalan teks Google Cloud Vision API pada level paragraf. Selanjutnya, dilakukan fine-tuning model LayoutLMv3 untuk memprediksi label kata dengan mempertimbangkan kombinasi informasi teks, tata letak, dan elemen visual, yang mencakup tahap inisialisasi model pre-trained, pelatihan, serta evaluasi performa. Model dikembangkan dan dilatih menggunakan python serta pustaka Hugging Face, sementara sistem ekstraksi informasi diimplementasikan dalam bentuk antarmuka berbasis streamlit. Evaluasi performa model dilakukan menggunakan metrik precision, recall, dan f1-score, serta dilengkapi dengan pengujian sistem untuk mengukur akurasi model pada data nyata yang diperoleh melalui pengambilan gambar poster menggunakan kamera handphone.
Hasil penelitian menunjukkan bahwa model yang dikembangkan mencapai nilai macro precision sebesar 91,15%, macro recall sebesar 86,37%, dan macro F1-score sebesar 87,87% pada data pengujian, dengan konfigurasi learning rate 1,5e-5, batch size 8, dan jumlah 100 epoch. Selain itu, pengujian model sistem dilakukan pada skenario berbeda, seperti jarak pengambilan gambar 15cm, jarak pengambilan gambar 25cm, dan pencahayaan kurang, menghasilkan nilai akurasi rata-rata akurasi pada setiap skenario di sekitar 80-90%.

Kata Kunci: LayoutLMv3, OCR, ekstraksi informasi, poster acara, multimodal, token classification

Item Type: Tugas Akhir (Skripsi)
Additional Information: IBNU TAUFICK AHRAZA (Penulis - 123210192) ; RUDY CAHYADI (Pembimbing)
Uncontrolled Keywords: LayoutLMv3, OCR, ekstraksi informasi, poster acara, multimodal, token classification
Subjek: Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Divisions: Fakultas Teknik Industri > (S1) Informatika
Depositing User: Bayu Pambudi
Date Deposited: 23 Dec 2025 06:16
Last Modified: 23 Dec 2025 06:16
URI: http://eprints.upnyk.ac.id/id/eprint/46315

Actions (login required)

View Item View Item