KLASIFIKASI EKSPRESI WAJAH MAJEMUK MENGGUNAKAN ARSITEKTUR VISION TRANSFORMER PADA DATASET RAF-DB

PRADANA, RANGGA ARYA (2025) KLASIFIKASI EKSPRESI WAJAH MAJEMUK MENGGUNAKAN ARSITEKTUR VISION TRANSFORMER PADA DATASET RAF-DB. Skripsi thesis, UPN "Veteran" Yogyakarta.

[thumbnail of Cover_123210191_Rangga Arya Pradana.pdf] Text
Cover_123210191_Rangga Arya Pradana.pdf

Download (4MB)
[thumbnail of Abstrak_123210191_Rangga Arya Pradana.pdf] Text
Abstrak_123210191_Rangga Arya Pradana.pdf

Download (4MB)
[thumbnail of Halaman Pengesahan Pembimbing_123210191_Rangga Arya Pradana.pdf] Text
Halaman Pengesahan Pembimbing_123210191_Rangga Arya Pradana.pdf

Download (492kB)
[thumbnail of Halaman Pengesahan Penguji_123210191_Rangga Arya Pradana.pdf] Text
Halaman Pengesahan Penguji_123210191_Rangga Arya Pradana.pdf

Download (3MB)
[thumbnail of Daftar Isi_123210191_Rangga Arya Pradana.pdf] Text
Daftar Isi_123210191_Rangga Arya Pradana.pdf

Download (4MB)
[thumbnail of Skripsi Full Text_123210191_Rangga Arya Pradana.pdf] Text
Skripsi Full Text_123210191_Rangga Arya Pradana.pdf
Restricted to Repository staff only

Download (13MB)

Abstract

Pengenalan ekspresi wajah majemuk (compound expression) menghadirkan
tantangan signifikan karena kompleksitas dan ambiguitasnya yang melebihi ekspresi dasar,
menuntut model yang mampu menangkap nuansa halus dan dependensi spasial global.
Berbeda dengan arsitektur Convolutional Neural Network (CNN) yang cenderung fokus
pada fitur lokal, Vision Transformer (ViT) dengan mekanisme self-attention globalnya
menawarkan potensi untuk memodelkan hubungan kontekstual tersebut secara lebih efektif.
Meskipun ViT unggul pada emosi dasar di dataset RAF-DB, penerapannya secara spesifik
untuk klasifikasi 11 kelas ekspresi majemuk pada dataset yang sama masih menjadi celah
penelitian. Oleh karena itu, penelitian ini bertujuan untuk mengevaluasi secara komprehensif
bagaimana performa arsitektur ViT standar dalam tugas klasifikasi ekspresi wajah majemuk
pada dataset RAF-DB, serta menganalisis kelebihan dan keterbatasannya dibandingkan
dengan pendekatan sebelumnya.
Penelitian ini menggunakan pendekatan kuantitatif eksperimental untuk
mengevaluasi model Vision Transformer (ViT). Data yang digunakan adalah subset ekspresi
majemuk dari dataset RAF-DB, yang terdiri dari 3.954 gambar yang dibagi menjadi 80%
data latih, 10% data validasi, dan 10% data uji. Tahap preprocessing meliputi resize gambar
ke ukuran 224x224 piksel, normalisasi nilai piksel menggunakan mean dan standar deviasi
dari ImageNet, serta augmentasi data pada set pelatihan yang meliputi Horizontal Flip,
Random Brightness Contrast, dan ShiftScaleRotate untuk meningkatkan variasi data. Model
ViT yang digunakan adalah vit_base_patch16_224 dengan bobot pre-trained dari ImageNet,
lapisan klasifikasi akhir disesuaikan untuk 11 kelas. Pengujian dilakukan melalui 12 skenario
dengan kombinasi hyperparameter yang berbeda (epoch: 30/50, learning rate: 1e-4/1e-5,
batch size: 16/32/64) untuk menemukan konfigurasi paling optimal.
Hasil penelitian menunjukkan performa puncak pada skenario pengujian ke-11
dengan akurasi sebesar 63.13%, menggunakan konfigurasi 50 epoch, learning rate 1e-5, dan
batch size 32. Performa ini secara signifikan melampaui metode sebelumnya seperti DLP
CNN (44.55%) pada tugas yang sama, membuktikan keunggulan mekanisme self-attention
ViT dalam menangkap hubungan kontekstual global pada wajah. Analisis kualitatif melalui
attention map mengonfirmasi bahwa model berhasil mempelajari kombinasi fitur yang
relevan, seperti alis dan mulut, untuk membedakan ekspresi. Namun, penelitian ini juga
mengungkap keterbatasan fundamental, yaitu model kesulitan mengenali kelas-kelas
ambigu yang sampelnya sedikit, serta mengembangkan bias dengan belajar dari artefak
visual non-wajah seperti area gelap pada pakaian atau latar belakang untuk membuat
keputusan klasifikasi. Kontribusi penelitian ini adalah menyediakan evaluasi komprehensif
dan baseline performa yang solid untuk ViT standar pada klasifikasi ekspresi majemuk,
sekaligus menyoroti tantangan bias dan ketidakseimbangan data sebagai area krusial untuk
pengembangan di masa depan.
Kata Kunci: Klasifikasi Ekspresi Wajah, Ekspresi Wajah Majemuk, Vision Transformer,
Real-World Affective Faces (RAF-DB), Deep Learning

Item Type: Tugas Akhir (Skripsi)
Additional Information: RANGGA ARYA PRADANA (Penulis-123210191) ; Mangaras Yanu Florestiyanto (Pembimbing)
Uncontrolled Keywords: Klasifikasi Ekspresi Wajah, Ekspresi Wajah Majemuk, Vision Transformer, Real-World Affective Faces (RAF-DB), Deep Learning
Subjek: Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Divisions: Fakultas Teknik Industri > (S1) Informatika
Depositing User: A.Md Eko Suprapti
Date Deposited: 11 Dec 2025 02:11
Last Modified: 11 Dec 2025 02:11
URI: http://eprints.upnyk.ac.id/id/eprint/46032

Actions (login required)

View Item View Item