Al Hakam, Rahmat Aziz (2021) ANALISIS MODEL AKUSTIK DEEP NEURAL NETWORK(DNN) PADAFORCED ALIGNMENT UNTUK OTOMATISASI ANOTASI SUARADI TOOLSGENTLE. Diploma thesis, UPN "Veteran" Yogyakarta.
Text
ABSTRAK_Rahmat Aziz Al Hakam_123160099.pdf Download (88kB) |
|
Text
COVER_Rahmat Aziz Al Hakam_123160099.pdf Download (128kB) |
|
Text
DAFTAR ISI_Rahmat Aziz Al Hakam_123160099.pdf Download (120kB) |
|
Text
DAFTAR PUSTAKA_Rahmat Aziz Al Hakam_123160099.pdf Download (182kB) |
|
Text
LEMBAR PENGESAHAN PEMBIMBING_Rahmat Aziz Al Hakam_123160099.pdf Download (807kB) |
|
Text
LEMBAR PENGESAHAN PENGUJI_Rahmat Aziz Al Hakam_123160099.pdf Download (668kB) |
|
Text
SKRIPSI FULL_Rahmat Aziz Al Hakam_123160099.pdf Restricted to Repository staff only Download (6MB) |
Abstract
Proses anotasi suara berupa sinkronisasi berkas audio dengan transkrip padalevel
kata dengan hasil informasi waktu mulai dan berakhir setiap kata dapat dilakukanotomatisdengan forced alignment. Salah satu alat yang dapat melakukan forced alignment adalahGentle. Gentle yang menerapkan model akustik deep neural network (DNN) untukprosesanotasi suara perlu diteliti karena pada bidang automatic speech recognition(ASR)penggunaan DNN menunjukkan peningkatan performa dibandingkan denganmodel
monophone maupun triphone yang biasanya digunakan pada alat forced alignment lainnya. Penelitian ini menganalisis implementasi forced alignment dengan model akustikDNN pada tools Gentle sehingga diketahui tingkat akurasi dan robustness dibandingkandengan proses manual alignment. Pembuatan model akustik diawali dengan pelatihanmodel monophone dan triphone hingga diakhiri dengan pelatihan model DNN. Hasil
penelitian menunjukkan model akustik DNN pada Gentle lebih akurat mengolah datatanpanoise (median 0.82 dan mean 0.78) dibanding data noise (median 0.77 dan mean0.73). Selain itu, model juga mempercepat proses anotasi hingga 87 kali lebih cepat. Namun, model belum cukup robust pada data tanpa noise (median 25.96 ms dan mean 48.99ms)dan data noise (median 28.07 ms dan mean 67.91 ms) untuk ambang batas 20msdibandingkan manual alignment. Hal ini berarti peninjauan ulang secara manual harustetap dilakukan meskipun dapat mempercepat proses anotasi. Kata kunci: forced alignment;deep neural network; voice annotation
Item Type: | Thesis (Diploma) |
---|---|
Uncontrolled Keywords: | forced alignment;deep neural network; voice annotation |
Subjects: | Q Science > Q Science (General) |
Divisions: | Faculty of Engineering, Science and Mathematics > School of Engineering Sciences |
Depositing User: | Eny Suparny |
Date Deposited: | 04 Jul 2022 07:24 |
Last Modified: | 05 Jul 2022 03:31 |
URI: | http://eprints.upnyk.ac.id/id/eprint/30252 |
Actions (login required)
View Item |