PENERAPAN BIDIRECTIONAL ENCODER REPRESENTATION TRANSFORMERS (BERT) SEBAGAI METODE SENTENCE EMBEDDING UNTUK MENINGKATKAN PEFORMA METODE TEXTRANK DALAM AUTOMATIC TEXT SUMMARIZATION

Ridwan, Fazri (2023) PENERAPAN BIDIRECTIONAL ENCODER REPRESENTATION TRANSFORMERS (BERT) SEBAGAI METODE SENTENCE EMBEDDING UNTUK MENINGKATKAN PEFORMA METODE TEXTRANK DALAM AUTOMATIC TEXT SUMMARIZATION. Other thesis, UPN "Veteran" Yogyajarta.

[thumbnail of ABSTRAK.pdf] Text
ABSTRAK.pdf

Download (118kB)
[thumbnail of COVER.pdf] Text
COVER.pdf

Download (83kB)
[thumbnail of DAFTAR ISI.pdf] Text
DAFTAR ISI.pdf

Download (1MB)
[thumbnail of DAFTAR PUSTAKA.pdf] Text
DAFTAR PUSTAKA.pdf

Download (156kB)
[thumbnail of Halaman Pengesahan Pembimbing.pdf] Text
Halaman Pengesahan Pembimbing.pdf

Download (231kB)
[thumbnail of Laporan TA - Fazri Ridwan - 123190045.pdf] Text
Laporan TA - Fazri Ridwan - 123190045.pdf
Restricted to Repository staff only

Download (3MB)

Abstract

ABSTRAK
Konten tekstual yang ada di internet menyebabkan orang-orang mengonsumsi
lebih banyak waktu untuk menemukan informasi yang mereka inginkan. Untuk
mengatasi hal tersebut perlu adanya sistem peringkasan terhadap sebuah teks agar
pembaca dapat secara efisien menemukan informasi utama dalam teks yang dibaca.
Sistem tersebut mengadopsi ilmu dari Natural Language Processing untuk dapat
memproses data tekstual dalam sebuah komputer.
Penelitian ini menggunakan TextRank sebagai metode peringkasannya dengan
BERT sebagai metode sentences embedding atau vektorisasi terhadap kalimat.
Dataset yang digunakan adalah Indosum yang berisi sebanyak 100 teks dengan
pasangan ringkasannya yang digunakan untuk evaluasi hasil peringkasan. Pada
penerapannya, TextRank menggunakan cosine similarity untuk menghitung bobot,
sehingga perlu adanya metode vektorisasi yang dapat secara khusus
mentransformasikan kalimat kedalam sebuah vektor yang memiliki makna informasi
yang kuat, berdasarkan hal tersebut diusulkanlah BERT. BERT dapat
mentransformasikan kalimat kedalam sebuah vektor dengan memperhatikan konteks
kalimat tersebut. Metodologi penelitian ini dimulai dari studi literatur, analisis
masalah, pengumpulan data, pengolahan data, pre-processing, membuat model
TextRank, evaluasi model, hasil, dan laporan.
Adapun hasil perbandingan dari penggunaan metode TextRank yang
diimplementasikan BERT dengan metode vektorisasi lain seperti TFIDF dan
Word2Vec dimana BERT mendapatkan nilai tertinggi dengan perolehan ROUGE-1
sebesar 0.48, ROUGE-2 sebesar 0.38, dan ROUGE-L sebesar 0.47. Berdasarkan
penelitian yang telah dilakukan dapat disimpulkan bahwa penggunaan BERT mampu
meningkatkan performa dari TextRank dari perolehan nilai ROUGE.
Kata kunci: TextRank, BERT, peringkasan teks
ABSTRACT
Textual content that exists on the internet causes people to consume more time
to find the information they want. To overcome this, it is necessary to have a summary
system for a text so that readers can efficiently find the main information in the text
they are reading. The system adopts knowledge from Natural Language Processing to
be able to process textual data in a computer.
This study uses TextRank as a summary method with BERT as a sentence
embedding method or vectorization of sentences. The dataset used is Indosum which
contains as many as 100 texts with their summary pairs used to evaluate the results of
the summary. In its application, TextRank uses cosine similarity to calculate weights,
so it is necessary to have a vectorization method that can specifically transform
sentences into a vector that has strong informational meaning, based on this, BERT is
proposed. BERT can transform sentences into a vector by paying attention to the
context of the sentence. The research methodology starts from literature study,
problem analysis, data collection, data processing, pre-processing, creating TextRank
models, model evaluation, results, and reports.
The comparison results from using the TextRank method implemented by
BERT with other vectorization methods such as TFIDF and Word2Vec where BERT
gets the highest score with the acquisition of ROUGE-1 of 0.48, ROUGE-2 of 0.38,
and ROUGE-L of 0.47. Based on the research that has been done, it can be concluded
that the use of BERT can improve the performance of TextRank from the acquisition
of ROUGE values.
Keywords: TextRank, BERT, text summarization

Item Type: Thesis (Other)
Uncontrolled Keywords: TextRank, BERT, text summarization
Subjects: Z Bibliography. Library Science. Information Resources > ZA Information resources
Divisions: Faculty of Engineering, Science and Mathematics > School of Engineering Sciences
Depositing User: Eko Yuli
Date Deposited: 31 Aug 2023 01:42
Last Modified: 31 Aug 2023 01:42
URI: http://eprints.upnyk.ac.id/id/eprint/37292

Actions (login required)

View Item View Item