BERT dalam kalisifikasi Topik pidato dan Trending Topik di media sosial - yogiadi.web.id

Article Terbaru

Post Top Ad

Responsive Ads Here

Thursday, December 19, 2024

BERT dalam kalisifikasi Topik pidato dan Trending Topik di media sosial

Pendahuluan

NLP adalah komponen Artificial Intelligence atau dikenal dengan AI dalam program komputer yang memiliki kemampuan untuk memahami Bahasa manusia saat diucapkan  Pengembangan aplikasi NLP menantang karena komputer secara tradisional mengharuskan manusia untuk “berbicara” dengan mereka dalam bahasa pemrograman yang tepat, tidak ambigu dan sangat terstruktur, atau melalui sejumlah perintah suara yang diucapkan dengan jelas. Namun, ucapan manusia tidak selalu tepat – sering kali ambigu dan struktur linguistiknya dapat bergantung pada banyak variabel kompleks, termasuk bahasa gaul, dialek daerah, dan konteks sosial.

2.      BERT (Bidirectional Encoder Representations from Transformers)

BERT (Bidirectional Encoder Representations from Transformers) adalah metode untuk melatih representasi bahasa, artinya kita melatih model untuk memahami bahasa untuk tujuan umum pada kumpulan tulisan yang sangat banyak, kemudian menggunakan model tersebut untuk mengerjakan tugas-tugas NLP yang akan dikerjakan, seperti menjawab pertanyaan. BERT mengungguli metode-metode sebelumnya karena BERT yang pertama dalam melakukan sistem dua arah tanpa pengawasan untuk pre-training NLP.

Unsupervised berarti BERT dilatih menggunakan kumpulan teks yang sangat banyak, konsep ini penting karena sangat banyak data berupa teks bisa di akses secara public pada website dalam banyak bahasa.

Representaasi Pre-Trained bisa berupa bebas konteks ataupun kontekstual, representasi kontekstual bisa bersifat searah atau dua arah. Model bebas konteks seperti word2vec atau GloVe menghasilkan representasi “word embedding” tunggal untuk setiap kata dalam kosakata / kamus, sehingga hasilnya akan memiliki representasi yang sama seperti dalam kamus. Sebaliknya, model kontekstual menghasilkan representasi dari setap kata berdasarkan waka dalam kalimat.

BERT dibangun berdasarkan penelitian terbaru dalam representasi pre-training kontekstual, termasuk Semi Supervised Sequence Learning, Generative Pre Training, ELMo dan ULMFit, tetapi model tersebut semuanya bersifat searah ataupun dua arah yang dangkal. Ini berarti setiap kata hanya dikontekstualkan menggunakan kata-kata di sebelah kiri atau kanan-nya, sebagai contoh, dalam kalimat “I made a bank deposit ” representasi searah dari bank hanya didasarkan pada Saya membuat ("I made”) tetapi bukan deposit. Beberapa penelitian sebelumnya menggabungkan representasi dari model konteks kiri dan konteks kanan yang terpisah, tetapi hanya dengan cara yang "dangkal". BERT merepresentasikan "bank" menggunakan konteks kiri dan kanannya — I made a … deposit—  dimulai dari bagian paling bawah jaringan saraf dalam (neural network), jadi sangat dua arah.

3.      Model Arsitektur BERT

Kekuatan BERT terletak pada arsitekturnya yang inovatif, yang memungkinkan model untuk memahami konteks kata dalam sebuah kalimat dengan sangat baik. Komponen Utama Arsitektur BERT yaitu:

Encoder Representations

Encoders adalah komponen jaringan saraf yang menerjemahkan data input menjadi representasi yang lebih mudah diproses oleh algoritma pembelajaran mesin. Setelah encoder membaca teks input, ia menghasilkan vektor keadaan tersembunyi. Vektor keadaan tersembunyi seperti daftar nilai dan parameter internal yang memberikan konteks tambahan. Representasi informasi yang dikemas ini kemudian diteruskan ke transformer.

·         Cara kerja: Encoder BERT terdiri dari beberapa lapisan yang disebut "transformer block". Setiap transformer block terdiri dari dua sub-lapisan utama:

·         Multi-Head Self-Attention: Mekanisme ini memungkinkan model untuk menimbang pentingnya setiap kata dalam kalimat terhadap kata lainnya. Dengan kata lain, model dapat "memperhatikan" kata-kata yang relevan dalam konteks kalimat.

·         Fully Connected Feed-Forward Network: Lapisan ini melakukan transformasi non-linear pada output dari lapisan self-attention.

Transformer

Transformer menggunakan informasi di atas untuk menyimpulkan pola atau membuat prediksi. Transformer adalah arsitektur pembelajaran mendalam yang mengubah input menjadi jenis output lainnya. Hampir semua aplikasi NLP menggunakan transformer. Jika Anda pernah menggunakan Chat-GPT, Anda telah melihat arsitektur transformer dalam aksi. Biasanya, transformer terdiri dari encoder dan decoder. Namun, BERT hanya menggunakan bagian encoder dari transformer.

Cara kerja Transformer menggunakan mekanisme self-attention yang memungkinkan model untuk "melihat" seluruh kalimat sekaligus, bukan hanya kata-kata yang berurutan. Hal ini sangat penting untuk memahami konteks yang lebih luas.



Gambar 3.1 Visualisasi Arsitektur BERT
(sumber: https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270)

 

Keunggulan Arsitektur BERT yaitu

·         Pemahaman konteks yang Lebih Baik, BERT dapat menangkap hubungan antara kata-kata dalam kalimat dengan sangat baik, bahkan jika kata-kata tersebut terpisah jauh satu sama lain.

·         Fleksibilitas: BERT dapat digunakan untuk berbagai tugas NLP, seperti klasifikasi teks, pengenalan entitas, dan generasi teks.

·         Kinerja yang Tinggi: BERT telah menunjukkan kinerja yang sangat baik pada berbagai benchmark NLP.


4.       Kesimpulan 

Dalam melakukan kalisifikasi Topik dari suatu pidato atau Trending Topik yang secara viral ada di media sosial, BERT (Bidirectional Encoder Representations from Transformers) memahami konteks kata dalam sebuah kalimat. Kemampuan ini menjadikannya alat yang sangat efektif dalam mengklasifikasikan topik, baik itu dari sebuah pidato maupun tren topik yang viral di media sosial.

Berikut adalah mekanisme dasar bagaimana BERT bekerja dalam mengklasifikasikan topik:

1.      Pemahaman Konteks Bidireksional:

o    BERT mampu memahami kata dalam konteks kalimat secara keseluruhan, baik kata-kata sebelum maupun sesudahnya. Hal ini memungkinkan model untuk menangkap nuansa bahasa yang lebih kompleks dan memahami hubungan antara kata-kata dengan lebih baik.

2.      Representasi Kata yang Kaya:

o    Setiap kata dalam kalimat diubah menjadi representasi numerik (vektor) oleh BERT. Representasi ini tidak hanya merepresentasikan kata itu sendiri, tetapi juga konteksnya dalam kalimat.

3.      Arsitektur Transformer:

o    Arsitektur transformer memungkinkan BERT untuk menangkap hubungan antara kata-kata yang jauh satu sama lain dalam sebuah kalimat. Ini sangat penting untuk memahami topik yang kompleks, terutama dalam teks yang panjang seperti pidato.

4.      Proses Klasifikasi:

o    Setelah teks diproses oleh BERT, model akan menghasilkan representasi numerik untuk keseluruhan teks. Representasi ini kemudian dimasukkan ke dalam lapisan klasifikasi. Lapisan ini akan memprediksi topik yang paling mungkin sesuai dengan representasi teks tersebut.

BERT merupakan alat yang sangat kuat dalam mengklasifikasikan topik. Dengan kemampuannya memahami konteks kata secara mendalam, BERT dapat memberikan hasil yang sangat akurat dalam berbagai aplikasi.

No comments:

Post a Comment

Post Top Ad

Responsive Ads Here