PHÁT HIỆN PHÁT NGÔN TIÊU CỰC TRÊN MẠNG XÃ HỘI SỬ DỤNG MÔ HÌNH HỌC SÂU VÀ SỬA LỖI CHÍNH TẢ

Authors

  • Điệp Ngọc Nguyễn
  • Thủy Nguyễn Thị Thanh Học viện Công nghệ Bưu chính Viễn thông

Keywords:

phát ngôn tiêu cực, sửa lỗi chính tả, tiếng Việt, BiLSTM, BERT

Abstract

Sự phát triển của mạng xã hội hiện nay kéo theo xu hướng tự do thể hiện quan điểm cá nhân, kèm theo đó là các phát ngôn tiêu cực ngày càng gia tăng gây nhiều hậu quả xấu đối với xã hội. Việc phát triển các hệ thống nhằm phát hiện phát ngôn tiêu cực là rất cấp thiết, tuy nhiên do tính phức tạp, đa dạng, có nhiều đặc trưng liên quan tới ngôn ngữ, văn hóa của loại văn bản là các bình luận trên mạng xã hội, việc phát hiện chính xác phát ngôn tiêu cực còn gặp nhiều khó khăn, bao gồm cả tiếng Việt. Một số tiếp cận nổi trội gần đây để giải quyết bài toán này là các phương pháp tiên tiến dựa trên kỹ thuật học sâu, được sử dụng nhiều trong lĩnh vực xử lý ngôn ngữ tự nhiên. Bài báo này đề xuất một phương pháp phát hiện phát ngôn tiêu cực trên mạng xã hội sử dụng các kỹ thuật học sâu, trong đó kết hợp các kỹ thuật nhúng từ và nhúng ký tự khác nhau như charCNN, word2vec, BERT và mô hình BiLSTM. Đồng thời, chúng tôi cũng đề xuất phương pháp để tăng cường độ chính xác cho dữ liệu đầu vào là sửa lỗi chính tả tiếng Việt trong bước tiền xử lý dữ liệu. Kết quả cho thấy mô hình đề xuất có độ chính xác tốt hơn so với các mô hình cơ sở khác khi thử nghiệm trên tập dữ liệu ViHSD với các bình luận tiếng Việt trên mạng xã hội.

Downloads

Published

2024-05-08