TRÍCH XUẤT DANH MỤC KHÍA CẠNH SỬ DỤNG BERT VỚI HÀM MẤT MÁT CÂN BẰNG

Authors

  • Nguyễn Thị Thanh Thủy Học viện Công nghệ Bưu chính Viễn thông
  • Nguyễn Ngọc Điệp Học viện Công nghệ Bưu chính Viễn thông

Keywords:

trích xuất danh mục khía cạnh, học máy, học sâu, BERT, hàm mất mát cân bằng

Abstract

Trích xuất danh mục khía cạnh (aspect category extraction) là nhiệm vụ đầu tiên trong bài toán khai thác quan điểm dựa trên khía cạnh (aspect-based opinion mining). Đây là một nhiệm vụ khó khăn vì người dùng thường sử dụng các từ khóa khác nhau để diễn tả về cùng một khía cạnh hoặc nhiều khi chỉ dùng các từ ngụ ý đề cập đến khía cạnh. Các phương pháp học máy có giám sát nói chung được đánh giá là có độ chính xác cao, tuy nhiên thường tốn kém nhiều công sức trong việc gán nhãn dữ liệu huấn luyện, đặc biệt là cho các miền lĩnh vực mới. Hơn nữa, các phương pháp này thường yêu cầu phải có kiến thức chuyên gia giúp trích chọn ra được các đặc trưng thủ công hữu ích đối với miền lĩnh vực nghiên cứu. Bài báo này trình bày đề xuất một phương pháp cải tiến sử dụng mô hình học sâu dựa trên BERT để giải quyết và nâng cao hiệu năng cho nhiệm vụ trích xuất danh mục khía cạnh. Mô hình đề xuất tự học các đặc trưng từ chuỗi dữ liệu văn bản đầu vào và biểu diễn hiệu quả nhờ BERT. Ngoài ra, để khắc phục vấn đề mất cân bằng dữ liệu giữa các nhãn lớp, chúng tôi đề xuất sử dụng các hàm mất mát cân bằng (balanced loss functions). Kết quả thực nghiệm cho thấy mô hình đề xuất có hiệu năng vượt trội hơn, với trung bình độ đo F1 cao nhất đạt 77%.

Downloads

Published

2022-09-30

Most read articles by the same author(s)