SỬ DỤNG BERT VÀ CÂU PHỤ TRỢ CHO TRÍCH XUẤT KHÍA CẠNH TRONG VĂN BẢN TIẾNG VIỆT

Authors

  • Điệp Ngọc Nguyễn Học viện Công nghệ Bưu chính Viễn thông
  • Nguyễn Thị Thanh Thủy Học viện Công nghệ Bưu chính Viễn thông

Keywords:

trích xuất danh mục khía cạnh, khai phá quan điểm cho tiếng Việt, mô hình ngôn ngữ huấn luyện sẵn, mô hình BERT

Abstract

Trích xuất khía cạnh (aspect extraction) là một nhiệm vụ trong bài toán khai phá quan điểm dựa trên khía cạnh (aspect-based opinion mining), nhằm xác định và phân loại các cụm từ quan điểm (opinion target) về những đặc tính của sản phẩm trong văn bản có thể hiện quan điểm. Đa phần các nghiên cứu trước về trích xuất khía cạnh và khai phá quan điểm dựa trên khía cạnh là cho văn bản tiếng Anh, có rất ít nghiên cứu cho tiếng Việt. Các nghiên cứu cho tiếng Việt có độ chính xác cao hơn thường dựa trên các phương pháp học có giám sát hoặc dựa trên học sâu, với các mô hình phụ thuộc vào nhúng từ độc lập ngữ cảnh (như word2vec). Bài báo này trình bày một phương pháp trích xuất khía cạnh dựa trên khả năng mô hình hóa với nhúng từ theo ngữ cảnh, sử dụng các mô hình ngôn ngữ được huấn luyện sẵn như BERT. Khác với các nghiên cứu trước đó sử dụng một câu dữ liệu đầu vào rồi sau đó trích xuất ra các khía cạnh có trong câu, bài báo đề xuất sử dụng câu phụ trợ được tạo ra từ các từ khóa khía cạnh nhằm tận dụng được thông tin quan trọng đã biết, kết hợp với câu đầu vào ban đầu để tạo ra cặp câu đầu vào cho BERT. Mô hình đề xuất dựa trên BERT có thêm một lớp tuyến tính để phân loại, được tinh chỉnh cùng với câu phụ trợ cho thấy kết quả rất tốt trên kho ngữ liệu có sẵn, đã chú thích về các loại danh mục khía cạnh (aspect category) được thu thập từ những bài đánh giá/bình luận về nhà hàng trên mạng xã hội bằng ngôn ngữ tiếng Việt.

Downloads

Published

2022-12-30

Most read articles by the same author(s)