MỘT PHƯƠNG PHÁP TRÍCH XUẤT KẾT HỢP THỰC THỂ VÀ QUAN HỆ THAM CHIẾU TRONG VĂN BẢN PHÁP QUY

Authors

  • Nguyễn Thị Thanh Thủy Học viện Công nghệ Bưu chính Viễn thông
  • Nguyễn Ngọc Điệp Học viện Công nghệ Bưu chính Viễn thông

Keywords:

văn bản pháp quy, trích xuất thực thể tham chiếu, trích xuất quan hệ tham chiếu, trích xuất thực thể và quan hệ kết hợp

Abstract

Để có thể xây dựng được các hệ thống xử lý văn bản pháp quy tự động như tìm kiếm, tra cứu, phân tích, hay truy vấn nội dung, thì việc trích xuất ra được những thông tin cần thiết trong các văn bản pháp quy, bao gồm thực thể tham chiếu và quan hệ tham chiếu, là một trong những công việc quan trọng cần phải được thực hiện trước tiên. Các nghiên cứu trước đây khi có yêu cầu trích xuất cả hai loại thông tin thực thể tham chiếu và quan hệ tham chiếu, hoặc khi chỉ có yêu cầu trích xuất quan hệ tham chiếu, sẽ thường thực hiện theo cách làm lần lượt, đầu tiên là trích xuất thực thể, và sau đó là trích xuất quan hệ. Như vậy, độ chính xác của việc trích xuất quan hệ tham chiếu sẽ phụ thuộc vào việc có trích xuất được đúng hay không các thực thể tham chiếu. Trong bài báo này, chúng tôi trình bày một phương pháp cải tiến hơn để giải quyết bài toán trích xuất thông tin trong văn bản pháp quy, đó là phương pháp trích xuất kết hợp thực thể và quan hệ tham chiếu cùng lúc, sử dụng mô hình gán nhãn phân tầng dựa trên kiến trúc của bộ mã hóa Transformer. Kết quả cho thấy mô hình đề xuất có độ chính xác khá cao, với độ đo F1 lên tới 96.8% cho kết quả trích xuất kết hợp cả hai thông tin. Kết quả trích xuất riêng cũng vượt trội so với các nghiên cứu trước: trích xuất thực thể tham chiếu đạt độ đo F1 là 98.4%, trích xuất quan hệ tham chiếu đạt độ đo F1 là 97.7%, trên tập dữ liệu 5031 văn bản pháp quy tiếng Việt.

Downloads

Published

2021-09-30

Most read articles by the same author(s)