Phân Loại Quan Hệ Tham Chiếu Trong Văn Bản Pháp Quy

  • Nguyễn Thị Thanh Thủy Học viện Công nghệ Bưu chính Viễn thông
  • Đặng Bảo Chiến
  • Triệu Khương Duy
  • Ngô Xuân Bách
  • Từ Minh Phương
Keywords: trích xuất quan hệ, văn bản pháp quy, tham chiếu, học có giám sát

Abstract

Xác định quan hệ tham chiếu trong văn bản quy phạm pháp luật là bước quan trọng trong các hệ thống xử lý văn bản pháp quy tự động. Quan hệ tham chiếu giúp người dùng thuận tiện trong việc tìm kiếm, tra cứu, phân tích, hay truy vấn nội dung văn bản quy phạm pháp luật. Đây chính là bài toán trích xuất và phân loại quan hệ giữa các thực thể, trong đó một thực thể là tham chiếu được đề cập đến trong nội dung và thực thể còn lại là văn bản pháp quy đang xem xét. Hướng tiếp cận đề xuất giải quyết bài toán này là sử dụng học máy có giám sát, là phương pháp phổ biến và đạt được độ chính xác cao trong các nghiên cứu về trích xuất quan hệ. Để trích xuất đặc trưng, ngoài thông tin về các thực thể, bài báo đề xuất sử dụng các thông tin ngữ cảnh liên quan đến các thực thể nhằm cải thiện độ chính xác trích xuất quan hệ. Bài báo cũng giới thiệu một tập dữ liệu gồm 5031 văn bản pháp quy được gán nhãn thực thể và mối quan hệ giữa các thực thể, được trích xuất từ cổng thông tin văn bản quy phạm pháp luật của Việt Nam. Các thử nghiệm trích xuất quan hệ trên tập dữ liệu này với ba thuật toán học máy Phân loại Bayes đơn giản, Cây quyết định (C4.5) và Máy véc-tơ tựa (SVM) cho kết quả khả quan, trong đó SVM đạt giá trị F1 95,57%.

Published
2021-07-15