TRÍCH XUẤT THỰC THỂ TRONG AN TOÀN THÔNG TIN SỬ DỤNG HỌC SÂU

Authors

  • Điệp Ngọc Nguyễn Học viện Công nghệ Bưu chính Viễn thông
  • Nguyễn Thị Thanh Thủy

Keywords:

an toàn thông tin, trích xuất thực thể, BiLSTM, CRF, BERT

Abstract

Hiện nay, với sự gia tăng nhanh chóng của các nguồn tài liệu liên quan đến lĩnh vực an toàn thông tin, việc trích xuất tự động các thông tin quan trọng từ các nguồn tài liệu này là một nhu cầu cấp thiết. Một trong những loại thông tin phổ biến cần trích xuất đó là các thực thể có tên, như tên chương trình phần mềm, tin tặc, chương trình mã độc, lỗ hổng, công nghệ, các kỹ thuật,... Tuy nhiên, do tính phức tạp, đa dạng, có nhiều đặc trưng về chuyên ngành riêng của các nguồn tài liệu này, việc xác định các thực thể có tên hiện còn gặp rất nhiều khó khăn. Gần đây, có một số phương pháp tiếp cận để giải quyết bài toán này, trong đó nổi trội hơn là các phương pháp dựa trên học sâu, là các kỹ thuật tiên tiến nhất, được sử dụng nhiều trong lĩnh vực trích xuất thông tin. Trong bài báo này, chúng tôi trình bày một phương pháp trích xuất thực thể có tên trong an toàn thông tin sử dụng các kỹ thuật học sâu, là mô hình kết hợp gồm word2vec, BERT, BiLSTM và CRF. Đồng thời, chúng tôi cũng đề xuất một phương pháp để tăng cường, bổ sung dữ liệu cho các thực thể có số lượng ít trong tập dữ liệu. Kết quả cho thấy mô hình đề xuất có độ chính xác khá cao, với độ đo F1 lên tới 72,86% khi thử nghiệm trích xuất thực thể có tên trên tập dữ liệu văn bản an toàn thông tin. Phương pháp tăng cường dữ liệu đề xuất cũng đạt được hiệu quả khả quan.

Downloads

Published

2021-12-30

Most read articles by the same author(s)