MỘT MÔ HÌNH ĐA PHƯƠNG PHÁP CHO PHÁT HIỆN TIN BÀI PHẢN ĐỘNG TIẾNG VIỆT
Keywords:
Phát hiện tin bài phản động, mô hình đa phương pháp, PhoBERT, Swin Transformer V2, Swin Transformer v2 PhoBERTAbstract
Các dạng tin giả, tin bài có nội dung độc hại, phản động hiện nay được đăng tải và lan truyền rất mạnh do sự phổ biến của mạng Internet và đặc biệt là sự bùng nổ của các mạng xã hội, các dịch vụ trực tuyến trên không gian mạng. Các tin bài có nội dung độc hại, và đặc biệt là các tin bài phản động nhắm đến nước ta, như các tin bài tung tin thất thiệt, nói xấu lãnh tụ, kích động phá hoại khối đại đoàn kết toàn dân tộc có ảnh rất lớn đến đời sống xã hội do chúng khả năng lan truyền nhanh và có nhiều hình thức thể hiện, như tin bài dưới dạng văn bản, ảnh, hoặc kết hợp. Do sự nghiêm trọng của các bài viết đăng tin giả, hoặc có nội dung độc hại, phản động trên không gian mạng, đã có một số nghiên cứu ở trong và ngoài nước cho phát hiện và phòng chống. Tuy vậy, đa số các đề xuất tập trung xử lý tin bài có nội dung giả mạo, độc hại được đăng tải sử dụng ngôn ngữ tiếng Anh. Hơn nữa, do một số lượng lớn tin bài được đăng tải dưới dạng hình ảnh, hoặc văn bản nhúng trong ảnh, video, nên việc xử lý gặp nhiều khó khăn, dẫn đến tỷ lệ phát hiện đúng còn tương đối thấp. Bài báo này đề xuất một mô hình đa phương pháp dựa trên sự kết hợp của các mô hình PhoBERT và Swin Transformer V2 cho phát hiện tin bài phản động dưới dạng văn bản và hình ảnh. Kết quả thử nghiệm cho thấy mô hình kết hợp đề xuất sử dụng đặc trưng văn bản và ảnh cho các hiệu suất phát hiện vượt trội so với các mô hình riêng lẻ và các mô hình đã có, với các độ đo Accuracy đạt 97%, Precision đạt 97%, Recall đạt 97.5% và F1-score đạt 97%.