PHÂN CỤM TIN TỨC BẰNG HỌC MÁY
Keywords:
phân cụm tin tức, phobert, dbscanAbstract
Trong thời kỳ bùng nổ thông tin trực tuyến hiện nay, hàng chục nghìn bài báo, tin tức được đăng tải mỗi ngày. Ngoài các tờ báo điện tử, các nguồn tin khác như mạng xã hội cũng cung cấp các nguồn tin tức trực tuyến nhanh chóng và đa dạng, đáp ứng nhu cầu thông tin của người dùng. Tuy nhiên, các bài báo, tin tức được tạo ra với số lượng lớn cũng mang lại vấn đề quá tải thông tin, trong đó có nhiều tin tức trùng lặp hoặc được đưa về cùng một vụ việc. Để có thể nhanh chóng nắm bắt được các thông tin về các tin tức nổi bật, việc tổ chức, phân cụm lại các tin tức theo vụ việc từ các nguồn thông tin khác nhau là một thao tác quan trọng đem lại trải nghiệm tốt hơn cho người đọc. Bài báo này trình bày một phương pháp phân cụm tin tức sử dụng thuật toán phân cụm DBSCAN dựa trên các nhúng từ trích xuất từ mô hình PhoBERT. Các thực nghiệm được thực hiện trên tập dữ liệu hơn 1.000 bản tin thu thập từ các báo điện tử của Việt Nam qua hệ thống thu thập tin tức tự động đã được gán nhãn cụm. Kết quả thực nghiệm được đánh giá theo các độ đo precision, recall, F-measure với độ chính xác lần lượt là 92.3%, 78.5%, và 85.1%.