Đánh Giá Một Số Cách Thức Tính Xác Suất Spam Của Token Ứng Dụng Trong Phân Loại Thư Rác
Keywords:
Thư rác, phân loại thư rác, Bayes, học máy thống kê, Token, Spam, HamAbstract
Phân loại thư rác là bài toán được quan tâm nghiên cứu từ rất lâu trên thế giới với nhiều hướng tiếp cận khác nhau. Tính năng phân loại thư rác được tích hợp vào module phân loại thư rác của Mail Server hay Mail Client. Hiện nay, khi mà các phương pháp truyền thống vẫn có những điểm yếu nhất định thì phương pháp phân loại dựa trên nội dung tỏ ra hiệu quả với việc sử dụng các kĩ thuật trong học máy thống kê. Trong đó, phân loại thư rác dựa trên Bayes với ưu điểm đơn giản, dễ sử dụng sử và tốc độ nhanh nên được cài đặt phổ biến trong các hệ thống Mail Server hay Mail Client. Bài báo này trình bày đánh giá về một số cách thức tính xác suất là Spam của các Token thông qua ứng dụng phân loại thư rác.