Xác định đặc điểm tác giả văn bản tiếng Việt bằng học sâu
Keywords:
học sâu, mạng nơ ron tích chập, nhận diện đặc điểm tác giảAbstract
Xác định đặc điểm tác giả văn bản là việc chỉ ra các đặc điểm của tác giả như giới tính, độ tuổi, .v.v chỉ dựa trên phân tích văn bản của tác giả đó. Bài báo này trình bày nghiên cứu về xác định đặc điểm tác giả văn bản tiếng Việt bằng phương pháp học sâu dựa trên mạng nơ ron tích chập (Convolutional Neural Network – CNN). Các thực nghiệm được thực hiện trên tập dữ liệu là các bài viết diễn đàn tiếng Việt đã được sử dụng trong các nghiên cứu trước đây về nhận diện đặc điểm tác giả văn bản tiếng Việt [8]. Kết quả thực nghiệm cho thấy phương pháp mới có kết quả nhận diện tốt hơn so với các phương pháp học máy truyền thống như Máy véc tơ hỗ trợ (Support Vector Machine) và Rừng ngẫu nhiên (Random Forest).