Xây dựng các cặp câu hỏi-câu trả lời chất lượng cao từ ác trang web hỏi đáp cộng đồng
Keywords:
. hỏi đáp cộng đồng, semi-supervised Support Vector Machines, phân loại, hệ thống hỏi đáp tự độngAbstract
Các trang web hỏi đáp cộng đồng có chứa một lượng lớn các thông tin có giá trị sinh ra bởi những người sử dụng. Trong các trang web hỏi đáp cộng đồng, người dùng có thể gửi các câu hỏi, trả lời các câu hỏi của người khác, và cung cấp thông tin phản hồi cho những câu hỏi/câu trả lời. Bài báo này giải quyết vấn đề xây dựng các cặp câu hỏi-câu trả lời chất lượng cao từ các trang web hỏi đáp cộng đồng. Các cặp câu hỏi-câu trả lời này sẽ được sử dụng làm nguồn dữ liệu cho các hệ thống hỏi đáp tự động. Chúng tôi đưa ra các khái niệm mới về spam question-answer pairs và non-spam question-answer pairs, chúng tôi trích rút những đặc trưng quan trọng liên quan đến những thông tin của người gửi câu hỏi/câu trả lời cũng như số lượng bình chọn cho mỗi câu trả lời của người dùng và xây dựng mô hình phân loại để xác định được các cặp câu hỏi-câu trả lời có ý nghĩa. Các kết quả thực nghiệm cho thấy những đề xuất của chúng tôi sẽ mang lại kết quả cao