MỘT THUẬT TOÁN HIỆU QUẢ ĐỂ KHAI THÁC TẬP HỮU ÍCH TRUNG BÌNH CAO
Keywords:
Tập hữu ích trung bình cao, khai thác dữ liệu, cơ sở dữ liệu giao dịch, chặn trên độ hữu ích trung bình, độ hữu ích trung bình.Abstract
Khai thác tập hữu ích trung bình cao (High Average Utility Itemset - HAUI) đã được nghiên cứu rộng rãi nhằm khắc phục những hạn chế của tập hữu ích cao (High Utility Itemset - HUI) trong việc đánh giá kết quả của người dùng. Tập hữu ích trung bình cao thể hiện các tập mặt hàng có độ hữu ích cao thật sự. Trong đó, yếu tố chiều dài của tập mặt hàng được xem xét, điều này đã loại bỏ được những tập hữu ích cao có chứa nhiều mặt hàng kém ý nghĩa trong kết quả phân tích kinh doanh. Gần đây, nhiều thuật toán đã được đề xuất để khai thác tâp hữu ích trung bình cao, tuy nhiên hiệu suất thực thi vẫn chưa hiệu quả. Trong bài báo này, chúng tôi đề xuất thuật toán HAU-Miner để khai thác tập hữu ích trung bình cao một cách tốt hơn. Kết quả thực nghiệm trên hai nhóm cơ sở dữ liệu dày và thưa cho thấy thuật toán HAU-Miner có hiệu suất thực thi cao hơn thuật toán MHAI về số lượng ứng viên phát sinh, thời gian thực thi và bộ nhớ sử dụng.