KSI - Phương Pháp Kết Hợp Phân Cụm Với Bộ Lọc Tái Lấy Mẫu Để Loại Bỏ Nhiễu Trong Dữ Liệu Mất Cân Bằng

  • Bùi Dương Hưng Đại Học Công Đoàn
Keywords: SMOTE, IPF, Over-sampling, dữ liệu, mất công bằng, phân lớp

Abstract

Dữ liệu phân lớp thường có phân bố số lượng không đồng đều giữa các nhãn lớp, vấn đề này được gọi là phân lớp dữ liệu mất cân bằng và xuất hiện ngày càng nhiều trong các ứng dụng thực tế. Kỹ thuật sinh thêm phần tử nhân tạo (SMOTE) là một trong những phương pháp tiền xử lý dữ liệu được biết đến nhiều nhất để giải quyết bài toán này. Tuy nhiên, theo các nghiên cứu gần đây, số lượng phần tử mất cân bằng không phải là một vấn đề chính mà hiệu quả phân lớp còn bị giảm do các yếu tố khác như sự phân bố dữ liệu với sự xuất hiện của các phần tử nhiễu và các phần tử ở biên. Hạn chế nội tại của SMOTE là sinh thêm nhiều phần tử nhiễu dạng này. Một số nghiên cứu đã chỉ ra bộ lọc nhiễu kết hợp với SMOTE sẽ nâng cao hiệu quả phân lớp (SMOTE-IPF). Ở bài báo này, chúng tôi đề xuất phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu nhằm giải quyết tốt hơn vấn đề này. Kết quả thực nghiệm trên các bộ dữ liệu tổng hợp và dữ liệu chuẩn quốc tế UCI với các mức độ mất cân bằng đã chỉ ra phương pháp đề xuất nâng cao hiệu quả của thuật toán SMOTE và SMOTE-IPF.

Published
2020-03-14