Thuật toán mới sinh thêm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng

  • Bùi Dương Hưng Đại học Công đoàn
  • Vũ Văn Thỏa
  • Đặng Xuân Thọ

Abstract

Phân lớp dữ liệu mất cân bằng là bài toán quan trọng xuất hiện trong hầu hết các lĩnh vực, đặc biệt là trong y sinh học chuẩn đoán người bệnh. Hiện nay, đã có nhiều nghiên cứu giải quyết bài toán này, trong đó, phương pháp tiền xử lý dữ liệu như Random Over-Sampling (ROS) là một phương pháp phổ biến và cho kết quả tốt. Tuy nhiên, một số trường hợp ROS lại không đạt được kết quả như mong đợi hoặc giảm hiệu quả phân lớp. Chính vì vậy, bài báo này tập trung nghiên cứu cải tiến thuật toán ROS, từ đó, đề xuất thuật toán mới Random Border-Over-Sampling (RBOS) bằng việc chọn các phần tử thiểu số có ý nghĩa quan trọng trên đường biên. Kết quả thực nghiệm trên sáu tập dữ liệu mất cân bằng từ nguồn dữ liệu chuẩn quốc tế UCI (breast-p, blood, pima, haberman, glass, và coil2000) đã chỉ ra thuật toán mới đề xuất của chúng tôi đạt hiệu quả tốt hơn hẳn so với phương pháp trước.

Published
2017-09-19