The Học tăng cường hướng đối tượng để nâng cao hiệu quả khai phá môi trường
Keywords:
mạng nơ ron sâu DNN; học tăng cường (RL); hướng đối tượng; sách lược; sự phức tạp không gian;Abstract
Trong môi trường phần thưởng thưa thớt hoặc nhiễu, khám phá thông minh đóng một vai trò quan trọng vì tác nhân RL phải tìm nhiều trạng thái mới lạ nhất có thể và tóm tắt thông tin quan trọng ở các trạng thái có thể quan sát được, do đó tìm ra một chiến thuật chắc chắn để tối ưu hóa hàm mục tiêu. Hầu hết các thuật toán RL hoạt động kém trong việc tìm ra trạng thái mới này do không gian tìm kiếm quá lớn, dẫn đến bị kẹt ở tối ưu cục bộ. Trong bài báo này, chúng tôi đề xuất một phương pháp mới giải quyết vấn đề giảm thiểu sự phức tạp của không gian tìm kiếm trong học tăng cường (Reinforcement Learning) bằng chiến thuật khai phá dựa trên đối tượng được bóc tách từ trạng thái quan sát. Kết quả đột phá chỉ ra rằng mô hình của chúng tôi vượt trội hoàn toàn so với các mô hình RL hiện đại ngày nay. Ngoài ra, mô hình học dựa trên đối tượng này có thể làm nền tảng cho những hướng nghiên cứu tiềm năng sau này của RL nơi mà xu hướng học máy của thế giới dần chuyển sang học đa tác vụ.