Nhận dạng hoạt động trong video mờ sử dụng chắt lọc tri thức
Keywords:
Nhận dạng hoạt động, Chắt lọc tri thức, Nhận dạng hoạt động trong video mờAbstract
Bài báo đề xuất một kiến trúc học sâu nhận dạng hoạt động của người dựa trên hình ảnh video mờ dựa trên chắt lọc tri thức với kiến trúc thầy (teacher model) - trò (student model). Mô hình học sâu đề xuất có khả năng học và biểu diễn các đặc trưng từ video gốc và video đã được tăng cường sáng, từ đó nâng cao hiệu suất nhận dạng nhưng lại không làm tăng chi phí tính toán trong quá trình suy diễn (inference). Mô hình đề xuất tận dụng chắt lọc tri thức (knowledge distillation) trong quá trình huấn luyện trong đó mô hình thầy được huấn luyện với video đã được tăng cường sáng, trong khi mô hình trò chỉ cần huấn luyện chỉ với video gốc và các nhãn mềm (soft targets) được tạo ra bởi mô hình thầy. Các thử nghiệm cho thấy mô hình đề xuất cho kết quả cái tiến đáng kể khi so sánh với các mô hình cơ sở trên các bộ dữ liệu ARID, ARID V1.5 và Dark-481. Cụ thể, phương pháp đề xuất đạt được hiệu suất tăng tới 4.46% trên tập Dark-48 với việc chỉ sử dụng đầu vào là các video gốc, qua đó tránh được việc sử dụng hai luồng hoặc mô-đun tăng cường trong giai đoạn suy luận. Kết quả này đã chứng minh ưu điểm của việc sử dụng chắt lọc tri thức trong nhận dạng hoạt động người từ các video mờ.