Nhận dạng ngôn ngữ ký hiệu Tiếng Việt trong Video bằng LSTM và I3D đa khối

  • Vu Hoai Nam Posts and Telecommunications Institute of Technology, Ha Noi
  • Phạm Văn Cường
Keywords: Học sâu, Nhận dạng, Ngôn ngữ ký hiệu

Abstract

Ngôn ngữ ký hiệu là một trong những phương tiện không thể thay thế trong giao tiếp hằng ngày của cộng đồng người câm điếc. Ngôn ngữ ký hiệu được biểu diễn bằng cử chỉ phần thân trên của người thể hiện ngôn ngôn ngữ. Với sự phát triển vượt bậc của các công nghệ cao trong lĩnh vực học sâu và thị giác máy tính, hệ thống nhận dạng ngôn ngữ ký hiệu trở thành một cầu nối hiệu quả giữa cộng đồng người câm điếc và thế giới bên ngoài. Nhận dạng ngôn ngữ ký hiệu tiếng Việt (VSLR) là một nhánh của bài toán nhận dạng ngôn ngữ ký hiệu nói chung được sử dụng trong cộng đồng người câm điếc Việt Nam. VSLR hướng đến thông dịch từ cử chỉ của người thực hiện ngôn ngữ ký hiệu sang thành văn bản. Trong bài báo này, chúng tôi đề xuất một phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt từ video dựa trên mô hình học sâu. Phương pháp đề xuất bao gồm hai phần chính là mô hình hai luồng mạng nơ ron tích chập (CNN) cho đặc trưng không gian và mạng bộ nhớ dài ngắn (Long-Short Term Memory - LSTM) cho đặc trưng thời gian. Chúng tôi đánh giá mô hình đề xuất với bộ dữ liệu chúng tôi thu thập bao gồm 29 ký tự trong bảng chữ cái tiếng Việt. Thực nghiệm đạt được với độ chính xác 95% chứng minh tính hiệu quả và thực tế của phương pháp đề xuất trong việc nhận dạng ngôn ngữ ký hiệu tiếng Việt.  
Published
2021-07-15