The PHƯƠNG PHÁP PHÁT HIỆN VĂN BẢN TIẾNG VIỆT TRONG ẢNH NGOẠI CẢNH BẰNG HỌC SÂU
Huỳnh Văn Huy, Nguyễn Thị Thanh Tân, Ngô Quốc Tạo
Keywords:
Văn bản ngoại cảnh, ảnh ngoại cảnh, vùng văn bản, phân đoạn, phát hiện, đặc trưng, ánh xạ, độ chính xác, độ phủ, độ trung bình điều hòa, tích chập, scale, batch, batch normal, FCN, FPN, BackboneAbstract
Bài báo này đề xuất một phương pháp hiệu quả để phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh. Về cơ bản, phương pháp phát hiện văn bản ở đây được đề xuất dựa trên ý tưởng sử dụng các kiến trúc mạng học sâu để học các thuộc tính hình học khác nhau nhằm tái tạo lại biểu diễn đa giác của các vùng văn bản. Hiệu quả của thuật toán đã được kiểm nghiệm trên tập ảnh văn bản ngoại cảnh đã được thu thập từ thực tế bằng các thiết bị cầm tay bất kỳ (smart phone, webcam, camera) trong điều kiện hoàn toàn tự nhiên, không có bất kỳ ràng buộc nào về ánh sáng, góc chụp hay khoảng cách chụp. Hiệu quả của phương pháp đã được kiểm nghiệm trên bốn tập dữ liệu ảnh ngoại cảnh được thu thập từ thực tế bao gồm tập dữ liệu ICDAR 2015, Total-Text, VinText và VnSceneText. Các kết quả thực nghiệm cho thấy phương pháp đề xuất có khả năng phát hiện được các văn bản có hình dạng và kích thước bất kỳ với độ chính xác cao, ổn định. Cụ thể, phương pháp đạt Precision (độ chính xác), Recall (độ phủ), Hmean (độ trung bình điều hòa) lần lượt trên các tập dữ liệu thử nghiệm (87.53%, 86.94%, 87.23%), (84.32%, 88.17%, 86.20%), (85.63%, 87.94%, 86.77%) , (85.14%, 87.23%, 86.17%). Các kết quả thực nghiệm cho thấy đây là một hướng tiếp cận khả thi đối với việc phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh.