ĐÁNH GIÁ CÁC MÔ HÌNH PHÁT HIỆN ĐỐI TƯỢNG DỰA VÀO TRANSFORMER
Lê Nguyễn Thủy Nhi, Nguyễn Dũng, Võ Văn Thành, Hoàng Văn Dũng, Lê Văn Tường Lân
Thành công của Transformer trong xử lý ngôn ngữ tự nhiên đã thúc đẩy việc ứng dụng chúng vào thị giác máy tính, đặc biệt là trong bài toán phát hiện đối tượng. Khác với các mô hình truyền thống dựa trên CNN vốn cần bước xử lý hậu kỳ phức tạp, DETR (DEtection TRansformer) xem phát hiện đối tượng là một bài toán dự đoán tập hợp, cho phép huấn luyện đầu-cuối. Mặc dù đạt được AP0.5 từ 55.7–64.7%, DETR gặp khó khăn về tốc độ hội tụ chậm và hiệu suất kém đối với các đối tượng nhỏ (APS 15.2–23.7%). Các biến thể gần đây như Deformable DETR và RT-DETR (với AP0.5 lên đến 72.7%) đã khắc phục những hạn chế này thông qua tối ưu hóa backbone, thiết kế lại truy vấn và cải tiến cơ chế attention. Nghiên cứu này đánh giá các thành phần của DETR, so sánh các mô hình dựa trên Transformer, đồng thời đề xuất các chiến lược nhằm nâng cao hiệu quả và độ chính xác trong việc giải quyết các thách thức như phát hiện đối tượng nhỏ.
