TÓM TẮT VIDEO DỰA TRÊN BIỂU DIỄN ĐẶC TRƯNG CỦA ĐOẠN CLIP
Nguyễn Hoài Nam, Lê Quang Chiến
Với sự gia tăng khối lượng và đa dạng của dữ liệu video, việc tìm kiếm, trích xuất thông tin và hiểu nội dung ngày càng phức tạp và tốn thời gian. Tóm tắt video, bằng cách rút gọn video dài thành phiên bản ngắn hơn hoặc hình ảnh đại diện, nổi lên như một giải pháp tiềm năng. Kỹ thuật này có nhiều ứng dụng trong giáo dục, giải trí, an ninh, nâng cao năng suất và trải nghiệm người dùng. Các phương pháp tóm tắt truyền thống cho hiệu suất trung bình do hạn chế trong xử lý nội dung phức tạp, trong khi các kỹ thuật học sâu hiện đại đã có tiến bộ đáng kể. Bài báo này giới thiệu cách tiếp cận dựa trên biểu diễn đặc trưng của đoạn clip, khai thác thông tin không gian và thời gian qua cơ chế học tự chú ý (self-attention). Bên cạnh đó, chúng tôi đề xuất hai phương pháp tóm tắt phù hợp cho ngữ cảnh ngoại tuyến và trực tuyến dựa trên các biểu diễn đặc trưng này. Kết quả thực nghiệm cho thấy cách tiếp cận này có tiềm năng lớn cho các ứng dụng tóm tắt video thực tế.