PHÂN TÍCH MỘT SỐ MÔ HÌNH TRÍCH XUẤT ĐẶC TRƯNG ẢNH CHO BÀI TOÁN TÌM KIẾM ẢNH DỰA TRÊN NỘI DUNG

Trần Văn Khánh, Nguyễn Ngọc Thuỷ, Lê Mạnh Thạnh

Tập 27, Số1
Thời gian xuất bản: 12/2024
Mục lục: mucluc.pdf
Email: tvkhanh.dhkh24@hueuni.edu.vn
Tóm tắt

Bài báo tập trung phân tích và so sánh hiệu quả của một số mô hình học sâu cho bài toán CBIR thông qua các tiêu chí đánh giá như độ chính xác, khả năng tổng quát hóa. Các mô hình học sâu được sử dụng trong thực nghiệm như VGG16, Resnet50, EfficientNetB0, Densenet201 và Vision Transformer (ViT), là các mô hình đã được huấn luyện trọng số trên tập dữ liệu lớn Imagenet. Trên cơ sở các mô hình đã đề xuất, thực nghiệm được tiến hành trên bốn tập dữ liệu Corel1K, Oxford17Flowers, Caltech101 và một phần của tập Cifar10. Kết quả thực nghiệm cho thấy rõ hiệu quả vượt trội của các mô hình hiện đại trong quá trình trích xuất đặc trưng ảnh cho bài toán CBIR. ViT luôn đạt độ chính xác cao nhất trên tất cả các tập dữ liệu, gần như tuyệt đối trên hai Corel1K, Oxford17Flowers.

Từ khóa
CBIR, CNN, Học sâu, Transformer
File tóm tắt: Chưa tải lên