Trường Đại học Khoa học, Đại học Huế
Toán - Công nghệ thông tin - Vật lý - Kiến trúc
THUẬT TOÁN RÚT GỌN THUỘC TÍNH DỰA VÀO CẮT TỈA MỀM VÀ TẬP THÔ LÂN CẬN TRỌNG SỐ TỔNG QUÁT
https://doi.org/10.64302/joshusc.v33n1.1353
Trần Duy Anh, Lê Mạnh Thạnh, Đoàn Thị Hồng Phước, Nguyễn Ngọc Thủy
Email: nnthuy.cs@hueuni.edu.vn
Rút gọn thuộc tính là một nhiệm vụ trọng tâm trong lý thuyết tập thô, nhằm loại bỏ các thuộc tính dư thừa mà vẫn duy trì khả năng phân lớp của hệ quyết định. Trong khuôn khổ tập thô lân cận trọng số tổng quát (GWNRS), thuật toán heuristic hiện có đã cho thấy hiệu quả nhất định nhưng vẫn chịu chi phí tính toán cao khi áp dụng cho dữ liệu quy mô lớn. Để khắc phục hạn chế này, chúng tôi đề xuất thuật toán SP-GWNRS mới dựa trên cơ chế cắt tỉa mềm. Mỗi thuộc tính được gắn với một bộ đếm theo dõi số lần đóng góp tiêu cực vào độ phụ thuộc, qua đó thuật toán có thể thích ứng giữa tìm kiếm và cắt tỉa nhằm giảm các đánh giá dư thừa. Thêm nữa, một giai đoạn wrapper cũng được bổ sung để chọn tập rút gọn cuối cùng tốt nhất dựa trên độ chính xác phân lớp. Kết quả thực nghiệm trên các bộ dữ liệu chuẩn cho thấy rằng SP-GWNRS trả về tập rút gọn có kích thước tương đương với thuật toán gốc, nhưng vượt trội về độ chính xác.
mucluc.pdf
