ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC ĐỘ ĐO TRONG MÔ HÌNH KẾT HỢP GIỮA PHÂN BỔ DIRICHLET TIỀM ẨN VÀ K-MEANS CHO BÀI TOÁN PHÂN CỤM TÀI LIỆU
Bùi Quang Vũ, Trần Thiện Thành, Ngô Nhân Đức, Nguyễn Hoàng Hà, Nguyễn Dũng
Bài báo này là một nghiên cứu thực nghiệm nhằm mục đích đánh giá hiệu quả của các độ đo khoảng cách khi sử dụng mô hình kết hợp giữa LDA và K-means cho bài toán phân cụm tài liệu. Kết quả thực nghiệm cho thấy rằng các độ đo khoảng cách dựa trên xác suất tốt hơn so với các độ đo dựa vào véc tơ khi sử dụng trong bài toán phân cụm tài liệu trong không gian các chủ đề. Với việc chọn độ đo độ tương tự dựa trên xác suất, K-means kết hợp với mô hình phân bổ Dirichlet tiềm ẩn (LDA) cho kết quả tốt hơn so với sử dụng LDA+ Naive và mô hình không gian véc tơ.