XỬ LÝ DỮ LIỆU BÁN CẤU TRÚC TRÊN MÔI TRƯỜNG HADOOP
Nguyễn Mậu Hân
Dữ liệu bán cấu trúc thường được biểu diễn ở định dạng XML. Mặc dù hiện nay đã có một số hệ quản trị có khả năng tổ chức, lưu trữ và xử lý dữ liệu bán cấu trúc một cách có hiệu quả nhưng đối với các tập dữ liệu có kích thước lớn thì các hệ thống này lại bộc lộ nhiều hạn chế. Khi bộ nhớ thứ cấp được sử dụng để lưu trữ một lượng lớn dữ liệu nếu không có chỉ mục phù hợp nào được sử dụng thì thời gian thực hiện của các truy vấn phức tạp sẽ tăng lên đáng kể. Hiện nay, Hadoop với công cụ MapReduce đã thành công trong việc xử lý loại dữ liệu có cấu trúc với kích thước tập tin khá lớn và thời gian xử lý nhanh. Tuy nhiên, đối với dữ liệu bán cấu trúc như XML thì ít được bàn đến. Trong bài báo này chúng tôi đề xuất mô hình xử lý dữ liệu bán cấu trúc trên nền tảng Hadoop với công cụ MapReduce bằng cách chuyển tài liệu XML thành cấu trúc phân cấp XML Tree.