Nghiên cứu các phương pháp rút trích văn từ trang web và ứng dụng

Luận văn thạc sĩ: Nghiên cứu các phương pháp rút trích văn từ trang web và ứng dụng

Đề tài luận văn: Hệ thống thông tin

Nội dung luận văn:

Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng khổng lồ các dữ liệu dưới dạng siêu văn bản là các trang web. Trong khi dữ liệu trong các cơ sở dữ liệu (CSDL) truyền thống thường là loại dữ liệu đồng nhất (về ngôn ngữ, định dạng,…), còn dữ liệu Web thường không đồng nhất, ví dụ về ngôn ngữ, dữ liệu web bao gồm nhiều loại ngôn ngữ khác nhau, nhiều loại hình định dạng khác nhau, nhiều loại từ vựng khác nhau, các mã vùng… Do dữ liệu web không có cấu trúc và thường không đồng nhất nên việc xử lý thông tin trên web phục vụ các yêu cầu tìm kiếm, phân tích thông tin gặp nhiều khó khăn. Yêu cầu cần thiết phải nghiên cứu phương pháp để xử lý dữ liệu web, chuyển từ dạng dữ liệu không có cấu trúc, không đồng nhất thành dạng dữ liệu cấu trúc và đồng nhất hơn. Bước xử lý này có thể được ứng dụng cho nhiều lĩnh vực như dịch tự động và xử lý ngôn ngữ tự nhiên.

692012_10425346_BIDV

Luận văn tập trung nghiên cứu các phương pháp trích xuất dữ liệu từ web. Trên cơ sở đó thực hiện cài đặt thử nghiệm công cụ trích rút thông tin từ các trang tin tức tiếng Việt.

Nội dung luận văn được chia thành 3 chương:

Chương 1: Khái quát về khai quá dữ liệu

Chương 2: Các kỹ thuật trích rút văn bản từ trang web

Chương 3: Cài đặt thử nghiệm ứng dụng trích rút văn bản từ một số website tin tức bằng tiếng Việt

download

Add Comment