Thạc Sĩ Rút trích thông tin trên trang web dựa vào cấu trúc và hình thức trình bày

Thảo luận trong 'Khoa Học Công Nghệ' bắt đầu bởi Bích Tuyền Dương, 15/10/12.

  1. Bích Tuyền Dương

    Bài viết:
    2,590
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Giới thiệu về đề tài
    Web 2.0 [1] đã không còn là một khái niệm khá xa lạ đối với nhiều người nó ngày càng trở nên phổ biến hơn bao giờ hết. Các trang web không chỉ đơn thuần là nguồn cung cấp thông tin đơn thuần như báo hay truyền hình mà còn có thể tương tác và đóng góp thông tin Facebook, Wikipedia, Blog . Nội dung của trang web không chỉ gói gọn trong website đó mà có thể liên kết với những trang web hoặc những ứng dụng khác.
    Web 2.0 đã làm xuất hiện thêm các thuật ngữ mới như Web API, Syndication, Mashup [1]. Nếu như Web API mang đến khả năng cung cấp thông tin web mà không cần phải vào trang web đó, Syndication là dịch vụ cho phép cập nhật nhanh chóng nội dung tóm lược của trang web thì Mashup là một công cụ có khả năng lấy thông tin từ nhiều nguồn dữ liệu khác nhau nhằm tạo một dịch vụ mới tổng hợp từ các nguồn dữ liệu đó.
    MỤC LỤC
    Chương 1 MỞ ĐẦU 1
    1.1. Giới thiệu về đề tài . 1
    1.2. Các công trình liên quan . 3
    1.3. Mục tiêu của đề tài . 4
    1.4. Bố cục của luận văn 5
    Chương 2 TỔNG QUAN VỀ RÚT TRÍCH THÔNG TIN TRÊN WEB 6
    2.1. Tổng quan . 6
    2.2. Phương pháp bán tự động . 7
    2.3. Phương pháp dựa trên cấu trúc HTML DOM của trang web 9
    2.4. Phương pháp khai khoáng dữ liệu 11
    2.5. Phương pháp sử dụng cách thức trình bày của trang web 13
    2.6. Kết luận 13
    Chương 3 PHưƠNG PHÁP RÚT TRÍCH DỰA TRÊN PHÂN TÍCH CÂY DOM
    . 15
    3.1. Cấu tạo của trang web 15
    3.1.1. Cấu tạo của loại trang web liệt kê danh sách 15
    3.1.2. Cấu tạo của một bộ dữ liệu . 19
    3.2. Rút trích dựa trên phân tích cây DOM . 21
    3.2.1. Tìm kiếm danh sách chính trong trang web 21
    3.2.2. Phân chia danh sách thành các bộ dữ liệu . 23
    3.2.3. Xác định các thuộc tính trong bộ dữ liệu 24
    3.3. Kết luận 25
    Chương 4 PHưƠNG PHÁP CỦA LUẬN VĂN 26
    iii
    4.1. Tổng quan . 26
    4.2. Xác định các thuộc tính khóa của bộ dữ liệu . 27
    4.2.1. Cách thức duyệt trên cây DOM 27
    4.2.2. Xác định nút ứng cử là danh sách và danh sách các thuộc tính khóa . 30
    4.2.3. Thuật toán tìm các thuộc tính khóa trên cây DOM . 32
    4.3. Xây dựng bộ dữ liệu mẫu trong trang web . 34
    4.3.1. Tổng quan . 34
    4.3.2. Phương pháp . 36
    4.4. Tìm kiếm các bộ dữ liệu có trong trang web 37
    4.5. Xác định các thuộc tính trong một bộ dữ liệu 37
    Chương 5 KẾT QUẢ THỰC NGHIỆM . 39
    5.1. Dữ liệu thực nghiệm . 39
    5.2. Phương pháp đánh giá 39
    5.3. Các trường hợp đặc biệt trong thử nghiệm . 40
    5.3.1. Loại trang web hiển thị một cột kết quả . 40
    5.3.2. Loại trang web hiển thị nhiều cột kết quả . 44
    5.3.3. Loại trang web có nhiều danh sách . 46
    5.4. Đánh giá chung . 48
    Chương 6 Kết luận 49
    6.1. Các kết quả đạt được 49
    6.2. Hướng phát triển của đề tài 50
    Phụ lục A Danh sách các trang web thực nghiệm . 55
    Phụ lục B Các công trình liên quan . 62
     

    Các file đính kèm:

Đang tải...