Luận Văn Xây dựng ứng dụng thu thập dữ liệu tự động từ các Website

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Bống Hà, 3/5/13.

  1. Bống Hà

    Bống Hà New Member

    Bài viết:
    5,424
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu

    MỤC LỤC
    1 Giới thiệu

    2 Tìm hiểu và phân tích sơ bộ
    2.1 Tìm hiểu các kiến thức tổng quan
    2.1.1 World Wide Web
    2.1.2 Web Crawler
    2.1.3 Web Scraper
    2.1.4 Phân loại Web
    2.2 Phân tích sơ bộ
    3 Các kiến thức nền tảng và các công nghệ liên quan
    3.1 HTML
    3.2 XML
    3.3 XHTML
    3.3.1 Tính chuẩn của một tài liệu XML (well-formed)
    3.3.2 Tên các phần tử và tên các thuộc tính của phần tử phải ở dạng chữ in thường
    3.3.3 Các thẻ không rỗng bắt buộc phải có thẻ đóng
    3.3.4 Các thuộc tính luôn phải ghi rõ giá trị
    3.3.5 Các phần tử rỗng
    3.4 XPath
    3.4.1 Cú pháp và ngữ nghĩa
    3.4.2 Axis specifier
    3.4.3 Node test
    3.4.4 Predicate
    3.4.5 Các hàm và toán tử
    3.5 Các công nghệ và thư viện hỗ trợ khác
    3.5.1 HTML Tidy
    3.5.2 cURL
    4 Phân tích
    4.1 Một ví dụ tổng quát của bài toán thu thập dữ liệu
    4.2 Phân loại các trang Web dựa vào cách thức chuyển trang
    4.3 Phân tích và các giải pháp
    5 Thiết kế
    5.1 Sơ đồ Use Case
    5.2 Kiến trúc tổng quan
    5.3 Thành phần FRONT
    5.3.1 Mô hình MVC
    5.3.2 Bot Manager
    5.4 Thành phần CORE
    5.4.1 Crawler
    5.4.2 Extractor
    5.4.3 Các Helper
    6 Hiện thực
    6.1 Môi trường phát triển ứng dụng
    6.2 Giao diện sử dụng của WDE
    6.3 Đặc tả dữ liệu đầu vào bằng XML
    6.3.1 Đặc tả thông tin chung cho Bot
    6.3.2 Đặc tả các trang
    6.3.3 Đặc tả bảng cơ sở dữ liệu
    6.4 Cấu trúc cơ sở dữ liệu
    6.4.1 Danh sách các bảng
    6.4.2 Chi tiết các bảng
    6.5 Front
    6.5.1 Bot Manager
    6.6 Core
    6.6.1 Robot
    6.6.2 Crawler
    6.6.3 Extractor
    7 Sử dụng và đánh giá
    7.1 Các bước cơ bản để sử dụng ứng dụng
    7.1.1 Xác định trang web cần thu thập dữ liệu
    7.1.2 Xác định kiểu lấy dữ liệu (crawler engine) cho Robot
    7.1.3 Xác định các tùy chọn cho Robot
    7.1.4 Xây dựng cấu hình cụ thể cho từng trang con
    7.1.5 Xác định cấu trúc cơ sở dữ liệu lưu trữ:
    7.2 Các ví dụ cụ thể từ đơn giản đến phức tạp
    8 Đánh giá chung
    8.1 Các kết quả đạt được
    8.2 Các hạn chế của ứng dụng
    8.3 Hướng phát triển
    9 Tổng kết
    10 Tài liệu tham khảo
     

    Các file đính kèm:

Đang tải...