Đồ Án Tìm hiểu Web Crawler xây dựng Website tổng hợp thông tin

Thảo luận trong 'Lịch Sử Đảng' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU1
    CHƯƠNG 1. TÌM HIỂU VỀ TRÌNH THU THẬP WEB3
    1.1. GIỚI THIỆU VỀ TRÌNH THU THẬP WEB3
    1.2. CÁCH XÂY DỰNG MỘT HẠ TẦNG THU THẬP. 4
    1.2.1. Frontier. 6
    1.2.2. Lược sử và kho lưu trữ trang. 7
    1.2.3. Cách lấy trang. 8
    1.2.3.1. Tiêu chuẩn loại trừ robot9
    1.2.4. Bóc tách trang. 10
    1.2.4.1. Tiêu chuẩn trích xuất URL11
    1.2.4.2. Mô hình thẻ HTML dạng cây. 12
    1.2.5. Trình thu thập đa luồng. 13
    1.3. CÁC CHIẾN LƯỢC THU THẬP DỮ LIỆU15
    1.3.1. Chiến lược thu thập dữ liệu theo chiều sâu. 16
    1.3.2. Chiến lược thu thập dữ liệu theo chiều rộng. 16
    1.3.3. Chiến lược thu thập dữ liệu theo ngẫu nhiên. 17
    1.3.4. Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ.17
    1.4. ĐÁNH GIÁ CỦA TRÌNH THU THẬP. 19
    1.4.1. Độ quan trọng của trang web. 20
    1.4.2. Phân tích tổng quát21
    1.4.2.1. Thước đo độ chính xác. 22
    1.4.2.2. Thước đo độ hoàn chỉnh. 22
    CHƯƠNG 2. XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN25
    2.1. CÁC KIẾN THỨC NỀN TẢNG25
    2.1.1. Mạng toàn cầu. 25
    2.1.2. Giao thức truyền tải siêu văn bản. 28
    2.1.3. Ngôn ngữ đánh dấu siêu văn bản. 28
    2.2. CÁC CÔNG NGHỆ LIÊN QUAN30
    2.2.1. Ngôn ngữ lập trình PHP. 30
    2.2.1.1. Biểu thức chính quy. 31
    2.2.1.2. Các hàm xử lý chuỗi34
    2.2.1.2.1. Tìm kiếm chuỗi trong chuỗi34
    2.2.1.2.2. Tìm vị trí của chuỗi con. 34
    2.2.1.2.3. Hàm so sánh chuỗi34
    2.2.1.2.4. Kiểm tra chiều dài của chuỗi35
    2.2.2. MySQL35
    2.2.3. Một số công nghệ và tiện ích khác. 37
    2.2.3.1. Add-ons firebug của firefox. 37
    2.2.3.2. Ajax. 37
    2.3. PHÂN TÍCH38
    2.3.1. Cấu trúc bài viết trong trang báo điện tử. 38
    2.3.2. Các cách thu thập bài viết42
    2.3.2.1. Cách làm truyền thống. 42
    2.3.2.1.1. Các bước thực hiện. 42
    2.3.2.1.2. Nhận xét44
    2.3.2.2. Cách làm mới45
    2.3.2.2.1. Các bước thực hiện. 45
    2.3.2.2.2. Nhận xét46
    2.4. THIẾT KẾ47
    2.4.1. Cấu trúc cơ sở dữ liệu. 47
    2.4.1.1. Danh sách các bảng. 47
    2.4.1.2. Chi tiết các bảng. 47
    2.4.2. Phần quản trị cơ sở dữ liệu. 49
    2.4.3. Phần giao diện chính trang web. 50
    CHƯƠNG 3: KẾT LUẬN51
    3.1. CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC51
    3.2. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI51
    TÀI LIỆU THAM KHẢO53
     

    Các file đính kèm:

Đang tải...