Luận Văn Xây dựng một search engine cho khoa công nghệ thông tin

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Đề tài: XÂY DỰNG MỘT SEARCH ENGINE CHO KHOA CÔNG NGHỆ THÔNG TIN


    Luận văn dài 45 trang

    Chương 1 TỔNG QUAN 3
    I .1 ĐẶT VẤN ĐỀ: .3
    I.2 LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ: .3
    I.3 PHẠM VI ĐỀ TÀI: 3
    I.4 HƯỚNG GIẢI QUYẾT: 3

    Chương 2 CƠ SỞ LÝ THUYẾT .5
    II.1 GIỚI THIỆU VỀ JAVA: 5
    II.2 GIỚI THIỆU VỀ HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MySQL: .5
    II.3 GIỚI THIỆU TỔNG QUAN VỀ MỘT HỆ THỐNG SEARCH ENGINE:5
    II.4 BỘ THU THẬP THÔNG TIN (CRAWLER) 6
    II.4.1 Các chiến lược thu thập thông tin: 6
    II.4.1.1 Chiến thuật thu thập theo chiều rộng: 7
    II.4.1.2 Chiến thuật thu thập theo chiều sâu: 10
    II.4.1.3 Chiến thuật thu thập ngẫu nhiên: . 11
    II.4.1.4 Chiến thuật thu thập ưu tiên: . 11
    II.4.2 Các vấn đề nảy sinh với bộ thu thập thông tin và hướng giải quyết: . 12
    II.4.2.1 Các vấn đề nảy sinh: 12
    II.4.2.2 Hướng giải quyết: 12
    II.4.2.2.1 Tránh truy xuất trùng lắp: 12
    II.4.2.2 2 Nhận dạng liên kết trong tập tin HTML: 13
    II.4.2.2 3 Xử lý font chữ và bảng mã: . 14
    II.4.2.2.4 Quá trình cập nhật thông tin: . 15
    II.4.2.2.5 Trích xuất nội dung văn bản trong trang web: . 15
    II.4.2.2.6 Loại bỏ những liên kết không tốt: 16
    II.4.3 Các vấn đề cần lưu ý với web crawler: 16
    II.4.3.1 Tập tin Robot.txt 16
    II.4.3.2 Thẻ META dành cho crawler: . 17
    II.4.3.3 Nhược điểm của tiêu chuẩn loại trừ crawler: 18
    II.5 BỘ LẬP CHỈ MỤC (INDEX) . 19
    II.5.1 Giới thiệu về bộ lập chỉ mục: . 19
    II.5.2 Các phương pháp lập chỉ mục: . 20
    II.5.3 Phương pháp lập chỉ mục bằng tập tin nghịch đảo: 21
    II.6 BỘ TRUY VẤN THÔNG TIN (QUERY) 22
    II.6.2 Các phương pháp truy vấn thông tin: . 22
    II.7 BỘ XẾP HẠNG (RANKING): . 23



    Chương 3 NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU 24
    III.1 MÔ HÌNH SEARCH ENGINE ĐƯỢC CÀI ĐẶT TRONG CHƯƠNG
    TRÌNH: . 24
    III.2 BỘ THU THẬP THÔNG TIN (Crawler): . 25
    III.2.1 Ứng dụng của bộ thu thập thông tin: . 25
    III.2.2 Cài đặt chương trình crawler: . 25
    III.3 BỘ LẬP CHỈ MỤC - (INDEX): 29
    III.3.1 Bộ lập chỉ mục được cài đặt trong chương trình: 29
    III.4 BỘ TRUY VẤN THÔNG TIN –(QUERY): 31
    III.4.1 Bộ truy vấn thông tin được cài đặt trong chương trình. . 31



    CHƯƠNG 4 KẾT QUẢ ĐẠT ĐƯỢC,HƯỚNG PHÁT TRIỂN 32
    IV.1 KẾT QUẢ ĐẠT ĐƯỢC: . 32
    IV.1.1 Ưu điểm: 32
    IV.1.2 Hạn chế: . 32
    IV.2 HƯỚNG PHÁT TRIỂN 33



    PHỤ LỤC . 34
    HƯỚNG DẪN SỬ DỤNG 37
     
Đang tải...