Đồ Án Tìm hiểu về search engine và xây dựng ứng dụng minh họa

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 2/12/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Trong đời sống ngày nay, một phương tiện không thể thiếu cho việc học tập và nghiên cứu khoa học là biết tận dụng khả năng cuả tin học. Trong đó, việc sử dụng internet một cách hiệu quả có thể góp phần giúp đẩy nhanh tiến độ của các đề án cũng như nó là một công cụ không thể thiếu cho việc tự trau dồi, cập nhật hoá kiến thức và nghiên cứu, đặc biệt là việc tận dụng các máy truy tìm dữ liệu (Search Engine). Tuy nhiên tồn tại một nghịch lý là dù được ví như thư viện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xung quanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữa con người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có thể giao tiếp tốt với nhau.
    Hơn nữa, mỗi search engine sẽ mang đặc thù của ngôn ngữ mà nó hiển thị. Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine sẽ tiếp cận thì ta có thể tối ưu hoá cơ hội nhận được các thông tin hữu ích. Vì lý do đó, khi thực hiện đồ án em có tham vọng tìm hiểu nguyên lý hoạt động của các công cụ tìm kiếm – search engine để từ đó xây dựng một công cụ tìm kiếm thông tin đáp ứng được hai yêu cầu tối thiểu trong tìm kiếm là thời gian ngắn, kết quả chính xác và khả năng tìm kiếm thông tin.
    Ø Cấu trúc đồ án: gồm có ba phần, với các nội dung sau:
    Phần 1: Giới thiệu cơ sở lý thuyết về hệ thống search engine:
    - Giới thiệu tổng quan về hệ thống search engine, trình bày các bộ phận cấu thành, nguyên lý hoạt động của một hệ thống search engine, cùng với vai trò và các cách phân loại search engine.
    - Trình bày chi tiết về các bộ phận cấu thành search engine: gồm có bộ thu thập thông tin, bộ lập chỉ mục và bộ tìm kiếm thông tin, cũng như hoạt động của từng bộ phận.
    - Giới thiệu một số search engine thông dụng trên thế giới và ở Việt Nam.
    Phần 2: Thiết kế và cài đặt bài toán ứng dụng:
    - Trình bày vấn đề của bài toán ứng dụng, phân tích và thiết kế các bộ phận của chương trình minh họa cho một hệ thống tìm kiếm thông tin.
    - Trình bày cách cài đặt và sử dụng chương trình.
    Phần kết luận:Nhận xét về những kết quả đạt được của đồ án, những điểm còn hạn chế và đưa ra hướng phát triển.

    MỤC LỤC

    PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1
    LỜI MỞ ĐẦU 5
    PHẦN MỘT : TÌM HIỂU VẤN ĐỀ 7
    Chương 1 : TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE 7
    1.1 Các bộ phận cấu thành và nguyên lý hoạt động của hệ thống search engine 8
    1.1.1 Các bộ phận cấu thành hệ thống search engine 8
    1.1.2 Nguyên lý hoạt động 9
    1.2 Đặc điểm và phân loại các search engine 9
    1.2.1 Vai trò, đặc điểm của các search engine 9
    1.2.2 Các cách phân loại search engine 13
    Chương 2 : CÁC BỘ PHẬN CẤU THÀNH SEARCH ENGINE 16
    2.1 BỘ THU THẬP THÔNG TIN – ROBOT 16
    2.1.1 Ứng dụng của Robot 16
    2.1.2 Robot chỉ mục 17
    2.1.3 Các chiến thuật thu thập dữ liệu 18
    2.1.4 Những vấn đề cần lưu ý của web robot 20
    2.2 BỘ LẬP CHỈ MỤC – INDEX 26
    2.2.1 Khái quát về hệ thống lập chỉ mục 26
    2.2.2 Tổng quan về phương pháp lập chỉ mục 28
    2.3 BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE 37
    2.3.1 Các phương thức tìm kiếm 37
    2.3.2 Các chiến lược tìm kiếm 38
    Chương 3 : HOẠT ĐỘNG CỦA SEARCH ENGINE 41
    3.1 Thu thập thông tin 41
    3.2 Xây dựng chỉ mục 44
    3.3 Tìm kiếm thông tin 46
    Chương 4 : MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ Ở VIỆT NAM 48
    4.1 Các bộ máy tìm kiếm trên thế giới 48
    4.2 Các công cụ tìm kiếm trong nước 51
    PHẦN HAI : THIẾT KẾ VÀ CÀI ĐẶT 55
    Chương 5 : ĐẶT VẤN ĐỀ BÀI TOÁN 55
    Chương 6 : THIẾT KẾ CƠ SỞ DỮ LIỆU 57
    6.1 Cơ sở dữ liệu trong MYSQL 57
    6.2 Hệ thống tập tin 63
    Chương 7 : THIẾT KẾ BỘ THU THẬP THÔNG TIN 64
    7.1 Mô hình hóa xử lý bộ máy thu thập thông tin 65
    7.2 Xử lý của web robot 68
    7.3 Giải quyết các vấn đề của web robot 70
    7.4 Phân tích cấu trúc file HTML 71
    Chương 8 : BỘ PHẬN LẬP CHỈ MỤC 74
    - Quá trình stemming 75
    Chương 9 : BỘ PHẬN TÌM KIẾM THÔNG TIN 76
    Chương 10 : CÀI ĐẶT VÀ SỬ DỤNG CHƯƠNG TRÌNH 79
    10.1 Cài đặt chương trình 79
    10.2 Sử dụng chương trình 79
    10.3 Kết quả thử nghiệm 80
    10.4 Hoạt động của chương trình 81
    KẾT LUẬN 85
    PHỤ LỤC A : DANH MỤC BẢNG VÀ HÌNH VẼ 87
    PHỤ LỤC B : CÁC THUẬT NGỮ 87
    PHỤ LỤC C : TÀI LIỆU THAM KHẢO 88
     

    Các file đính kèm:

Đang tải...