Luận Văn Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    Đề tài: Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt



    MỤC LỤC​

    Phần 1 : TÌM HIỂU VẤN ĐỀ

    Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE


    1. Các bộ phận cấu thành hệ thống search engine

    1.1 Bộ thu thập thông tin – Robot

    1.2 Bộ lập chỉ mục – Index

    1.3 Bộ tìm kiếm thông tin – Search Engine

    2. Nguyên lý hoạt động

    Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT

    1. Ứng dụng của Robot

    1.1 Phân tích, thống kê – Statistical Analysis

    1.2 Duy trì siêu liên kế - Maintenance

    1.3 Ánh xạ địa chỉ web - Mirroring

    1.4 Phát hiện tài nguyên – Resource Discovery

    1.5 Kết hợp các công dụng trên- Combined uses

    2. Robot chỉ mục – Robot Indexing

    3. Các chiến thuật thu thập dữ liệu [II.1]

    3.1 Chiến thuật tìm kiếm theo chiều sâu

    3.2 Chiến thuật tìm kiếm theo chiều rộng

    3.3 Chiến thuật tìm kiếm theo ngẫu nhiên

    4. Những vấn đề cần lưu ý của web robot

    4.1 Chi phí và hiểm hoạ

    4.1.1 Qúa tải mạng và server – Network resource and server load

    4.1.2 Sự cập nhật quá mức- Updating overhead

    4.1.3 Những tình huống không mong đợi – Bad implementations

    4.2 Tiêu chuẩn loại trừ robot

    4.2.1 File robot.txt

    4.2.2 Thẻ META dành cho robot – Robot META tag

    4.2.3 Nhược điểm của file robot.txt

    Chương 3: BỘ LẬP CHỈ MỤC – INDEX

    1. Khái quát về hệ thống lập chỉ mục

    2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1])

    2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1])

    2.2 Một số hàm tính trọng số mục từ. ([I.1])

    2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight)

    2.2.2 Độ nhiễu tín hiệu (Signal Noise):

    2.2.3 Giá trị độ phân biệt của mục từ :

    2.2.4 Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu

    2.3 Lập chỉ mục tự động cho tài liệu

    3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12])

    3.1 Khó khăn cho việc lập chỉ mục tiếng Việt

    3.2 Đặc điểm về từ trong tiếng Việt và việc tách từ

    3.2.1 . Đặc điểm về từ trong tiếng Việt:

    3.2.2 Tách từ

    3.3 Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả)

    3.3.1 Vấn đề bảng mã

    3.3.2 Vấn đề dấu thanh

    3.3.3 Vấn đề dấu tổ hợp nguyên âm

    3.4 Giải quyết các vấn đề về từ của tiếng Việt

    3.4.1 Luật xác định các từ láy

    Chương 4: BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE

    1. Vì sao ta cần một công cụ tìm kiếm (SE) ?

    2. Các phương thức tìm kiếm

    2.1 Tìm theo từ khoá – Keyword searching

    2.2 Những khó khăn khi tìm theo từ khoá

    2.3 Tìm theo ngữ nghĩa – Concept-based searching

    3. Các chiến lược tìm kiếm

    3.1 Tìm thông tin với các thư mục chủ đề

    3.2 Tìm thông tin với các công cụ tìm kiếm

    3.3 Tối ưu câu truy vấn

    3.4 Truy vấn bằng ví dụ

    Chương 5: MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM

    1.1 Thư mục của Yahoo, Google

    1.2 Alltheweb

    1.3 AltaVista

    1.4 Lycos

    1.5 HotBot

    2. Một số search engine thông dụng ở Việt Nam

    2.1 Netnam [IV.12]

    2.1.1 Phương pháp Netnam SE lập chỉ mục dữ liệu

    2.1.2 Cú pháp tìm kiếm 59

    2.1.3 Sử dụng từ khoá để lọc các tìm kiếm

    2.2 Vinaseek ([IV.11])

    Phần 2 : THIẾT KẾ VÀ CÀI ĐẶT

    Chương 6: THIẾT KẾ DỮ LIỆU


    1. Cơ sở dữ liệu trong SQL

    2. Hệ thống tập tin

    Chương 7: THU THẬP THÔNG TIN

    1. Cấu trúc dữ liệu

    1.1 Cấu trúc UrlInfo

    1.2 Cấu trúc StartUrlInfo

    1.3 Cấu trúc FileRetrieval

    1.4 Cấu trúc ProjectInfo

    2. Xử lý của web robot

    3. Giải quyết các vấn đề của web robot

    3.1 Tránh sự lặp lại

    3.2 Tránh làm qúa tải server

    3.3 Tránh truy xuất đến các dạng tài nguyên không thích hợp

    3.4 Tránh các lỗ đen(black holes)

    3.5 Tránh những nơi cấm robot

    4. Các thuật toán phân tích cấu trúc file HTML

    4.1 Thuật toán lấy liên kết

    4.1.1 Thuật toán ứng dụng cũ đã cài đặt

    4.1.2 Chọn lựa của ứng dụng mới

    4.2 Thuật toán lấy tiêu đề

    4.3 Thuật toán lấy nội dung

    5. Duy trì thông tin cho CSDL

    6. Resume project

    6.1 Nguyên tắc resume của ứng dụng cũ

    6.2 Cải tiến của ứng dụng mới

    Chương 8: LẬP CHỈ MỤC

    1. Tính trọng số của từ:

    2. Tập tin nghịch đảo :

    3. Từ điển chỉ mục

    4. Quá trình stemming

    Chương 9: TÌM KIẾM THÔNG TIN

    Chương 10: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH


    1. Các module, package của chương trình

    2. Các lớp đối tượng chính trong từng module

    2.1 Module DBController

    2.2 Module ProcessDoc

    2.3 Module Query

    2.4 Module SE

    2.5 Module Webcopy

    2.6 Module WebcopyGUI

    Phần 3 : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN

    1. Kết quả thử nghiệm

    2. Hoạt động của chương trình

    2.1 Giao diện quản trị

    2.1.1 Giao diện chính của quản trị

    2.1.2 Tạo mới project

    2.1.3 Tạo mới một StartUrl :

    2.1.4 Xem từ điển chỉ mục

    2.1.5 Quản l‎ý mục từ

    2.2 Giao diện tìm kiếm

    3. Đánh giá

    3.1 Ưu điểm

    3.2 Khuyết điểm

    4. Hướng phát triển

    4.1 Đối với từng module :

    4.2 Đối với toàn luận văn:

    DANH SÁCH CÁC BẢNG

    DANH SÁCH CÁC HÌNH VẼ

    TÀI LIỆU THAM KHẢO

    I. Sách, ebook:

    II. Luận văn, luận án

    III. Bài báo

    IV. Website
     

    Các file đính kèm:

Đang tải...