Đồ Án Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục có cấu trúc

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Đề tài: Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục có cấu trúc (117 trang)



    MỤC LỤC​

    DANH SÁCH CÁC BẢNG

    DANH SÁCH CÁC HÌNH VẼ

    Phần 1 : TÌM HIỂU LÝ THUYẾT

    Chương 1: TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN


    1. Giới thiệu về tìm kiếm thông tin

    1.1 Khái niệm về tìm kiếm thông tin

    1.2 Một số vấn đề trong việc tìm kiếm thông tin:

    2. Hệ tìm kiếm thông tin – IRS

    3. Các thành phần của một hệ tìm kiếm thông tin [1.1]

    4. So sánh IRS với các hệ thống thông tin khác

    4.1 Hệ quản trị cơ sở dữ liệu (DBMS)

    4.2 Hệ quản lý thông tin (IMS)

    4.3 Hệ hỗ trợ ra quyết định (DSS)

    4.4 Hệ trả lời câu hỏi (QAS)

    4.5 So sánh IRS với các hệ thống thông tin khác


    Chương 2: XÂY DỰNG MỘT HỆ THỐNG TÌM KIẾM THÔNG TIN

    1. Kiến trúc của hệ tìm kiếm thông tin. [1.3]

    2. Một số mô hình để xây dựng một hệ tìm kiếm thông tin [1.2]

    2.1 Mô hình không gian vector

    2.2 Tìm kiếm Boolean

    2.3 Tìm kiếm Boolean mở rộng

    2.4 Mở rộng trong việc thêm vào trọng số của câu hỏi

    2.4.1 Mở rộng cho số từ tuỳ ý

    2.4.2 Thêm toán tử tự động

    2.5 Mô hình xác suất

    2.6 Đánh giá chung về các mô hình

    3. Các bước để xây dựng một hệ tìm kiếm thông tin. [3.2]

    3.1 Tách từ tự động cho tập các tài liệu

    3.2 Lập chỉ mục cho tài liệu

    3.3 Tìm kiếm

    3.4 Sắp xếp các tài liệu trả về (Ranking)

    4. Những khó khăn trong việc xây dựng một hệ thống tìm kiếm thông tin tiếng Việt

    4.1 Khó khăn trong việc tách từ tiếng Việt

    4.2 Vấn đề bảng mã tiếng Việt

    4.3 Các khó khăn khác


    Chương 3: TÁCH TỪ TỰ ĐỘNG

    1. Tách từ trong Tiếng Anh

    2. Tách từ trong Tiếng Việt

    2.1 Một số đặc điểm chính về từ tiếng Việt [2.2]

    2.1.1 Tiếng

    2.1.2 Từ

    2.2 Tách từ tự động tiếng Việt

    3. Các phương pháp tách từ tiếng Việt

    3.1 fnTBL (Fast Transformation-based learning) [3.1]

    3.1.1 Mô tả

    3.1.2 Áp dụng tách từ tiếng Việt

    3.2 Longest Matching [1.4]

    3.3 Kết hợp giữa fnTBL và Longest Matching

    Chương 4: LẬP CHỈ MỤC

    1. Khái quát về hệ thống lập chỉ mục

    2. Phương pháp lập chỉ mục [1.1]

    2.1 Xác định các từ chỉ mục

    2.2 Các phương pháp tính trọng số của từ

    2.2.1 Tần số tài liệu nghịch đảo

    2.2.2 Độ nhiễu tín hiệu (The Signal – Noise Ratio)

    2.2.3 Giá trị phân biệt từ (The Term Discrimination Value)

    2.3 Lập chỉ mục tự động cho tài liệu tiếng Anh

    3. Lập chỉ mục cho tài liệu tiếng Việt

    4. Tập tin nghịch đảo tài liệu

    4.1 Phân biệt giữa tập tin nghịch đảo và tập tin trực tiếp

    4.2 Tại sao sử dụng tập tin nghịch đảo để lập chỉ mục


    Phần 2 : PHÂN TÍCH VÀ THIẾT KẾ

    Chương 5: PHÂN TÍCH


    1. Sơ đồ UseCase hệ thống

    2. Sơ đồ Lớp

    2.1 Sơ đồ các lớp thể hiện

    2.2 Sơ đồ các lớp xử lý

    3. Tách từ

    3.1 Sơ đồ UseCase

    3.2 Sơ đồ Tuần tự

    3.3 Sơ đồ Cộng tác

    3.4 Sơ đồ Lớp

    4. Lập chỉ mục

    4.1 Sơ đồ UseCase

    4.2 Sơ đồ Tuần tự

    4.2.1 Tạo mới chỉ mục

    4.2.2 Cập nhật chỉ mục

    4.3 Sơ đồ Cộng tác

    4.3.1 Tạo mới chỉ mục

    4.3.2 Cập nhật chỉ mục

    4.4 Sơ đồ Lớp

    5. Tìm kiếm

    5.1 Sơ đồ UseCase

    5.2 Sơ đồ Tuần tự

    5.3 Sơ đồ Cộng tác

    5.4 Sơ đồ Lớp


    Chương 6: THIẾT KẾ VÀ CÀI ĐẶT

    1. Cấu trúc lưu trữ dữ liệu

    1.1 Tập tin lưu nội dung tài liệu

    1.1.1 Cấu trúc DTD / XSD

    1.1.2 Tài liệu XML

    1.2 Tập tin sau khi tách từ tài liệu

    1.2.1 Cấu trúc DTD / XSD

    1.2.2 Tài liệu XML

    1.3 Tập tin chứa các từ không thể hiện nội dung của văn bản (stop list)

    1.3.1 Cấu trúc DTD / XSD

    1.3.2 Tài liệu XML

    1.4 Tập tin chỉ mục đảo ( Inverted ).

    1.4.1 Cấu trúc DTD / XSD

    1.4.2 Tài liệu XML

    1.5 Tập tin sau khi tách từ câu hỏi.

    1.5.1 Cấu trúc DTD / XSD

    1.5.2 Tài liệu XML

    1.6 Tập tin chứa các từ của câu hỏi sau khi loại bỏ các từ trong danh sách StopList

    1.6.1 Cấu trúc DTD / XSD

    1.6.2 Tài liệu XML

    1.7 Tập tin chứa các từ trong câu hỏi và các tài liệu liên quan

    1.7.1 Cấu trúc DTD / XSD

    1.7.2 Tài liệu XML

    1.8 Tập tin chứa độ tương quan giữa câu hỏi và các tài liệu

    1.8.1 Cấu trúc DTD / XSD

    1.8.2 Tài liệu XML

    2. Chi tiết các lớp đối tượng

    2.1 Các lớp trong quá trình tách từ

    2.1.1 Sơ đồ các lớp

    2.1.2 Lớp tách từ ghép

    2.1.3 Lớp tách từ

    2.1.4 Lớp giao diện tách từ

    2.2 Các lớp trong quá trình lập chỉ mục

    2.2.1 Sơ đồ các lớp

    2.2.2 Lớp lập chỉ mục

    2.2.3 Lớp giao diện tạo mới chỉ mục

    2.2.4 Lớp giao diện cập nhật chỉ mục

    2.3 Các lớp trong quá trình tìm kiếm

    2.3.1 Sơ đồ các lớp

    2.3.2 Lớp tìm kiếm

    2.3.3 Lớp giao diện tìm kiếm

    3. Một số màn hình giao diện khác

    3.1 Màn hình chính của chương trình

    3.2 Màn hình tìm kiếm nhiều câu hỏi

    3.3 Màn hình tìm kiếm chính ( giao diện Web)

    3.4 Màn hình trả về các tài liệu tìm được ( giao diện Web)

    3.5 Màn hình chi tiết của một tài liệu ( giao diện Web)


    Phần 3 : TỔNG KẾT

    1. Chương trình thử nghiệm

    2. Đánh giá kết quả đạt được

    3. Hướng phát triển


    TÀI LIỆU THAM KHẢO

    1. Sách

    2. Luận văn

    3. Website
     

    Các file đính kèm:

Đang tải...