Đồ Án Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC


    MỤC LỤC 2


    DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT . 5


    DANH MỤC CÁC BẢNG . 6


    DANH MỤC CÁC HÌNH, ĐỒ THỊ 6


    MỞ ĐẦU . 7


    CHƯƠNG 1: TỔNG QUAN HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG


    TIỆN (MDBMS) . 8


    1.1 Mục đích của MDBMS 8


    1.2 Các yêu cầu của một MDBMS 11


    1.2.1 Khả năng quản trị lưu trữ lớn 13


    1.2.2 Hỗ trợ truy vấn và khai thác dữ liệu 14


    1.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện 14


    1.2.4 Giao diện và tương tác. 15


    1.2.5 Hiệu suất. .15


    1.3 Các vấn đề của MDBMS .16


    1.3.1 Mô hình hoá dữ liệu MULTIMEDIA 16


    1.3.2 Lưu trữ đối tượng MULTIMEDIA .17


    1.3.3 Tích hợp Multimedia, thể hiện và chất lượng của dịch vụ (QoS) 19


    1.3.4 Chỉ số hoá Multimedia 20


    1.3.5 Hỗ trợ truy vấn Multimedia, khai thác và duyệt qua. 21


    1.3.6 Quản trị CSDL Multimedia phân tán 22


    1.3.7 Sự hỗ trợ của hệ thống 23


    1.4 Kết luận 23


    CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 25
    2.1 Giới thiệu hệ tìm kiếm thông tin 25


    2.1.1 Kỹ thuật tìm kiếm thông tin 25


    2.1.2 Một số vấn đề trong tìm kiếm thông tin 26



    2.1.3 Hệ thống tìm kiếm thông tin – IR 27


    2.1.4 Sự khác biệt giữa các hệ thống IR và các hệ thống thông tin khác .32


    2.1.5 Các hệ tìm kiếm văn bản thường được sử dụng hiện nay 34


    2.2 Một số kỹ thuật tìm kiếm văn bản theo nội dung 35


    2.2.1 Chỉ mục tự động văn bản và mô hình tìm kiếm Bool 35 2.2.1.1. Mô hình tìm kiếm Bool cơ sở 35 2.2.1.2 Tìm kiếm Bool mở rộng .37 2.2.1.3 Các bước để xây dựng hệ thống tìm kiếm thông tin – IR 39 2.2.1.4 Lập chỉ mục tài liệu 40
    2.2.2 Mô hình tìm kiếm không gian vector 51 2.2.2.1 Mô hình tìm kiếm không gian vector cơ sở 51 2.2.2.2. Kỹ thuật phản hồi phù hợp (Relevance Feedback Technique) .53
    2.2.3. Thước đo hiệu năng 55


    2.3 Ví dụ 56


    2.4 Kết luận .58


    CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN


    BẢN .59


    3.1 Giới thiệu .59


    3.2 Một số kỹ thuật nâng cao hiệu năng tìm kiếm đa phương tiện 60


    3.2.1 Lọc bằng phân lớp, thuộc tính có cấu trúc và các từ khóa .60


    3.2.2 Các phương pháp trên cơ sở tính không đều tam giác 61


    3.2.3 Mô hình tìm kiếm trên cơ sở cụm (cluster-based) .63 3.2.3.1 Sinh cụm .63 3.2.3.2 Tìm kiếm trên cơ sở cụm .64
    3.2.4 Chỉ mục ngữ nghĩa tiềm ẩn (LSI) để tìm kiếm thông tin trên cơ sở không


    gian vector 64


    3.3 Kỹ thuật LSI 66


    3.3.1 Giới thiệu LSI 66


    3.3.2 Phương pháp luận LSI .67



    CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM 79


    4.1 Giới thiệu bài toán .79


    4.2 Chức năng chương trình .79


    4.3 Quy trình phát triển ứng dụng 79


    4.3.1 Xây dựng ma trận Term – Doc .80


    4.3.2 Lập chỉ mục tài liệu 80


    4.3.3 Xây dựng ma trận trọng số 80


    4.3.4 Tìm kiếm theo mô hình vector 81


    4.3.5 Phương pháp LSI .81


    4.2 Cài đặt thử nghiệm .82


    4.2.1 Giao diện màn hình lập chỉ mục 82


    4.2.2 Giao diện màn hình cập nhập chỉ mục .83


    4.2.2 Tìm kiếm tài liệu theo mô hình vector 83


    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84


    TÀI LIỆU THAM KHẢO 86



    DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT


    Từ gốc Giải nghĩa
    Cluster-based CSDL
    DBMS (Database Management System) MDBMS (Multimedia Database
    Management System)
    Doc Docs
    DSS (Decision Support Systems) Exact match
    IMS (Information Management System) Index
    IR (Information Retrieval)


    IRS (Information Retrieval System) LSI (Latent Semantic Indexing) MultiMedia
    Precision


    QAS (Question Anser System) Query
    Term Ranking Record Recall
    SC (Similarity Coeficient)


    SVD (Singular Value Decomposition) Text-partern
    The Term Discrimination Value


    The Signal – Noise Ratio Cơ sở cụm


    Cơ sở dữ liệu


    Hệ quản trị cơ sở dữ liệu


    Hệ quản trị cơ sở dữ liệu đa phương tiện


    Tài liệu


    Nhiều tài liệu


    Hệ hỗ trợ ra quyết định Đối sánh chính xác
    Hệ quản lý thông tin


    Chỉ mục


    Truy tìm thông tin


    Hệ truy tìm thông tin


    Chỉ mục ngữ nghĩa tiềm ẩn Truyền thông da phương tiện Độ chính xác
    Hệ trả lời câu hỏi


    Truy vấn


    Thuật ngữ (từ) Sắp xếp
    Bản ghi


    Khả năng tìm thấy Độ tương quan
    Kỹ thuật tách giá trị đơn Mẫu văn bản
    Giá trị phân biệt từ


    Độ nhiễu tín hiệu



    DANH MỤC CÁC BẢNG


    Bảng 2.2: Cách tập tin nghịch đảo lưu trữ .43


    Bảng 2.3 Cách tập tin trực tiếp lưu trữ 43


    Bảng 2.4: Thêm một tài liệu mới vào tập tin nghịch đảo 44


    Bảng 2.5: Danh sách từ dừng của tiếng Anh 49


    Bảng 3.1: Bảng khoảng cách của từng đối tượng trong CSDL đến từng vector so


    sánh 62






    DANH MỤC CÁC HÌNH, ĐỒ THỊ






    Hình1.1. Kiến trúc bậc cao cho một MDBMS đáp ứng các yêu cầu cho dữ liệu


    MULTIMEDI 10


    Hình 1.2. Mô hình khả năng lưu trữ của các hệ thống Multimedia .13


    Hình 2.1. Mô hình tổng quát tìm kiếm thông tin .28


    Hình 2.3. Mô hình kiến trúc của hệ tìm kiếm thông tin .31


    Hình 2.4. Cấu trúc hệ tìm kiếm thông tin tiêu biểu .31


    Hình 2.5. Các từ được sắp theo thứ tự .46


    Hình 2.6. Mô hình minh hoạ mối quan hệ giữa 5 tài liệu D1 đến D5 và thuật ngữ


    “CAR” .48


    Hình 2.7. Quá trình chọn từ làm chỉ mục .50


    Hình 2.8. Mô hình thước đo hiệu năng .55


    Hình 2.9. Đồ thị so sánh hiệu năng 56


    Hình 3.1. Mô hình LSI .67


    Hình 3.2. Mô hình tính toán và xếp thứ hạng cho các tài liệu .68


    Hình 3.3. Minh hoạ kỹ thuật Chỉ số hoá ngữ nghĩa tiềm ẩn (LSI) .69


    Hình 3.4. Mô hình minh hoạ tách giá trị đơn (SVD) .75


    Hình 4.1. Giao diện màn hình lập chỉ mục .82


    Hình 4.2. Giao diện màn hình cập nhập chỉ mục 83


    Hình 4.3. Giao diện tìm kiếm theo mô hình vector .83
     
Đang tải...