Thạc Sĩ Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu

    LỜI NÓI ĐẦU


    Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Với một lượng thông tin như vậy thì vấn đề đặt ra là phải làm sao sử dụng chúng vào đúng mục đích và hiệu quả nhất thì cũng là một vấn đề đặt ra hiện nay. Mặt khác, trong môi trường cạnh tranh , người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, cần phải có các công cụ hỗ trợ để giúp cho việc tìm kiếm thông tin được nhanh và hiệu quả. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu và xây dựng một hệ thống tìm kiếm thông tin cụ thể là tìm kiếm tài liệu văn bản trên cơ sở phân cụm dữ liệu. Nhằm đáp ứng nhu cầu cấp thiết của thời đại.
    Bố cục của luận văn gồm các phần sau:

    + CHƯƠNG 1 - TỔNG QUAN: Giới thiệu chung về hệ thống thông tin đa phương tiện.
    + CHƯƠNG 2 - HỆ TÌM KIẾM THÔNG TIN: Giới thiệu về hệ thống tìm kiếm thông tin (IR), sự khác nhau giữa hệ thống tìm kiếm thông tin và các hệ thống thông tin khác, các mô hình th ường gặp trong hệ thống tìm kiếm thông tin.
    + CHƯƠNG 3 - KỸ THUẬT PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG : Khái quát chung về phân cụm, các kiểu dữ liệu trong phân cụm và ứng dụng kỹ thuật phân cụm dữ liệu trong tìm kiếm thông tin.
    + CHƯƠNG 4 - CHƯƠNG TRÌNH DEMO: Cài đặt một chương trình tìm
    kiếm thông tin trên cơ sở lý thuyết đã trình bày.
    + KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày các kết quả đạt được
    và nêu phương hướng phát triển của đề án trong tương lai.
    + TÀI LIỆU THAM KHẢO







    MỤC LỤC


    LỜI NÓI ĐẦU .4

    CHƯƠNG 1: TỔNG QUAN 7
    1.1. ĐẶT VẤN ĐỀ .7
    1.2. HỆ THỐNG THÔNG TIN ĐA PHƯƠNG TIỆN: 8
    1.2.1. Khái niệm về đa phương tiện 8
    1.2.2. Media .9
    1.2.3. Multimedia .10
    1.2.4. CSDL và Hệ quản trị CSDL .10
    1.2.5. Truy tìm thông tin tài liệu văn bản 10
    1.2.6. Chỉ mục và truy tìm đa phương tiện 11
    1.2.7. Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục .11
    1.3. SỰ CẦN THIẾT PHẢI CÓ MIRS . 11
    1.3.1. Mô tả sơ lược dữ liệu MM và các tính chất của chúng 12
    1.3.2. Hệ thống IR và vai trò của chúng trong truy tìm đa phương tiện .13
    1.3.3. Tích hợp truy tìm và chỉ số hóa thông tin đa phương tiện .13
    1.4. KHÁI QUÁT VỀ MIRS . 14
    1.5. KHẢ NĂNG MONG ĐỢI VÀ CÁC ỨNG DỤNG CỦA MIRS . 15

    CHƯƠNG 2: HỆ TÌM KIẾM THÔNG TIN . 18
    2.1. KHÁI QUÁT CHUNG VỀ TÌM KIẾM THÔNG TIN 18
    2.1.1. Hệ thống truy tìm thông tin – IR .20
    2.1.2. Các thành phần của một hệ tìm kiếm thông tin .24
    2.1.3. So sánh hệ thống IR với các hệ thống thông tin khác 25
    2.1.4. Các hệ tìm kiếm văn bản được đánh giá cao hiện nay 27
    2.2. HỆ TÌM KIẾM THÔNG TIN 28
    2.2.1. Kiến trúc của hệ tìm kiếm thông tin. .28
    2.2.2. Một số mô hình để xây dựng một hệ tìm kiếm thông tin .30
    2.2.3. Các bước để xây dựng hệ thống truy tìm thông tin – IR 38
    2.3. LẬP CHỈ MỤC TÀI LIỆU 39
    2.3.1. Khái quát về hệ thống lập chỉ mục 40
    2.3.2. Cấu trúc tệp mục lục .41
    2.3.3. Phương pháp lập chỉ mục .45





    2.3.4. Lập chỉ mục tự động cho tài liệu tiếng Anh 47
    2.3.5. Lập chỉ mục cho tài liệu tiếng Việt .48
    2.4. THƯỚC ĐO HIỆU NĂNG 51

    CHƯƠNG 3: KỸ THUẬT PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG 53
    3.1. KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU . 53
    3.1.1. Khái niệm: 53
    3.1.2. Mục tiêu của phân cụm dữ liệu trong tìm kiếm thông tin 54
    3.1.3. Các yêu cầu của phân cụm 56
    3.2. CÁC KIỂU DỮ LIỆU TRONG PHÂN CỤM . 58
    3.2.1. Phân loại kiểu dữ liệu dựa trên kích thước miền .59
    3.2.2. Phân loại kiểu dữ liệu dựa trên hệ đo 59
    3.3. CÁC PHÉP ĐO ĐỘ TƯƠNG TỰ VÀ KHOẢNG CÁCH ĐỐI VỚI CÁC
    KIỂU DỮ LIỆU .60
    3.3.1. Khái niệm tương tự và phi tương tự 60
    3.3.2. Thuộc tính khoảng 61
    3.3.3. Thuộc tính nhị phân 65
    3.3.4. Thuộc tính định danh 66
    3.3.5. Thuộc tính có thứ tự .67
    3.3.6. Thuộc tính tỉ lệ .67
    3.4. MỘT VÀI KỸ THUẬT TIẾP CẬN TRONG PHÂN CỤM DỮ LIỆU . 68
    3.4.1. Phương pháp phân cụm phân hoạch 68
    3.4.2. Phương pháp phân cụm phân cấp .74
    3.4.3. Ứng dụng trong tìm kiếm văn bản đa phương tiện 78
    CHƯƠNG 4: CHƯƠNG TRÌNH DEMO 81
    4.1. MỤC TIÊU CỦA HỆ THỐNG TÌM KIẾM VĂN BẢN: . 81

    4.2. CHỨC NĂNG CỦA HỆ THỐNG 81
    4.3. CÀI ĐẶT CHƯƠNG TRÌNH 82
    4.3.1. Lập chỉ mục 82
    4.3.2. Tìm kiếm tài liệu 87
    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN . 88
    TÀI LIỆU THAM KHẢO 90
     

    Các file đính kèm:

Đang tải...