Đồ Án Nghiên cứu máy tìm kiếm qua hệ thống Greenstone

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mở Đầu . . . . .1


    Chương 1. Giới thiệu . . . 3


    1.1. Bài toán tìm kiếm . . . . .3


    1.2. Sơ lược sự phát triển của các hệ thống tìm kiếm . .4


    1.3. Tình hình nghiên cứu, ứng dụng máy tìm kiếm tại Việt Nam .5


    1.3.1 Tình hình nghiên cứu . . . . 5


    1.3.2 Tình hình ứng dụng . . . .8


    1.4. Động cơ và mục tiêu của luận văn . . .8


    Chương 2. Các vấn đề cơ bản trong một hệ thống máy tìm kiếm . . . . . 10


    2.1. Tiến trình lập chỉ mục (Indexing) . . .10


    2.1.1 Lập chỉ mục . . . . .10


    2.1.2 Các loại chỉ mục . . . . 10 2.1.2.1 Chỉ mục tệp đảo . . . . 11 2.1.2.2 Chỉ mục tệp ký số . . . 12 2.1.2.3 Đánh giá và kết luận . . . 15
    2.2. Tiến trình tìm kiếm thông tin (Searching) . 16


    2.3. Xếp hạng tài liệu liên quan (Ranking) . . .17


    2.3.1 Các khái niệm cơ bản . . . . 17


    2.3.2 Xếp hạng tài liệu . . . . .18


    Chương 3: Hệ thống Greenstone . . 21


    3.1. Giới thiệu chung về Greenstone . . 21


    3.1.1 Các bộ tài liệu . . . . 21


    3.1.2 Tìm kiếm thông tin . . . . 22


    3.1.3 Định dạng dữ liệu . . . . 23


    3.1.4 Các tài liệu đa phương tiện và đa ngôn ngữ . . 23


    3.1.5 Chức năng phân phối của phầm mềm . . .23

    3.2. Kiến trúc của hệ thống Greenstone . . .24


    3.3. Xây dựng bộ sưu tập . . . .26


    3.3.1 Khái niệm . . . . .26


    3.3.2 Thực nghiệm xây dựng bộ sưu tập . . 29 3.3.2.1 Chương trình mkcol.pl . . 30 3.3.2.2 Chương trình import.pl . . . 31 3.3.2.3 Chương trình buildcol.pl . . . 32 3.3.2.4 - Cấu trúc của một bộ sưu tập . . .33
    3.3.3 Hiển thị collection lên website .35 3.3.3.1 Thư mục etc . . . .35 3.3.3.2 Thư mục index . . . .38
    Chương 4: Thực nghiệm xây dựng máy tìm kiếm tiếng Việt 41


    4.1. Vấn đề tìm kiếm tiếng Việt và tiếp cận . . .41


    4.2. Hệ thống Lucene . . . .42


    4.3. Phần mềm VietSearch . . . 44


    4.3.1 Hệ thống lập chỉ mục . . . 44


    4.3.2 Hệ thống tìm kiếm . . . 46


    4.3.3 Mô hình tương tự . . . 46
    4.3.3.1 Hệ số Cosine . . . 47
    4.3.3.2 Khoảng cách Euclidean . . . .47
    4.3.3.3 Khoảng cách Manhattan . . . 47
    4.3.4 Bộ phân loại tự động . . . 48


    4.3.5 Tìm kiếm các tài liệu liên quan . . . 49


    4.4. Kết quả và đánh giá . . . 49


    KẾT LUẬN . . . . 52
     

    Các file đính kèm:

Đang tải...