Đồ Án Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC

    PHẦN 0: LỜI NÓI ĐẦU 9
    1. MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI 9
    2. VẤN ĐỀ GIẢI QUYẾT 9
    3. CÁCH GIẢI QUYẾT 10
    3.1 Phân tách tài liệu thành các từ khóa (Filter) 10
    3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA) 11
    3.3 Phân tích lịch sử truy cập của người dùng 11
    4. CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN 11
    5. CÀI ĐẶT 12
    5.1 Tách tài liệu thành các từ khóa. Tìm kiếm dựa trên từ khóa 12
    5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn 13
    6. GIAO DIỆN TRANG CHỦ CHƯƠNG TRÌNH 15

    PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG 16
    1. ĐẶT BÀI TOÁN 16
    2. CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI 19
    2.1 Các hệ thống gợi ý (recommender systems - RS) 19
    2.1.1 Các khái niệm về Recommender System 19
    2.1.2 Các hệ thống recommender tiêu biểu 20
    2.2 Xử lý tài liệu tiếng Việt 24
    2.2.1 Các nghiên cứu về cấu của các nhà nghiên cứu Việt Nam. 24
    2.2.2 Tóm tắt đặc trưng của cấu trúc ngữ pháp tiếng Việt, Anh 27
    2.3 Xử lý tài liệu theo ngữ nghĩa 28
    2.3.1 Đặt vấn đề 28
    2.3.2 Phân tích ngữ nghĩa tiềm ẩn (LSA) 29
    2.3.3 Nhận xét, kết luận 29
    2.4 Thu thập thông tin người dùng 30
    2.4.1 Ưu điểm của các hệ thống tự học 30
    2.4.2 Phân tích logfile 30
    2.4.3 Phân tích dựa thông tin người dùng 30
    2.4.4 Kết luận 31
    2.5 Vấn đề lưu trữ dữ liệu 31

    PHẦN II: CƠ SỞ LÝ THUYẾT 32
    1. CÁC BỘ MÁY TÌM KIẾM <SEARCH ENGINE> 32
    1.1 Một số engine thông dụng 32
    1.2 Chiến lược tìm kiếm 35
    1.2.1 Công nghệ tìm kiếm ngữ nghĩa trên thế giới hiện nay 35
    1.2.2 Chiến lược tìm kiếm 36
    2. XỬ LÝ VĂN BẢN TIẾNG VIỆT 37
    2.1 Từ và cấu trúc từ của tiếng Việt 37
    2.1.1 Định nghĩa từ 37
    2.1.2 Cấu trúc từ tiếng Việt 38
    2.1.3 Các phương pháp tách từ tiếng Việt đã được nghiên cứu 38
    2.2 Thuật toán, otomat tách từ 41

    PHẦN III: GIẢI PHÁP KỸ THUẬT 45
    1. Giải pháp đọc các định dạng tài liệu 45
    1.1 Giao diện Ifilter 45
    1.2 Chương trình EPocalipse.IFilter 45
    2. Giải pháp tách từ 46
    2.1 Giải pháp tách từ Tiếng Anh 46
    2.2 Giải pháp cho Tiếng Việt 47
    3. Giải pháp LSA 48
    4. Giải pháp phân tích lịch sử làm việc của người dùng 49
    5. Giải pháp công nghệ 49

    PHẦN IV: XÂY DỰNG CHƯƠNG TRÌNH, CÀI ĐẶT CHẠY DEMO 50
    1. Phân tích hệ thống 50
    1.1 Mô hình use-case và đặc tả use-case 50
    1.2 Về cơ sở dữ liệu 63
    2. Các modul 74
    2.1 Modul đọc các định dạng tài liệu 74
    2.2 Modul tách từ 74
    2.2 Modul LSA 76

    PHẦN V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76
    1. Kết luận 76
    2. Hướng phát triển 77
     

    Các file đính kèm:

Đang tải...