Tài liệu Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến

Thảo luận trong 'Lập Trình' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    PHẦN 0: LỜI NÓI ĐẦU 9
    1. MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI. 9
    2. VẤN ĐỀ GIẢI QUYẾT 9
    3. CÁCH GIẢI QUYẾT 10
    3.1 Phân tách tài liệu thành các từ khóa (Filter) 10
    3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA) 11
    3.3 Phân tích lịch sử truy cập của người dùng. 11
    4. CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN 11
    5. CÀI ĐẶT 12
    5.1 Tách tài liệu thành các từ khóa. Tìm kiếm dựa trên từ khóa. 12
    5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn. 13
    6. GIAO DIỆN TRANG CHỦ CHƯƠNG TRÌNH 15
    PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG 16
    1. ĐẶT BÀI TOÁN 16
    2. CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI. 19
    2.1 Các hệ thống gợi ý (recommender systems - RS) 19
    2.1.1 Các khái niệm về Recommender System 19
    2.1.2 Các hệ thống recommender tiêu biểu. 20
    2.2 Xử lý tài liệu tiếng Việt 24
    2.2.1 Các nghiên cứu về cấu của các nhà nghiên cứu Việt Nam. 24
    2.2.2 Tóm tắt đặc trưng của cấu trúc ngữ pháp tiếng Việt, Anh. 27
    2.3 Xử lý tài liệu theo ngữ nghĩa. 28
    2.3.1 Đặt vấn đề. 28
    2.3.2 Phân tích ngữ nghĩa tiềm ẩn (LSA) 29
    2.3.3 Nhận xét, kết luận. 29
    2.4 Thu thập thông tin người dùng. 30
    2.4.1 Ưu điểm của các hệ thống tự học. 30
    2.4.2 Phân tích logfile. 30
    2.4.3 Phân tích dựa thông tin người dùng. 30
    2.4.4 Kết luận. 31
    2.5 Vấn đề lưu trữ dữ liệu. 31
    PHẦN II: CƠ SỞ LÝ THUYẾT 32
    1. CÁC BỘ MÁY TÌM KIẾM <SEARCH ENGINE>. 32
    1.1 Một số engine thông dụng. 32
    1.2 Chiến lược tìm kiếm 35
    1.2.1 Công nghệ tìm kiếm ngữ nghĩa trên thế giới hiện nay. 35
    1.2.2 Chiến lược tìm kiếm 36
    2. XỬ LÝ VĂN BẢN TIẾNG VIỆT 37
    2.1 Từ và cấu trúc từ của tiếng Việt 37
    2.1.1 Định nghĩa từ. 37
    2.1.2 Cấu trúc từ tiếng Việt 38
    2.1.3 Các phương pháp tách từ tiếng Việt đã được nghiên cứu. 38
    2.2 Thuật toán, otomat tách từ. 41
    PHẦN III: GIẢI PHÁP KỸ THUẬT 45
    1. Giải pháp đọc các định dạng tài liệu. 45
    1.1 Giao diện Ifilter. 45
    1.2 Chương trình EPocalipse.IFilter. 45
    2. Giải pháp tách từ. 46
    2.1 Giải pháp tách từ Tiếng Anh. 46
    2.2 Giải pháp cho Tiếng Việt 47
    3. Giải pháp LSA 48
    4. Giải pháp phân tích lịch sử làm việc của người dùng. 49
    5. Giải pháp công nghệ. 49
    PHẦN IV: XÂY DỰNG CHƯƠNG TRÌNH, CÀI ĐẶT CHẠY DEMO 50
    1. Phân tích hệ thống. 50
    1.1 Mô hình use-case và đặc tả use-case. 50
    1.2 Về cơ sở dữ liệu. 63
    2. Các modul 74
    2.1 Modul đọc các định dạng tài liệu. 74
    2.2 Modul tách từ. 74
    2.2 Modul LSA 76
    PHẦN V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76
    1. Kết luận. 76
    2. Hướng phát triển. 77
     

    Các file đính kèm:

Đang tải...