Đồ Án Xây dựng ứng dụng phân tích ngữ nghĩa trong tìm kiếm tài liệu trực tuyến

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC

    PHẦN 0: LỜI NÓI ĐẦU 9

    1. MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI 9

    2. VẤN ĐỀ GIẢI QUYẾT 9

    3. CÁCH GIẢI QUYẾT 10

    3.1 Phân tách tài liệu thành các từ khóa (Filter) 10

    3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA) 11

    3.3 Phân tích lịch sử truy cập của người dùng 11

    4. CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN 11

    5. CÀI ĐẶT 12

    5.1 Tách tài liệu thành các từ khóa. Tìm kiếm dựa trên từ khóa 12

    5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn 13

    6. GIAO DIỆN TRANG CHỦ CHƯƠNG TRÌNH 15

    PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG 16

    1. ĐẶT BÀI TOÁN 16

    2. CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI 19

    2.1 Các hệ thống gợi ý (recommender systems - RS) 19

    2.1.1 Các khái niệm về Recommender System 19

    2.1.2 Các hệ thống recommender tiêu biểu 20

    2.2 Xử lý tài liệu tiếng Việt 24

    2.2.1 Các nghiên cứu về cấu của các nhà nghiên cứu Việt Nam. 24

    2.2.2 Tóm tắt đặc trưng của cấu trúc ngữ pháp tiếng Việt, Anh 27

    2.3 Xử lý tài liệu theo ngữ nghĩa 28

    2.3.1 Đặt vấn đề 28

    2.3.2 Phân tích ngữ nghĩa tiềm ẩn (LSA) 29

    2.3.3 Nhận xét, kết luận 29

    2.4 Thu thập thông tin người dùng 30

    2.4.1 Ưu điểm của các hệ thống tự học 30

    2.4.2 Phân tích logfile 30

    2.4.3 Phân tích dựa thông tin người dùng 30

    2.4.4 Kết luận 31

    2.5 Vấn đề lưu trữ dữ liệu 31

    PHẦN II: CƠ SỞ LÝ THUYẾT 32

    1. CÁC BỘ MÁY TÌM KIẾM <SEARCH ENGINE> 32

    1.1 Một số engine thông dụng 32

    1.2 Chiến lược tìm kiếm 35

    1.2.1 Công nghệ tìm kiếm ngữ nghĩa trên thế giới hiện nay 35

    1.2.2 Chiến lược tìm kiếm 36

    2. XỬ LÝ VĂN BẢN TIẾNG VIỆT 37

    2.1 Từ và cấu trúc từ của tiếng Việt 37

    2.1.1 Định nghĩa từ 37

    2.1.2 Cấu trúc từ tiếng Việt 38

    2.1.3 Các phương pháp tách từ tiếng Việt đã được nghiên cứu 38

    2.2 Thuật toán, otomat tách từ 41

    PHẦN III: GIẢI PHÁP KỸ THUẬT 45

    1. Giải pháp đọc các định dạng tài liệu 45

    1.1 Giao diện Ifilter 45

    1.2 Chương trình EPocalipse.IFilter 45

    2. Giải pháp tách từ 46

    2.1 Giải pháp tách từ Tiếng Anh 46

    2.2 Giải pháp cho Tiếng Việt 47

    3. Giải pháp LSA 48

    4. Giải pháp phân tích lịch sử làm việc của người dùng 49

    5. Giải pháp công nghệ 49

    PHẦN IV: XÂY DỰNG CHƯƠNG TRÌNH, CÀI ĐẶT CHẠY DEMO 50

    1. Phân tích hệ thống 50

    1.1 Mô hình use-case và đặc tả use-case 50

    1.2 Về cơ sở dữ liệu 63

    2. Các modul 74

    2.1 Modul đọc các định dạng tài liệu 74

    2.2 Modul tách từ 74

    2.2 Modul LSA 76

    PHẦN V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76

    1. Kết luận 76

    2. Hướng phát triển 77




    TÀI LIỆU THAM KHẢO

    [1] Cải tiến giải thuật CYK cho bài toán phân tích cú pháp tiếng Việt -Đinh ThịPhương Thu, Huỳnh Quyết Thắng, Hoàng Vĩnh Sơn

    [2] Gán nhãn từ loại cho tiếng Việt dựa trên văn phong - Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ

    [3] Kết hợp xử lý ngôn ngữ tự nhiên và mạng Kohonen để nâng cao khả năng gom cụm văn bản tiếng Việt -Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng

    [4] A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts Nguyen Thi Minh Huyen,Vu Xuan Luong, Le Hong Phuong

    [5] Dinh Dien, Từ tiếng Việt, Vietnam National University, HCMC, Vietnam, 2000.

    [6] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation, The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan 2001, pp749-756.

    [7] Automata and Formal Language. An Introduction – Dean Kelley – Prentice Hall, Englewood Cliffs, New Jersey 07632.

    [8] Compilers : Principles, Technique and Tools - Alfred V.Aho, Jeffrey D.Ullman - Addison - Wesley Publishing Company, 1986.

    [9] Compiler Design – Reinhard Wilhelm, Dieter Maurer - Addison - Wesley Publishing Company, 1996.

    [10] Design of Compilers : Techniques of Programming Language Translation - Karen A. Lemone - CRC Press, Inc, 1992.

    [11] Modern Compiler Implementation in C - Andrew W. Appel - Cambridge University Press, 1997.

    [12] Hoàng Văn Hành.1997. Ngữ nghĩa học – Các khuynh hướng và phương pháp phân tích ngữ nghĩa. Hà nội.

    [13] PTS. Vương Tất Đạt . Logich hình thức. Trường Đại học Sư Phạm Hà Nội 1

    [14] Đặng Thị Hưởng. Semantics, TP.Hồ Chí Minh 1997 (Tài liệu lưu hành nội bộ)

    [15]. Trương Gia Vinh. Những bài giảng Cơ sở Ngôn ngữ học. BXB Đại Học mở Bán công TP.HCM.(Tài liệu lưu hành nội bộ)

    [16]. Nguyễn Thiện Giáp (chủ biên) Dẫn luận Ngôn ngữ học. NXB Giáo dục. 2000

    [17]. Trần Văn Cơ . Ngôn ngữ. Đại học sư phạm TP.Hồ Chí Minh.1986.

    [18]. Roderick A. Jacobs. English syntax. A Grammar for English language professionals. Oxford American English.

    [19]. A.S. Hornby. Guide to patterns and usage in English. Second edition.
     

    Các file đính kèm:

Đang tải...