Đồ Án Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC


    DANH MỤC CÁC BẢNG . 1
    DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . 2
    MỞ ĐẦU . 3
    CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ 5
    1.1. Tổng quan về độ tương tự 5
    1.2. Khái niệm độ tương tự . 6
    1.2.1. Định nghĩa độ tương tự (Definition of Similarity) 7
    1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values) 8
    1.2.3. Độ tương tự chuỗi (String Similarity-A case study) 9
    1.3. Độ tương tự ngữ nghĩa . 10
    CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ . 11
    2.1. Khái niệm từ, thuật ngữ . 11
    2.1.1. Từ và cấu trúc từ của tiếng Việt 11 2.1.1.1. Định nghĩa từ . 11 2.1.1.2. Cấu trúc từ của tiếng Việt 11
    2.1.2. Nghĩa của từ . 12
    2.1.3. Thuật ngữ (terms) . 12
    2.2. Từ đồng nghĩa . 12
    2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa 14
    2.3.1. Dựa trên trí tuệ nhân tạo (AI-based) 14
    2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based) 14
    2.3.3. Dựa trên ngữ liệu (Corpus-based) . 14
    2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet) 15
    2.4.1. Khái quát về từ điển WordNet 15
    2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet . 16
    2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu . 17
    2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên điểm) . 18
    2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn) 18
    2.5.3. Phương pháp của Dekang Lin . 18
    CHƯƠNG III. ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN . 21
    3.1. Xử lý văn bản tiếng Việt 21
    3.1.1. Một số kết quả đã đạt được . 21
    3.1.2. Đặc trưng của cấu trúc ngữ pháp tiếng Việt 23
    3.2. Tách từ trong văn bản tiếng Việt 23
    3.3. Các hướng tiếp cận tách từ 24
    3.3.1. Các hướng tiếp cận dựa trên “từ” . 24
    3.3.2. Các hướng tiếp cận dựa trên ký tự 25
    3.4. Một số phương pháp tách từ tiếng Việt hiện nay 26
    3.4.1. Phương pháp Maximum Matching: Forward/Backward . 26
    3.4.2. Phương pháp Transformation-based Learning (TBL) . 27
    3.4.3. Mô hình tách từ bằng WFST và mạng Neural 27 3.4.3.1. Tầng WFST . 27 3.4.3.2. Tầng mạng Neural . 28
    3.4.4. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di
    truyền . 28 3.4.4.1. Online Extractor . 28 3.4.4.2. GA Engine for Text Segmentation . 29
    3.4.5. Nhận xét . 29
    3.5. Độ tương tự văn bản-văn bản . 30

    CHƯƠNG IV. TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG
    TỰ GIỮA TỪ VỚI TỪ 33
    3.1. Phát biểu bài toán 33
    3.2. Giải quyết bài toán 33
    3.2.1. Chuẩn bị dữ liệu . 33
    3.2.2. Tách từ: Tách văn bản thành các từ ghép và danh từ riêng . 36 3.2.2.1. Tách từ ghép trong văn bản 36 3.2.2.2. Tách danh từ riêng trong văn bản . 39
    3.2.3. Tính toán độ tương tự văn bản 41
    3.3. Xây dựng hệ thống 44
    3.3.1. Nhập trực tiếp 2 văn bản 45
    3.3.2. Nhập 2 văn bản từ file 46
    3.3.3. Lấy nội dung 2 văn bản từ URL . 47
    3.4. Kết quả thử nghiệm và đánh giá 48
    3.4.1. Một số ví dụ cụ thể . 48
    3.4.2. Kết quả thử nghiệm 54
    3.4.2.1. Cách tiến hành . 54 3.4.2.2. Kết quả thử nghiệm 54
    3.4.3. Đánh giá . 59
    KẾT LUẬN . 61
    HƯỚNG PHÁT TRIỂN . 62
    TÀI LIỆU THAM KHẢO 63
     

    Các file đính kèm:

Đang tải...