Tiểu Luận Xây dựng ứng dụng tóm lược tự động văn bản tiếng việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 3/12/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tên đề tài
    Xây dựng ứng dụng tóm lược tự động văn bản tiếng việt​

    MỤC LỤC


    DANH MỤC TỪ VIẾT TẮT 1
    DANH MỤC HÌNH VẼ 2
    MỤC LỤC 3
    LỜI NÓI ĐẦU 7


    Chương 1. KHAI PHÁ VĂN BẢN 10
    1.1. Khai phá dữ liệu 10
    1.2. Khai phá văn bản 11
    1.3. Biểu diễn văn bản 12
    1.3.1. Mô hình boolean 13
    1.3.2. Mô hình không gian vector 13
    a. Mô hình không gian vector chuẩn 13
    b. Kỹ thuật TFxIDF 14
    c. Mô hình vector thưa và các mô hình không gian vector khác 15
    1.3.3. Các mô hình biểu diễn văn bản khác 16
    a. Mô hình Xác suất 16
    b. Mô hình Mạng Bayes 16
    c. Mô hình tập thô dung sai 17
    1.4. Các bài toán Khai phá văn bản điển hình 17
    1.4.1. Bài toán Phân lớp văn bản 17
    1.4.2. Bài toán Phân nhóm văn bản 18
    1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm 19
    1.4.4. Bài toán Tóm tắt văn bản 19
    1.5. Kết chương 20


    Chương 2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN 21
    2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên. 21
    2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên 23
    2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu 23
    2.2.2. Gán nhãn từ loại 24
    2.2.3. Phân tích cú pháp 25
    2.2.4. Phân tích ngữ nghĩa 26
    2.3. Các đặc trưng ngôn ngữ của tiếng Việt 26
    2.3.1 Đặc trưng về ngữ âm và âm vị 26
    2.3.2 Đặc trưng về từ pháp và hình thái 27
    2.3.3. Đặc trưng về ngữ pháp 28
    2.4. Kết chương 30


    Chương 3. BÀI TOÁN TÓM TẮT VĂN BẢN 31
    3.1. Giới thiệu chung 31
    3.1.1. Tóm tắt văn bản là gì ? 32
    3.1.2. Các tiêu chí đánh giá 34
    3.1.3. Phân loại bài toán Tóm tắt văn bản 35
    3.2. Mô hình Tóm tắt văn bản 38
    3.2.1. Mô hình chung 38
    3.2.2. Các phương pháp áp dụng trong pha Phân tích 40
    3.2.2.1. Phương pháp thống kê (Statistical Methods) 41
    3.2.2.2 . Phương pháp cấu trúc 42
    3.2.2.3. Kết luận về các phương pháp trong pha Phân tích 44
    3.2.3. Các phương pháp áp dụng trong pha Biến đổi 45
    3.2.3.1. Giản lược về cấu trúc câu ( Syntactic Condensation ) 45
    3.2.3.2. Giản lược về mặt ngữ nghĩa ( Semantic Condensation) 46
    3.2.3.3. Kết luận về các phương pháp trong pha Biến đổi 48
    3.2.4. Các phương pháp áp dụng trong pha Generation 48
    3.2.4.1. Phương pháp hiển thị phân đoạn ( Segmental Display ) 48
    3.2.4.2. Phương pháp Hiển thị 50
    3.2.4.3. Kết luận về các phương pháp trong pha Hiển thị 50
    3.3. Đánh giá kết quả tóm tắt 51
    3.3.1. Đánh giá bên trong (Intrinsic Evaluation) 52
    3.3.1.1. Độ chặt chẽ mạch lạc ( Coherence ) 52
    3.3.1.2. Độ hàm chứa thông tin ( Informationess ) 52
    3.3.2. Đánh giá bên ngoài ( Extrinsic Evaluation ) 52
    3.3.2.1. Độ phù hợp ( Relevance ) 52
    3.3.2.2. Độ dễ đọc dễ hiểu ( Reading Comprehence ) 52
    3.3.3. So sánh đánh giá bên trong - bên ngoài 52
    3.3.4. Các phương pháp đánh giá 53
    3.3.4.1. Độ chính xác (Precision ) và độ hồi tưởng (Recall) 53
    3.3.4.2. Đánh giá độ tương tự về nội dung (Content-based Similarity) 54
    3.3.4.2. Độ tương quan phù hợp (Relevance Correlation) 54
    3.3.6. Các hệ đánh giá ứng dụng tóm tắt văn bản 55
    3.4. Một số hệ thống tóm tắt văn bản trên thế giới 55
    3.5. Kết chương 58


    Chương 4. XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT 59
    4.1. Mô hình xây dựng ứng dụng 59
    4.2. Cài đặt tiền xử lý văn bản tiếng Việt 61
    4.2.1. Chuẩn hóa văn bản 61
    4.2.2. Mô hình hóa văn bản. 61
    4.2.3. Tách thuật ngữ. 62
    4.3. Lựa chọn, cài đặt các kĩ thuật sử dụng trong bài toán Tóm tắt 65
    4.3.1. Các phương pháp trong pha Phân tích 65
    a. Phương pháp Title 66
    b. Phương pháp Heading 67
    c. Phương pháp NamedEntity - NE 68
    d. Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) 69
    e. Phương pháp Tần suất xuất hiện của thuật ngữ 69
    f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency) 70
    4.3.2. Các phương pháp trong pha Biến đổi 71
    4.3.2.1. Biến đổi nhờ vào rút gọn câu 71
    4.3.2.2. Giản lược câu về mặt ngữ nghĩa 74
    4.3.3. Các phương pháp trong pha Hiển thị 74
    4.4. Kết chương 75


    Chương 5. KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG 76
    5.1. Giao diện kết quả thực nghiệm 76
    5.2. Tập kiểm thử 81
    5.3. Kết quả kiểm thử và đánh giá 82
    5.3.1. Kiểm thử thuật toán tách term tiếng Việt 82
    5.3.2. Kiểm thử thuật toán tách named Entity 83
    5.3.3. Kiểm thử, đánh giá module chọn câu quan trọng 83
    5.3.3.1. Phương pháp truyền thống 84
    5.3.3.2. Phương pháp đánh giá theo độ tương tự nội dung 85
    5.3.4. Kiểm thử đánh giá rút gọn câu 86


    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 89
    TÀI LIỆU THAM KHẢO 90
     

    Các file đính kèm:

Đang tải...