Luận Văn Tìm hiểu về phân loại văn bản và xây dựng chương trình ứng dụng

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 14/12/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    LỜI NÓI ĐẦU . 1
    TÓM TẮT NỘI DUNG . 2
    LỜI CẢM ƠN 3
    MỤC LỤC . 4
    DANH MỤC HÌNH . 9
    DANH MỤC BẢNG 11
    Chương 1 12
    PHÁT BIỂU VẤN ĐỀ . 12
    1.1. Giới thiệu 12
    1.1.1. Động cơ thúc đẩy việc phân loại văn bản tự động 13
    1.1.2. Một số ứng dụng của việc phân loại vănbản theo chủ đề 14
    1.2. Nội dung đề tài . 15
    1.3. Ứng dụng mở rộng - Lập chỉ mục và tìm kiếm của Lucene 16
    1.3.1. Giới thiệu Lucene 16
    1.3.2. Cơ sở nền tảng của Lucene 18
    1.3.3. Mục đích, chức năng, công dụng 18
    1.3.4. Tạo chỉ mục và tìm kiếm . 19
    Chương 2 20
    CƠ SỞ LÝ THUYẾT PHẦN LOẠI VĂN BẢN . 20
    2.1. Biểu diễn văn bản . 20
    2.1.1. Phương pháp Boolean . 23
    2.1.2. Phương pháp tần suất từ (work frequency) . 24
    2.1.3. Phương pháp tf-idf (frequency x inverse document frequency) . 24
    2.1.4. Phương pháp tfc (Term Frequency Component) 25
    2.1.5. Phương pháp ltc (Log Term Component) . 25
    2.1.6. Phương pháp Entropy 26


    2.2. Rút gọn danh sách từ 26
    2.2.1. Phương pháp ngưỡng tần xuất của văn bản 27
    2.2.2. Phương pháp độ lợi thông tin 27
    2.2.3. Phương pháp thông tin tương hỗ . 28
    2.2.4. Phương pháp độ mạnh của từ 28
    2.2.5. Phương pháp thống kê
    2
    χ
    . 29
    2.3. Tập văn bản dùng để phân loại . 30
    2.3.1. Giới thiệu . 30
    2.3.2. Tập Reuters 30
    2.3.3. Tập 20-newsgroup . 33
    2.4. Đánh giá độ chính của việc phân loại văn bản . 34
    2.4.1. Thông số precision 35
    2.4.2. Thông số recall 35
    2.4.3. Thông số f (f-score) . 35
    2.4.4. Thông số accuracy . 36
    2.4.5. Thông số error . 36
    Chương 3 37
    CÁC GIẢI THUẬT PHÂN LOẠI VĂN BẢN 37
    3.1. Giải thuật Rocchio 37
    3.1.1. Giới thiệu . 37
    3.1.2. Giai đoạn huấn luyện . 38
    3.1.3. Giai đoạn phân loại 39
    3.1.4. Đánh giá giải thuật 40
    3.2. Giải thuật K-Nearest Neighbour 41
    3.2.1. Giới thiệu . 41
    3.2.2. Giai đoạn huấn luyện . 42
    3.2.3. Giai đoạn phân loại 43




    3.2.4. Đánh giá giải thuật 44
    3.3. Giải thuật Naïve Bayes . 45
    3.3.1. Giới thiệu . 45
    3.3.2. Giai đoạn huấn luyện . 46
    3.3.3 Giai đoạn phân loại . 46
    3.3.4. Đánh giá giải thuật 47
    3.4. Giải thuật cây quyết định . 47
    3.4.1. Cây quyết định . 47
    3.4.2. Entropy và độ lợi thông tin. 49
    3.4.3. Cắt nhánh cây quyết định 49
    3.4.4. Nhận xét 50
    3.5. Giải thuật mạng Neuron (Neural Network) 50
    3.5.1. Giải thuật . 50
    3.5.2. Đánh giá giải thuật 53
    3.6. Giải thuật Support Vector Machine 54
    3.6.1. Các mặt phân cách (Hyperplanes) . 54
    3.6.2. Giải thuật Support Vector Machine. 55
    3.6.3. Nhân xét. 56
    3.7. Chọn giải thuật . 57
    Chương 4 58
    THIẾT KẾ VÀ HIỆN THỰC CHƯƠNG TRÌNH PHÂN LOẠI VĂN BẢN 58
    4.1. Quá trình xây dựng giải thuật K-Nearest Neighbour . 58
    4.1.1. Xây dựng từ điển (danh sách từ khóa) 58
    4.1.2. Giai đoạn huấn luyện . 58
    4.1.3. Giai đoạn phân loại 59
    4.2. Sơ đồ usecase 60
    4.3. Sơ đồ tuần tự của vài nghiệp vụ chính . 61


    4.3.1. Huấn luyện văn bản . 61
    4.3.2. Phân loại văn bản 62
    4.3.3. Đánh giá kết quả phân loại 63
    4.3.4. Trích rút dữ liệu trên mạng 65
    4.3.5. Lập chỉ mục . 66
    4.3.6. Tìm kiếm . 67
    4.4. Sơ đồ lớp . 68
    4.4.1. Pakage textcategory.reader 68
    4.4.2. Package textcategory.analysis . 69
    4.4.3. Package textcategory.training . 70
    4.4.4. Package textcategory.category 72
    4.4.5. Package store. 72
    4.4.6. Package crawler . 73
    4.4.7. Package index 74
    4.4.8. Package util . 74
    4.5. Thiết kế cơ sở dữ liệu . 75
    4.6. Thiết kế giao diện . 76
    4.6.1. Màn hình chính của chương trình . 76
    4.6.2. Màn hình tạo loại văn bản . 76
    4.6.3. Màn hình huấn luyện chương trình . 77
    4.6.4. Màn hình phân loại dữ liệu 77
    4.6.5. Màn hình kết quả phân loại . 78
    4.6.6. Màn hình tạo chỉ mục (reverted index) . 78
    4.6.7. Màn hình trích rút dữ liệu trên mạng 79
    4.6.8. Trang chủ tìm kiếm theo chủ đề . 79
    4.6.9. Trang tìm kiếm theo chủ đề . 80
    4.7. Kết quả đạt được . 80


    Chương 5 83
    ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN . 83
    5.1. Đánh giá 83
    5.1.1. Kết quả đạt được 83
    5.1.2. Các hạn chế của đề tài . 84
    5.2. Hướng phát triển của đềtài 84
    PHỤ LỤC . 86
    1. Từ điển giải thích các thuật ngữ 86
    2. Các mã nguồn mở được sử dụng trong luận văn . 87
    3. Tài liệu tham khảo
     

    Các file đính kèm:

Đang tải...