Đồ Án Phân Loại Văn Bản

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    (Đồ án này có thể copy được từng câu, từng đoạn và chỉnh sửa dễ dàng)

    MỤC LỤC

    1. Tóm tắt đồ án . 1

    2. Bài toán phân loại văn bản . 2

    2.1 Giới thiệu . 2

    2.2 Phát biểu bài toán 2

    2.3 Mô hình tổng quát 3

    2.3.1 Giai đoạn huấn luyện . 4

    2.3.2 Giai đoạn phân lớp 5

    2.4 Tiền xử lý văn bản . 6

    2.5 Phương pháp biểu diễn văn bản 7

    2.5.1 Mô hình không gian vector 7

    2.5.2 Khái niệm trọng số . 7

    2.6 Đánh giá bộ phân lớp . 9

    2.6.1 Macro-Averaging . 11

    2.6.2 Micro-Averaging 11

    3. Các phương pháp phân loại văn bản . 12

    3.1 Thuật toán Naïve Bayes . 12

    3.1.1 Định lý . 12

    3.1.2 Thuật toán . 13

    3.1.3 Áp dụng trong phân loại văn bản . 15

    3.2 Cây quyết định (Decision Tree) 18

    3.2.1 Khái niệm 18

    3.2.2 Thuật toán xây dựng cây . 19

    3.2.2.1 Thuật toán ID3 19

    3.2.2.2 Các độ đo trong thuật toán : 20

    3.2.3 Áp dụng vào phân loại văn bản . 23

    3.2.3.1 Biểu diễn văn bản . 23

    3.2.3.2 Giai đoạn huấn luyện 24

    3.2.3.3 Cross-validation 28

    3.2.3.4 Giai đoạn phân lớp . 29

    3.3 Mô hình xác xuất Entropy tối đại (Maximum Entropy Modeling) 29

    3.3.1 Entropy 29

    3.3.1.1 Khái niệm 29

    3.3.1.2 Entropy của biến ngẫu nhiên 30

    3.3.2 Áp dụng vào phân loại văn bản . 30

    3.3.2.1 Biểu diễn văn bản . 30

    3.3.2.2 Hàm đặc trưng và ràng buộc 31

    3.3.2.3 Một số kí hiệu : 31

    3.3.2.4 Mô hình . 31

    3.3.2.5 Thủ tục huấn luyện Generalized iterative scaling 32

    3.3.2.6 Giai đoạn phân lớp . 34

    5. Tài liệu tham khảo 35
     

    Các file đính kèm:

Đang tải...