Luận Văn Thuật toán self-training và co-training ứng dụng trong phân lớp văn bản

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Bích Tuyền Dương, 25/1/13.

  1. Bích Tuyền Dương

    Bài viết:
    2,590
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT NỘI DUNG
    Hiện nay, tồn tại một số thuật toán học phân lớp văn bản thực hiện có kết quả rất tốt khi được xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tế thì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người nên đòi hỏi rất nhiều thời gian và công sức. Trong khi đó, các dữ liệu chưa gán nhãn (unlabeled data) thì lại rất phong phú. Do vậy, việc xem xét các thuật toán học không cần nhiều dữ liệu gán nhãn, có khả năng tận dụng được nguồn rất phong phú các dữ liệu chưa gán nhãn nhận được sự quan tâm của nhiều nhà khoa học trên thế giới. Việc học này được đề cập đến với tên gọi là học bán giám sát.
    Trong khóa luận này, chúng tôi khảo sát hai thuật toán học bán giám sát điển hình nhất, đó là self-training và co-training và đề xuất một số kỹ thuật làm trơn. Khóa luận cũng tiến hành ứng dụng các nghiên cứu nói trên vào bài toán phân lớp văn bản và cho kết quả rất khả quan .

    MỤC LỤC
    MỞ ĐẦU .1
    Chương 1 TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN VÀ HỌC BÁN
    GIÁM SÁT .3
    1.1. Phân lớp văn bản 3
    1.2. Thuật toán phân lớp văn bản điển hình 5
    1.2.1. Thuật toán Naive Bayes .5
    1.3. Tổng quan về học bán giám sát .7
    1.3.1. Học giám sát và học không giám sát 9
    1.3.2. Phạm vi sử dụng học bán giám sát .11
    1.4. Một số phương pháp học bán giám sát 12
    1.4.1. Thuật toán cực đại kỳ vọng toán 12
    1.4.2. Học SVM truyền dẫn .13
    1.4.3. Phân hoạch đồ thị quang phổ .15
    CHƯƠNG 2 THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING.16
    2.1. Thuật toán self-training 16
    2.2. Thuật toán co-training 17
    2.3. So sánh hai thuật toán 21
    2.4. Các kỹ thuật làm trơn 23
    2.4.1. Đảm bảo phân phối lớp .24
    2.4.2. Kết hợp bộ phân lớp .26
    2.4.3. Thuật toán self-training và co-training với các kỹ thuật làm trơn .27
    Chương 3 THỰC NGHIỆM TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN .29
    3.1. Giới thiệu bài toán thực nghiệm 29
    3.2. Các lớp văn bản .31
    3.3. Môi trường thực nghiệm 31
    3.4. Bộ dữ liệu thực nghiệm .35
    3.5. Quá trình tiến hành thực nghiệm .35
    3.5.1. Xây dựng các đặc trưng .35
    3.5.2. Thiết lập tham số cho mô hình .36
    3.6. Kết quả của các bộ phân lớp 37
    3.7. Một số nhận xét kết quả đạt được 40
    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 41
    Tài liệu tham khảo .42
     
Đang tải...