Thạc Sĩ Thuật toán self-training và co-training ứng dụng trong phân lớp văn bản

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT NỘI DUNG

    Hiện nay, tồn tại một số thuật Toán học phân lớp Văn bản thực hiện có kết quả rất
    tốt khi được Xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tế
    thì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người
    nên đòi hỏi rất nhiều thời gian và công sức. Trong khi đó, các dữ liệu chưa gán nhãn
    (unlabeled data) thì lại rất phong phú. Do vậy, việc xem xét các thuật Toán học không
    cần nhiều dữ liệu gán nhãn, có khả năng tận dụng được nguồn rất phong phú các dữ
    liệu chưa gán nhãn nhận được sự quan tâm của nhiều nhà khoa học trên thế giới. Việc
    học này được đề cập đến với tên gọi là học bán giám sát.
    Trong khóa luận này, chúng tôi khảo sát hai thuật Toán học bán giám sát điển hình
    nhất, đó là self-training và co-training và đề xuất một số kỹ thuật làm trơn. Khóa luận
    cũng tiến hành ứng dụng các nghiên cứu nói trên vào bài toán phân lớp Văn bản và cho
    kết quả rất khả quan .

    MỤC LỤC
    MỞ ĐẦU .1
    Chương 1 TỔNG QUAN VỀ PHÂN LỚP
    Văn bản VÀ HỌC BÁN
    GIÁM SÁT.
    . .3
    1.1. Phân lớp văn bản . .3
    1.2. Thuật toán phân lớp Văn bản điển hình . .5
    1.2.1. Thuật toán Naive Bayes .5
    1.3. Tổng quan về học bán giám sát .7
    1.3.1. Học giám sát và học không giám sát 9
    1.3.2. Phạm vi sử dụng học bán giám sát .11
    1.4. Một số phương pháp học bán giám sát 12
    1.4.1. Thuật toán cực đại kỳ vọng toán . .12
    1.4.2. Học SVM truyền dẫn .13
    1.4.3. Phân hoạch đồ thị quang phổ .15
    CHƯƠNG 2 THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING.16
    2.1. Thuật toán self-training 16
    2.2. Thuật toán co-training 17
    2.3. So sánh hai thuật toán 21
    2.4. Các kỹ thuật làm trơn . .2 3
    2.4.1. Đảm bảo phân phối lớp .24
    2.4.2. Kết hợp bộ phân lớp . 26
    2.4.3. Thuật toán self-training và co-training với các kỹ thuật làm trơn .27
    Chương 3 THỰC NGHIỆM TRONG BÀI TOÁN PHÂN LỚP VĂN
    BẢN
    . 29
    3.1. Giới thiệu bài toán thực nghiệm 29
    3.2. Các lớp Văn bản .3 1
    3.3. Môi trường thực nghiệm 31
    v
    3.4. Bộ dữ liệu thực nghiệm .35
    3.5. Quá trình tiến hành thực nghiệm .35
    3.5.1. Xây dựng các đặc trưng .35
    3.5.2. Thiết lập tham số cho mô hình . 36
    3.6. Kết quả của các bộ phân lớp . .37
    3.7. Một số nhận xét kết quả đạt được 40
    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN . .41
    Tài liệu tham khảo
    .42
     
Đang tải...