Luận Văn Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Củ Đậu Đậu, 1/4/14.

  1. Củ Đậu Đậu

    Bài viết:
    991
    Được thích:
    1
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    Trang
    MỤC LỤC . i
    DANH MỤC CÁC BẢNG .iii
    DANH MỤC CÁC HÌNH VẼ iv
    MỞ ĐẦU 1
    CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN 4
    1.1 Giới thiệu bài toán phân lớp văn bản 4
    1.1.1 Phân lớp văn bản dựa trên cách tiếp cận hệ chuy ên gia 4
    1.1.2 Phân lớp văn bản dựa trên cách tiếp cận máy học . 5
    1.2 Phương pháp tách từ 8
    1.2.1 Các đặc điểm của văn bản tiếng Việt . 9
    1.2.2 Phương pháp tách từ bằng cách xây dựng các ôtômát 10
    1.3 Phương pháp biểu diễn văn bản 15
    1.3.1 Các kỹ thuật trích chọn đặc trưng của văn bản . 15
    1.3.2 Phương pháp biểu diễn văn bản bằng mô hình không gian vector 18
    1.4 Phương pháp đánh giá hiệu quả phân lớp . 20
    CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN PHỔ BIẾN . 22
    2.1 Thuật toán K-trung bình (K-means) . 22
    2.2 Thuật toán cây quyết định (Decision tree) 24
    2.3 K-láng giềng gần nhất (K-Nearest Neighbor) . 27
    2.4 Support Vector Machines (SVM) 31
    2.4.1 Giới thiệu 31
    2.4.2 Bài toán và cách giải quyết 32
    2.4.3 Hàm nhân Kernel . 38
    2.4.4 Thuật toán huấn luyện Sequential Minimal Optimization (SMO) . 38
    2.5 Đánh giá các thuật toán phân lớp văn bản phổ biến 39
    CHƯƠNG 3: CÁC THUẬT TOÁN CẢI TIẾN DỰA TRÊN PHƯƠNG PHÁP
    PHÂN LỚP VĂN BẢN SUPPORT VECTOR MACHINES . 42
    3.1.1 Bài toán và cách giải quyết 42
    3.1.2 Hàm thành viên . 44
    3.1.3 Thuật toán huấn luy ện Kernel-Adatron 47
    3.2 Support Vector Machines Nearest Neighbor (SVM-NN) . 47
    3.2.1 Ý tưởng của thuật toán SVM-NN 48
    3.2.2 Thu ật toán SVM-NN . 48
    3.3 Chiến lược phân lớp đa lớp 51
    3.3.1 Chiến lược One-against-Rest (OAR) . 51
    3.3.2 Chiến lược One-against-One (OAO) 53
    3.3.3 Phân lớp đa lớp mờ (Fuzzy OAO) . 57
    3.4 Đánh giá các thuật toán phân lớp cải tiến . 59
    CHƯƠNG 4: TỔNG QUAN VỀ BÀI TOÁN TRUY TÌM VĂN BẢN 61
    4.1 Hệ truy tìm văn bản 61
    4.2 Các mô hình của hệ truy tìm văn bản . 62
    4.3 Hệ truy tìm văn bản theo mô hình không gian vector (VSM) . 65
    4.3.1 Giới thiệu mô hình VSM . 65
    4.3.2 Số hóa văn bản theo mô hình VSM 66
    4.3.3 Ma trận biểu diễn tập văn bản theo mô hình VSM . 66
    4.3.4 Truy vấn văn bản theo mô hình VSM 68
    CHƯƠNG 5: XÂY DỰNG THỬ NGHIỆM HỆ PHÂN LỚP VÀ TRUY TÌM VĂN
    BẢN 70
    5.1. Phân hệ phân lớp văn bản 72
    5.1.1 Thiết kế phân hệ phân lớp văn bản . 72
    5.1.2 Module lựa chọn các từ đặc trưng và biểu diễn văn bản tiếng Việt . 73
    5.1.3 Module phân lớp 2 lớp sử dụng SVM-NN . 73
    5.1.4 Phân lớp đa lớp 75
    5.1.5 Cài đặt phân hệ phân lớp văn bản 76
    5.1.6 Kết quả thử nghiệm của phân hệ phân lớp văn bản 79
    5.2.1 Thiết kế phân hệ truy tìm văn bản VSM 80
    5.2.2 Cài đặt phân hệ truy tìm văn bản VSM 84
    5.2.3 Đánh giá kết quả cải tiến của phân hệ truy tìm văn bản VSM 86
    CHƯƠNG 6: KẾT LUẬN . 88
    6.1 Đánh giá kết quả 88
    6.2 Hướng phát triển 89
    TÀI LIỆU THAM KHẢO . 90
     
Đang tải...