Thạc Sĩ Phân lớp bán giám sát và ứng dụng thuật toán svm vào phân lớp trang web

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT NỘI DUNG

    Hiện nay, với một lượng lớn các dữ liệu thì phân lớp dữ liệu có vai trò rất quan
    trọng, là một trong những bài toán luôn thời sự trong lĩnh vực xử lý dữ liệu văn bản. Một
    yêu cầu cơ bản được đặt ra là cần tăng tính hiệu quả của thuật toán phân lớp, nâng cao giá
    trị của các độ đo hồi tưởng, chính xác của thuật toán. Mặt khác, nguồn tài nguyên về ví
    dụ học có nhãn không phải luôn được đáp ứng vì vậy cần có các thuật toán phân lớp sử
    dụng các ví dụ chưa có nhãn. Phân lớp bán giám sát đáp ứng được hai yêu cầu nói trên
    [5, 7, 8, 16, 17]. Các thuật toán phân lớp bán giám sát tận dụng các nguồn dữ liệu chưa
    gán nhãn rất phong phú có trong tự nhiên kết hợp với một số dữ liệu đã được gán nhãn
    cho sẵn.
    Trong những năm gần đây, phương pháp sử dụng bộ phân loại máy hỗ trợ vector
    (Support Vector Machine - SVM) được quan tâm và sử dụng nhiều trong lĩnh vực nhận
    dạng và phân loại. Từ các công trình khoa học [4, 7, 8, 11] được công bố cho thấy
    phương pháp SVM có khả năng phân loại khá tốt đối với bài toán phân loại Văn bản cũng
    như trong nhiều ứng dụng khác.
    Trong khoá luận này, em khảo sát thuật Toán học bán giám sát SVM và trình bày
    các nội dung về phần mềm SVMlin do V. Sindhwani đề xuất [18]. Trong năm 2006-
    2007, V. Sindhwani đã dùng SVMlin tiến hành phân lớp Văn bản từ nguồn 20-
    Newsgroups cho các kết quả tốt [14,15].

    MỤC LỤC
    MỞ ĐẦU . 9
    Chương 1 TỔNG QUAN VỀ PHÂN LỚP BÁN GIÁM SÁT 11

    1.1. Phân lớp dữ liệu 11
    1.1.1. Bài toán phân lớp dữ liệu .11
    1.1.2. Quá trình phân lớp dữ liệu 12
    1.2. Phân lớp Văn bản 13
    1.2.1. Đặt vấn đề . .13
    1.2.2. Mô hình vector biểu diễn văn bản . 14
    1.2.3. Phương pháp phân lớp Văn bản .19
    1.2.4. Ứng dụng của phân lớp văn bản . .19
    1.2.5. Các bước trong quá trình phân lớp Văn bản 20
    1.2.6. Đánh giá mô hình phân lớp .22
    1.2.7. Các yếu tố quan trọng tác động đến phân lớp Văn bản .23
    1.3. Một số thuật Toán học máy phân lớp 23
    1.3.1. Học có giám sát 23
    1.3.1.1. Bài Toán học có giám sát 23
    1.3.1.2. Giới thiệu học có giám sát 24
    1.3.1.3. Thuật Toán học có giám sát k-nearest neighbor (kNN) 25
    1.3.1.4. Thuật Toán học có giám sát Support vector machine (SVM) .26
    1.3.2. Thuật toán phân lớp sử dụng quá trình học bán giám sát .27
    1.3.2.1. Khái niệm .27
    1.3.2.2. Lịch sử Phát triển sơ lược của học bán giám sát 28
    1.3.2.3. Một số phương pháp học bán giám sát điển hình 29
    Chương 2 SỬ DỤNG SVM VÀ BÁN GIÁM SÁT SVM
    VÀO BÀI TOÁN PHÂN LỚP
    32
    2.1. SVM – Support Vector Machine . 32
    2.1.1. Thuật toán SVM .33
    2.1.2. Huấn luyện SVM . .3 5
    2.1.3. Các ưu thế của SVM trong phân lớp Văn bản 35
    2.2. Bán giám sát SVM và phân lớp trang Web . 37
    2.2.1. Giới thiệu về bán giám sát SVM 37
    2.2.2. Phân lớp trang Web sử dụng bán giám sát SVM .38
    2.2.2.1. Giới thiệu bài toán phân lớp trang Web (Web Classification) .38
    2.2.2.3. Áp dụng S3VM vào phân lớp trang Web . 39
    Chương 3 THỬ NGHIỆM HỌC BÁN GIÁM SÁT PHÂN LỚP TRANG
    WEB
    . . 41
    3.1. Giới thiệu phần mềm SVMlin 41
    3.2. Download SVMlin 42
    3.3. Cài đặt 42
    3.4. Cách sử dụng phần mềm . 42
    KẾT LUẬN 45
    Những công việc đã làm được của khoá luận .45
    Hướng nghiên cứu trong thời gian tới . 45
    TÀI LIỆU THAM KHẢO . 46
    I. Tiếng Việt .46
    II. Tiếng anh .46
     

    Các file đính kèm:

    • 5-.pdf
      Kích thước:
      588 KB
      Xem:
      0
Đang tải...