Thạc Sĩ Phân lớp tài liệu web độc lập ngôn ngữ

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT NỘI DUNG

    Phân lớp Văn bản là một trong những bài toán cơ bản và quan trọng nhất của
    lĩnh vực xử lý Ngôn ngữ tự nhiên. Nó có ứng dụng rất nhiều trong các bài toán thực tế
    ví dụ như: ứng dụng lọc nội dung Văn bản (lọc thư rác, lọc trang web có nội dung phản
    động, trang web có nội dung không lành mạnh, ), bài toán phân lớp Văn bản sau tìm
    kiếm, Hiện nay có rất nhiều bộ phân lớp đạt được độ chính xác cao (đều xấp xỉ
    90%), tuy nhiên các bộ phân lớp này hầu hết chỉ áp dụng cho một Ngôn ngữ cụ thể.
    Thực tế cho thấy, đối với bài toán lọc nội dung trang Web thì một vấn đề đặt ra là phải
    xử lý trên nhiều Ngôn ngữ khác nhau. Một trong hướng nghiên cứu phân lớp Văn bản
    được quan tâm gần đây là phân lớp đa Ngôn ngữ [7]. Khoá luận này nghiên cứu và đề
    xuất một phương pháp phân lớp nội dung Web độc lập ngôn ngữ. Phương pháp này
    cho phép tích hợp thêm các Ngôn ngữ mới vào bộ phân lớp và giải quyết vấn đề bùng
    nổ đặc trưng thông qua hướng tiếp cận entropy cực đại và sử dụng chiến lược tối ưu
    hoá hàm nhiều biến rất hiệu quả. Các kết quả thực nghiệm cho thấy hướng tiếp cận của
    khoá luận rất khả quan, cụ thể, khi huấn luyện riêng biệt trên từng Ngôn ngữ đều nhận
    được kết quả rất cao (Anh trên 98%, Việt trên 91%), còn khi có sự kết hợp của hai
    Ngôn ngữ kết quả đạt được cũng rất khả quan (Anh-Việt xấp xỉ 95%). Đặc biệt khi cho
    mô hình kiểm tra trên một tập dữ liệu hoàn toàn mới kết quả cũng rất khả quan (độ
    chính xác Anh-Việt xấp xỉ 84%). Bên cạnh đó, khoá luận cũng đã phân tích các vấn đề
    cơ bản của bài toán phân lớp Văn bản độc lập Ngôn ngữ đó là sự nhập nhằng ngôn ngữ
    và sự bùng nổ đặc trưng, sau đó đã đưa ra các phương pháp khắc phục khá hiệu quả.
    Một đề xuất mới mà khoá luận đưa ra là mô hình dựa trên cây phân lớp thông minh.
    Đề xuất này có nhiều triển vọng cho các ứng dụng nhỏ cần phân loại Văn bản và nhận
    diện được ngôn ngữ.

    MỤC LỤC

    LỜI CẢM ƠN . . i
    TÓM TẮT NỘI DUNG . i
    MỤC LỤC . . ii
    BẢNG KÍ HIỆU VIẾT TẮT . iv
    DANH MỤC BẢNG SỐ LIỆU .v
    DANH MỤC HÌNH ẢNH . vi
    MỞ ĐẦU .1
    CHƯƠNG 1. KHÁI QUÁT VỀ PHÂN LỚP
    Văn bản ĐỘC LẬP Ngôn ngữ 3
    1.1. Bài toán phân lớp Văn bản .3
    1.1.1. Tổng quan 3
    1.2. Phân lớp Văn bản độc lập Ngôn ngữ .4
    1.2.1. Đặt vấn đề . .4
    1.2.2. Phân lớp Văn bản độc lập Ngôn ngữ 5
    1.2.3. Ý nghĩa và ứng dụng .5
    CHƯƠNG 2. CÁC MÔ HÌNH VÀ THUẬT TOÁN PHÂN LỚP VĂN BẢN .7
    2.1. Giới thiệu . 7
    2.2. Mô hình Maximum Entropy . .7
    2.2.1. Giới thiệu . 7
    2.2.2. Xây dựng mô hình .9
    2.3. Tổng kết chương .16
    CHƯƠNG 3. PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP Ngôn ngữ VỚI MÔ HÌNH
    ENTROPY CỰC ĐẠI .
    . .1 7
    3.1 Giới thiệu . .17
    3.2. Bài toán phân lớp Văn bản độc lập Ngôn ngữ 17
    3.2.1. Vấn đề nhập nhằng ngôn ngữ . .17
    3.2.2. Vấn đề bùng nổ đặc trưng .18
    3.3. Quy trình Xây dựng bộ phân lớp . .19
    3.3.1. Tiền xử lý dữ liệu 19
    3.3.2. Xây dựng đặc trưng .20
    3.3.3. Lựa chọn đặc trưng 21
    3.3.4. Huấn luyện mô hình 23
    3.3.5. Phân lớp Văn bản mới . .23
    3.4. Đánh giá độ chính xác của bộ phân lớp 24
    iii
    3.4.1. Các độ đo . 24
    3.4.2. Áp dụng phương pháp ước lượng chéo trên k tập con 25
    3.5. Xây dựng bộ phân lớp trên cây phân lớp thông minh .25
    3.5.1. Bản chất bài toán .26
    3.5.2. Phân lớp cho Văn bản mới .26
    3.5.3. Thảo luận .27
    3.6. Tổng kết chương 27
    CHƯƠNG 4. KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ .28
    4.1. Môi trường thử nghiệm 28
    4.1.1. Môi trường phần cứng .28
    4.1.2. Công cụ phần mềm . .28
    4.2. Dữ liệu kiểm thử . 29
    4.2.1. Tiền xử lý dữ liệu 29
    4.2.2. Cây phân lớp . .30
    4.3. Kết quả thử nghiệm 31
    4.3.1. Quá trình huấn luyện .31
    4.3.2. Lần lặp cho độ chính xác cao nhất 34
    4.3.3. Kết quả kiểm tra trên dữ liệu mới .35
    4.4. Tổng kết chương .36
    KẾT LUẬN .37
    PHỤ LỤC. DANH SÁCH STOP-WORD 38
    TÀI LIỆU THAM KHẢO .
    . .4 1
     

    Các file đính kèm:

    • 1-.pdf
      Kích thước:
      819.8 KB
      Xem:
      0
Đang tải...