Luận Văn So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÊN ĐỀ TÀI: So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt
    Information
    [TABLE]
    [TR]
    [TD="width: 5%"][/TD]
    [TD="width: 90%"]Mục lục
    MỞ ĐẦU1
    Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI
    1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP 3
    1.1.1. Khái niệm về bài toán gán nhãn từ loại 3
    1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP4
    1.2. Các khó khăn của bài toán gán nhãn từ loại6
    1.3. Tập nhãn từ loại7
    1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các
    ngôn ngữ trên thế giới7
    1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam10
    Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI 13
    2.1. Gán nhãn bằng phương pháp dựa trên hệ luật 13
    2.2. Các phương pháp dựa vào học máy 15
    2.3. Phương pháp lai19
    2.4. Các nghiên cứu liên quan tại Việt Nam 21
    2.4.1. Các nghiên cứu dựa trên phương pháp hệ luật 21
    2.4.2. Các nghiên cứu dựa trên phương pháp học máy 22
    2.4.3. Các nghiên cứu dựa trên phương pháp lai 22
    Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 25
    3.1. Mô hình cực đại hóa Entropy
    3.1.1. Khái niệm MEM25
    3.1.2. Nguyên lý cực đại hóa Entropy 26
    3.1.3. Mô hình xác suất26
    3.1.4. Hạn chế của mô hình MEM27
    3.2. Mô hình trường ngẫu nhiên điều kiện28
    3.2.1. Khái niệm CRF 28
    iv
    3.2.2. Hàm tiềm năng của các mô hình CRF 30
    3.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi. 31
    3.2.4. Ước lượng tham số cho các mô hình CRF33
    3.3. Mô hình máy véc tơ hỗ trợ33
    3.3.1. Khái niệm và cơ sở của phương pháp SVM33
    3.3.2. Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại 36
    3.3.3. Huấn luyện SVM 37
    Chương 4. THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ 39
    4.1. Mô tả thực nghiệm 39
    4.1.1. Phần cứng39
    4.1.2. Phần mềm39
    4.1.3. Dữ liệu thực nghiệm và tập nhãn từ loại40
    4.2. Mô tả tập đặc trưng dựa trên mức từ và mức hình vị43
    4.2.1. Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại 43
    4.2.2. Mẫu ngữ cảnh dạng biểu thức chính quy45
    4.3. Hệ thống gán nhãn từ loại cho tiếng Việt 45
    4.3.1. Gán nhãn từ loại dựa vào thông tin về từ47
    4.3.2. Gán nhãn từ loại dựa vào thông tin hình vị 47
    4.4. Phương pháp thực nghiệm và các tham số đánh giá thực nghiệm48
    4.4.1. Phương pháp thực nghiệm48
    4.4.2. Các tham số đánh giá thực nghiệm48
    4.5. Kết quả thực nghiệm48
    4.5.1. Kết quả của năm lần thực nghiệm 48
    4.5.2. Tổng hợp kết quả 51
    4.5.3. Đánh giá và thảo luận 53
    KẾT LUẬN 55
    v
    Danh mục hình vẽ
    Hình 1. Các bước xử lý ngôn ngữ tự nhiên 4
    Hình 2. Một số tập nhãn từ loại cho Tiếng Anh 8
    Hình 3. Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh 13
    Hình 4. Đồ thị có hướng mô tả mô hình HMM17
    Hình 5. Mô hình tổng quát của phương pháp lai 19
    Hình 6. Mô hình TBL cho tiếng Việt 24
    Hình 7. Đồ thị vô hướng mô tả CRF 29
    Hình 8. Một bước trong thuật toán Viterbi cải tiến 32
    Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt33
    Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm. 34
    Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng
    một siêu phẳng tuyến tính35
    Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử
    dụng hàm nhân35
    Hình 13. Hàm nhân Basis Radial37
    Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu 44
    Hình 15. Một mô hình gán nhãn từ loại tiếng Việt46
    Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất 52
    Hình 17. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ hai 52
    [/TD]
    [/TR]
    [/TABLE]




     
Đang tải...