Luận Văn Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ anh-việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Lan Chip, 13/9/11.

  1. Lan Chip

    Lan Chip New Member

    Bài viết:
    1,976
    Được thích:
    1
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục
    Mục lục ii
    Danh sách các hình vi
    Lời nói đầu vii
    Chương 1: Tổng quan 1
    1.1 Giới thiệu . 2
    1.2 Tổng quan về gán nhãn từ loại 3
    1.2.1 Gán nhãn từ loại là gì? . 3
    1.2.2 Vai trò của gán nhãn từ loại . 4
    1.3 Các vấn đề gặp phải và hướng giải quyết trong bài toán gán nhãn
    từ loại 6
    1.3.1 Các vấn đề gặp phải khi giải quyết bài toán 6
    1.3.2 Hướng giải quyết 7
    1.4 Bố cục . 8
    Chương 2: Cơ sở lý thuyết . 9
    2.1 Máy học và xử lý ngôn ngữ tự nhiên . 10
    2.1.1 Hướng tiếp cận thống kê 11
    2.1.2 Hướng tiếp cận theo biểu trưng . 12
    2.1.2.1 Cây quyết định: .12
    2.1.2.2 Danh sách quyết định 13
    2.1.2.3 Phương pháp học hướng lỗi dựa trên các luật biến đổi trạng thái
    (TBL) 13
    2.1.3 Hướng tiếp cận thay thế biểu trưng . 14
    2.1.3.1 Mạng Neural .14
    2.1.3.2 Thuật toán di truyền ( Genetic Algorithm : GA) 14
    2.2 Một số giải thuật áp dụng cho bài toán gán nhãn từ loại . 15
    2.2.1 Giải thuật học chuyển đổi dựa trên luật cải biến (TBL) 15
    2.2.1.1 Sơ đồ của giải thuật TBL 17
    2.2.1.2 Mô tả hoạt động của giải thuật 17
    2.2.1.3 Trình bày giải thuật .20
    2.2.1.4 Kết luận: 21
    2.2.2 Mô hình mạng neural. 22
    2.2.2.1 Giới thiệu: .22
    2.2.2.2 Mạng neural: .22
    2.2.2.3 Giải thuật gán nhãn từ loại dựa trên mạng neural .25
    2.2.2.4 Từ điển: .27
    2.2.3 Mô hình Maximum Entropy (ME): . 28
    2.2.3.1 Giới thiệu: .28
    2.2.3.2 Các đặc trưng của gán nhãn từ loại: 29
    2.2.3.3 Mô hình kiểm tra: 33
    2.2.4 Mô hình TBL nhanh (FnTBL) . 34
    2.2.4.1 Giới thiệu giải thuật FnTBL: 34
    2.2.4.2 Tính điểm và phát sinh luật: 36
    2.2.4.3 Giải thuật FnTBL: .39
    Chương 3: Mô hình 41
    3.1 Một số khái niệm sử dụng trong mô hình: . 42
    3.1.1 Ngữ liệu(Corpus): 42
    3.1.2 Ngữ liệu vàng(Golden Corpus) 44
    3.1.3 Ngữ liệu huấn luyện(Training corpus): . 45
    3.2 Một số mô hình kết hợp hiện nay: . 46
    3.2.1 Mô hình kết hợp sử dụng nhiều mô hình liên kết 47
    3.2.2 Phương pháp kết hợp dựa trên tính điểm cho các nhãn ứng viên 48
    3.2.3 Phương pháp kết hợp dựa trên gợi ý của ngữ cảnh. 50
    3.2.4 Phương pháp kết hợp dựa trên tính kế thừa kết quả của giải thuật
    TBL 51
    3.3 Mô hình gán nhãn từ loại dựa trên song ngữ Anh-Việt 52
    3.3.1 Sơ đồ hoạt động của mô hình: . 55
    3.3.1.1 Ngữ liệu huấn luyện: .56
    3.3.1.2 Quá trình khởi tạo: 58
    3.3.1.3 Quá trình huấn luyện: 58
    3.3.1.4 Quá trình gán nhãn từ loại trên cặp câu song ngữ 61
    3.3.2 Thuật giải . 63
    3.3.3 Khung luật (Template): 64
    3.3.4 Cải tiến . 66
    3.3.5 Chiếu sang tiếng Việt . 67
    Chương 4: Cài đặt thử nghiệm và đánh giá kết quả . 70
    4.1 Cài đặt 71
    4.1.1 Cài đặt bộ gán nhãn từ loại dựa trên mô hình kết hợp FnTBL và
    ME. 71
    4.1.2 Cài đặt bộ gán nhãn từ loại có sử dụng thông tin tiếng Việt. 72
    4.1.3 Cài đặt mô hình chiếu từ loại từ tiếng Anh sang tiếng Việt 73
    4.2 Thử nghiệm 74
    4.2.1 Thử nghiệm với các mô hình khởi tạo khác nhau. . 74
    4.2.1.1 Kết quả thử nghiệm dùng Unigram là giải thuật gán nhãn cơ sở. 75
    4.2.1.2 Kết quả thử nghiệm với nhãn khởi tạo của mô hình Markov ẩn .78
    4.2.1.3 Kết quả thử nghiệm dùng Maximum Entropy làm giải thuật gán nhãn
    cơ sở. 81
    4.2.2 Thử nghiệm với các khung luật khác nhau cho giải thuật TBL
    nhanh 84
    4.2.3 Kết quả gán nhãn từ loại khi dùng thông tin tiếng Việt . 85
    4.3 Nhận xét . 85
    Chương 5: Tổng kết . 86
    5.1 Kết quả đạt được . 87
    5.2 Hạn chế 88
    5.3 Hướng phát triển: . 89
    Phụ lục A:Các tập nhãn của Penn Tree Bank . 90
    Phụ lục B: Bộ nhãn từ loại tiếng Việt. 92
    Phụ lục C: Bảng ánh xạ từ loại từ tiếng Anh sang tiếng Việt . 93
    Phụ lục D: Một số luật chuyển đổi. . 95
    Phụ lục E: Kết quả gán nhãn từ loại trong mô hình kết hợp
    không dùng thông tin tiếng Việt 97
    Phụ lục F: Kết quả gán nhãn từ loại trong mô hình kết hợp có
    dùng thông tin tiếng Việt . 99
    `
    Tài liệu tham khảo. 102
     

    Các file đính kèm:

Đang tải...