Tiến Sĩ Khai phá tri thức song ngữ và ứng dụng trong dịch máy Anh - Việt

Thảo luận trong 'Khoa Học Công Nghệ' bắt đầu bởi Quy Ẩn Giang Hồ, 21/6/17.

  1. Quy Ẩn Giang Hồ

    Quy Ẩn Giang Hồ Administrator
    Thành viên BQT

    Bài viết:
    3,084
    Được thích:
    23
    Điểm thành tích:
    38
    Xu:
    0Xu
    Tóm tắt

    Nhiệm vụ của một hệ thống dịch máy là tự động dịch một văn bản từ ngôn ngữ này (ví dụ, tiếng Anh) sang một văn bản tương đương ở ngôn ngữ khác (ví dụ, tiếng Việt). Tính hữu ích của công nghệ dịch máy tăng lên cùng với chất lượng của nó. Dịch máy có nhiều ứng dụng như: (i) dịch tài liệu tiếng nước ngoài cho mục đích hiểu nội dung, (ii) dịch văn bản để xuất bản ở các ngôn ngữ khác và (iii) thông tin liên lạc, chẳng hạn như dịch email, chat, vv.
    Có một số cách tiếp cận cho bài toán dịch máy như dịch trực tiếp (directtranslation), dịch dựa trên chuyển đổi (transfer - based translation), dịch liên ngữ (interlingua translation), dịch dựa trên ví dụ (example - based translation) và dịch thống kê (statistical translation). Hiện tại, dịch máy dựa trên cách tiếp cận thống kê đang là một hướng phát triển đầy tiềm năng bởi những ưu điểm vượt trội so với các cách tiếp cận khác. Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, dịch máy thống kê tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ ngữ liệu. Đối với một hệ thống dịch máy thống kê, hiệu quả (chất lượng dịch) của nó tỷ lệ thuận với số lượng (kích thước) và chất lượng của ngữ liệu song ngữ được sử dụng để xây dựng hệ thống dịch. Tuy nhiên, ngữ liệu song ngữ sẵn có hiện vẫn còn hạn chế cả về kích thước lẫn chất lượng, ngay cả đối với các cặp ngôn ngữ chính. Ngoài ra, đối với các cặp ngôn ngữ có nhiều khác biệt về cấu trúc ngữ pháp (ví dụ, Anh - Việt), vấn đề về chất lượng dịch đang là thách thức đối với các nhà nghiên cứu về dịch máy trong nhiều năm qua. Vì vậy, việc bổ sung thêm ngữ liệu song ngữ và phát triển các phương pháp hiệu quả hơn dựa trên ngữ liệu hiện có là những giải pháp quan trọng để tăng chất lượng dịch cho dịch máy thống kê.
    Luận án của chúng tôi tập trung giải quyết các tồn tại đã nêu thông qua ba bài toán: phát triển phương pháp xây dựng ngữ liệu song ngữ, cải tiến các phương pháp gióng hàng từ và xác định cụm từ song ngữ cho dịch máy thống kê, cụ thể như sau:
    Thứ nhất, đối với bài toán xây dựng ngữ liệu song ngữ, chúng tôi khai thác từ hai nguồn: Web và sách điện tử song ngữ. Đối với nguồn từ Web, chúng tôi tập trung vào rút trích các văn bản song ngữ từ các web-site song ngữ. Chúng tôi đề xuất hai phương pháp thiết kế các đặc trưng dựa trên nội dung: sử dụng các từ bất biến giữa hai ngôn ngữ (cognate) và sử dụng các phân đoạn dịch. Ngoài ra, chúng tôi kết hợp các đặc trưng dựa trên nội dung với các đặc trưng dựa trên cấu trúc của trang web để rút trích các văn bản song ngữ, bằng cách sử dụng phương pháp học máy. Đối với nguồn từ sách điện tử, chúng tôi đề xuất phương pháp dựa trên nội dung, sử dụng một số mẫu liên kết giữa các khối văn bản trong hai ngôn ngữ để rút trích các câu song ngữ.
    Thứ hai, với bài toán gióng hàng từ, chúng tôi đề xuất một số cải tiến đối với mô hình IBM 1 theo cách tiếp cận dựa trên ràng buộc, bao gồm: ràng buộc neo, ràng buộc về vị trí của từ, ràng buộc về từ loại và ràng buộc về cụm từ. Với mỗi ràng buộc, chúng tôi đưa ra phương pháp tổng quát để tích hợp nó vào thuật toán cực đại kỳ vọng trong quá trình ước lượng tham số của mô hình. Ngoài ra, chúng tôi đưa ra một phương pháp để kết hợp các ràng buộc. Những cải tiến này đã giúp nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt.
    Thứ ba, đối với bài toán xác định cụm từ song ngữ cho dịch máy thống kê, chúng tôi đề xuất phương pháp rút trích cụm từ song ngữ từ ngữ liệu song ngữ, sử dụng các mẫu cú pháp kết hợp với gióng hàng cụm từ. Các cụm từ song ngữ này đã được ứng dụng vào việc nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt.

    Mục lục
    Lời cam đoan i
    Tóm tắt ii
    Lời cảm ơn iv
    Danh mục các chữ viết tắt viii
    Danh mục các hình vẽ ix
    Danh mục các bảng xi
    Mở đầu 1
    1 Tổng quan 5
    1.1 Khai phá tri thức song ngữ . 5
    1.1.1 Xây dựng ngữ liệu song ngữ 6
    1.1.2 Gióng hàng văn bản 9
    1.1.2.1 Gióng hàng đoạn/câu 9
    1.1.2.2 Gióng hàng từ 10
    1.1.3 Xác định cụm từ song ngữ . 13
    1.2 Sơ lược về dịch máy . 14
    1.3 Dịch máy thống kê . 16
    1.3.1 Mô hình hóa bài toán 17
    1.3.2 Mô hình ngôn ngữ . 18
    1.3.3 Mô hình dịch 20
    1.3.3.1 Mô hình dịch dựa trên từ 21
    1.3.3.2 Mô hình dịch dựa trên cụm từ 21
    1.3.3.3 Mô hình dịch dựa trên cú pháp . 22
    1.3.4 Giải mã . 25
    1.3.5 Đánh giá chất lượng dịch 27
    v
    1.4 Thảo luận 29
    2 Xây dựng ngữ liệu song ngữ cho dịch máy thống kê 32
    2.1 Rút trích văn bản song ngữ từ Web 32
    2.1.1 Thu thập dữ liệu 34
    2.1.2 Thiết kế các đặc trưng dựa vào nội dung . 34
    2.1.2.1 Sử dụng cognate . 35
    2.1.2.2 Sử dụng các phân đoạn dịch . 37
    2.1.3 Thiết kế các đặc trưng dựa vào cấu trúc . 39
    2.1.4 Mô hình hóa bài toán phân loại 40
    2.2 Rút trích câu song ngữ từ sách điện tử 41
    2.2.1 Tiền xử lý 44
    2.2.2 Đo độ tương tự . 46
    2.2.3 Gióng hàng đoạn 46
    2.2.4 Gióng hàng câu . 47
    2.3 Thực nghiệm 49
    2.3.1 Thực nghiệm về rút trích văn bản song ngữ từ Web . 49
    2.3.1.1 Cài đặt thực nghiệm . 49
    2.3.1.2 Kết quả thực nghiệm . 51
    2.3.2 Thực nghiệm về rút trích câu song ngữ từ sách điện tử . 53
    2.3.2.1 Cài đặt thực nghiệm . 53
    2.3.2.2 Kết quả thực nghiệm . 55
    2.3.3 Thực nghiệm về bổ sung ngữ liệu song ngữ cho dịch máy 56
    2.4 Kết luận chương 57
    3 Gióng hàng từ cho dịch máy thống kê 59
    3.1 Cơ sở lý thuyết . 59
    3.1.1 Định nghĩa từ 59
    3.1.2 Định nghĩa bài toán gióng hàng từ 60
    3.1.3 Các mô hình IBM 61
    3.1.4 Thuật toán cực đại kỳ vọng cho mô hình IBM 1 . 61
    3.2 Một số cải tiến mô hình IBM 1 theo cách tiếp cận dựa trên ràng buộc 65
    3.2.1 Cải tiến mô hình IBM 1 sử dụng ràng buộc neo . 66
    3.2.2 Cải tiến mô hình IBM 1 sử dụng ràng buộc về vị trí của từ . 69
    3.2.3 Cải tiến mô hình IBM 1 sử dụng ràng buộc về từ loại 71
    3.2.3.1 Quan hệ về từ loại 71
    3.2.3.2 Ràng buộc về từ loại . 71
    3.2.4 Cải tiến mô hình IBM 1 sử dụng ràng buộc về cụm từ . 74
    3.2.4.1 Mẫu cú pháp song ngữ 75
    3.2.4.2 Ràng buộc về cụm từ 75
    3.2.5 Kết hợp các ràng buộc . 78
    3.3 Thực nghiệm 78
    3.3.1 Cài đặt thực nghiệm 78
    vi
    3.3.2 Kết quả thực nghiệm với ràng buộc neo và ràng buộc về vị
    trí của từ 81
    3.3.3 Kết quả thực nghiệm với ràng buộc từ loại 82
    3.3.4 Kết quả thực nghiệm với ràng buộc cụm từ . 82
    3.3.5 Kết quả thực nghiệm về kết hợp ràng buộc 83
    3.4 Kết luận chương 85
    4 Xác định cụm từ song ngữ cho dịch máy thống kê 87
    4.1 Bài toán rút trích cụm từ song ngữ 87
    4.2 Phương pháp rút trích cụm từ song ngữ . 88
    4.2.1 Xác định cụm 88
    4.2.2 Tìm cụm từ đích 89
    4.2.3 Rút trích cụm từ 90
    4.3 Tích hợp cụm từ song ngữ vào dịch máy . 91
    4.4 Thực nghiệm 93
    4.4.1 Thực nghiệm về rút trích cụm từ song ngữ 93
    4.4.1.1 Cài đặt thực nghiệm . 93
    4.4.1.2 Kết quả thực nghiệm . 93
    4.4.2 Thực nghiệm về tích hợp cụm từ song ngữ vào dịch máy 95
    4.4.2.1 Cài đặt thực nghiệm . 95
    4.4.2.2 Kết quả thực nghiệm . 96
    4.5 Kết luận chương 97
    Kết luận 98
    Danh mục công trình khoa học của tác giả liên quan đến luận án 101
    Tài liệu tham khảo 102
     
Đang tải...