Luận Văn Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÊN ĐỀ TÀI: Xử lý ngữ nghĩa trong hệ dịch tự động Anh-Việt cho các tài liệu tin học
    Information
    [TABLE]
    [TR]
    [TD="width: 5%"][/TD]
    [TD="width: 90%"]Những năm gần đây, với sự phát triển nhanh chóng trong lĩnh vực công nghệ thông tin, việc sử dụng các tài liệu để có thể nắm bắt được các tri thức mới vô cùng phổ biến. Song một khó khăn lớn đối với nhiều người Việt chúng ta hiện nay là việc hiểu ngôn ngữ được thể hiện trong các tài liệu (mà chủ yếu là tiếng Anh). Do đó, tạo lập một hệ thống chỉ dịch các tài liệu tin học từ Tiếng Anh sang tiếng Việt có ý nghĩa to lớn. Chắc chắn nó sẽ giúp nhiều người Việt có điều kiện tiếp cận tốt các nội dung, kiến thức mới của tin học trên thế giới.
    Nhưng vấn đề khó khăn nhất gặp phải trong việc thiết lập một hệ dịch tự động là tính nhập nhằng vốn có của ngôn ngữ tự nhiên, trong đó nhập nhằng lớn nhất là nhập nhằng ngữ nghĩa. Việc chọn ra một nghĩa thích hợp cho từ là một công việc không dễ dàng nhưng cực kỳ lý thú. Giải quyết tốt vấn đề ngữ nghĩa sẽ nâng cao chất lượng cho hệ dịch tự động Anh – Việt. Đề tài này hướng đến việc giải quyết tốt những nhập nhằng nghĩa của từ trong các tài liệu tin học nhờ vào việc huấn luyện trên ngữ liệu song ngữ để rút ra các luật chuyển đổi. Thông qua việc kết hợp các khối khác của dịch tự động, tạo ra các câu dịch tiếng Việt có thể hiểu được. Sự thay đổi lĩnh vực xem xét không ảnh hưởng nhiều đến cấu trúc của mô hình. Chúng tôi thực hiện việc giới hạn lĩnh vực ngoài ý nghĩa nêu phía trên còn có lý do thử nghiệm mô hình xử lý ngữ nghĩa mới, xem xét tính tương hỗ từ các thông tin trong ngữ liệu song ngữ và đảm bảo chất lượng câu dịch.
    Luận văn được tổ chức thành 5 chương và các phụ lục.



    Chương 1 giới thiệu tổng quan về dịch máy nói chung và xử lý ngữ nghĩa nói riêng.
    Chương 2 giới thiệu các cơ sở lý thuyết cần sử dụng, trong đó có đề cập đến thuật toán huấn luyện.
    Chương 3 đưa ra mô hình cài đặt cho khối xử lý ngữ nghĩa
    Chương 4 cụ thể hoá mô hình cài đặt
    Chương 5 tổng kết luận văn và đề ra hướng phát triển .


    Lời Nói Đầu . i
    Mục Lục ii
    Danh Sách Hình vii
    Danh Sách Bảng Biểu viii
    Chương 1 TỔNG QUAN .1
    1.1. SƠ LƯỢC VỀ DỊCH MÁY .2
    1.1.1. lịch sử của Dịch Máy 2
    1.1.2. Khái niệm về Dịch Máy .6
    1.1.3. Các bước xử lý trong một hệ Dịch Máy 7
    1.2. XỬ LÝ NGỮ NGHĨA TRONG DỊCH MÁY 10
    1.2.1. Vai trò và chức năng của xử lý ngữ nghĩa .10
    1.2.2. Các mức độ nhập nhằng trong tầng xử lý ngữ nghĩa .12
    1.2.2.1. Nhập nhằng ở mức từ vựng .12
    1.2.2.2. Mức độ nhập nhằng cấu trúc . 12
    1.2.2.3. Mức độ nhập nhằng liên câu .1 3
    1.2.2.4. Mức độ nhập nhằng theo thể loại văn bản 14
    1.2.3. Các khó khăn trong xử lý ngữ nghĩa 15
    1.2.3.1. Nhập nhằng nghĩa .15
    1.2.3.2. Phụ thuộc vào ngữ cảnh 15
    1.2.3.3. Phụ thuộc vào tri thức .15
    1.2.3.4. Sự khác biệt giữa Tiếng Anh và Việt .16
    1.2.3.5. Yếu tố khác .16
    1.3. CÁC CÁCH TIẾP CẬN TRONG XỬ LÝ NGỮ NGHĨA VÀ CÁC CÔNG
    TRÌNH TRƯỚC ĐÂY 17
    1.3.1. Xử lý ngữ nghĩa trong thời gian đầu 17
    1.3.2. Dựa trên trí tuệ nhân tạo 18
    1.3.3. Dựa trên cơ sở tri thức .20
    1.3.3.1. Từ điển máy 20
    1.3.3.2. Từ điển đồng nghĩa .22
    1.3.3.3. Từ điển điện toán 23
    1.3.4. Dựa trên ngữ liệu .24
    Chương 2 CƠ SỞ LÝ THUYẾT .27
    2.1. CƠ SỞ LÝ THUYẾT VỀ ngôn ngữ HỌC . 28
    2.1.1. Nghĩa của từ .28
    2.1.1.1. Cơ cấu nghĩa của từ .29
    2.1.1.2. Phân tích nghĩa của từ .29
    2.1.1.3. Nghĩa của từ trong hoạt động ngôn ngữ .30
    2.1.2. quan hệ đồng nghĩa và trái nghĩa trong từ vựng .30
    2.1.2.1. Từ đồng nghĩa .30
    2.1.2.2. Từ trái nghĩa 31
    2.1.3. Biến đổi trong từ vựng .31
    2.1.3.1. Những biến đổi bề mặt . .31
    2.1.3.2. Những biến đổi trong chiều sâu của từ vựng 32
    2.2. HỌC DỰA TRÊN CHUYỂN ĐỔI .32
    2.2.1. Học dựa trên chuyển đổi là gì ? .32
    2.2.2. Giải thuật học dựa trên chuyển đổi tổng quát 33
    2.2.3. Mô tả về trình tự tạo luật chuyển đổi .3 5
    2.2.4. Yêu cầu trong việc áp dụng thuật toán học dựa trên chuyển đổi
    vào xử lý ngữ nghĩa .37
    2.2.5. Nhận xét .38
    2.3. MỘT SỐ GIẢI THUẬT HỌC DỰA TRÊN CHUYỂN ĐỔI CẢI TIẾN .39
    2.3.1. Lazy TBL .39
    2.3.2. TBL đa chiều . .40
    2.3.3. TBL nhanh .40
    2.4. THUẬT TOÁN FAST-TBL . 41
    2.4.1. Quy ước 41
    2.4.2. Phát sinh luật 42
    2.4.2.1. Trường hợp 1 43
    2.4.2.2. Trường hợp 2 44
    2.5. VĂN PHẠM PHỤ THUỘC .46
    2.5.1. Giới thiệu .46
    2.5.2. Vận dụng văn phạm phụ thuộc vào xử lý ngữ nghĩa .49
    2.5.3. Các loại quan hệ trong bộ phân tích cú pháp dựa trên văn phạm
    phụ thuộc . 50
    Chương 3 MÔ HÌNH CÀI ĐẶT .53
    3.1. CÁC NGUỒN TRI THỨC ĐỂ XỬ LÝ NGỮ NGHĨA .54
    3.1.1. Tri thức về từ loại và hình thái . 54
    3.1.2. Tri thức về ngôn từ .56
    3.1.3. Tri thức về quan hệ cú pháp và ràng buộc ngữ nghĩa 57
    3.1.4. Tri thức về chủ đề 58
    3.1.5. Tri thức về tần suất nghĩa của từ 59
    3.2. CÁC BƯỚC THỰC HIỆN .59
    3.3. MÔ HÌNH HUẤN LUYỆN CHO BỘ GÁN NHÃN NGỮ NGHĨA 61
    3.4. HỆ THỐNG NHÃN NGỮ NGHĨA .62
    3.4.1. Yêu cầu đối với hệ thống nhãn ngữ nghĩa .62
    3.4.2. Cơ sở của việc phân lớp ngữ nghĩa 63
    3.4.3. Nhận xét các hệ thống nhãn ngữ nghĩa có liên quan .64
    3.5. CHUẨN BỊ NGỮ LIỆU HUẤN LUYỆN . .66
    3.5.1. Giới thiệu kho ngữ liệu song ngữ Anh-Việt VCLEVC .66
    3.5.2. Rút trích thống kê từ ngữ liệu song ngữ 68
    3.5.2.1. Thống kê các nghĩa tiếng Việt 68
    3.5.2.2. Thống kê tần số xuất hiện một nghĩa của từ Tiếng Anh 69
    3.5.2.3. Ý nghĩa 70
    3.5.3. xây dựng ngữ liệu huấn luyện .70
    3.5.3.1. Gán nhãn ngữ nghĩa bán tự động cho ngữ liệu .71
    3.5.3.2. xây dựng “ngữ liệu vàng” 72
    Chương 4 CÀI ĐẶT THỬ NGHIỆM .75
    4.1. GÁN NHÃN CƠ SỞ 76
    4.1.1. Mô hình gán nhãn cơ sở .76
    4.1.2. Xử lý ngôn từ, thành ngữ .78
    4.1.3. Xử lý ràng buộc lựa chọn .79
    4.1.3.1. Cơ sở tri thức .79
    4.1.3.2. Thuật toán .79
    4.1.4. Xử lý dựa trên lĩnh vực xem xét 81
    4.1.5. Xử lý dựa trên tần số xuất hiện 82
    4.2. MẪU LUẬT 82
    4.2.1. Các từ trong ngữ cảnh 83
    4.2.2. Từ gốc trong ngữ cảnh .83
    4.2.3. Từ loại trong ngữ cảnh .83
    4.2.4. Nhãn ngữ nghĩa trong ngữ cảnh .83
    4.2.5. Từ có quan hệ ngữ pháp trong ngữ cảnh .84
    4.2.6. Các nhãn trong ngữ cảnh có quan hệ ngữ pháp .84
    4.3. GẮN NGHĨA TIẾNG VIỆT 84
    4.3.1. Các từ không cần gắn nghĩa tiếng Việt 85
    4.3.2. Gắn thêm lượng từ Những .86
    4.3.2.1. Mô tả .86
    4.3.2.2. Ngữ liệu và mẫu luật .87
    4.3.3. quan hệ giữa động từ “to be” và các trường hợp khác 88
    4.3.4. Các trường hợp đi kèm với giới từ .90
    4.3.5. Các trường hợp liên quan đến thành ngữ .91
    4.4. KẾT QUẢ THỰC HIỆN 92
    4.4.1. Dãy luật tối ưu . .92
    4.4.2. Dãy luật rút ra để giải quyết việc thêm từ trong tiếng Việt .93
    4.4.3. Thử nghiệm 93
    Chương 5 KẾT LUẬN – HƯỚNG PHÁT TRIỂN 98
    5.1. HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN . .99
    5.2. KẾT LUẬN 100
    Danh Mục Tài Liệu Tham Khảo 101
    Phụ Lục 1. Danh Sách Nhãn Ngữ Nghĩa Cơ Bản 103
    Phụ Lục 2. Danh Sách Các Nhãn Từ Loại .106
    Phụ Lục 3. Trích Một Số Luật .108
    Phụ Lục 4. Các Kết Quả Dịch Đạt Được .111
    Phụ Lục 5. Một Số Kết Quả Dịch Thử Nghiệm 123
    Phụ Lục 6. Một Số Ví Dụ So Sánh .
    [/TD]
    [/TR]
    [/TABLE]




     
Đang tải...