Luận Văn Luận văn thạc sĩ ngành khoa học máy tính: Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện
    nay. Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của
    máy tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin
    phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên
    nhiều cơ hội cho con người đi đến thành công, chương trình dịch tự động sẽ là công
    cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết
    kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất
    nhiều nhóm nghiên cứu trên thế giới. Tuy nhiên, bản thân từng ngôn ngữ đã rất
    phức tạp, thường hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác
    biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy
    có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được gần với con người vẫn
    đang là một thách thức lớn.
    Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều
    hướng tiếp cận khác nhau:
    - Nhóm nghiên cứu của PGS. TS. Đinh Điền (Đại học Khoa học Tự nhiên- Đại
    học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa
    trên việc học luật chuyển đổi từ ngữ liệu song ngữ.
    - Nhóm nghiên cứu của PGS. TS. Phan Thị Tươi (Đại học Bách Khoa Thành
    phố Hồ Chí Minh): Nhóm sử dụng phương pháp phân tích cú pháp có xác
    suất để dịch văn bản Anh-Việt và Việt-Anh.
    - Nhóm nghiên cứu của TS. Lê Khánh Hùng Softex (Phòng Công nghệ Phần
    Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam):
    hệ dịch đã được đưa vào sử dụng trong thực tế và thương mại hoá sản phẩm
    (http://vdict.com). EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sửTrang 7
    dụng các luật được xây dựng bằng tay để dịch văn bản từ Anh sang Việt. Từ
    năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) có thể dịch được văn
    bản hai chiều Anh-Việt và Việt-Anh. Do hệ dịch dựa trên luật nên kết quả
    của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã
    được thiết lập hay không.
    - Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA –
    ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên
    Hải (http://www.latl.unige.ch/vietnamese/) tại LATL.
    - Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao
    gồm cả tiếng Việt. Sử dụng phương pháp dịch máy thống kê dựa trên kho
    ngữ liệu song ngữ. Tốc độ dịch nhanh và có tính năng tương tác với người
    dùng nhằm tăng chất lượng dịch cho các lần sau.
    - Dịch máy trên Xalo.vn (www.dich.xalo.vn): đưa ra dịch vụ dịch trực tuyến
    một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự
    phát triển, hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép người dùng
    chỉnh sửa, góp ý về nội dung dịch nhằm nâng cao chất lượng dịch.
    - Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt
    www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có
    thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ
    dịch tốt hơn bởi người dùng.
    Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lượng dịch khác
    nhau, tuỳ thuộc vào dạng câu đầu vào.
    Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ
    nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp
    chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật
    cú pháp và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi
    hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ.
    Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn
    toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của Trang 8
    hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không
    cần đến tri thức ngôn ngữ. Với phương pháp này, ngữ liệu càng lớn và có chất
    lượng tốt thì hệ dịch sẽ càng hiệu quả.
    Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có
    thể áp dụng được trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý
    trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn
    luyện và dịch. Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá
    trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà
    mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất
    nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô
    hình này.
    Do đó, chúng tôi hướng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống
    kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ. Luận văn sẽ tập
    trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát
    triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này.
    1.2. Hướng tiếp cận của đề tài
    Đề tài sẽ tập trung vào khảo sát các hướng tích hợp trực tiếp tri thức ngôn ngữ vào
    trong hệ dịch máy thống kê dựa trên ngữ. Khảo sát các tri thức ngôn ngữ trong dịch
    máy thống kê Anh - Việt. Các tri thức được tập trung khảo sát bao gồm hình thái từ,
    từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hưởng của các thông
    tin này lên hệ dịch.
    Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ. Tiếng Việt là ngôn ngữ
    đơn lập, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và bằng
    các hư từ. Trong tiếng Việt, từ không có hiện tượng biến hình, đơn vị cơ bản là hình
    tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thường trùng với âm tiết, có khả
    năng vừa dùng như từ vừa dùng như hình vị. Ở loại hình này, người ta thường hay
    nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hư với
    yếu tố thực cũng như vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là
    MỤC LỤC
    MỤC LỤC .1
    DANH SÁCH CÁC BẢNG 4
    DANH SÁCH CÁC HÌNH .5
    CHƯƠNG 1: GIỚI THIỆU .6
    1.1. Đặt vấn đề 6
    1.2. Hướng tiếp cận của đề tài 8
    1.3. Nội dung của luận văn .9
    CHƯƠNG 2: TỔNG QUAN .11
    2.1. Dịch máy thống kê .11
    2.1.1. Dịch máy thống kê dựa trên từ .11
    2.1.2. Mô hình dịch máy thống kê dựa trên ngữ .19
    2.1.3. Mô hình dịch thống kê factored (Factored SMT) .26
    2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp 29
    2.2. Các tiêu chuẩn đánh giá chất lượng dịch .31
    2.2.1. BLEU (Bilingual Evaluation Understudy) .32
    2.2.2. NIST 32
    2.2.3. TER (Translation Error Rate) .32
    CHƯƠNG 3: .33
    CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG
    KÊ 33
    3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý 33
    3.1.1. Dùng thông tin cú pháp .34Trang 2
    3.1.2. Sử dụng thông tin từ loại 36
    3.1.3. Sử dụng luật biến đổi hình thái từ .37
    3.2. Tích hợp tri thức vào hệ thống dịch máy .39
    3.2.1. Tích hợp thông tin hình thái vào mô hình dịch .39
    3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch 40
    3.2.3. Tích hợp vào mô hình ngôn ngữ .41
    CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI .42
    4.1. Tích hợp thông tin hình thái từ tiếng Anh .43
    4.1.1. Thông tin từ loại .43
    4.1.2. Thông tin biến cách của từ 44
    4.1.3. Sử dụng luật chuyển đổi trật tự .45
    4.2. Thêm thông tin hình thái từ tiếng Việt 50
    4.2.1. Thông tin ranh giới từ .50
    4.2.2. Thông tin từ loại .51
    4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt 52
    CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ .54
    5.1. Ngữ liệu .54
    5.2. Các công cụ .55
    5.3. Thí nghiệm .55
    5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh 55
    4.4. Tóm tắt kết quả thí nghiệm 74
    CHƯƠNG 6: KẾT LUẬN 76
    TÀI LIỆU THAM KHẢO .78
    PHỤ LỤC 82Trang 3
    A. Đối chiếu hình thái từ Anh – Việt (biến cách) 82
    B. Kết quả dịch của một số mô hình 82Trang 4
    DANH SÁCH CÁC BẢNG
    Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng .15
    Bảng 5.1 Thông tin về ngữ liệu .59
    Bảng 5.2. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh
    .60
    Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ .63
    Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt
    .64
    Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình 65
    Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt .68
    Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh
    và tiếng Việt
     

    Các file đính kèm:

Đang tải...