Đồ Án Xử lý nhập nhằng ngữ nghĩa trong dịch máy thống kê dựa vào cụm từ

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT NỘI DUNG
    Dịch máy thống kê là quá trình dịch văn bản từ ngôn ngữ này sang một ngôn ngữ khác dựa trên mô hình được sinh ra một cách tự động từ ngữ liệu song ngữ. Yếu điểm của phương pháp dịch máy thống kê là nú khụng sử dụng thông tin ngữ cảnh trong quá trình dịch. Xử lý nhập nhằng ngữ nghĩa sử dụng thông tin ngữ cảnh của một cụm từ để đưa ra nghĩa đúng của cụm từ đó trong một văn cảnh cụ thể. Tích hợp xử lý nhập nhằng ngữ nghĩa sẽ nâng cao chất lượng bản dịch của hệ dịch máy thống kê. Hệ dịch không chỉ có ưu điểm của phương pháp thống kê mà cũn cú thờm thế mạnh từ tri thức ngôn ngữ được kết hợp linh hoạt dưới dạng các yếu tố ngôn ngữ tương ứng như từ loại, thông tin hỡnh thỏi
    Luận văn sử dụng MEM (Maximum Entropy Model) để huấn luyện mô hình WSD. WSD sử dụng MEM có khả năng ứng dụng với bộ dữ liệu lớn, rất phù hợp với hướng tiếp cận thống kê.
    Mô hình WSD sau khi đã được huấn luyện có thể lấy làm thuộc tính cho SMT. Tương tự như mô hình dịch hay mô hình ngôn ngữ, mô hình WSD là một thành phần xác định xác suất của các nghĩa của một từ, cụm từ trong câu nguồn. Trọng số của thuộc tính WSD có thể được điều chỉnh dựa vào huấn luyện cực tiểu sai số (Minimum Error Rate Training).
    Kết quả thực nghiệm cho thấy, độ chính xác của bộ WSD sử dụng MEM là khoảng trên 70%, điểm BLEU của hệ dịch máy khi được tích hợp WSD tăng lên từ 36.57 (không sử dụng WSD) lên 37.45 (sử dụng tất cả các thuộc tính WSD). Ngoài ra, thực nghiệm cũng cho thấy các thuộc tính WSD khi được sử dụng cùng nhau sẽ cho kết quả tốt nhất.

    MỤC LỤC
    Chương I:
    GIỚI THIỆU DỊCH MÁY VÀ KHÓ KHĂN TRONG DỊCH MÁY 1
    1.1 Dịch máy là gì ?. 1
    1.2 Lịch sử dịch máy. 1
    Dịch máy Anh - Việt 2
    1.3 Phân loại các tiếp cận dịch máy. 2
    1.3.1 Dịch trực tiếp. 2
    1.3.2 Dịch chuyển đổi 3
    1.3.3 Dịch liên ngữ. 3
    1.4 Dịch máy thống kê. 3
    1.5 Khó khăn trong dịch máy. 3
    1.5.1 Nhập nhằng từ đồng âm 4
    1.5.2 Nhập nhằng từ loại 4
    1.5.3 Nhập nhằng cú pháp. 4
    1.5.4 Nhập nhằng tham chiếu. 5
    1.5.5 Nhập nhằng phân đoạn. 5
    1.5.6 Cấu trúc ngữ pháp phức tạp. 5
    1.5.7 Lượng từ vựng nhiều. 5
    1.5.8 Không đồng nhất giữa ngôn ngữ. 5
    Chương II:
    PHƯƠNG PHÁP DỊCH MÁY THỐNG KÊ 7
    2.1 Giới thiệu tổng quan. 7
    2.2 Mô hình ngôn ngữ. 9
    2.2.1 Mô hình n-gram 9
    2.2.2 Mô hình ngôn ngữ. 10
    2.2.3 Làm mịn (smoothing). 10
    2.3 Mô hình dịch. 11
    2.4 Mô hình chuyển đổi trật tự từ (reordering model). 12

    Chương III:
    CÁC THÀNH PHẦN TRONG MỘT HỆ DỊCH MÁY THỐNG KÊ ANH – VIỆT DỰA TRÊN ĐƠN VỊ CỤM TỪ . 14
    3.1 Mô hình log-linear áp dụng cho bài toán dịch máy. 14
    3.2 Các đặc trưng khác sử dụng trong mô hình dịch dựa vào cụm từ. 15
    3.2.1 Hàm phạt từ và hàm phạt cụm từ (Word penalty). 16
    3.2.2 Xác suất dịch theo 2 hướng. 16
    Chương IV:
    GIỚI THIỆU VỀ XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA SỬ DỤNG MÔ HÌNH MAXIMUM ENTROPY 17
    4.1 Giới thiệu xử lý nhập nhằng ngữ nghĩa. 17
    4.2 Lịch sử WSD 18
    4.3 Các phương pháp cơ sở cho xử lý nhập nhằng ngữ nghĩa. 18
    4.4 Các thành tích đã đạt được. 19
    4.5 Giới Thiệu về mô hình cực đại entropy
    (Maximum Entropy Model - MEM). 21
    4.5.1 Tổng Quan. 21
    4.5.2 Mô hình cực đại Entropy. 22
    4.5.2.1 Dữ liệu huấn luyện. 22
    4.5.2.2 Các đặc trưng và ràng buộc. 22
    4.5.2.3 Nguyên lý cực đại entropy. 23
    4.5.2.4 Dạng tham số. 25
    4.5.2.5 Mối quan hệ với Maximum Likelihood. 26
    4.5.2.6 Tính toán các tham số. 27
    4.5.3 Lựa chọn đặc trưng. 28
    4.5.3.1 Motivation. 29
    4.5.3.2 Lựa chọn đặc trưng cơ sở (Basic feature selection). 30
    4.6 Quá trình huấn luyện WSD cho dịch máy thống kê. 31
    4.6.1 Sinh tự động ngữ liệu huấn luyện WSD 32
    4.6.2 Các thuộc tính WSD 34
    4.6.3 Huấn luyện mô hình WSD 35
    Chương V:
    TÍCH HỢP XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA VÀO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ 39
    5.1 Các nghiên cứu đã có về tích hợp WSD vào SMT 39
    5.2 Tích hợp WSD vào SMT 39
    5.3 Thực Nghiệm 40
    5.3.1 Công cụ đánh giá. 40
    5.3.1.1 Giới thiệu BLEU 40
    5.3.1.2 Phương pháp. 40
    5.3.2 Dữ liệu. 41
    5.3.3 Các công cụ. 41
    5.3.4 Đánh giá WSD 42
    5.3.5 Đánh giá SMT 42
    5.3.6 Đánh giá hiệu quả của các loại thuộc tính WSD 43
    Kết luận. 44
    PHỤ LỤC 45
    TÍNH XẤP XỈ ĐỘ TĂNG 45
    TÀI LIỆU THAM KHẢO 48


    TÀI LIỆU THAM KHẢOTài liệu tiếng Anh
    [1] Philipp Koehn and Kevin Knight, “Introduction to Statistical Machine Translation”, Tutorial at AMTA, 2004.
    [2] David Chiang, “A Hierarchical Phrase-Based Model for Statistical Machine Translation”, Proceedings of the 43 Annual Meeting of the ACL, 2005.
    [3] Philipp Koehn, “Challenges in Statistical Machine Translaton”, Talk given at PARC, Google, ISI, MITRE, BBN, Univ. of Montreal, 2004.
    [4] Och F.J. and Ney H., “Discriminative training and maximum entropy models for statistical machine translation” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 295-302, Philadelphia, PA, July 2002.
    [5] Phillip Koehn, Marcello, Wade Shen, Nicola Bertoldi, Ondrej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Corbett Moran, Evan Herbst, “Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding”, final report of the 2006 Language Engineering Workshop.
    [6] Kevin Knight, “A statistical MT tutorial workbook”, Prepared with JHU summer workshop, 1999.
    [7] Och, F. J. and H. Ney. “Improved statistical alignment models”. In Proceedings of ACL, 2000.
    [8] Koehn, P., F. J. Och, and D. Marcu. “Statistical phrase-based translation”. In Proceedings of HLT-NAACL, 2003.
    [9] Della Petra và Berger, “A Maximum Entropy Approach to Natural Language Processing”.
    [10] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, “BLEU : A Method for Automatic Evaluation of Machine Translation”.
    [11] Koehn, P. Pharaoh: a beam search decoder for phrase-based statistical machine translation models. In Proceedings of AMTA, 2004Papineni K., Roukos S., Ward T., Zhu Z-J.: BLEU: a method for Automatic Evaluation of Machine Translation. Proceedings of the 20[SUP]th[/SUP] Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, p.p 311-318, July 2001.
    [12] White J.S, T. O’Connell: The ARPA MT evaluation methodologies: evolution, lessons, and future approaches. Proceedings of the first conference of the association for machine translation in the Americas, p.p 193-205, Columbia, Maryland, 1994.
    [13] Popescu-Belis A.: An experiment in comparative evaluation: Humans vs. Computers. Proceedings of the Ninth Machine Translation Summit. New Orleans, Louisiana, USA, 2003
    [14] Yee Seng Chan, Hwee Tou Ng và David Chiang “Word Sense Disambiguation Improves Statistical Machine Translation”
    [15] Carpuat, M. and Wu, D. (2007). Improving statistical machine translation using word sense disambiguation. EMNLP-CoNLL 2007.
    [16] Hutchins, W. John; and Harold L. Somers (1992). An Introduction to Machine Translation. London: Academic Press. ISBN 0-12-362830-X. http://www.hutchinsweb.me.uk/IntroMT-TOC.htm.
    [17] Bogdan Babych, Anthony Hartley, and Serge Sharoff (2007) "Translating from under-resourced languages: comparing direct transfer against pivot translation". Proceedings of MT Summit XI, 10-14 September 2007, Copenhagen, Denmark. pp.29—35
    [18] W. Weaver. 1949. Translation. In Machine Translation of Languages: Fourteen Essays, ed. by Locke, W.N. and Booth, A.D. Cambridge, MA: MIT Press.
    [19] Jirka Hana, April 21[SUP]st[/SUP] 2003, “Ling 201 – Syntax 2”.
    [20] Manuel Palomar, Armando Su´arez “A Maximum Entropy-based Word Sense Disambiguation System”
    [21] “Demonstration of LOGOS I System for English-Vietnamese Machine Translation”
    [22] Dorr B.J. el. al, “A survey of current paradigms in machine translation” UMIACS-TR-98-72, 1998.
    [23] Cabezas and P. Resnik. 2005. Using WSD techniques for chine translation. In Proc. of ACL03. Lexical selection in statistical machine translation. Technical report, University of Maryland.
    [24] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin “A STATISTICALAPPROACH TO MACHINE TRANSLATION”
    [25] Nguyen Phuong Thai, 2008, “Tree-to-string phrase-based statistical machine translation” PhD thesis. JAIST.
    [26] Nguyen, T. P., Nguyen V. V. and Le A. C. “Vietnamese Word Segmentation Using Hidden Markov Model”. In Proceedings of International Workshop for Computer, Information, and Communication Technologies in Korea and Vietnam, 2003.
    [27] Eneko Agirre and Philip Edmonds “WSD tutorial book” page 1. Page 28.
    Tài liệu tiếng Việt
    [28] Võ Trung Hùng, Đại học Bách Khoa Đà Nẵng, “Phương pháp và công cụ đánh giá tự động các hệ dịch tự động trên mạng”.
    [29] Báo cáo kỹ thuật SP3 hệ dịch Anh – Việt.
    [30] Nguyễn Thị Phương Thảo, Luận văn thạc sĩ “Dịch máy Anh-Việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ”.
     

    Các file đính kèm:

Đang tải...