Thạc Sĩ Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 27/12/13.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT
    Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tính hữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ.
    Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối chính xác. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Việc áp dụng vào canh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểm của ngôn ngữ tiếng Việt.
    Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuật canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật Longest Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này.
    Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm các cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản. Ngoài ra, chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu. Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn.
    Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng và cách hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt.


    ABSTRACT
    Bitext (- parallel text) is a text in one language and its translation in another language. They are available sources of information for bilingual lexicography, machine translation. In order to achieve this, they must be aligned first, i.e. the various pieces of the text must be put into correspondence.
    Recently, text alignment has been taken interest in very much. Many methods and algorithm have been brought out into open and applied. The result were relatively accurate. However, any pair of languages have their characteristics, the application of Vietnamese- English bittext alignment needs to be adjusted in accordance with the Vietnamese characteristics.
    In this study, I am constructing a new alignment procedure which applied the algorithm of length- based alignment, dictionary- based word alignment and Longest Sorted Sequence Algorithm (LSSA). The interesting thing in this composition is taking the notice of a commonly special problem- cross translation. Then, the algorithm must solve the cross translation problem which is often bypassed by many previous algorithms.
    The degree of accuracy is relatively high. It creates a corpus inncluding aligned pairs of sentences and devided in the field of text. In addition, the algorithm will mark map points between words in sentences. It will be an useful data file for machine translation and automically create a specialist dictionary when the data warehouse is large enough.
    In this composition, I present in detail algorithms using and the realization of applied algorithms in Vietnamese- English bitext alignment.


    MỤC LỤC
    Phần 1 1
    Giới thiệu. 1
    1.1 Bối cảnh thực hiện luận văn. 1
    1.2 Thực trạng – Vấn đề. 1
    1.3 Hướng giải quyết vấn đề. 2
    1.4 Mục tiêu của luận văn. 2
    1.5 Đóng góp của luận văn. 2
    1.6 Hướng phát triển. 5
    1.7 Cấu trúc của luận văn. 5
    Phần 2. 7
    Các công trình nghiên cứu liên quan. 7
    2.1 Phương pháp canh lề văn bản dựa vào chiều dài câu. 7
    2.1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]: 8
    2.1.2 Phương pháp của Peter F.Brown [17]: 9
    2.2 Phương pháp canh lề dựa vào từ vựng. 10
    2.2.1 Phương pháp của Michel Simard, George F. Foster, P. Isabelle [15]: 10
    2.2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]: 11
    2.2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]: 12
    2.2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13
    2.2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes, Joao Mexia:[8] 14
    2.2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]: 16
    2.3 Kết hợp các phương pháp. 16
    2.3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2]16
    2.3.2 Phương pháp của Stanley F.Chen:[14] 17
    2.3.3 Phương pháp SIMR và GSA, tác giả I. Dan Melamed: [10] 18
    2.4 Nghiên cứu của các tác giả trong nước. 20
    2.4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004): 20
    2.4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: 21
    Phần 3. 22
    Cơ sở lý thuyết 22
    3.1 Các định nghĩa. 22
    3.1.1 Phép canh lề: 22
    3.1.2 Phép canh lề chéo. 23
    3.2 Đánh giá mức độ chính xác của phép canh lề. 24
    3.3 Hệ số Dice (D) 24
    3.4 Xác suất có điều kiện: 24
    3.5 Phân tích hồi qui tuyến tính: 25
    Phần 4. 28
    Phân tích giải thuật 28
    4.1 Giải thuật Stemming: 28
    4.2 Giải thuật phân đoạn câu: 32
    4.3 Giải thuật canh lề văn bản theo chiều dài câu [16]: 34
    4.3.1 Khung lập trình động (A Dynamic Programming Framework): 34
    4.3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm): 37
    4.4 Phương pháp canh lề sử CBA [8]: 37
    4.5 Phương pháp canh lề sử dụng LSSA [1]: 40
    4.6 So sánh phương pháp LSSA với CBA: 41
    4.7 Những khó khăn gặp phải khi áp dụng SIRM và GSA [10] 46
    4.8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): 50
    Phần 5. 52
    Hiện thực. 52
    5.1 Stemming: Dùng giải thuật Porter. 54
    5.2 Xác định từ ghép tiếng Việt và cụm từ tiếng Anh: 55
    5.3 Phân đoạn câu: 57
    5.4 Canh lề câu theo chiều dài câu: 58
    5.5 Kiểm tra tính hợp lệ của phép canh lề. 62
    5.6 Canh lề chéo: 65
    5.7 Canh lề từ: 66
    5.8 Phân loại văn bản: 68
    Phần 6. 69
    Kết quả thực nghiệm 69
    6.1 Giới thiệu chương trình: 69
    6.2 Kết quả sau bước canh lề câu (Bước 1): 70
    6.3 Kết quả sau bước canh lề chéo (Bước 2): 75
    6.4 Kết quả canh lề từ: 76
    6.5 Các chức năng khác: 80
    6.5.1 Lưu kết quả canh lề: 80
    6.5.2 Mở lại một qui trình canh lề: 80
    6.5.3 Chạy từng bước giải thuật: 80
    Phần 7. 81
    Kết luận. 81
    7.1 Tổng kết: 81
    7.2 Hướng mở rộng và phát triển đề tài: 83
    7.2.1 Hoàn chỉnh luận văn: 83
    7.2.2 Phát triển theo hướng nghiên cứu: 83
    7.2.3 Phát triển theo hướng ứng dụng: 83
    BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT. 85
    BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH 87
    TÀI LIỆU THAM KHẢO 89
    PHỤ LỤC


    Phần 1 [​IMG]
    Giới thiệu
    Văn bản song ngữ (bitext/ bilingual text/ parallel text) là một văn bản được thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Văn bản song ngữ thường được sử dụng trong các tài liệu hành chính, pháp luật, tạp chí
    1.1 Bối cảnh thực hiện luận văn: Hiện nay, văn bản song ngữ tồn tại với một số lượng lớn, và chất lượng dịch thuật của nó rất cao. Để tận dụng được lợi ích của những văn bản loại này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản (text alignment), tức là tìm ra được sự tương ứng giữa các đoạn, câu trong hai ngôn ngữ của văn bản. Điều này có ý nghĩa rất quan trọng, nó chuyển nguồn dữ liệu này thành nguồn tri thức hữu ích. Bởi vì đó là bước đầu tiên và bắt buộc trong việc xây dựng các kho ngữ liệu song ngữ. Nó không chỉ hỗ trợ cho việc xây dựng từ điển song ngữ, dịch máy, mà nó còn hỗ trợ cho nhiều lĩnh vực khác như giải quyết nhập nhằng của từ, rút trích thông tin Ngoài ra, canh lề văn bản còn là một công cụ hữu ích để trợ giúp cho người làm công tác phiên dịch.
    Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối chính xác. Trong đó phương pháp dựa vào thống kê chiếm ưu thế so với những phương pháp khác. Tuy nhiên, kết quả phụ thuộc rất lớn vào tính tương đồng giữa 2 ngôn ngữ. Hai ngôn ngữ có cùng họ thì kết quả canh lề rất cao.
    1.2 Thực trạng – Vấn đề: Nội dung của đề tài này là canh lề văn bản Anh - Việt. Đây là 2 ngôn ngữ có nhiều đặc điểm khác nhau nên việc ứng dụng những công trình nghiên cứu trước đó cần có sự hiệu chỉnh cho phù hợp với đặc điểm của tiếng Việt. Một số tác giả trong nước cũng đã có những nghiên cứu về vấn đề này. Các giải thuật được áp dụng gồm phương pháp canh lề dựa vào chiều dài câu và phương pháp canh lề dựa vào từ vựng. Giải thuật SIRM và GSA là sự kết hợp ưu điểm của 2 xu hướng canh lề dựa vào chiều dài câu và dựa vào từ vựng. Tuy nhiên, các nghiên cứu này dừng lại ở mức canh lề câu, và bỏ qua yếu tố dịch chéo (các đoạn, câu trong ngôn ngữ thứ hai không theo thứ tự tương ứmg với câu và đoạn trong ngôn ngữ thứ nhất).
    1.3 Hướng giải quyết vấn đề: Để khắc phục những vấn đề trên, tôi đã tham khảo các công trình nghiên cứu mà các tác giả trong và ngoài nước đã thực hiện, tiến hành tìm hiểu những ưu, khuyết điểm của các phương pháp này, và khả năng áp dụng vào canh lề văn bản Anh – Việt. Tổng hợp những kiến thức đó, trên cơ sở kế thừa và cải tiến, tôi đưa ra một qui trình canh lề mới, và hiện thực ý tưởng của mình. Qui trình bao gồm các giải thuật: xác định từ ghép tiếng Việt, cụm từ tiếng Anh dựa vào từ điển, phân đoạn văn bản, phân đoạn câu, canh lề câu dựa vào chiều dài câu (số lượng từ), giải thuật canh lề theo chuỗi được sắp xếp dài nhất LSS (Longest Sorted Sequence).
    1.4 Mục tiêu của luận văn: § Nghiên cứu giải thuật canh lề dựa vào chiều dài câu, giải thuật LSSA.
    § Xây dựng qui trình canh lề mới, nhằm xác định phép canh lề chéo trong canh lề văn bản song ngữ Anh - Việt.
    § Xử lý một số ngoại lệ trong ngôn ngữ Anh – Việt và trong dịch thuật.
    § Tạo kho dữ liệu gồm các cặp câu Anh – Việt, phân theo lĩnh vực.
    1.5 Đóng góp của luận văn: Các phương pháp canh lề văn bản song ngữ trước đây thường bỏ qua một số ngoại lệ trong ngôn ngữ và trong dịch thuật, ví dụ như phân đoạn không tương ứng, dấu chấm trong từ viết tắt không phải là dấu kết thúc câu, trường hợp canh lề chéo, hay trường hợp chuyển đổi từ loại (danh từ, động từ, ) trong dịch thuật. Điều này làm cho kết quả canh lề không thể chấp nhận được khi gặp những trường hợp đặc biệt, thường xảy ra trong văn bản song ngữ Anh –Việt. Ngoài ra, một cụm từ, một thành ngữ khi tách ra thành từng từ hoàn toàn không có ý nghĩa, trong tiếng Anh cũng như trong tiếng Việt. Trường hợp đặc biệt và phổ biến nhất là từ ghép tiếng Việt.
    Để giải quyết những vấn đề nêu trên, trong luận văn đưa ra những giải pháp tương ứng:
    Trước hết, chương trình sử dụng phương pháp canh lề theo chiều dài câu để canh lề đoạn (paragraph), và canh lề câu (sentence). Chiều dài câu được tính theo số lượng từ đơn có trong câu. Mô hình lập trình động được sử dụng một cách hợp lý và hiệu quả. Để xác định chính xác vị trí kết thúc câu (quá trình phân đoạn câu), chương trình tập hợp những qui luật, kết hợp với thống kê danh sách từ viết tắt. Giai đoạn canh lề câu được trình bày trong mục 5.3, 5.4, phần hiện thực.
    Tiếp theo, chương trình nhận dạng cụm từ tiếng Anh và từ ghép tiếng Việt dựa vào danh sách thống kê cụm từ tiếng Anh và từ điển từ ghép tiếng Việt. Đây là giai đoạn phân đoạn từ (trình bày trong mục 5.2, phần hiện thực). Đây cũng là bước chuẩn bị cho giải thuật canh lề từ.
    Để tăng độ tin cậy trong bước canh lề câu, chương trình kiểm tra lại bằng cách tính độ tương tự của hai câu đã được canh lề. Mức độ tương tự của câu được tính dựa trên những cặp từ giống nhau trong câu, hay khi biểu diễn trong không gian văn bản song ngữ, nó là điểm tương ứng thật sự. Nếu độ tương tự thấp hơn giới hạn cho phép, chương trình bắt buộc phải tạo một tổ hợp canh lề mới cho những cặp câu chưa được chấp nhận này, và chọn ra cách canh lề tối ưu. Đây là giai đoạn canh lề chéo(phạm vi là các câu trong cùng một đoạn), được trình bày trong mục 5.5, 5.6, phần hiện thực. Xử lý canh lề chéo có được các nhà nghiên cứu nói đến nhưng chưa được hiện thực. Đây là một đóng góp của luận văn. Chương trình có thể được cải tiến để canh lề chéo cho các câu trong toàn văn bản.
    Để canh lề từ chính xác và mịn nhất (chi tiết nhất), chương trình có sử dụng giải thuật Porter để cắt lấy gốc từ tiếng Anh (stemming). Với nhận xét là không phải lúc nào một danh từ tiếng Anh cũng được dịch thành một danh từ tiếng Việt, một động từ tiếng Anh được dịch thành một động từ tiếng Việt. Việc stemming giúp cho việc nhận dạng các cặp từ giống nhau được đầy đủ hơn. Đây là một điểm mới khi áp dụng vào canh lề từ Anh – Việt. Trong quá trình canh lề từ, chương trình cũng loại ra những điểm tương ứng ngẫu nhiên bằng cách lọc bỏ những từ không có giá trị canh lề (stopword). Ngoài ra, giải thuật LSSA cũng nhận dạng được những đoạn canh lề chéo sao cho chuỗi các từ canh lề là dài nhất. Ý tưởng và chi tiết giải thuật LSSA trình bày trong mục 4.5, phần phân tích giải thuật và mục 5.7, phần hiện thực.
    Việc áp dụng các giải thuật này vào ngôn ngữ tiếng Việt đã được điều chỉnh và cải tiến cho phù hợp với đặc điểm của tiếng Việt, và một số ngoại lệ của ngôn ngữ. Độ chính xác của giải thuật còn phụ thuộc vào việc thu thập một kho dữ liệu ban đầu, ví dụ như từ điển song ngữ, danh sách từ ghép tiếng Việt, cụm từ tiếng Anh, từ viết tắt, từ không có giá trị canh lề (stopwords). Ngoài ra, nó còn phụ thuộc rất lớn vào các thông số của hệ thống, mà các thông số này cần được điều chỉnh sau quá trình thực nghiệm. Để chạy kiểm nghiệm chương trình, các văn bản được sử dụng thuộc 2 lĩnh vực: (1)Kinh tế: các văn bản của đại sứ quán Hoa Kỳ tại Hà Nội (website: http://usinfo.state.gov/products/pubs/oecon/ và http://usembassy.state.gov/posts/vn1/) và (2)Tin học: sưu tập từ nhiều nguồn khác nhau trên mạng Internet. Điều này tạo sự thuận lợi vì một số văn bản này đã được tác giả Trần Giang Sơn tổng hợp và thử nghiệm, tạo nên tính chính xác khi nhận xét đánh giá kết quả của giải thuật. Ngoài ra, việc tập hợp các văn bản từ nhiều nguồn khác nhau tạo nên tính đa dạng các ngoại lệ trong dịch thuật.
    Tổng kết lại, luận văn đã phân tích một số điểm yếu còn tồn tại trong các giải thuật trước đây (trình bày trong phần 4 – Phân tích giải thuật) và đưa ra hướng khắc phục. Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Bên cạnh đó, chương trình cũng áp dụng giải thuật LSSA, lần đầu áp dụng vào canh lề từ cho văn bản Anh – Việt. Mặc dù giải thuật này chưa thật sự phù hợp, nhưng cũng giúp chúng ta rút ra được một kinh nghiệm khi nghiên cứu về canh lề.
    Ngoài ra, mục tiêu của chương trình là ứng dụng canh lề văn bản song ngữ vào các mục đích khác. Đó là xây dựng một kho ngữ liệu gồm 10.000 cặp câu đã
     

    Các file đính kèm:

Đang tải...