Tiến Sĩ Mô hình văn phạm liên kết tiếng Việt

Nhu Ely · 22/11/13

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NĂM - 2013

MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 4
DANH MỤC CÁC HÌNH VẼ . 5
DANH MỤC BẢNG BIỂU . 8
DANH MỤC CÁC KẾT NỐI QUAN TRỌNG . 9
MỞ ĐẦU . 11

CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM CHO NGÔN
NGỮ TỰ NHIÊN . 20
1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh 20
1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên . 20
1.1.2. Văn phạm phi ngữ cảnh xác suất . 23
1.1.3. Văn phạm phi ngữ cảnh xác suất từ vựng hóa 26
1.1.4. Văn phạm kết nối cây 28
1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất 29
1.3. Cách tiếp cận phụ thuộc 30
1.3.1. Một số khái niệm . 30
1.3.2. Tính chất của cây phụ thuộc 33
1.4. Văn phạm liên kết 35
1.4.1. Khái niệm văn phạm liên kết . 35
1.4.2. Các định nghĩa hình thức về văn phạm liên kết 39
1.5. Kết luận . 41
CHƯƠNG 2 MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT . 45
2.1. Văn phạm liên kết cho tiếng Việt 45
2.1.1. Cấu trúc từ điển liên kết 45
2.1.2. Xây dựng liên kết cho danh từ 49
2.1.3. Các liên kết cho động từ 57
2.1.4. Các liên kết cho tính từ 62
2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản . 63
2.2. Mở rộng từ điển văn phạm liên kết . 65
2.2.1. Giải thuật mở rộng từ điển 67
2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt . 69
2.2. Kết luận 69

CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT . 72
3.1. Bộ phân tích cú pháp liên kết 72
3.1.1. Giải thuật phân tích cú pháp 72
3.1.2. Lược tỉa 74
3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản 76
3.2. Phân tích cú pháp cho câu ghép 79
3.2.1. Xây dựng cây diễn ngôn 83
3.2.2. Giải thuật phân tích cú pháp câu ghép 92
3.2.3. Tìm từ để kết nối mệnh đề . 94
3.2.4. Kết quả thử nghiệm phân tích câu ghép 96
3.2.5. Độ phức tạp tính toán 99
3.3. Khử nhập nhằng 99
3.3.1. Khử nhập nhằng thành phần 100
3.3.2. Khử nhập nhằng liên hợp 106
3.4. Kết luận . 110

CHƯƠNG 4 HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI .
. 112
4.1. Tổng quan về dịch máy . 112
4.1.1. Tình hình phát triển dịch máy ở Việt Nam . 112
4.1.2. Phương pháp đánh giá chất lượng dịch máy . 114
4.2. Khác biệt ngôn ngữ Việt - Anh . 115
4.2.1. Khác biệt hình thái 115
4.2.2. Khác biệt về trật tự từ 118
4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải 119
4.3.1.Tìm nghĩa từ trong từ điển ADJ . 121
4.3.2. Xây dựng bộ luật dịch . 122
4.3.3. Hoàn thiện câu dịch . 129
4.3.4. Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải 129
4.4. Kết luận 134
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN . 136
Tóm tắt . 136
Các đóng góp chính của luận án . 136
Về mặt khoa học 136
Về mặt thực tiễn 137
Hạn chế và hướng phát triển 138
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . 139
TÀI LIỆU THAM KHẢO . 140
TIẾNG VIỆT 140
TIẾNG ANH 142
TIẾNG NGA 150
CÁC WEBSITE . 150
PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG
VIỆT 151
PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ
CÂU GHÉP HAI MỆNH ĐỀ 169
PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH 178
1. Luật xác định thuộc tính . 178
2. Luật dịch cụm từ . 179
3. Luật chuyển đổi cấu trúc 182
PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU . 183

MỞ ĐẦU
Xử lý ngôn ngữ tự nhiên trên máy tính là một trong những bài toán khó của công nghệ
thông tin. Nghiên cứu về xử lý ngôn ngữ tự nhiên đã được khởi động từ những năm 40 của
thế kỷ 20, ngay sau khi xuất hiện máy tính điện tử. Dù được bắt đầu muộn hơn, xử lý tiếng
Việt đã phát triển rất mạnh mẽ trong những năm gần đây do sự bùng nổ thông tin trên
mạng Internet với hàng loạt yêu cầu tìm kiếm, dịch thuật tài liệu, quảng bá thông tin, đào
tạo, hội thảo từ xa . Số nhà nghiên cứu theo đuổi lĩnh vực này tăng lên nhanh chóng, tiếp
cận theo cả hai hướng lớn: xử lý tiếng nói và xử lý văn bản. Do phạm vi của đề tài, luận án
chỉ đề cập đến một số vấn đề liên quan trong nhánh xử lý văn bản.
Phân tích cú pháp là khâu quan trọng để giải quyết nhiều vấn đề khác, do vậy các bộ
phân tích cú pháp tiếng Việt đã được xây dựng từ rất sớm. Đầu tiên là những bộ phân tích
cú pháp dựa trên văn phạm phi ngữ cảnh với các phương pháp truyền thống: bộ phân tích
cú pháp theo phương pháp CYK của Lê Thanh Hương và các đồng nghiệp [12], các bộ
phân tích cú pháp theo phương pháp Earley của Phan Thị Tươi [27], Nguyễn Gia Định và
các đồng nghiệp [5]. Để giải quyết vấn đề nhập nhằng, nhóm Lê Thanh Hương đã sử dụng
văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm cấu trúc đoạn hướng
trung tâm[15]. Nhiều mô hình văn phạm khác cũng được xây dựng cho tiếng Việt với để
mở rộng lớp ngôn ngữ được biểu diễn: văn phạm kết nối cây từ vựng hóa do Nguyễn Thị
Minh Huyền và các đồng nghiệp xây dựng [20], [101] cho phép biểu diễn lớp ngôn ngữ
cảm ngữ cảnh, cấu trúc nét và văn phạm hợp nhất được nhóm Trần Ngọc Tuấn sử dụng
[26], [122], [123] cho phép biểu diễn lớp ngôn ngữ lớn nhất theo phân cấp của
Chomsky[63]: lớp ngôn ngữ loại 0.
Dịch tự động là lĩnh vực khó nhưng lại có khả năng ứng dụng thực tế rất lớn. Hiện nay
các nhà nghiên cứu Việt Nam đã thử nghiệm một số hệ thống dịch tự động dựa trên các
hướng tiếp cận khác nhau. Có thể kể đến VCLEVT của Trường Đại học Khoa hoc Tự
nhiên ĐHQG TP Hồ Chí Minh với tiếp cận BTL - học luật chuyển đổi từ ngữ liệu song
ngữ [3]. Hệ dịch đầu tiên của Việt Nam được thương mại hóa là EVtran - VEtran của
Nacentech theo cách tiếp cận dựa trên luật [10]. Một hệ thống dịch khác đạt chất lượng khá
tốt là hệ thống Vietgle chuyên dịch Anh Việt của Lạc Việt. Ngoài ra còn có các hệ dịch
máy khác như hệ LVT của Đại học Công nghệ ĐHQG Hà Nội [93], hệ dịch máy thống kê
Việt Anh sử dụng phân tích cú pháp có xác suất của Trường Đại học Bách khoa thành phố
Hồ Chí Minh [124]. Cũng không thể không nhắc đến hệ thống dịch Google Translate theo
hướng tiếp cận thống kê với kho ngữ liệu khổng lồ của Google. Nhìn chung, các sản phẩm
dịch tự động chủ yếu theo hướng Anh - Việt. Số lượng và chất lượng của các hệ thống dịch
Việt Anh còn hạn chế.
Về khai thác văn bản trên Internet, nhiều nhà nghiên cứu Việt Nam quan tâm đến các
lĩnh vực biểu diễn văn bản như Hồ Tú Bảo [29],[33]; khai phá web, web ngữ nghĩa như
Cao Hoàng Trụ [117], Hồ Tú Bảo[63]; tóm tắt văn bản như Lê Thanh Hương [66], nhóm
Hà Thành Lê [15] . Tuy nhiên, không có nhiều nghiên cứu được thực hiện trên văn bản
tiếng Việt như hệ thống tóm tắt văn bản của nhóm Hà Thành Lê [15], hệ thống rút trích nội
dung trang web tiếng Việt của nhóm Đỗ Phúc [19].
Do đặc điểm về cấu tạo từ, phân tách và gán nhãn từ là giai đoạn tiền xử lý bắt buộc
trong các hệ thống xử lý tiếng Việt. Công cụ phân tách từ vnTokenizer đã được Nguyễn
Thị Minh Huyền và các đồng nghiệp phát triển, sử dụng ôtô mat hữu hạn kết hợp phân tích
biểu thức chính quy để xác định các chuỗi từ [102]. Trường hợp nhập nhằng được giải
quyết bằng thuật toán trực cảm (heuristic), ưu tiên cách phân tách cho kết quả chứa những
từ có độ dài lớn nhất. Phương pháp này đạt độ chính xác cao với bộ ngữ liệu mẫu (trên
98,5%) [116]. Bộ tách từ JVnSegmenter của nhóm Phan Xuân Hiếu [121] sử dụng công
nghệ CRF và SVM cũng cho kết quả 94%. Ngoài ra có thể kể đến bộ tách từ của Lê An Hà
[60] tính xác suất và độ hợp lý cực đại (maximum likelihood). Bài toán gán nhãn từ loại
thường được giải quyết cùng bài toán tách từ. Cùng với bộ JVnSegmenter, các tác giả của
nó xây dựng bộ gán nhãn từ JVnTagger sử dung CRF và entropy cực đại [7]. Bộ
vnTokennizer cũng đi kèm với vnQTAG [13]. Một số nghiên cứu của các tác giả Việt Nam
cũng tập trung vào khử nhập nhằng nghĩa từ như Lê Anh Cường [45], [46], Đinh Điền
[48].
Các bộ ngữ liệu là tài nguyên hết sức quan trọng trong xử lý tiếng Việt. Các đề tài cấp
nhà nước KC.01-03, KC.01.01/06-10 đã thu thập được một kho ngữ liệu tiếng Việt lấy từ
các bài báo điện tử. Hiện nay, bộ ngữ liệu 1 triệu âm tiết đã tách từ, 10.000 câu được gán
nhãn từ loại, treebank tiếng Việt với 10.000 phân tích câu đã được xây dựng. Đây cũng là
những đóng góp rất lớn, tạo thuận lợi đáng kể cho những nghiên cứu về xử lý tiếng Việt tự
động.
Về ngữ liệu song ngữ: kho ngữ liệu của các sách báo song ngữ cũng rất đáng kể. tuy
nhiên kho ngữ liệu đó khó hỗ trợ cho xử lý tự động, do chưa thực hiện những thao tác tiền
xử lý như gióng hàng mức câu, mức từ. Ngữ liệu song ngữ Anh -Việt điện tử (có dịch 1-1,
có gán nhãn ngôn ngữ) phổ biến có kho ngữ liệu song ngữ Anh -Việt EVC của Cao Hoàng
Trụ là công trình công bố chính thức đầu tiên ở trong nước[24], [25], kho ngữ liệu song
ngữ của nhóm Đinh Điền được công bố đầu tiên ở ngoài nước [47]. Đã có công trình
nghiên cứu chi tiết về xây dựng và khai thác kho ngữ liệu song ngữ Anh - Việt có gán nhãn
ngôn ngữ của Đinh Điền [48]. Cũng có những kết quả khác về xây dựng kho ngữ liệu cho
xử lý văn bản của nhóm Nguyễn Thị Minh Huyền [36], [37], Phan Huy Khánh [73]. Đề tài
KC.01.01/06-10 đã thu thập được 100.000 câu song ngữ Anh - Việt gióng hàng mức câu,
trong đó có 20.000 câu thuộc lĩnh vực tin học và 80.000 câu thuộc các lĩnh vực kinh tế, xã
hội. Ngữ liệu song ngữ Việt Anh còn nghèo nàn, chưa có những bộ ngữ liệu mẫu đáng kể.
Một số từ điển điện tử đã được xây dựng, chủ yếu là để phục vụ tra cứu trên máy tính,
tuy nhiên phần lớn các từ điển này chưa dùng được trong xử lý tự động. Đáng kể nhất là bộ
từ điển tiếng Việt của đề tài KC.01.01/06-10 [16] được xây dựng trên mô hình LMF với ba
gói: hình thái, cú pháp, ngữ nghĩa. Bộ từ điển thể hiện khá toàn diện các thông tin liên
quan đến từ pháp và cú pháp. Một số từ điển song ngữ được cung cấp miễn phí như từ
điển Anh Việt của đề tài KC.01.01/06-10 gồm gần 60.000 mục từ, từ điển Việt Anh cũng
do đề tài nói trên cung cấp gồm hơn 11.000 mục từ, bộ từ điển Anh Việt của Hồ Ngọc Đức
bao gồm 110.000 mục từ, từ điển Việt Anh gồm 23.000 mục từ.
Trên đây là một phần của bức tranh về tình hình nghiên cứu xử lý tự động văn bản tiếng
Việt với sự phát triển đáng kể trong thời gian vừa qua. Nếu so với tiếng Anh, các ngôn ngữ
châu Âu, hay tiếng Trung, Nhật, Hàn, có thể thấy nguồn tài nguyên phục vụ cho xử lý
tiếng Việt còn nghèo nàn. Cho dù hiện nay đã có sự lấn át của các phương pháp học máy,
thống kê, rất ít nghiên cứu tách rời hoàn toàn các mô hình biểu diễn cú pháp. Việc tham
khảo cấu trúc cú pháp của văn bản nguồn cũng như văn bản đích xuất hiện trong các hệ
thống dịch của nhóm Đinh Điền [3], nhóm Đại học Bách khoa thành phố Hồ Chí Minh
[124], nhóm nghiên cứu tại JAIST [115]. Sử dụng phương pháp học thống kê kết hợp biểu
diễn cú pháp sẽ cho những sản phẩm có chất lượng tốt hơn hẳn, chẳng hạn trong lĩnh vực
dịch máy [115]. Như vậy vấn đề biểu diễn cú pháp vẫn là vấn đề hết sức quan trọng trong
xử lý tiếng Việt.
Mô hình văn phạm phi ngữ cảnh là mô hình phổ biến nhất để biểu diễn cú pháp tiếng
Việt và phân tích cú pháp theo những phương pháp nổi tiếng CYK, Earley [12], [27], [5].
Mô hình này cũng được sử dụng cho một số hệ thống dịch máy [124].
Việc phân chia từ thành các lớp mà không quan tâm đến những đặc điểm từ vựng của
văn phạm ngữ cấu cổ điển có thể làm cho bộ phân tích cú pháp chấp nhận nhiều câu không
bao giờ được sử dụng trong thực tế, ví dụ câu tiếng Việt “Tôi mua hai thóc”. Câu này,
không tồn tại trong tiếng Việt vì từ “thóc” trong không bao giờ đi trực tiếp sau số từ. Hiện
tượng này cũng rất phổ biến trong các ngôn ngữ khác. Xu hướng từ vựng hóa các văn
phạm được nhiều nhà nghiên cứu quan tâm. Nhiều mô hình văn phạm từ vựng hóa đã được
xây dựng cho ngôn ngữ tự nhiên như văn phạm phi ngữ cảnh từ vựng hóa,văn phạm chức
năng từ vựng hóa, văn phạm cấu trúc đoạn hướng trung tâm, văn phạm kết nối cây từ vựng
hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết . Hiện nay, xu hướng từ vựng hóa cũng
đã ảnh hưởng tới các văn phạm tiếng Việt. Các mô hình văn phạm phi ngữ cảnh từ vựng
hóa kết hợp xác suất [22], văn phạm kết nối cây từ vựng hóa [20] đã được phát triển cho
tiếng Việt. Tuy nhiên chỉ có một số ít các văn phạm như văn phạm phạm trù tổ hợp, văn
phạm liên kết là hoàn toàn từ vựng hóa, tức là tồn tại những luật riêng cho từng mục từ
[112]. Mô hình hoàn toàn từ vựng hóa cho phép đặc tả nhiều ngoại lệ về cú pháp và từ
pháp của tiếng Việt.
Tập ký hiệu không kết thúc có kích cỡ lớn làm cho phân tích câu trong văn phạm phi
ngữ cảnh trở nên phức tạp. Do vậy khi sử dụng cây phân tích cho những mục đích khác
như dịch máy, sinh ngôn ngữ cần nhiều bước xử lý theo các mức phân cấp trong cây. Hơn
nữa, muốn tìm mối liên hệ giữa hai từ trong câu trong mô hình phi ngữ cảnh, phải vượt qua
một khoảng cách không nhỏ, thậm chí lần theo các mối nối đến tận nút gốc với chi phí thời
gian khá lớn. Trong tiếng Việt, với nhiều trường hợp, quan hệ giữa các từ lại cực kỳ quan
trọng vì nó có thể cho biết thông tin về số của danh từ, thì, thể của động từ, hay nhiều loại
quan hệ khác như quan hệ sở hữu, quan hệ về chất liệu .
Cách tiếp cận phụ thuộc hiện nay là xu hướng nổi trội để biểu diễn cú pháp. Ưu điểm
đầu tiên của văn phạm phụ thuộc là không có tập ký hiệu không kết thúc. Cây phụ thuộc
thể hiện mối quan hệ trực tiếp giữa các từ trong câu, đơn giản hơn rất nhiều so với cây ngữ
cấu của mô hình văn phạm phi ngữ cảnh. Khi sử dụng các quan hệ phụ thuộc có gán nhãn,
mô hình phụ thuộc mã hóa trực tiếp cấu trúc vị ngữ - bổ ngữ . Do vậy có thể dịch (hiểu)
riêng từng đoạn trong câu.
Mô hình văn phạm phụ thuộc không xạ ảnh có đặc điểm là cấu trúc phụ thuộc độc lập
với trật tự từ, rất thích hợp với các ngôn ngữ có trật tự từ tự do. Tất nhiên mô hình văn
phạm phụ thuộc vẫn tỏ ra hiệu quả cho các ngôn ngữ có trật tự từ khá chặt chẽ. Chính vì
vậy, các bộ phân tích cú pháp xây dựng trên mô hình phụ thuộc được phát triển cho hầu hết
các ngôn ngữ phổ biến trên thế giới, khởi đầu là các bộ phân tích cú pháp tiếng Anh của
Collins [44], bộ phân tích cú pháp phụ thuộc của đại học Stanford. Các bộ phân tích cú
pháp phụ thuộc cho các ngôn ngữ khác: tiếng Pháp của Candito [39], [40], tiếng Nga của
nhóm Bogulavsky [98], tiếng Trung Quốc của Lai Bong Yeung Tom, Changning Huang
[118], tiếng Nhật của Matsumoto và các đồng nghiệp [99], [125], tiếng Hàn của So Young
Kwon [78]. Nhiều ngôn ngữ Đông Nam Á cũng được phân tích cú pháp theo hướng phụ
thuộc như tiếng Indonesia với bộ phân tích cú pháp của Kamayani và Purwarianti [72],
tiếng Thái Lan với bộ phân tích cú pháp của Tongchim [119], tiếng Tagalog (Philippines)
với bộ phân tích của Maguilimotan và Matsumoto [85]. Mô hình văn phạm phụ thuộc cũng
rất hữu hiệu cho những ứng dụng như tóm tắt văn bản [91], [108], rút trích thông tin [42],
dịch máy [49], [55] .

Tiến Sĩ Mô hình văn phạm liên kết tiếng Việt

Nhu Ely New Member

Các file đính kèm:

Mô hình văn phạm liên kết tiếng Việt.pdf

Thạc Sĩ ứng dụng mô hình maximum entropy trong phân lớp quan điểm cho dữ liệu văn bản

Thạc Sĩ Vận dụng phương pháp mô hình hóa trong dạy học sinh học tế bào (sinh học 10)

Tiến Sĩ Chỉnh hình van mũi qua đường mổ hở điều trị nghẹt mũi

Thạc Sĩ Các hình thức nô lệ hiện đại – Một số vấn đề pháp lý và thực tiễn

Thạc Sĩ Nâng cao năng lực đội ngũ công chức các vụ chuyên môn thuộc Văn phòng Chính phủ nước Cộng hòa xã hội

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Tiến Sĩ Mô hình văn phạm liên kết tiếng Việt

Nhu Ely New Member

Các file đính kèm:

Mô hình văn phạm liên kết tiếng Việt.pdf

Thạc Sĩ ứng dụng mô hình maximum entropy trong phân lớp quan điểm cho dữ liệu văn bản

Thạc Sĩ Vận dụng phương pháp mô hình hóa trong dạy học sinh học tế bào (sinh học 10)

Tiến Sĩ Chỉnh hình van mũi qua đường mổ hở điều trị nghẹt mũi

Thạc Sĩ Các hình thức nô lệ hiện đại – Một số vấn đề pháp lý và thực tiễn

Thạc Sĩ Nâng cao năng lực đội ngũ công chức các vụ chuyên môn thuộc Văn phòng Chính phủ nước Cộng hòa xã hội