Luận Văn Xây dựng công cụ khai phá các cặp văn bản song ngữ trên World Wide Web cho cặp ngôn ngữ Anh –Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt
    Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câu song ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên, như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xây dựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắn thay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phá ra các thành phần tương đương (song ngữ) với chất lượng cao sẽ tạo nên một cơ sở dữ liệu song ngữ rất lớn phục vụ cho nhiều ứng dụng khác nhau.
    Luận văn tập trung vào nghiên cứu và phát triển các kỹ thuật trong khai phá cơ sở dữ liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể là trên các trang web song ngữ trong định dạng html. Nhiệm vụ của khai phá dữ liệu song ngữ là tự động tìm ra hai thành phần có ngữ nghĩa tương ứng trong tập những văn bản thuộc hai ngôn ngữ khác nhau. Hai thành phần được dóng hàng hoặc được ghép cặp này càng nhỏ thì thông tin hay tri thức thu được từ đó càng lớn. Thành phần ở đây có thể là văn bản, đoạn, câu và từ, . Loại thành phần mà chúng tôi xét đến trong luận văn này là văn bản.
    Để ghép cặp những văn bản html trong một tập văn bản trong hai ngôn ngữ mà luận văn khai thác là tiếng Anh và tiếng Việt, chúng tôi tìm hiểu các công nghệ trong các nghiên cứu hiện tại, xác định ưu điểm nhược điểm và tính khả thi để ứng dụng trong thực tiễn luận văn này. Có hai tiếp cận đối với bài toán này là dựa trên nội dung (thông thường là dựa trên đối sánh các cặp từ là bản dịch của nhau – từ điển song ngữ), hoặc là dựa trên sự tương đồng về cấu trúc trang html. Trong phạm vi luận văn này, chúng tôi theo tiếp cận dựa trên cấu trúc. Cụ thể chúng tôi khảo sát các đặc trưng cấu trúc khác nhau như độ tương đồng cấu trúc thẻ của văn bản, độ tương đồng cấu trúc url của văn bản, và nhiều yếu tố phụ để giảm thời gian chạy của hệ thống. Đồng thời chúng tôi cũng theo tiếp cận học máy (theo [5]), và áp dụng phương pháp học cây quyết định cho bài toán này. Đặc biệt chúng tôi đã mô hình hóa bài toán cho bộ phân loại Naïve Bayes và áp dụng lựa chọn thuộc tính và cho kết quả dóng hàng văn bản tốt hơn khi sử dụng cây quyết định như trong [5]. Để thực nghiệm, chúng tôi xây dựng một hệ thống làm các nhiệm vụ: chuẩn bị cơ sở dữ liệu thô từ Internet; một số bước tiền xử lý ngôn ngữ; và các mô đun dóng hàng văn bản. Kết quả đạt được là khá khả quan với độ chính xác dóng hàng văn bản khoảng 96% đối với mô hình phân loại Bayes.
    Mục lục Tóm tắt
    Mục lục
    Mở đầu 3
    Chương 1 Giới thiệu. 4
    1.1. Vai trò và tầm quan trọng của dữ liệu song ngữ. 4
    1.2. Các nghiên cứu liên quan. 5
    1.3. Mục tiêu và tiếp cận giải quyết vấn đề. 9
    1.4. Cấu trúc luận văn. 10
    Chương 2. Các tiếp cận và kỹ thuật cho bài toán khai phá dữ liệu song ngữ 11
    2.1. Lọc theo cấu trúc. 11
    2.2. Lọc theo nội dung. 14
    2.3 Các đặc trưng khác. 16
    2.4. Thuật toán lập trình động. 17
    Chương 3. Mô hình học máy cho bài toán đối sánh văn bản. 20
    3.1 Mô hình phân loại theo cây quyết định. 20
    3.2. Mô hình phân loại Naive Bayes. 24
    Chương 4. Thực nghiệm và kết quả. 27
    4.1. Kiến trúc tổng quan hệ thống. 27
    4.2. Bộ công cụ download và xác định ngôn ngữ. 28
    4.3. Xây dựng cơ sở dữ liệu thô. 31
    4.4. Xây dựng bộ phân loại và kết quả phân loại 34
    4.5. Hướng dẫn sử dụng chương trình. 36
    Kết luận. 38
    Tài liệu tham khảo


    Mở đầu
    Văn bản song ngữ có vai trò thiết yếu trong một số lĩnh vực của xử lý ngôn ngữ tự nhiên, như dịch máy thống kê, tìm kiếm thông tin trong môi trường đa ngữ,
    Trong dịch máy thống kê, các kho dữ liệu song ngữ bao gồm nhiều cặp văn bản với chất lượng dịch cao là nguồn tài nguyên quan trọng nhất quyết định chất lượng của hệ dịch. Đối với một số cặp ngôn ngữ, việc tạo ra kho dữ liệu song ngữ là không khó (nếu như cặp ngôn ngữ đó đều phổ biến rộng rãi trên thế giới, ví dụ với cặp tiếng Anh và tiếng Pháp). Tuy nhiên thật không may cho khá nhiều cặp ngôn ngữ như Anh-Việt, trong đó có một ngôn ngữ ít phổ biến hơn như tiếng Việt, việc xây dựng các kho dữ liệu song ngữ rất khó khăn. Điều này chủ yếu do số lượng các văn bản song ngữ có thể khai thác được còn quá ít và chất lượng dịch chưa cao. Thực hiện công việc này bằng tay là một việc nặng nề và tốn kém. Đây là một trở ngại lớn cho việc phát triển các ứng dụng xử lý ngôn ngữ tự nhiên dựa trên tiếp cận thống kê, nhất là cho các cặp ngôn ngữ như Anh - Việt.
    Hiện nay lượng thông tin trên Internet rất lớn, và do nhu cầu giao lưu quốc tế, số lượng trang web có hai ngôn ngữ Anh và Việt cũng trở nên phổ biến hơn. Đây là nguồn tài nguyên quý giá đối với việc khai thác dữ liệu song ngữ trên Internet. Hơn nữa, đối với tiếng Việt, các nghiên cứu về khai phá tự động dữ liệu song ngữ còn ít với kết quả còn hạn chế, hầu như chưa có kho ngữ liệu song ngữ nào được công bố rộng rãi. Do vậy, việc nghiên cứu phát triển các phương pháp tự động xây dựng các kho dữ liệu song ngữ cho các cặp ngôn ngữ Anh – Việt là một chủ đề nghiên cứu rất ý nghĩa. về mặt nghiên cứu và có tính thực tiễn cao. Trong luận văn này chúng tôi giới hạn mức dữ liệu ở mức văn bản, tức là khai phá các văn bản song ngữ Anh Việt (không phải mức câu hay mức từ). Chúng tôi với luận văn này mong muốn với lý thuyết đưa ra và hệ thống thực nghiệm hi vọng sẽ đáp ứng phần nào nhu cầu về văn bản song ngữ cho cặp ngôn ngữ Anh-Việt. Cụ thể luận văn sẽ tập trung vào hai nhiệm vụ chính:

    Tìm hiểu, nghiên cứu, phát triển các công nghệ trong bài toán khai phá dữ liệu song ngữ, cụ thể cho xây dựng các cặp văn bản song ngữ.
    Xây dựng công cụ khai phá các cặp văn bản song ngữ trên World Wide Web cho cặp ngôn ngữ Anh –Việt.
     

    Các file đính kèm:

Đang tải...