Luận Văn Xây dựng mô hình ngôn ngữ cho tiếng việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT

    Mô hình ngôn ngữ là một bộ phận quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên. Có rất nhiều lĩnh vực trong xử lý ngôn ngữ tự nhiên sử dụng mô hình ngôn ngữ như: kiểm lỗi chính tả, dịch máy hay phân đoạn từ . Trên thế giới đã có rất nhiều nước công bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt Nam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫn còn mới mẻ và gặp nhiều khó khăn. Chính điều này đã gợi ý và thúc đẩy chúng tôi lựa chọn và tập trung nghiên cứu vấn đề này để có thể tạo điều kiện cho việc xử lý ngôn ngữ tiếng Việt vốn vô cùng phong phú của chúng ta.

    Luận văn sẽ trình bày khái quát về mô hình ngôn ngữ, đồng thời chỉ ra các khó khăn còn tồn tại để rồi đưa ra những phương pháp khắc phục, trong đó trọng tâm nghiên cứu các phương pháp làm mịn. Trong luận văn này này, chúng tôi sử dụng chủ yếu bộ công cụ mã nguồn mở SRILIM để xây dựng mô hình ngôn ngữ cho tiếng Việt, sau đó áp dụng mô hình ngôn ngữ đã tạo ra để tính toán độ hỗn loạn thông tin của văn bản và dịch máy thống kê. Kết quả có được sẽ là cơ sở chính để chúng tôi chỉ ra phương pháp làm mịn nào là tốt nhất khi sử dụng trong việc xây dựng mô hình ngôn ngữ tiếng Việt.

    MỤC LỤC

    Chương 1 Giới thiệu vấn đề 1

    1.1 Đặt vấn đề: 1

    1.2 Mục tiêu: 1

    1.3 Cấu trúc của luận văn: 2

    Chương 2 Mô hình ngôn ngữ Ngram: 3

    2.1 Khái quát: 3

    2.2 Công thức tính “xác suất thô”: 3

    2.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram 4

    2.3.1 Phân bố không đều: 4

    2.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ 5

    2.4 Các phương pháp làm mịn 5

    2.4.1 Các thuật toán chiết khấu (discounting): 5

    2.4.2 Phương pháp truy hồi: 8

    2.4.3 Phương pháp nội suy: 10

    2.4.4 Phương pháp làm mịn Kneser - Ney: 10

    2.4.5 Phương pháp làm mịn Kneser - Ney cải tiến bởi Chen - GoodMan: 12

    2.5 Kỹ thuật làm giảm kích thước dữ liệu: 13

    2.5.1 Loại bỏ (pruning): 13

    2.5.2 Đồng hóa (Quantization): 15

    2.5.3 Nén (Compression): 16

    2.6 Độ đo: 16

    2.6.1 Entropy – Độ đo thông tin: 16

    2.6.2 Perplexity – Độ hỗn loạn thông tin: 18

    2.6.3 Error rate – Tỉ lệ lỗi: 18

    Chương 3 Ứng dụng của mô hình ngôn ngữ trong mô hình dịch máy thống kê: 19

    3.1 Dịch máy: 19

    3.2 Dịch máy thống kê: 19

    3.2.1 Giới thiệu: 19

    3.2.2 Nguyên lý và các thành phần: 19

    3.2.3 Mô hình dịch: 21

    3.2.4 Bộ giải mã: 25

    3.3 Các phương pháp đánh giá bản dịch: 25

    3.3.1 Đánh giá trực tiếp bằng con người: 25

    3.3.2 Đánh giá tự động: phương pháp BLEU 25

    Chương 4 Thực nghiệm: 28

    4.1 Công cụ: 28

    4.1.1 Bộ công cụ trợ giúp xây dựng tập văn bản huấn luyện: 28

    4.1.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: 28

    4.1.3 Bộ công cụ xây dựng mô hình ngôn ngữ - SRILM: 29

    4.1.4 Bộ công cụ xây dựng mô hình dịch máy thống kê – MOSES: 32

    4.2 Dữ liệu huấn luyện: 34

    4.3 Kết quả: 34

    4.3.1 Số lượng các cụm ngram: 34

    4.3.2 Tần số của tần số: 36

    4.3.3 Cut-off (loại bỏ): 39

    4.3.4 Các phương pháp làm mịn: 40

    4.3.5 Áp dụng vào mô hình dịch máy thống kê: 41

    Chương 5 Kết luận 43

    Tài liệu tham khảo 44


    Chương 1 Giới thiệu vấn đề

    1.1 Đặt vấn đề:

    Ngôn ngữ tự nhiên là những ngôn ngữ được con người sử dụng trong các giao tiếp hàng ngày: nghe, nói, đọc, viết [10]. Mặc dù con người có thể dễ dàng hiểu và học các ngôn ngữ tự nhiên; việc làm cho máy hiểu được ngôn ngữ tự nhiên không phải là chuyện dễ dàng. Sở dĩ có khó khăn là do ngôn ngữ tự nhiên có các bộ luật, cấu trúc ngữ pháp phong phú hơn nhiều các ngôn ngữ máy tính, hơn nữa để hiểu đúng nội dung các giao tiếp, văn bản trong ngôn ngữ tự nhiên cần phải nắm được ngữ cảnh của nội dung đó. Do vậy, để có thể xây dựng được một bộ ngữ pháp, từ vựng hoàn chỉnh, chính xác để máy có thể hiểu ngôn ngữ tự nhiên là một việc rất tốn công sức và đòi hỏi người thực hiện phải có hiểu biết sâu về ngôn ngữ học.

    Các phương pháp xử lý ngôn ngữ tự nhiên dựa trên thống kê không nhắm tới việc con người tự xây dựng mô hình ngữ pháp mà lập chương trình cho máy tính có thể “học” nhờ vào việc thống kê các từ và cụm từ có trong các văn bản. Cốt lõi nhất của các phương pháp xử lý ngôn ngữ tự nhiên dựa trên thống kê chính là việc xây dựng mô hình ngôn ngữ.

    Mô hình ngôn ngữ là một phân bố xác suất trên các tập văn bản [2][10]. Nói đơn giản, mô hình ngôn ngữ có thể cho biết xác suất một câu (hoặc cụm từ) thuộc một ngôn ngữ là bao nhiêu.

    Ví dụ: khi áp dụng mô hình ngôn ngữ cho tiếng Việt:

    P[“hôm qua là thứ năm”] = 0.001

    P[“năm thứ hôm là qua”] = 0

    Mô hình ngôn ngữ được áp dụng trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: kiểm lỗi chính tả, dịch máy hay phân đoạn từ . Chính vì vậy, nghiên cứu mô hình ngôn ngữ chính là tiền đề để nghiên cứu các lĩnh vực tiếp theo.

    Mô hình ngôn ngữ có nhiều hướng tiếp cận, nhưng chủ yếu được xây dựng theo mô hình Ngram. Vấn đề này sẽ trình bày rõ ràng hơn trong chương 2.

    1.2 Mục tiêu:

    Mục tiêu chính của luận văn là tìm hiểu lý thuyết về mô hình Ngram và các vấn đề trong đó, đặc biệt là các phương pháp làm mịn. Về thực nghiệm, luận văn có sử dụng bộ công cụ SRILM để xây dựng mô hình ngôn ngữ cho tiếng Việt với các phương pháp làm mịn khác nhau. Bằng việc áp dụng các mô hình ngôn ngữ khác nhau đó vào dịch máy thống kê, chúng tôi đã chỉ ra được phương pháp làm mịn nào là tốt nhất khi áp dụng cho mô hình ngôn ngữ. Để đạt được thành tựu đó, chúng tôi cũng đã phải tìm hiểu lý thuyết dịch máy thống kê và thực nghiệm dựa trên bộ công cụ Moses.

    1.3 Cấu trúc của luận văn:

    Luận văn có cấu trúc như sau:

    Chương 2 xem xét các vấn đề liên quan đến mô hình ngôn ngữ Ngram, các sự cố gặp phải và cách khắc phục.

    Chương 3 đề cập đến lý thuyết mô hình dịch máy thống kê.

    Chương 4, luận văn tập trung vào việc mô tả thực nghiệm, bao gồm công việc xây dựng và cài đặt những chương trình hỗ trợ việc xây dựng được mô hình ngôn ngữ, mô hình dịch máy thống kê và các kết quả đạt được

    Chương 5 tổng kết lại những gì luận văn đạt được và đưa ra kế hoạch nghiên cứu trong tương lai.
     

    Các file đính kèm:

Đang tải...