Thạc Sĩ Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt

Thảo luận trong 'Khoa Học Tự Nhiên' bắt đầu bởi Bích Tuyền Dương, 25/1/13.

  1. Bích Tuyền Dương

    Bài viết:
    2,590
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU
    Phân đoạn từ (Word segmentation) và gán nhãn từ loại( Part-of-speech tagging - POS tagging) là hai bài toán đạc biệt quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, các nghiên cứu tại Việt Nam về hai vấn đề này vẫn còn ở giai đoạn ban đầu. Do đó, nhu cầu là rất lớn cả về cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Thực tế cho thấy hai quá trình này có liên quan với nhau và ảnh hưởng đến chất lượng của một hệ chung. Vì thế, trong luận văn này chúng tôi nghiên cứu “Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt”. Đóng góp của luận văn là việc tìm hiểu, nghiên cứu và đề xuất mô hình thực hiện tách từ, gán nhãn từ loại POS tiếng Việt; xây dựng công cụ thực hiện liên quan; bên cạnh đó để huấn luyện và kiểm thử mô hình chúng tôi cũng tiến hành xây dựng một corpus tiếng Việt về tách từ và gán nhãn từ loại xấp xỉ 8QQQ câu. Luận văn cũng tiến hành thực nghiệm một hướng tiếp cận tích hợp cho hai bài toán này. Các kết quả này có sẽ đạc biệt hữu ích cho các nghiên cứu ở mức cao hơn như dich máy, tóm tắt văn bản, phân tích cú pháp .

    Cấu trúc của luận văn được trình bày như sau:

    ã Chương 1: Khái quát về tách từ và gán nhãn từ loại tiếng Việt : Trong chương này, luận văn giới thiệu hai bài toán cơ bản trong xử lý ngôn ngữ tự nhiên là bài toán tách từ và bài toán gán nhãn từ loại tiếng Việt - các hướng tiếp cận cho mỗi bài toán và tình hình nghiên cứu chung ở Việt Nam cũng như trên thế giới. Chương cũng trình bày các hướng tiếp cận tích hợp hai bài toán này để nâng cao hiệu quả của cả hai mô hình đã được áp dụng thành công cho tiếng Trung.

    ã Chương 2: Mô hình tách từ tiếng Việt : Chương này nghiên cứu và đề xuất một mô hình cho bài toán tách từ tiếng Việt tận dụng thông tin từ tri thức từ nhiều nguồn khác nhau nhằm làm tăng độ chính xác của bộ tách từ.

    ã Chương S: Mô hình gán nhãn từ loại tiếng Việt: Chương này nghiên cứu và đề xuất mô hình gán nhãn từ loại tiếng Việt, các công việc mà luận văn đã tiến hành nhằm xây dựng một mô hình gán nhãn POS hiệu quả như thiết kế corpus gán

    nhãn từ loại, đề xuất mô hình sử dụng Maximum Entropy Markov Model (MEM) và thiết kế các tập đặc trưng khác nhau để tìm ra các đặc trưng hữu ích cho tiếng Việt.

    ã Chương 4: Mô hình tích hợp tách từ và gán nhãn từ loại tiếng Việt: Từ

    các nghiên cứu đã trình bày trong chương 2 và chương 3 và đặc điểm tiếng Việt, chương này trình bày một mô hình tích hợp áp dụng cho tiếng Việt.

    ã Kết luận: Phần này tóm tắt lại nội dung của luận văn và những đóng góp chính mà luận văn đã thực hiện.

    ã Phụ lục A: Một số thuật ngữ Anh - Việt : Một số thuật ngữ tiếng Anh hay dùng và chữ viết tắt.

    ã Phụ lục B: Chú giải tập từ loại vnPOS : Mô tả cụ thể để giải thích thêm và các nhãn từ loại mà luận văn đề xuất để xây dựng corpus gán nhãn từ loại cho tiếng Việt.

    Mục lục
    Mở đầu v

    1 Khái quát về tách từ và gán nhãn từ loại tiếng Việt 1

    1.1 Khái quát về tách từ tiếng Việt 1

    1.2 Khái quát về gán nhãn từ loại - POS tagging 2

    1.2.1 Giới thiệu về bài toán gán nhãn từ loại 2

    1.2.2 Các hướng tiếp cận bài toán POS tagging 4

    1.2.3 Các nghiên cứu gán nhãn từ loại cho tiếng Việt 6

    1.3 Vấn đề tích hợp tách từ và gán nhãn từ loại 7

    2 Mô hình tách từ tiếng Việt 9

    2.1 Các mô hình liên quan 9

    2.1.1 Mô hình dựa vào từ điển 9

    2.1.2 Mô hình nhận dạng tên thực thể - Named Entity Recognition . 10

    2.1.3 Mô hình N-gram 10

    2.2 Phân tích các mô hình 11

    2.3 Thiết kế tập đặc trưng 12

    2.3.1 FS1: Đặc trưng trích từ mô hình tách từ dựa vào từ điển 13

    2.3.2 FS2: Đặc trưng dựa vào mô hình nhận dạng tên thực thể 13

    2.3.3 FS3: Đặc trưng dựa vào mô hình Ngram 14

    2.4 Kết quả thực nghiệm 15

    2.4.1 Đánh giá các đặc trưng FS1 và FS2 so với các mô hình trước đó 15

    2.4.2 Đánh giá tầm quan trọng của từng tập thuộc tính 16
    2.5 Đánh giá kết quả tách từ 17

    3 Mô hình gán nhãn từ loại tiếng Việt 19

    3.1 Xây dựng corpus gán nhãn từ loại cho tiếng Việt 19

    3.1.1 Thiết kế tập thẻ VnPOSTag 20

    3.1.2 Mô tả bộ dữ liệu làm vnPOS corpus 21

    3.1.3 Xây dựng vnPOS corpus 22

    3.2 Gán nhãn từ loại bằng phương pháp Maximum Entropy Markov Model 24

    3.2.1 Mô hình xác suất 24

    3.2.2 Các đặc trưng của POS tagging 25

    3.3 Đề xuất mô hình gán nhãn từ loại cho tiếng Việt 26

    3.3.1 Gán nhãn từ loại dựa vào thông tin từ 27

    3.3.2 Gán nhãn từ loại dựa vào âm tiết 29

    3.4 Đánh giá kết quả gán nhãn từ loại 30

    4 Mô hình tích hợp tách từ và gán nhãn từ loại tiếng Việt 32

    4.1 Lựa chọn mô hình tích hợp cho tiếng Việt 32

    4.2 Xây dựng mô hình và tiến hành thực nghiệm 33

    4.2.1 Features . 33

    4.2.2 Giải mã . 33

    4.2.3 Kết quả . 34

    4.3 Thảo luận 34

    A Một số thuật ngữ tiếng Anh tương ứng 40

    B Chú giải tập từ loại vnPOS 41
     
Đang tải...