Báo Cáo Gán nhãn từ loại tự động cho tiếng việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Bích Tuyền Dương, 3/2/12.

  1. Bích Tuyền Dương

    Bài viết:
    2,590
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt
    Gán nhãn từ loại (POS Tagger) của một từ là một công đoạn rất quan trọng và bắt buộc phải có đối với mọi hệ xử lý ngôn ngữ tự nhiên. Ðối với tiếng Anh, bài toán này đã được giải quyết khá tốt (95%), nhưng đối với tiếng Việt thì
    đây là điều còn rất mới mẻ. Trong bài báo này, chúng tôi sẽ trình bày mô hình gán nhãn từ loại tự động bằng phương pháp học TBL (Transformation-Based Learning) trên tập mẫu tiếng Việt đã được gán nhãn chính xác được rút ra từ
    kho ngữ liệu song ngữ Anh-Việt của chúng tôi.

    Trong bài toán này, đối với các ngôn ngữ thông dụng như Anh, Pháp, Nga,. thì phương pháp học TBL đã được áp dụng thành công vì họ đã có những kho ngữ liệu đã được đánh dấu chính xác (annotated corpora) và họ không cần quan tâm vào việc nhận diện ranh giới từ trước khi đánh dấu (do đó là những ngôn ngữ biến hình). Nhưng đối với tiếng Việt (một ngôn ngữ đơn lập), chúng tôi lại phải giải quyết hai trở ngại nói trên trước khi tiến hành gán nhãn từ loại tự động. Với trở ngại thứ nhất, chúng tôi đã khắc phục thành công với chương trình tách từ tiếng Việt tự động với độ chính xác 95% (đã công bố ở Hội nghị Quốc tế về Xử lý ngôn ngữ Châu Á - Thái Bình Dương NLPRS01 tại Tokyo vào 11/2001).

    Với trở ngại thứ hai, chúng tôi cũng đã khắc phục bằng việc xây dựng kho ngữ liệu song ngữ Anh-Việt với hơn 500.000 câu mà trong đó hơn 25.000 câu tiếng Việt đã được gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt (đã công bố ở Hội nghị Quốc tế về Xử lý ngôn ngữ APIS02 tại Bangkok, Thái lan vào 2/2002).
     

    Các file đính kèm:

Đang tải...