Luận Văn Phân loại văn bản bằng thuật toán naive bayes kết hợp hệ tách và gán nhãn từ loại viettage

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 2/12/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Để có thể có được kết quả huấn luyện và phân loại tốt các văn bản (phân loại chính xác), chúng ta cần có một hệ từ vựng chuẩn. Việc tách các từ và gán nhãn từ loại cho các cụm từ này trên thực tế là rất khó khăn và đòi hỏi sử dụng đến nhiều thuật toán khác nhau do vậy việc xây dựng một modul như vậy là không khả thi. Thay vào đó chúng ta có thể tích hợp các hệ thông nghiên cứu khác vào hệ thống giúp cho việc xây dựng chương trình nhanh chóng và thuận tiện hơn.
    Năm 2010, nhánh đề tài "Xử lí văn bản tiếng Việt" là một phần của đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt". Đây là đề tài liên kết giữa các nhóm nghiên cứu xử lí tiếng Việt đến từ các trường đại học, viện nghiên cứu trong nước và quốc tế.
    Trong chương trình của chúng ta cần tách được các danh từ để đưa vào CSDL nên chúng ta sử dụng hệ tách từ tiếng Việt và hệ gán nhãn từ loại tiếng Việt nằn trong nhánh SP8.3 để tích hợp vào hệ thống.
    Hệ tách từ tiếng Việt:
    -Gói cài đặt: vnTokenizer 4.1.1c
    -Ngày phát hành: 28/12/2009
    -Sử dụng kết hợp từ điển và ngram, trong đó mô hình ngram được huấn luyện sử dụng treebank tiếng Việt (70,000 câu đã được tách từ)
    -Độ chính xác trên 97%.
    Hệ gán nhãn từ loại tiếng Việt
    - Gói cài đặt: VietTagger
    - Ngày phát hành: 16/08/2010
    - Dựa trên các mô hình học máy Maximum Entropy và CRFs;
    - Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (20,000 câu đã được gán nhãn từ loại)
    - Độ chính xác trên 93%.
     

    Các file đính kèm:

Đang tải...