Đồ Án Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Lời mở đầu








    Kiến trúc xử lý thông tin phi cấu trúc (Unstructured Information Management Architecture - UIMA) giúp phân tích nguồn thông tin không có cấu trúc thành những thông tin có cấu trúc mang giá trị cao. Kiến trúc này linh hoạt và hiệu quả trong việc ghép nối giải pháp nhỏ thành một công cụ lớn hơn, hoàn thiện hơn. Chúng tôi tận dụng những đặc điểm này để xây dựng công cụ phân tích tiếng Việt bằng cách tích hợp các công cụ xử lý tiếng Việt có sẵn lên UIMA và đưa ra một số phương hướng để phát triển chúng.







    Mục lục
















    Lời cảm ơn i


    Lời mở đầu .ii Mục lục iii Danh sách hình vẽ v Danh sách thuật ngữ vi Chương 1: Giới thiệu . 1
    Chương 2: Tổng quan kiến trúc xử lý thông tin phi cấu trúc 3


    2.1 Giới thiệu UIMA 3


    2.2 Nền tảng phân tích 6


    2.2.1 Hệ thống kiểu và chú giải . 9


    2.2.2 Máy phân tích . 10


    2.2.3 Bộ miêu tả XML 15


    2.3 Mô tả đối tượng trong tài liệu . 17


    2.4 Xây dựng ứng dụng và xử lý tập tài liệu . 17


    2.4.1 Tương tác giữa ứng dụng và UIMA . 18


    2.4.2 Giới thiệu máy xử lý tập tài liệu . 20


    2.4.3 Quản lý xử lý tập tài liệu 21


    2.5 Khai thác kết quả phân tích 21


    2.5.1 Tìm kiếm ngữ nghĩa . 22


    2.5.2 Cơ sở dữ liệu 22


    2.6 Xử lý đa phương tiện 24


    Chương 3: Xây dựng công cụ phân tích tiếng Việt trên UIMA . 24


    3.1 Cài đặt Plugins cho UIMA . 26


    3.2 Document Analyzer 28


    3.3 Các công cụ phân tích tiếng Việt . 29











    3.3.1 Giới thiệu tách từ tiếng Việt . 29


    3.3.2 Giới thiệu nhận dạng thực thể tiếng Việt có tên . 30


    3.4 Ứng dụng công cụ phân tích tiếng Việt trên UIMA . 30


    3.4.1 Tách từ tiếng Việt trên UIMA . 30


    3.4.2 Áp dụng nhận dạng thực thể có tên trên GATE vào UIMA . 34


    3.4.3 Kết hợp nhận dạng các chú giải . 37


    Chương 4: Tổng kết và hướng phát triển 40


    Tài liệu tham khảo A
     

    Các file đính kèm:

Đang tải...