Đồ Án Nhận dạng thực thể trong văn bản Tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Lời mở đầu








    Bài toán nhận dạng thực thể trong văn bản là bài toán khá cơ bản và quan trọng trong nhóm các bài toán rút trích thông tin. Nó có nhiệm vụ tìm kiếm và phân loại các thực thể như: thực thể chỉ người, thực thể chỉ tổ chức, thực thể chỉ địa điểm v.v Trong khóa luận này, chúng tôi giới thiệu một hệ thống nhận dạng thực thể trong văn bản tiếng Việt được phát triển trên nguồn mở GATE (General Architecture for Text Engineering), với kết quả khá khả quan: F-measure – 82.03%. Toàn bộ hệ thống và những tài liệu liên quan gồm: định nghĩa thực thể, cách phân loại thực thể và một tập dữ liệu được gán nhãn chuẩn sẽ được mở cho cộng động sử dụng và phát triển.











    Lời cảm ơn








    Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy TS. Phạm Bảo Sơn, người đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua. Em cũng xin chân thành cảm ơn thầy TS. Bùi Thế Duy đã luôn chỉ bảo mỗi khi em có những vấn đề vướng mắc.


    Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua.


    Tôi xin chân thành cảm ơn đề tài “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC01.01/06-10 đã hỗ trợ kinh phí và dữ liệu để tôi có thể hoàn thành khóa luận này.


    Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm việc tốt hơn. Cảm ơn bé Ngân đã luôn ở bên và động viên tớ. Cảm ơn tất cả bạn bè đã luôn sát cánh cùng tôi.






    Hà Nội, ngày 20 tháng 5 năm 2009


    Nguyễn Bá Đạt











    Mục lục














    Lời mở đầu i


    Lời cảm ơn .ii Mục lục iii Danh sách hình vẽ v Danh sách bảng . vi Chương 1 Giới thiệu . 1
    Chương 2 Các hướng tiếp cận cho bài toán nhận dạng thực thể 4


    2.1 Hướng tiếp cận sử dụng hệ luật cho bài toán nhận dạng thực thể 5


    2.2 Hướng tiếp cận sử dụng các phương pháp học máy cho bài toán nhận dạng thực thể . 7


    2.3 Hướng tiếp cận lai . 10


    Chương 3 Giới thiệu GATE . 11


    3.1 Tổng quan về GATE . 11


    3.2 Những khái niệm trong khung làm việc GATE 13


    3.3 Bộ từ điển (Gazetteers) 14


    3.4 Bộ luật JAPE 15


    3.4.1 Mệnh đề trái (LHS) . 16


    3.4.2 Thành phần thay thế (Macros) . 17


    3.4.3 Mệnh đề phải (RHS) 18


    3.4.4 Sử dụng đoạn mã Java trong JAPE . 19


    3.4.5 Một vài lựa chọn khi viết luật 20


    3.5 Tạo thêm thành phần tích hợp trên khung làm việc GATE 22


    3.6 Tạo ứng dụng trên GATE . 25


    3.7 Các công cụ quản lý chất lượng 25


    3.7.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản (Annotation Diff) . 26







    3.7.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool) 26


    Chương 4 Nhận dạng thực thể trong văn bản tiếng Việt 28


    4.1 Định nghĩa thực thể, các loại thực thể và cách phân biệt các loại thực thể 29


    4.1.1 Các khái niệm cơ bản 29 4.1.1.1 Định nghĩa thực thể và tên thực thể . 29 4.1.1.2 Các loại thực thể được nhận dạng 29
    4.1.2 Quy tắc nhận dạng thực thể . 30


    4.2 Chuẩn bị tập dữ liệu 30


    4.3 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt 32


    4.3.1 Bộ tách từ và bộ gán nhãn từ loại 33


    4.3.2 Bộ từ điển 35


    4.3.3 Bộ luật . 37 4.3.3.1 Chuẩn hóa tập nhãn Lookup 38 4.3.3.2 Tạo nhãn “NamePhrase” . 38 4.3.3.3 Nhận dạng thực thể chỉ công trình <Facility> . 39 4.3.3.4 Nhận dạng thực thể chỉ địa điểm <Location> và thực thể thuộc về quốc gia <Nationality>. 39 4.3.3.5 Nhận dạng thực thể chỉ tổ chức <Organization> . 41 4.3.3.6 Nhận dạng thực thể chỉ các tổ chức tôn giáo <Religion> 41 4.3.3.7 Nhận dạng các thực thể chỉ người <Person > 42 4.3.3.8 Sử dụng văn cảnh và quá trình nhận dạng thông minh 42
    Chương 5 Kết quả thực nghiệm và phân tích lỗi . 48


    5.1 Các bước tiến hành thực nghiệm . 48


    5.2 Kết quả thực nghiệm 48


    5.3 Phân tích lỗi . 51


    Chương 6 Tổng kết và hướng phát triển 54


    Tài liệu tham khảo . 55


    Phụ lục A. Annotation Guideline. 58


    Phụ lục B. Bảng nhãn từ loại tiếng Việt . 63







    Danh sách hình vẽ














    Hình 2.1 - Kết quả cho 10 lần thực nghiệm của Nguyễn Cẩm Tú (Nguyễn 2005) . 9


    Hình 3.1 - Kiến trúc tổng quát của GATE 12


    Hình 3.2 - Giao diện thêm một thành phần tích hợp vào GATE . 24


    Hình 3.3 - Chọn các thành phần cho ứng dụng GATE 25


    Hình 3.4 - Giao diện của Annotation Diff 27


    Hình 3.5 - Giao diện của Corpus Benchmark tool 27


    Hình 4.1 - Mô hình các bước phát triển của hệ thống 31


    Hình 4.2 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng Việt . 32


    Hình 4.3 - Mô tả kết quả nhận dạng của một trường hợp nhập nhằng giữa Person và Nationality 43


    Hình 4.4 – Một ví dụ cho quá trình nhận dạng thông minh 45


    Hình 4.5 - Trường hợp hệ thống nhận dạng một dãy các thực thể cạnh nhau . 46
     

    Các file đính kèm:

Đang tải...