Thạc Sĩ Luận án tiến sĩ kỹ thuật : Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Thực thể có tên là những thực thể có thể được tham khảo đến bằng tên riêng, như con

    người, tổ chức, hoặc nơi chốn. Phân giải nhập nhằng thực thể có tên là nhằm ánh xạ mỗi

    tên trong một văn bản vào một thực thể trong một nguồn tri thức cho trước. Nổi lên gần

    đây như là một bài toán đầy thách thức, nhưng có nhiều ý nghĩa trong việc hiện thực hóa

    Web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng xử lý ngôn ngữ tự nhiên,

    phân giải nhập nhằng thực thể có tên đã thu hút sự quan tâm của nhiều nhóm nghiên cứu

    khắp thế giới. Luận án đề xuất ba phương pháp cho bài toán này, trong đó nghiên cứu sâu

    ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử

    dụng, đặc trưng biểu diễn thực thể, và mô hình phân giải nhập nhằng.

    Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia. Các ontology

    đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống, với các khái

    niệm có quan hệ thứ bậc dựa trên một tập từ vựng có kiểm soát và các ràng buộc chặt chẽ.

    Wikipedia, xem như một ontology mở, được xây dựng bởi những người tình nguyện theo

    hướng tiếp cận từ dưới lên, với các khái niệm được hình thành từ một tập từ vựng tự do và

    các thoả thuận mang tính cộng đồng. Các đặc trưng được nghiên cứu là tên của các thực

    thể đồng xuất hiện, định danh của các thực thể đã được xác định, và các từ cùng với các

    cụm từ xuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham

    chiếu với tên đó trong văn bản. Ngoài ra luận án cũng khai thác vị trí xuất hiện, chiều dài

    của các tên, và tên thường dùng của các thực thể. Luận án đề xuất ba mô hình phân giải

    nhập nhằng tương ứng với ba phương pháp nói trên là: (i) mô hình dựa trên heuristic; (ii)

    mô hình dựa trên thống kê; và (iii) mô hình lai - kết hợp heuristic và thống kê.
     

    Các file đính kèm:

Đang tải...