Đồ Án Trích chọn thực thể tên người trong Tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt








    Trích chọn các loại thực thể nói chung, cũng như trích chọn tên người nói riêng là một bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên. Nó được ứng dụng nhiều trong dịch tự động, tóm tắt văn bản, hiểu ngôn ngữ tự nhiên, nhận biết tên thực thể trong sinh/y học và đặc biệt ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường Web vào các ontology ngữ nghĩa và các cơ sở tri thức.


    Trong khóa luận này, em trình bày một giải pháp trích chọn thực thể tên người cho các văn bản tiếng Việt trên môi trường Web. Sau khi xem xét các hướng tiếp cận khác nhau, em đã lựa chọn phương pháp dựa trên giải thuật mở rộng quan hệ mẫu đối ngẫu lặp lại (Dual Interative Pattern Relation Expansion - DIPRE) [17] mà Brin đã đề xuất. Đây là phương pháp sử dụng học bán giám sát (semi-supervised), dựa trên các ngữ cảnh (occurrences) xung quanh các thực thể để trích chọn quan hệ mẫu, từ đó đưa ra được danh sách các thực thể cần nhận biết.

    Mục lục




    Lời cảm ơn .i Tóm tắt ii Mục lục . iii Bảng từ viết tắt v Danh sách hình vẽ .vi Mở đầu 1
    Chương 1. Bài toán trích chọn .3
    thực thể tên người 3
    1.1. Trích chọn thông tin 3
    1.2. Tổng quan về bài toán trích chọn thực thể tên .4
    1.3. Bài toán trích chọn thực thể tên người trong văn bản tiếng Việt trên môi trường
    web 5
    1.4. Ý nghĩa của bài toán trích chọn thực thể tên người 7
    Chương 2. Các hướng tiếp cận trong trích chọn thông tin 9
    2.1. Phương pháp dựa trên học máy .9
    2.1.1. Mô hình Markov ẩn (HMM) .9
    2.1.1.1. Tổng quan về HMM 9
    2.1.1.2. Hạn chế của mô hình HMM .11
    2.1.2. Mô hình Markov cực đại hóa Entropy (MEMM) 11 2.1.2.1. Tổng quan về mô hình MEMM .11 2.1.2.2. Vấn đề Label Bias .12
    2.1.3. Mô hình trường điều kiện ngẫu nhiên (CRF) 13
    2.1.3.1. Tổng quan về mô hình CRF .13
    2.1.3.2. Hàm tiềm năng của mô hình CRF 14
    2.2. Phương pháp tiếp cận dựa trên hệ luật .16
    2.2.1 Tổng quan về tiếp cận dựa trên hệ luật 16
    2.2.2 Giải thuật DIPRE 16
    2.2.1.1. Tổng quan về học bán giám sát 16
    2.2.1.2. Giải thuật DIPRE .18
    2.3 Tổng kết chương 21
    Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường
    Web .22
    3.1 Hướng giải quyết bài toán 22
    3.2 Thực nghiệm 27
    3.2.1. Môi trường thực hiện 27
    3.2.2 Thu thập dữ liệu 27
    3.3. Khảo sát và xây dựng thủ công các tập dữ liệu từ điển ban đầu .27
    3.3.1. Tập dữ liệu từ điển ban đầu và tập mẫu 27
    3.3.2. Giới hạn vòng lặp .29
    3.4 Đánh giá hệ thống nhận dạng thực thể .29
    3.4.1. Kết quả .30
    3.4.2. Đánh giá .31

    Kết luận .32
    Tài liệu tham khảo .34
     

    Các file đính kèm:

Đang tải...