Thạc Sĩ Nhận biết các loại thực thể trong văn bản tiếng việt nhằm hỗ trợ web ngữ nghĩa và tìm kiếm hướng thự

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt


    Nhận biết các loại thực thể là một bước cơ bản trong trích chọn thông tin từ
    Văn bản và xử lý Ngôn ngữ tự nhiên. Nó được ứng dụng nhiều trong dịch tự động, tóm
    tắt văn bản, hiểu Ngôn ngữ tự nhiên , nhận biết tên thực thể trong sinh/y học và đặc
    biệt ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường Web
    vào các ontology ngữ nghĩa và các cơ sở tri thức.
    Trong khóa luận này, em trình bày một giải pháp nhận biết loại thực thể cho
    các Văn bản tiếng Việt trên môi trường Web. Sau khi xem xét các hướng tiếp cận khác
    nhau, em chọn phương pháp tiếp cận học máy bằng cách Xây dựng một hệ thống nhận
    biết loại thực thể dựa trên mô hình Conditional Random Fields (CRF- Laferty, 2001) .
    Điểm mạnh của CRF là nó có khả năng xử lý dữ liệu có tính chất chuỗi, có thể tích
    hợp hàng trăm nghìn thậm chí hàng triệu đặc điểm từ dữ liệu hết sức đa dạng nhằm hỗ
    trợ cho quá trình phân lớp. Thực nghiệm trên các Văn bản tiếng Việt cho thấy qui trình
    phân lớp đạt được kết quả rất khả quan.

    Mục lục
    Lời cảm ơn i
    Tóm tắt ii
    Mục lục iii
    Bảng từ viết tắt v
    Mở đầu . 1
    Chương 1. Bài toán nhận diện loại thực thể .
    . 3
    1.1. Trích chọn thông tin 3
    1.2. Bài toán nhận biết các loại thực thể 4
    1.3. Mô hình hóa bài toán nhận biết các loại thực thể . 5
    1.4. Ý nghĩa của bài toán nhận biết các loại thực thể 6
    Chương 2. Các hướng tiếp cận giải quyết bài toán nhận biết các loại thực thể 8
    2.1. Hướng tiếp cận thủ công . 8
    2.2. Các mô hình Markov ẩn (HMM) 9
    2.2.1. Tổng quan về các mô hình HMM . 9
    2.2.2. Giới hạn của các mô hình Markov ẩn . 10
    2.3. Mô hình Markov cực đại hóa Entropy (MEMM) . 11
    2.3.1. Tổng quan về mô hình Markov cực đại hóa Entropy (MEMM) . 11
    2.3.2. Vấn đề “label bias” 13
    2.4. Tổng kết chương . 14
    Chương 3. Conditional Random Field (CRF) . 15
    3.1. Định nghĩa CRF 15
    3.2. Nguyên lý cực đại hóa Entropy 16
    3.2.1. Độ đo Entropy điều kiện . 17
    3.2.2. Các ràng buộc đối với phân phối mô hình 17
    3.2.3. Nguyên lý cực đại hóa Entropy . 18
    3.3. Hàm tiềm năng của các mô hình CRF 19
    3.4. Thuật toán gán nhãn cho dữ liệu dạng chuỗi 20
    3.5. CRF có thể giải quyết được vấn đề ‘label bias’ 22
    3.6. Tổng kết chương . 22
    Chương 4. Ước lượng tham số cho các mô hình CRF . 23
    iv

    4.1. Các phương pháp lặp 24
    4.1.1. Thuật toán GIS 26
    4.1.2. Thuật toán IIS 27
    4.2. Các phương pháp tối ưu số (numerical optimisation methods) 28
    4.2.1. Kĩ thuật tối ưu số bậc một . 28
    4.2.2. Kĩ thuật tối ưu số bậc hai . 29
    4.3. Tổng kết chương . 30
    Chương 5. Hệ thống nhận biết các loại thực thể trong tiếng Việt . 31
    5.1. Môi trường thực nghiệm . 31
    5.1.1. Phần cứng 31
    5.1.2. Phần mềm 31
    5.1.3. Dữ liệu thực nghiệm 31
    5.2. Hệ thống nhận biết loại thực thể cho tiếng Việt . 31
    5.3. Các tham số huấn luyện và đánh giá thực nghiệm . 32
    5.3.1. Các tham số huấn luyện 32
    5.3.2. Đánh giá các hệ thống nhận biết loại thực thể 33
    5.3.3. Phương pháp “10-fold cross validation” . 34
    5.4. Lựa chọn các thuộc tính 34
    5.4.1. Mẫu ngữ cảnh về từ vựng 35
    5.4.2. Mẫu ngữ cảnh thể hiện đặc điểm của từ 35
    5.4.3. Mẫu ngữ cảnh dạng regular expression . 36
    5.4.4. Mẫu ngữ cảnh dạng từ điển . 36
    5.5. Kết quả thực nghiệm . 37
    5.5.1. Kết quả của 10 lần thử nghiệm 37
    5.5.2. Lần thực nghiệm cho kết quả tốt nhất . 37
    5.5.3. Trung bình 10 lần thực nghiệm . 42
    5.5.4. Nhận xét 42
    Kết luận 43
    Phụ lục: Output của hệ thống nhận diện loại thực thể tiếng Việt 45
    Tài liệu tham khảo .
    . . 48
     
Đang tải...