Luận Văn Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT

    Nội dung của khóa luận là tìm hiểu mô hình CRF, và ứng dụng của mô hình này trong trích chọn thông tin trong tiếng Việt. Trước hết khóa luận trình bày những khái niệm chung về trích chọn thông thông tin. Đồng thời nêu đến hai hướng tiếp cận để xây dựng một hệ thống trích chọn thông tin cũng như ưu nhược điểm của từng hướng tiếp cận, Đồng thời cũng nêu ra được ứng dụng của trích chọn thông tin trong tiếng Việt như thế nào. Cụ thể ở đây là bài toán trích chọn thông tin nhà đất.

    Để ứng dụng trích chọn trong tiếng Việt luận văn đã nêu ra được ba mô hình học máy trong đó tập trung chủ yếu vào mô hình Conditional Random Field –CRF. Bất kỳ mô hình nào cũng có ưu nhược điểm trong luận văn này trình bày hai vấn đề lớn của mô hình CRF đó là vấn đề gán nhãn và ước lượng tham số. Đồng thời cũng trình bày về công cụ hữu ích CRF++.

    Luận văn cũng trình bày được việc ứng dụng mô hình CRF làm nền tảng lý thuyết và cơ sở thực hành là công cụ CRF vào bài toán trích chọn thông tin nhà đất. Một bài toán nhỏ trong bài toán xử lý ngôn ngữ tự nhiên.












    MỤC LỤC

    LỜI CẢM ƠN iii

    TÓM TẮT iv

    MỤC LỤC v

    DANH MỤC CÁC HÌNH VẼ vii

    BẢNG CÁC KÍ HIỆU VIẾT TẮT viii

    LỜI MỞ ĐẦU 1

    Chương 1.TỔNG QUAN 3

    1.1. TRÍCH CHỌN THÔNG TIN 3

    1.2. CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THÔNG TIN 5

    1.2.1. Hướng tiếp cận dựa trên tri thức 5

    1.2.2. Hướng tiếp cận xây dựng các mô hình học máy 5

    1.3. KIẾN TRÚC HỆ THỐNG IE 7

    1.4. BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 8

    1.5. Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 9

    1.6. TỔNG KẾT CHƯƠNG 10

    Chương 2. CONDITIONAL RANDOM FIELDS 11

    2.1. MÔ HÌNH MARKOV ẨN- HMM 11

    2.2. MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM 13

    2.3. MÔ HÌNH CONDITIONAL RANDOM FIELDS 15

    2.3.1.Việc gán nhãn cho dữ liệu tuần tự 15

    2.3.2. Định nghĩa CRF 16

    2.3.3. Nguyên lý cực đại hóa Entropy 18

    2.3.3.1. Độ đo Entropy điều kiện 18

    2.3.3.2. Các ràng buộc đối với phân phối mô hình 19

    2.3.3.3. Nguyên lý cực đại hóa Entropy 20

    2.3.4. Hàm tiềm năng của các mô hình CRF 20

    2.3.5. Conditional Random Fields 21

    2.3.6. So sánh với các mô hình khác 22

    2.4. TỔNG KẾT CHƯƠNG 23

    Chương 3. THUẬT TOÁN GÁN NHÃN VÀ ƯỚC LƯỢNG THAM SỐ CỦA MÔ HÌNH CRF VÀ CÔNG CỤ CRF ++ 24

    3.1. THUẬT TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI 24

    3.2. XÁC SUẤT CRF ĐƯỢC TÍNH NHƯ MỘT MA TRẬN 25

    3.3. ƯỚC LƯỢNG THAM SỐ CHO MÔ HÌNH CRF 26

    3.3.1. Thuật toán S 28

    3.3.2. Thuật toán T 29

    3.4. CÔNG CỤ CRF++ TOOLKIT 30

    3.4.1. Giới thiệu 30

    3.4.2. Tính năng 31

    3.4.3. Cài đặt và cách sử dụng 31

    3.4.3.1 Cài đặt 31

    3.4.3.2. File định dạng huấn luyện và test 31

    3.4.3.3. Template type 32

    3.4.4. Huấn luyện và kiểm tra 34

    3.5. TỔNG KẾT CHƯƠNG 36

    Chương 4. ỨNG DỤNG CRF VÀO BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37

    4.1. MÔ HÌNH HÓA BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37

    4.1.1. Xử lý dữ liệu đầu vào 38

    4.2. MÔI TRƯỜNG THỰC NGHIỆM 39

    4.2.1. Phần cứng 39

    4.2.2. Phần Mềm 39

    4.2.3. Dữ liệu thực nghiệm 39

    4.2.3.1. Lần thử nghiệm thứ nhất 40

    4.2.3.2. Lần thử nghiệm thứ hai 40

    4.2.3.3. Kết quả và đánh giá 42

    4.3. HẠN CHẾ VÀ HƯỚNG ĐI CHO TƯƠNG LAI 44

    4.4. TỔNG KẾT CHƯƠNG 45

    KẾT LUẬN 46

    TÀI LIỆU THAM KHẢO 47
     

    Các file đính kèm:

Đang tải...