Thạc Sĩ Phân đoạn từ tiếng việt sử dụng mô hình CRFs

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt


    Phân đoạn từ là một bước cơ bản trong trích chọn thông tin từ Văn bản và xử lý
    Ngôn ngữ tự nhiên. Trong tiếng Việt, bài toán phân đoạn từ có thể được dùng cho các máy
    tìm kiếm tiếng Việt, dịch tự động, kiểm tra chính tả tiếng Việt Hiện nay bài toán phân
    đoạn từ tiếng Việt đang được nghiên cứu, triển khai bởi rất nhiều cá nhân, tổ chức trong
    và ngoài nước.
    Trong khóa luận này, em xin trình bày về một giải pháp cho bài toán phân đoạn từ
    tiếng Việt. Sau khi tìm hiểu về đặc điểm từ vựng tiếng Việt, xem xét các phương pháp
    phân đoạn từ tiếng Việt hiện nay, em đã chọn phương pháp tiếp cận học máy bằng cách
    Xây dựng một hệ thống phân đoạn từ tiếng Việt dựa trên mô hình Conditional random
    fields (CRFs - Laferty, 2001). Ưu điểm của mô hình này là nó rất mạnh trong xử lý dữ
    liệu dạng chuỗi, với khả năng tính hợp rất nhiều các đặc điểm khác nhau rút ra từ tập dữ
    liệu, hỗ trợ rất tốt cho bài toán phân đoạn từ. Kết quả thử nghiệm trên các văn

    Cấu trúc của khóa luận
    Trong khóa luận, em trình những tìm hiểu của mình về bài toán này và đưa ra một
    phương pháp để Xây dựng hệ thống phân đoạn từ tiếng Việt
    Chương 1. Phân đoạn từ tiếng Việt : trình bày những đặc điểm riêng của tiếng
    Việt khác với các Ngôn ngữ khác. Các phương pháp phân đoạn từ hiện nay sẽ được trình
    bày và đánh giá, từ đó chọn ra một hướng tiếp cận của khóa luận
    Chương 2. Conditional Random Fields : trình bày cơ bản về mô hình
    Conditional Random Field, một mô hình học máy rất mạnh trong việc phân đoạn và gán
    nhãn dữ liệu dạng chuỗi.
    Chương 3. Phân đoạn từ tiếng Việt với CRFs: Trong chương này, bài toán
    phân đoạn từ tiếng Việt sẽ được mô tả chi tiếng theo hướng áp dụng mô hình CRFs. Việc
    lựa chọn thuộc tính cũng sẽ được trình bày cụ thể và đề cập tới cách đánh giá mô hình.
    Chương 4. Thử nghiệm và đánh giá: trình bày môi trường thực nghiệm và các
    kết quả đã đạt được. Các phân tính, đánh giá kết quả đó sẽ cũng sẽ được đưa ra trong
    chương này.
    Phần kết luận tổng kết các công việc đã làm được trong khóa luận và phương
    hướng nghiên cứu trong tương lại của em

    Mục lục
    Lời cảm ơn . i
    Tóm tắt . ii
    Mục lục . iii
    Bảng từ viết tắt vi
    Lời nói đầu 1
    Bài toán phân đoạn từ tiếng Việt 1
    Mục tiêu của khóa luận .1
    Ý nghĩa và đóng góp của khóa luận 2
    Cấu trúc của khóa luận 3
    Chương 1. Phân đoạn từ tiếng Việt
    4
    1.1 Từ vựng tiếng Việt 4
    1.1.1 Tiếng – đơn vị cấu tạo lên từ 4
    1.1.1.1 Khái niệm 4
    1.1.1.2 Phân loại 4
    1.1.1.3 Mô hình tiếng trong tiếng Việt và các thành tố của nó .5
    1.1.2 Cấu tạo từ .6
    1.1.2.1 Từ đơn .6
    1.1.2.2 Từ ghép . .6
    1.1.2.3 Từ láy .6
    1.1.3 Nhập nhằng 7
    1.2 Phân đoạn từ tiếng Việt bằng máy tính . 8
    1.2.1 Phương pháp Maximum Matching 8
    1.2.2 Phương pháp TBL . .10
    1.2.3 Phương pháp WFST .11
    1.3 Phương pháp tiếp cận của khóa luận 13
    1.4 Tổng kết chương .14
    Chương 2. Conditional Random Field .15
    iv
    2.1 Định nghĩa CRF . .16
    2.2 Huấn luyện CRF .19
    2.3 Suy diễn CRF . .21
    2.4 Tổng kết chương .22
    Chương 3. Phân đoạn từ tiếng Việt với mô hình CRF .23
    3.1 Mô tả bài toán phận đoạn từ tiếng Việt 23
    3.1.1 Thu thập dữ liệu .23
    3.1.2 Chuẩn bị dữ liệu .24
    3.1.3 Đầu vào và đầu ra của mô hình CRFs 25
    3.2 Lựa chọn thuộc tính 26
    3.2.1 Mẫu ngữ cảnh từ điển . 27
    3.2.2 Mẫu ngữ cảnh từ vựng .27
    3.2.3 Mẫu ngữ cảnh phát hiện tên thực thể. 28
    3.2.4 Mẫu ngữ cảnh phát hiện từ láy .28
    3.2.5 Mẫu ngữ cảnh âm tiết tiếng Việt 28
    3.2.6 Mẫu ngữ cảnh dạng regular expression .28
    3.3 Cách đánh giá 29
    3.3.1 Phương pháp đánh giá 29
    3.3.2 Các đại lượng đo độ chính xác .29
    3.4 Tổng kết chương .31
    Chương 4. Thử nghiệm và đánh giá .32
    4.1 Môi trường thử nghiệm .32
    4.1.1 Phần cứng .32
    4.1.2 Phần mềm . 32
    4.2 Mô tả thử nghiệm 32
    4.2.1 Thiết lập tham số 32
    4.2.2 Mô tả thử nghiệm .33
    4.3 Kết quả thử nghiệm .34
    4.3.1 Thử nghiệm 1 .34
    4.3.2 Thử nghiệm 2 .35
    v
    4.3.2.1 Kết quả 5 lần thử nghiệm .35
    4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất .35
    4.3.2.3 Trung bình 5 lần thực nghiệm .36
    4.3.3 Thử nghiệm 3 .37
    4.3.2.1 Kết quả 5 lần thử nghiệm .37
    4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất .38
    4.3.2.3 Trung bình 5 lần thực nghiệm .39
    4.3.4 Thử nghiệm 4 .39
    4.3.2.1 Kết quả 5 lần thử nghiệm .39
    4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất .39
    4.3.2.3 Trung bình 5 lần thực nghiệm .39
    4.3.5 Thử nghiệm 5 .39
    4.3.2.1 Kết quả 5 lần thử nghiệm .39
    4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất .40
    4.3.2.3 Trung bình 5 lần thực nghiệm .40
    4.4 Phân tích và thảo luận kết quả thử nghiệm .40
    4.5 Tổng kết chương .40
    Phần kết luận 41
    Tổng kết công việc đã làm và đóng góp của luận văn 41
    Hướng nghiên cứu tiếp theo 41
    Tài liệu tham khảo
    43
     
Đang tải...