Luận Văn Xây dựng chương trình bắt lỗi chính tả tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÊN ĐỀ TÀI: Xây dựng chương trình bắt lỗi chính tả tiếng Việt
    Information
    [TABLE]
    [TR]
    [TD="width: 5%"][/TD]
    [TD="width: 90%"]Tóm tắt luận văn
    Vấn đề nghiên cứu Xây dựng chương trình bắt lỗi chính tả tiếng Việt nhằm
    phát hiện và đề nghị từ thay thế cho các lỗi chính tả thường gặp. Đề tài này
    chỉ giới hạn bắt lỗi chính tả trong các văn bản hành chính.
    Cách tiếp cận Sử dụng cách tiếp cận như sau: Phát sinh những câu có khả
    năng thay thế dựa trên các nguyên nhân gây lỗi chính tả, sau đó sử dụng mô
    hình ngôn ngữ dựa trên từ để xác định câu đúng nhất. Dựa trên sự khác biệt
    giữa câu gốc và câu được chọn, ta sẽ có thể biết được từ nào sai chính tả, và
    cách viết đúng chính tả là như thế nào. Mô hình sử dụng ngữ liệu thô chưa
    tách từ, tự huấn luyện để phù hợp với mục đích của mô hình.
    Mô hình bắt lỗi chính tả theo hai giai đoạn. Giai đoạn thứ nhất tìm và yêu
    cầu người dùng sửa lỗi tiếng (những tiếng không tồn tại trong tiếng Việt).
    Giai đoạn này chủ yếu sửa những lỗi sai do nhập liệu từ bàn phím. Giai đoạn
    hai được dùng để bắt lỗi từ. Tất cả các cách tách từ có thể có của câu nhập
    vào được xây dựng dựa trên lưới từ. Sau đó lưới từ này được mở rộng để thêm
    vào những câu mới nhờ áp dụng các nguyên nhân gây lỗi chính tả, nhằm tạo
    ra câu đúng từ câu sai chính tả. Mô hình ngôn ngữ được áp dụng để đánh giá
    từng cách tách từ trong lưới từ và chọn ra cách tách từ tốt nhất. Dựa vào cách
    tách từ này và câu gốc, ta sẽ xác định từ sai chính tả và đưa ra từ đề nghị.
    Một số heuristic được áp dụng để hiệu chỉnh lưới từ nhằm tạo ra một kết quả
    8



    KHOA CNTT – ĐH KHTN




    DANH SÁCH BẢNG DANH SÁCH BẢNG
    tốt hơn.
    Mô hình ngôn ngữ được dùng là trigram dựa trên từ. Việc huấn luyện
    trigram dựa trên ngữ liệu đã tách từ sẵn có và tạo thêm ngữ liệu mới từ ngữ
    liệu thô chưa tách từ. Với ngữ liệu thô, mô hình ngôn ngữ được huấn luyện
    để thu thập tất cả cách tách từ có thể có của mỗi câu trong ngữ liệu huấn
    luyện thay vì sử dụng bộ tách từ rồi huấn luyện trên cách tách từ tốt nhất đó.
    Các trigram trong mỗi cách tách từ được thu thập dựa theo khả năng của mỗi
    cách tách từ. Trigram của cách tách từ tốt hơn sẽ có trọng số cao hơn các
    cách tách từ còn lại
    Kết quả Chương trình hoạt động tốt và đạt được một số kết quả nhất định.
    Các lỗi sai âm tiết được phát hiện hoàn toàn. Lỗi sai từ có thể phát hiện đến
    trên 88%. Các loại lỗi khác đạt độ chính xác rất cao.
    Chương trình có thể được cải tiến thêm bằng cách sử dụng các thông tin
    cao cấp hơn như thông tin từ loại, thông tin cú pháp, ngữ nghĩa . nhằm
    nâng cao độ chính xác hơn nữa[/TD]
    [/TR]
    [/TABLE]




     
Đang tải...