Báo Cáo Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT

    Kể từ thế hệ máy tính Điện tử (MTĐT) đầu tiên, giới nghiên cứu và công nghệđã ý
    thức được rằng muốn phát huy khả năng xử lý của MTĐT thì phải tìm cách để máy
    và người có thể giao tiếp với nhau bằng Ngôn ngữ tự nhiên. Trong đó có rất nhiều
    vấn đề khác nhau cần giải quyết nhưng một số vấn đề mấu chốt trong giao tiếp
    người máy là xử lý Ngôn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nói, chữ viết,
    dịch tựđộng. Sau gần nửa thế kỷ nghiên cứu và thử nghiệm, hiện nay đã có một số
    phần mềm thương phẩm, chủ yếu cho tiếng Anh. Đối với tiếng Việt là một ngôn
    ngữđơn âm có thanh điệu còn chưa có nhiều nghiên cứu và kết quả.

    Mục đích của đề tài là nghiên cứu khảo sát Xây dựng các phương pháp hiệu quả
    cho tổng hợp, nhận dạng và xử lý Ngôn ngữ tiếng Việt. Ba nội dung chính Quan hệ
    chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là:


    1. Nhận dạng và tổng hợp tiếng Việt

    2. Nhận dạng chữ Việt in và viết tay có hạn chế

    3. Xử lý Ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự
    nhiên tiếng Việt, nhằm tới mục đích dịch tựđộng).


    Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh
    điệu, văn phạm tiếng Việt; kế thừa, Phát triển các công cụ trong tổng hợp, nhận
    dạng, phân tích văn phạm, dịch tựđộng để áp dụng hiệu quả cho tiếng Việt. Đề tài
    vừa Phát triển một số giải pháp, phương pháp và công cụ cơ bản, vừa từng bước
    tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng. Mỗi nhánh của đề tài đều
    có những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0,
    phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng
    đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận
    dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần
    mềm dịch tựđộng Việt – Anh EVTRAN 2.5. Ngoài những sản phẩm nói trên còn
    có các kết quả ở dạng công cụ phục vụ cho nghiên cứu tiếng Việt như phương
    pháp và công nghệ Xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mô
    hình từđiển Điện tử cho xử lý Ngôn ngữ tự nhiên. Đề tài cũng đã đóng góp các bài
    nghiên cứu đã được công bốở các tạp chí, hội nghị trong và ngoài nước,làm phong
    phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữđơn âm đa thanh
    điệu, một mảng chưa có thật nhiều kết quả trên thế giới.

    MỤC LỤC

    1. Lời mởđầu . 7
    2. Nội dung chính của báo cáo . 7

    2.1 Tổng quan tình hình nghiên cứu trong và ngoài nước . 7

    2.2 Những nội dung đã thực hiện .10

    2.2.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt 10
    2.2.1.1 Các kết quả nghiên cứu .10
    Khảo sát về ngữ âm tiếng Việt .10
    Tổng hợp tiếng Việt .11
    Nhận dạng tiếng Việt .12
    2.2.1.2 Sản phẩm phần mềm 17
    Hệ thống Tổng hợp tiếng nói VnVoice 2.0 .17
    Chương trình nhận dạng lệnh VnCommand 18
    Chương trình đọc chính tả VnDictator .18
    Chương trình Xây dựng công nghệ coding
    ngữ nghĩa của âm thanh . 19
    2.2.1.3 Về triển khai ứng dụng 20
    Ứng dụng của tổng hợp tiếng nói 20

    2.2.2 Nghiên cứu Phát triển kỹ thuật nhận dạng chữ in và
    viết tay tiếng Việt .20
    Nhận dạng chữ Việt in VnDOCR 3.0 22
    Nhận dạng chữ viết tay có hạn chế 2 2

    2.2.3 Nghiên cứu Phát triển các kỹ thuật xử lý Ngôn ngữ
    tự nhiên tiếng Việt 24
    2.2.3.1 Dịch tựđộngViệt – Anh 24
    2.2.3.2 Dóng hàng Văn bản song ngữ Pháp-Việt .26
    2.2.3.2 Mô hình từđiển điện tử .28

    2.3 Tổng quát hoá và đánh giá kết quả thu được 28

    2.4 Kết luận và kiến nghị 29

    2.5 Tài liệu tham khảo .31
     
Đang tải...