Đồ Án Chuẩn hóa văn bản dữ liệu số Nâng cao chất lượng tổng hợp tiếng nói

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Quy Ẩn Giang Hồ, 29/7/16.

  1. Quy Ẩn Giang Hồ

    Quy Ẩn Giang Hồ Administrator
    Thành viên BQT

    Bài viết:
    3,084
    Được thích:
    23
    Điểm thành tích:
    38
    Xu:
    0Xu
    TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

    Đồ án này tập trung đưa ra phương án giải quyết một cách hệ thống cho bài toán chuẩn hóa văn bản – dữ liệu số trong tiếng Việt nhằm ứng dụng tối ưu, nâng cao chất lượng cho bộ tổng hợp tiếng nói tiếng Việt. Trong đồ án có quan tâm xử lý bao quát các vấn đề thường hay gặp phải trong văn bản gây khó khăn cho việc hiểu được chúng như sự không tuân theo chuẩn trong cách trình bày – diễn đạt, tính nhập nhằng, các dạng biểu diễn khác nhau của một thành phần văn bản hoặc sự trùng lặp nhau của những thành phần văn bản nhưng lại có ý nghĩa khác nhau. Trong các vấn đề cần giải quyết, đồ án tìm và lựa chọn cách chuẩn hóa văn bản với dữ liệu số để tìm ra đúng kiểu dữ liệu số và cách đọc của nó trong tiếng Việt – đồ án đã phân tích các vấn đề - thống kê các trường hợp – tìm ra đặc trưng để đưa ra một mô hình cho cách chuẩn hóa dữ liệu số.
    Từ mô hình dữ liệu số đó, kết hợp với việc tham khảo, tìm hiểu các bài toán chuẩn hóa văn bản trên các ngôn ngữ khác nhau cũng như những kết quả của những hệ thống trước đã đạt được trong vấn đề chuẩn hóa văn bản trên tiếng Việt: Đồ án đã đưa ra cách giải quyết bài toán Chuẩn hóa văn bản tiếng Việt – dữ liệu số: tìm và đưa ra cách đọc đúng đắn nhất khi đọc số, qua đó chọn lọc khai thác những kỹ thuật phù hợp và phát triển hoàn thiện những ý tưởng đó. Cuối cùng là tạo ra một chương trình thực thi chứng minh cho sự đúng đắn của phương án đã đưa ra.


    ABSTRACT OF THESIS

    Being necessary for a Text-To-Speech (TTS) system, textnormalization is general a challenging problem, especially for Vietnamese because of the local context. In recent time, there are a lot of researches in textnormalization in Vietnamese for TTS systems, but they still have problems about classify exactly word in ambiguous text. This project proposes a categorization and a normalization model for Vietnamese text based on related results for number normalization, and improve quality of number normalization.
    Finally, this project will create a program about number normalization and categorization, add sound like “how-to-read” to token NSW to explain and protect the right of the method we use in this project.



    MỤC LỤC

    PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 2
    LỜI CẢM ƠN 2
    TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP 2
    ABSTRACT OF THESIS 2
    DANH MỤC HÌNH VẼ 2
    DANH MỤC BẢNG BIỂU 2
    CÁC THUẬT NGỮ VIẾT TẮT 2
    LỜI NÓI ĐẦU 2
    CHƯƠNG I. CHUẨN HÓA VĂN BẢN TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 2
    1.1. Tổng quan về tổng hợp tiếng nói 2
    1.2. Bài toán chuẩn hóa văn bản trong tổng hợp tiếng nói 2
    1.2.1. Khái quát về chuẩn hóa văn bản 2
    1.2.2. Các nghiên cứu liên quan trên thế giới 2
    1.2.3. Nghiên cứu chuẩn hóa văn bản trong Tiếng Việt 2
    1.3. Các vấn đề đối với bài toán chuẩn hóa tiếng Việt 2
    1.3.1. Bài toán chuẩn hóa cho văn bản Tiếng Anh 2
    1.3.2. Đặc điểm văn bản tiếng Việt 2
    1.3.2.1. Sự tổ chức không quy chuẩn của các đơn vị tokens 2
    1.3.2.2. Sự phức tạp của NSWs 2
    1.3.2.3. Xử lý các NSWs khác nhau 2
    1.3.2.4. Vấn đề phân loại NSWs 2
    1.3.2.5. Vấn đề mở rộng NSWs 2
    1.4. Định hướng giải quyết 2
    1.4.1. Hệ thống tổng hợp tiếng nói VTED 2
    1.4.2. Các vấn đề cần giải quyết – Chuẩn hóa dữ liệu số 2
    1.4.3. Định hướng giải quyết 2
    1.5. Kết chương 2
    CHƯƠNG 2. CƠ SỞ LÝ THUYẾT 2
    2.1. Tổng quan 2
    2.2. Mô hình chuẩn hóa văn bản tiếng Việt 2
    2.2.1. Bảng phân loại các từ chưa chuẩn hóa trong tiếng Việt 2
    2.2.2. Quy trình chuẩn hóa văn bản tiếng Việt 2
    2.2.2.1. Chuẩn phân tách 2
    2.2.2.2. Phát hiện NSW 2
    2.2.2.3. Phân loại NSW 2
    2.2.2.4. Mở rộng cách đọc 2
    2.3. Các kỹ thuật và giải thuật sử dụng trong mô hình 2
    2.3.1. Biểu thức chính quy 2
    2.3.2. Học máy Naïve – Bayes 2
    2.3.2.1. Giới thiệu 2
    2.3.2.2. Thuật toán Naïve – Bayes 2
    2.3.2.3. Vấn đề làm trơn Laplace 2
    2.3.2.4. Vấn đề giảm sự tràn dưới (underflow prevention) 2
    2.4. Kết chương 2
    CHƯƠNG 3. GIẢI PHÁP ĐỀ XUẤT 2
    3.1. Tổng quan 2
    3.2. Mô hình phân loại chuẩn hóa dữ liệu số 2
    3.4. Bảng phân loại các trường hợp nhập nhằng dữ liệu số 2
    3.5. Xây dựng mô hình phân loại dữ liệu số sử dụng học máy Naïve – Bayes 2
    3.5.1. Thu thập dữ liệu 2
    3.5.2. Phân loại lớp cho dữ liệu số - Tổng quát các đặc trưng cho dữ liệu 2
    3.5.2.1. Gán nhãn phân loại cho các token 2
    3.5.2.2. Tổng quát – trích xuất các đặc trưng cho lớp dữ liệu 2
    3.5.2. Ngữ liệu huấn luyện 2
    3.6. Thực nghiệm đánh giá kết quả phân loại dữ liệu 2
    3.6.1. Công cụ học máy Weka 2
    3.6.2. Phương pháp thực nghiệm 2
    3.6.3. Kết quả đánh giá 2
    3.7. Kết chương 2
    CHƯƠNG 4. THIẾT KẾ XÂY DỰNG CHƯƠNG TRÌNH CHUẨN HÓA DỮ LIỆU SỐ 2
    4.1. Tổng quan 2
    4.2. Kiến trúc hệ thống 2
    4.2.1. Module phân tách – chuẩn hóa dữ liệu số 2
    4.2.2. Module huấn luyện dữ liệu – phân loại với naïve –bayes 2
    4.3. Thiết kế chi tiết 2
    4.3.1. Cấu trúc lớp dữ liệu 2
    4.3.2. Cấu trúc lớp chuẩn hóa dữ liệu với đặc trưng 2
    4.3.3. Cài đặt – tích hợp chuẩn hóa dữ liệu số vào hệ thống 2
    4.4. Xây dựng chương trình 2
    4.4.1 Công nghệ và môi trường phát triển tích hợp 2
    4.4.2. Giao diện chương trình – Đánh giá kết quả 2
    4.4.3. Đánh giá kết quả 2
    4.4.4. Giải pháp cải thiện 2
    4.5. Kết chương 2
    CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 2
    TÀI LIỆU THAM KHẢO 2
     
Đang tải...