Thạc Sĩ Tổng hợp và nhận dạng tiếng việt trên hệ nhúng t-engine

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 30/12/13.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    LUẬN VĂN THẠC SĨ KHOA HỌC
    Ngành: Xử ly Thông tin và Truyền thông

    TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT TRÊN
    HỆ NHÚNG T-ENGINE

    Lã Thế Vinh
    TÓM TẮT LUẬN VĂN
    Đề tài “Tổng hợp và nhận dạng tiếng Việt” trên hệ nhúng T-Engine được thực hiện bởi học viên Lã Thế Vinh dưới sự hướng dẫn của TS.Trịnh Văn Loan, đã đặt ra nhiệm vụ xây dựng một hệ thống kết hợp cả chức năng nhận dạng và tổng hợp tiếng Việt trên hệ thống nhúng T-Engine, nhằm hướng đến một ứng dụng tương tác người – máy. Bên cạnh đó tác giả của đề tài cũng đề xuất một số các giải pháp nhằm nâng cao chất lượng của tiếng Việt tổng hợp. Các vấn đề sau đã được tác giả giải quyết trong đề tài:

    • Nghiên cứu và tìm hiểu hệ thống nhúng T-Engine, và phát triển ứng dụng trên hệ thống nhúng T-Engine với hệ điều hành nhúng thời gian thực (T-Kernel)
    • Các vấn đề về nhận dạng tiếng nói tiếng Việt từ rời rạc
    • Các vấn đề về tổng hợp tiếng Việt với số lượng từ vựng không giới hạn
    • Kết hợp các module nhận dạng và tổng hợp tiếng Việt trên hệ thống nhúng T-Engine: Tác giả đã hoàn thành việc xây dựng một ứng dụng có khả năng kết hợp cả nhận dạng và tổng hợp tiếng Việt cho phép người dùng tương tác với máy nhờ sử dụng tiếng nói.
    • Chất lượng tiếng nói tiếng Việt tổng hợp được đã được cải thiện đáng kể so với các đề tài tổng hợp tiếng Việt được thực hiện trước đó, nhờ việc tác giả đã đưa ra phương pháp ghép nối và cân bằng năng lượng tốt giữa diphone.
    TỪ KHÓA: tiếng nói, tổng hợp tiếng việt, hệ nhúng, nhận dạng, t-Engine, psola, hmm, markov, tron, t-kernel, mfcc.
    LỜI NÓI ĐẦU 3
    PHẦN I 4
    GIỚI THIỆU T-ENGINE SH7760 4
    1.1 Đặc tả T-Engine. 5
    1.2 Mô hình tổng quan. 6
    1.3 Giao diện của SH7760. 8
    PHẦN II 9
    TÔNG QUAN VỀ TÍN HIỆU TIẾNG NÓI 9
    2.1 Quá trình phát âm. 10
    2.2 Biểu diễn tín hiệu tiếng nói. 11
    2.3 Âm vị trong tiếng nói. 13
    2.4 Kết luận. 15
    PHẦN III 16
    NHẬN DẠNG TIẾNG NÓI TRÊN T-ENGINE 16
    3.1 Tổng quan. 16
    3.2 Phân tích tham số đặc trưng của tín hiệu tiếng nói. 19
    3.2.1 Ghi âm và tiền xử lý tín hiệu. 20
    3.2.2 Loại bỏ khoảng lặng. 22
    3.2.3 Phân khung và hàm cửa sổ. 24
    3.2.4 Tách tham số đặc trưng. 26
    3.2.5 Đánh giá năng lượng. 30
    3.2.6 Các tham số tức thời (tham số động). 31
    3.2.7 Hiệu chỉnh kết quả. 33
    3.2.8 Kết luận. 34
    3.3 Ứng dụng mô hình Markov trong nhận dạng tiếng nói. 34
    3.3.1 Tổng quan về HMM. 35
    3.3.2 Lựa chọn mô hình Markov cho ứng dụng nhận dạng tiếng nói. 47
    PHẦN IV 53
    TỔNG HỢP TIẾNG NÓI TRÊN T-ENGINE 53
    4.1 Tổng quan về tổng hợp tiếng nói. 53
    4.1.1 Phương pháp mô phỏng hệ thống phát âm. 53
    4.1.2 Phương pháp tổng hợp Formant. 53
    4.1.3 Phương pháp ghép nối. 55
    4.2 Mô hình tổng hợp tiếng nói từ văn bản. 57
    4.2.1 Tổng hợp mức cao. 58
    4.2.2 Tổng hợp mức thấp. 60
    4.2.3 So sánh các phương pháp tổng hợp tiếng nói. 61
    4.3 Tổng hợp tiếng nói tiếng Việt sử dụng giải thuật PSOLA. 62
    4.4 Cấu trúc lưu trữ cơ sở dữ liệu diphone 70
    PHẦN V 71
    ĐÁNH GIÁ KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 71
    5.1 Kết quả đạt được 71
    5.2 Hạn chế và hướng phát triển 75
    PHỤ LỤC A – LẬP TRÌNH T-ENGINE AUDIO CODEC UDA1342 76
    A.1 Modul âm thanh và lập trình sử dụng DMAC. 76
    A.2 Giao diện âm thanh nối tiếp (SSI- Sound Serial Interface). 88
    A.2.1 Các chân vào/ra. 89
    A.2.2 Mô tả các thanh ghi. 89
    A.2.3 Hoạt động của modul SSI. 93
    PHỤ LỤC B – DANH SÁCH CÁC ÂM VỊ VÀ CÂU CẦN THU ÂM 102
    PHỤ LỤC C - BẢNG CÁC TỪ VIẾT TẮT TIẾNG ANH 113
    TÀI LIỆU THAM KHẢO 114
    LỜI NÓI ĐẦUCùng với sự phát triển nhanh chóng của xu hướng tương tác người-máy sử dụng ngôn ngữ tự nhiên, và các hệ thống nhúng thì việc kết hợp các hệ thống nhận dạng và tổng hợp trở thành một hệ thống có tính tương tác cao đồng thời đáp ứng được những đòi hỏi về tốc độ thực thi thời gian thực là một trong những vấn đề quan trọng. Trên cơ sở các yêu cầu cần thiết đó, tác giả quyết định lựa chọn đề tài:Xây dựng hệ tổng hợp và nhận dạng tiếng Việt trên hệ nhúng để thực hiện, với mong muốn những nghiên cứu của mình sẽ đóng góp một phần trong quá trình phát triển của các ứng dụng tương tác người-máy, cũng như là một tài liệu tham khảo tốt đối với các đề tài khác về sau. Bên cạnh việc tìm tòi, tối ưu hóa các giải thuật đã được chứng minh và sử dụng rộng rãi trong các bài toán nhận dạng và tổng hợp tiếng Việt, trong đề tài của mình tác giả cũng đề ra cách tiếp cận mới trong bài toán tổng hợp nhằm nâng cao chất lượng của tiếng Việt tổng hợp, đồng thời cũng đưa ra phương án xây dựng hệ thống kết hợp nhận dạng và tổng hợp tiếng Việt trên hệ nhúng T-Engine được sử dụng cho các ứng dụng tương tác người – máy sử dụng tiếng nói. Với các nhiệm vụ được đề ra , bản thuyết minh đề tài được tác giả trình bày theo bố cục sau:
    Phần I: Giới thiệu T-Engine SH7760 Trong phần này tác giả sẽ giới thiệu tổng qua về các thành phần của hệ nhúng T-Engine SH7760
    Phần II: Tổng quan về tín hiệu tiếng nói Trong phần này tác giả trình bày các lý thuyết cơ sở về tiếng nói và xử lý tín hiệu tiếng nói
    Phần III: Nhận dạng tiếng nói trên T-Engine Phần này sẽ cung cấp các lý thuyết về phân tích đặc trưng tín hiệu tiếng nói và mô hình nhận dạng mẫu được sử dụng, đồng thời cũng đưa ra mô hình thực thi một hệ thống nhận dạng với phần cứng và phần mềm trên hệ nhúng T-Engine và các vấn đề cân khắc phục khi cài đặt hệ trên T-Engine.
    Phần IV: Tổng hợp tiếng nói trên T-Engine Phần IV sẽ mô tả giải thuật PSOLA được sử dụng trong tổng hợp tiếng Việt, tác giả cũng chỉ ra trong phần này các vấn đề khi áp dụng PSOLA đối với tiếng Việt, trên cơ sở đó đề ra phương án để nâng cao chất lượng tổng hợp với tiếng Việt.
    Phần V: Đánh giá kết quả và hướng phát triển Trong phần này tác giả sẽ đánh giá những công việc đã đạt được, những hạn chế và giải pháp khắc phục.
    Hà Nội, ngày 7 tháng 11 năm 2007-11-07
    Thực hiện đề tài

    Lã Thế Vinh
     
Đang tải...