Thạc Sĩ Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp va

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 22/2/16.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    5

    MỤC LỤC
    Danh mục các thuật ngữ và từ viết tắt i
    Danh sách bảng ii
    Danh sách hình vẽ iii
    MỞ ĐẦU 1
    1. Tính cấp thiết của đề tài 1
    2. Mục tiêu, phạm vi nghiên cứu của luận án. . 4
    3. Phương pháp và nội dung nghiên cứu . 5
    4. Kết quả đạt được của luận án 6
    CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG
    NÓI 10
    1.1. Tổng hợp tiếng nói . 10
    1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên 11
    1.1.2. Chuyển văn bản sang đơn vị tiếng nói 11
    1.1.3. Dự báo ngôn điệu . 11
    1.1.4. Các phương pháp tổng hợp tiếng nói 12
    1.1.5. Các hệ thống tổng hợp tiếng nói tiếng Việt . 21
    1.1.6. Các tham số ngôn điệu . 23
    1.1.7. Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong
    ngữ lưu . 25
    1.1.8. Hiệu chỉnh đường tần số cơ bản . 33
    1.2. Nhận dạng tiếng nói . 38
    1.2.1. Liệt kê các lớp bài toán nhận dạng tiếng nói . 38
    1.2.2. Môi trường thu nhận tín hiệu 39
    1.2.3. Biểu diễn tiếng nói - đặc trưng tiếng nói . 40 6

    1.2.4. Phương pháp nhận dạng tiếng nói . 42
    1.2.5. Các hệ thống nhận dạng tiếng nói tiếng Việt . 43
    1.3. Kết luận chương 1 44
    CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY 46
    2.1. Xử lý tiếng nói . 46
    2.1.1. Xử lý nhiễu 46
    2.1.2. Một số loại nhiễu trong môi trường thực . 47
    2.1.3. Trích chọn đặc trưng tiếng nói 50
    2.1.4. Thuật toán PSOLA . 56
    2.2. Mô hình dự báo CART 59
    2.3. Mô hình Markov ẩn (HMM, Hidden Markov Model) . 63
    2.3.1. Tham số của mô hình HMM . 64
    2.3.2. Nhận dạng tiếng nói với mô hình Markov ẩn 66
    2.4. Kết luận chương 2 67
    CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP
    THANH ĐIỆU TIẾNG VIỆT 68
    3.1. Khảo sát một số đặc tính âm học tiếng Việt 69
    3.1.1. Đặc tính trường độ của âm tiết do ảnh hưởng của phụ âm và nguyên
    âm trong ngữ cảnh . 70
    3.1.2. Quy luật biến đổi thanh điệu trong ngữ cảnh 71
    3.1.3. Quy luật biến đổi formant của nguyên âm trong ngữ cảnh 73
    3.1.4. Cách điệu hóa đường F0 của âm tiết tiếng Việt 78
    3.2. Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh
    câu . 86
    3.2.1. Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo 87
    3.2.2. Dự báo ngôn điệu . 92 7

    3.2.3. Thiết kế bộ phân tích ngôn điệu và xác định tham số huấn luyện dự
    báo trường độ và âm lượng 93
    3.2.4. Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế 101
    3.3. Kết luận chương 3 103
    CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH
    ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT 105
    4.1. Nhận dạng thanh điệu tiếng Việt 105
    4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0108
    4.2.1. Phép chuẩn hóa VTLN . 110
    4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN 112
    4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant 117
    4.3. Hệ thống nhận dạng tiếng Việt nhúng 124
    4.3.1. Điều khiển thiết bị tự hành bằng tiếng nói 126
    4.3.2. Biểu diễn HMM trong bộ nhớ SRAM của chip với tính toán chấm tĩnh
    (fixed point) 130
    4.4. Kết luận chương 4 131
    KẾT LUẬN 133
    1. Kết quả về tổng hợp tiếng Việt 133
    1.1. Kết quả chính 133
    1.2.Kết quả khác 134
    1.3.Một kết quả ứng dụng 134
    2. Kết quả về nhận dạng tiếng Việt . 134
    2.1. Kết quả chính 134
    2.2.Kết quả khác 135
    2.3.Một kết quả ứng dụng 136
    3. Hướng phát triển . 136 8

    DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 138
    TÀI LIỆU THAM KHẢO 140
    PHỤ LỤC 149
    1. Cách tổ chức cây dự báo CART của Wagon/Festival 153
    1.1. Sự hỗn tạp trong dữ liệu (tạp âm) 153
    1.2. Định dạng dữ liệu 156
    1.3. Xây dựng cây 161
    2. Phân loại âm vị tiếng Việt . 163
    3. Cơ sở dữ liệu ngữ âm 171
    4. Các câu trích từ tập truyện “Dế mèn phiêu lưu ký” . 213




    i

    Danh mục các thuật ngữ và từ viết tắt
    Từ viết tắt Tên đầy đủ
    ADC Analog-Digital-Converter
    ADPCM Adaptive differential pulse-code modulation
    ANN Artificial neural network
    CART Class And Regression Tree
    CD-HMM Continuous-Density Hidden Markov Model
    CMS Cepstral-mean-subtraction
    CSDL Cơ sở dữ liệu
    C-V Consonant-Vow
    C-V-C Consonant-Vow-Consonant
    dB Decibel
    DFT Discrete Fourier Transform
    EM Expectation Maximization
    FFT Fast Fourier Transform
    F0 Fundamental Frequency
    GMM Gaussian Mixture Models
    GPIO General-purpose Input/Output
    HMM Hidden Markov Model
    HTK Hidden Markov Model Toolkit
    IDFT Inverse Discrete Fourier Transform
    IFFT Inverse Fast Fourier Transform
    LPC Linear Predictive Coding
    LPCC Linear Predictive Cepstral Coefficient
    LPF Low Pass filter
    LSF Line Spectral Frequency
    LSP Line Spectrum Pair ii

    MAP Maximum A posteriori
    MFCC Mel Frequency Cepstral Coefficient
    ML Maximum Likelihood
    PDF Probility Density Function
    POS Part-Of-speech
    PSOC Programmable System On Chip
    PSOLA Pitch Synchronous Overlap Add
    RMSE Root Mean Square Error
    SD Speaker Dependent
    SI Speaker Independent
    SS Spectral Subtraction
    SRAM Static Random Access Memory
    STC Shared decision Tree Cluster
    ToBI Tones and Break Indices
    TTS Text To Speech
    VTLN Vocal Tract Length Normalization
    VAD Voice Activity Detection
    ZCR Zero Crossing Rate
    WF Wiener Filter
    VTL Vocal Tract Length





    ii

    Danh sách bảng
    1. 1 Bảng so sánh một số sản phẩm tổng hợp tiếng Việt đã công bố . 21
    1. 2 Các tham số đặc trưng của ngôn điệu 24
    1. 3 Phân loại âm tiết tiếng Việt. 27
    1. 4 Các loại nhận dạng tiếng nói . 39
    1. 5 Liệt kê các môi trường theo mức nhiễu 39
    2. 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC. . 66
    3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu. . 72
    3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu. . 73
    3. 3. Vùng tần số của các nguyên âm 76
    3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu. 76
    3. 5. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu. 77
    3. 6. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu 83
    3. 7. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu. 84
    3. 8. Bảng độ dài âm vị không tính ngữ cảnh 87
    3. 9. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối 88
    3. 10. Bảng độ dài âm cuối ràng buộc bởi nguyên âm . 88
    3. 11. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm . 89
    3. 12. Bảng độ dài thanh điệu theo âm tiết ràng buộc bởi âm kết thúc . 90
    3. 13. Bảng tham số đầu vào cho mô hình CART .95
    4. 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC . 109
    4. 2 Một số dạng của phép hiệu chỉnh tần số 111
    4. 3 Bảng kết quả thực nghiệm kiểm tra . 116
    4. 4 Bảng kết quả giải mã tên trường của người đọc. 117
    4. 5 Bảng kết quả thực nghiệm kiểm tra . 123
    4. 6 Bảng cấu hình GAIN kết hợp bộ lọc thông thấp. . 126
    4. 7 Khẩu lệnh điều khiển xe lăn. . 128 iii

    4. 8 Khẩu lệnh điều khiển robot hút bụi. 129
    4. 9 Các bước của chương trình thử nghiệm trên máy tính . 130
    5. 1 Phân chia nguyên âm tiếng Việt theo độ nâng của lưỡi 165
    5. 2 Bảng phiên âm tiếng Việt 167

















    iii

    Danh sách hình vẽ
    1. 1 Hệ thống TTS tổng quát. . 10
    1. 2 Xử lý ngôn điệu tiếng Việt 12
    1. 3 Sơ đồ hệ thống tổng hợp ghép nối. 17
    1. 4 Tổng hợp tiếng nói theo HMM [71]. . 20
    1. 5 Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant. . 21
    1.6 Mô hình VoS tổng hợp ghép nối âm tiết và cụm từ. 22
    1.7 Mô hình hệ thống TTS dựa trên mô hình Markov ẩn. 23
    1.8 Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm . 26
    1.9 Biểu đồ thanh điệu điển hình . 28
    1.10 Đường F0 của thanh ngang . 29
    1.11 Đường F0 của thanh ngã . 29
    1.12 Sơ đồ mô hình Fujisaki. 33
    1.13 Đường nét của thành phần trọng âm Gp(t). . 34
    1.14 Đường nét của thành phần trọng âm Ga(t) 35
    1.15 Trình bày biểu diễn sơ đồ F0, mối liên hệ sự kiện ngữ điệu đoạn trong mô hình
    Tilt 36
    1.16 Cách phân tích các tham số trong mô hình Tilt . 37
    1.17 Liệt kê các kiểu hệ thống nhận dạng tiếng nói. . 39
    1.18 Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh. 41
    1. 19 Chi tiết bước trích chọn MFCC. . 41
    1. 20 MFCC chuẩn . 42
    1. 21 MFCC đã biến đổi . 42
    1. 22 Mô hình mạng lai ghép HMM/ANN 43
    2. 1 “Men tường” thu âm khi bật động cơ hút bụi . 46
    2. 2 Tiếng nói được lọc 46
    2. 3 Quá trình hình thành tiếng nói nhiễu. 47 iv

    2. 4 Nhiễu hình thành do hướng và âm thanh phản hồi. . 47
    2. 5 Nhiễu khuyếch tán. . 48
    2. 6 Đi xoắn ốc” thu âm khi robot hút bụi đang di chuyển. . 49
    2. 7 Tiếng nói được lọc. . 49
    2. 8 Sơ đồ khối cho hai thuật toán SS và WF . 50
    2. 9 Các băng lọc dạng tam giác 51
    2. 10 Trích chọn đặc trưng MFCC. 51
    2. 11 Cộng xếp chồng các đoạn tín hiệu . 56
    2. 12 Ghép nối 2 diphone . 58
    2. 13 Một mô hình Markov ẩn với sáu trạng thái 66
    3. 1 Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu 69
    3. 2 Thanh không dấu (âm a) . 79
    3. 3 Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được . 79
    3. 4 Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được 80
    3. 5 Thanh nặng được cách điệu từ các giá trị F0 đo được . 80
    3. 6 Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được 80
    3. 7 Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã. . 82
    4. 1 Cách tuyến tính hóa đường F0 từng phân đoạn . 106
    4. 2 Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc . 107
    4. 3 Hiệu chỉnh tần số và trích chọn đặc trưng MFCC 110




    1

    MỞ ĐẦU
    1. Tính cấp thiết của đề tài
    Ngày nay, với sự bùng nổ của xã hội thông tin, con người không còn chỉ có nhu
    cầu giao tiếp với nhau nữa mà còn cần giao tiếp với những thiết bị điện tử. Hình thức
    giao tiếp người – máy thông qua ngôn ngữ tự nhiên sẽ đem lại nhiều ứng dụng, góp
    phần giải phóng sức lao động của con người. Chính vì vậy, vai trò của nhận dạng, tổng
    hợp tiếng nói có tầm quan trọng đặc biệt liên quan đến quá trình phát triển của văn
    minh nhân loại. Các ứng dụng nhận dạng và tổng hợp tiếng nói như Dragon của LH,
    Viavoice, Google voice search, Siri của Apple v.v ngày càng trở nên thông dụng và
    hữu ích trong cuộc sống.
    Về các hệ thống tổng hợp tiếng nói, hiện nay đã có nhiều phương pháp tổng hợp
    được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng
    ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu [23][25][27], tổng hợp theo
    phương pháp thống kê dựa trên HMM [18][71][72] Tuy nhiên, vấn đề tổng hợp
    giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu Âu
    thông dụng như tiếng Anh. Bởi vì để tổng hợp được giọng tự nhiên đòi hỏi rất nhiều
    yếu tố từ việc xử lý các đặc trưng tín hiệu, hiện tượng ngôn điệu và ngữ cảnh ứng dụng
    (như trạng thái cảm xúc ) v.v
    Các hệ thống nhận dạng tiếng nói thường sử dụng các kỹ thuật học máy truyền
    thống như mạng nơ ron, mô hình Markov ẩn (HMM), chiến thuật tìm kiếm dựa trên
    quy hoạch động, các mô hình này có tính khái quát cao được ứng dụng ở nhiều lĩnh
    vực ngoài nhận dạng và tổng hợp tiếng nói. Để tăng được chất lượng nhận dạng tiếng
    nói các hệ thống nhận dạng cần phải bổ sung các phép tiền xử lý tín hiệu tiếng nói, các
    phép trích chọn đặc trưng tiếng nói như xử lý giảm thiểu sự sai lệch về phổ giữa đặc
    trưng tiếng nói của tập giọng nói người được huấn luyện và giọng nói của người sử
    dụng hệ thống [26][50] (ứng dụng trong các hệ thống nhận dạng độc lập người nói). 2

    Lọc nhiễu tiếng nói [28][58], trích chọn đặc trưng [35][36][46], tích hợp đặc trưng
    ngôn điệu [16]
    Hai môi trường nền phổ biến cho các hệ thống nhận dạng và tổng hợp tiếng nói là
    server hoặc nhúng (các ứng dụng tiếng nói cho điều khiển thiết bị, nhúng v.v ), các
    môi trường này có tài nguyên lưu trữ và tính toán khác nhau, điều đó dẫn đến các tiếp
    cận khác nhau trong việc cân bằng giữa chất lượng nhận dạng tổng hợp tiếng nói và sử
    dụng tài nguyên (lưu trữ, tính toán và điện năng tiêu thụ), thời gian thu thập mẫu huấn
    luyện v.v Môi trường nhúng có tầm quan trọng đặc biệt, được tập trung nghiên cứu
    phát triển nhiều trong thời gian gần đây do các thiết bị nhúng hầu hết không trang bị
    thiết bị nhập liệu như bàn phím và màn hình cảm ứng, giao tiếp bằng tiếng nói thể hiện
    hình thức tương tác tự nhiên, tuy vậy các hệ thống này đòi hỏi phải tối ưu rất nhiều so
    với quy trình nhận dạng tổng hợp tiếng nói nói chung [13][47][52]
    Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là một trong những mục
    tiêu cơ bản của phát triển và ứng dụng công nghệ thông tin ở Việt Nam do sự khác biệt
    về bản chất của hệ thống âm tiết, ngữ pháp và hiện tượng thanh điệu nên không thể sử
    dụng nguyên các hệ thống ứng dụng cho tiếng nước ngoài. Hiện nay những nghiên cứu
    về đặc trưng tín hiệu, hiện tượng ngôn điệu tiếng Việt mới chỉ đề cập ở mức độ ban
    đầu.
    Trong nước đã hình thành nhiều trung tâm nghiên cứu của các Viện nghiên cứu
    và các khoa Công nghệ Thông tin của các trường Đại học về xử lý tiếng nói (tiếng
    Việt) và ngôn ngữ tự nhiên như : Viện Công nghệ Thông tin, Trung tâm Pháp –Việt
    MICA của Đại học Gronobe và Đại học Bách khoa Hà Nội, Trung tâm SLP của Đại
    học khoa học tự nhiên Đại học Quốc Gia TP. HCM, Viện Công nghệ Bộ Khoa học và
    Công nghệ v.v .
    Các kết quả nghiên cứu tập trung vào việc sử dụng, cải tiến các công nghệ nguồn
    về Nhận dạng và Tổng hợp tiếng nói của tiếng Anh. 3

    Phòng thí nghiệm Trí tuệ nhân tạo AILab (Đại học Khoa học tự nhiên TP HCM)
    đã thiết kế và xây dựng các hệ thống Nhận dạng và tổng hợp tiếng Việt với nhiều cách
    tiếp cận khác nhau như tổng hợp ghép nối, tổng hợp dựa trên mô hình HMM.
    Về ứng dụng cho điều khiển, Viện Hàn lâm Khoa học và Công nghệ Việt Nam,
    với đề tài “Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp
    vào robot hút bụi tự động thông minh”, thực hiện năm 2011-2013[77] đã nghiên cứu
    phát triển mẫu robot dịch vụ - robot hút bụi điều khiển bằng khẩu lệnh tiếng Việt. Viện
    nghiên cứu Quốc tế MICA (Đại học Bách khoa Hà Nội) đã nghiên cứu một
    robot hướng dẫn bảo tàng từ giữa năm 2009 và thử nghiệm tại Bảo tàng Dân tộc học
    Việt Nam. Robot có khả năng hiểu một số câu hỏi của khách thăm quan, đồng thời sẽ
    giới thiệu cho khách thăm quan bằng tiếng nói nhiều thông tin liên quan đến các hiện
    vật trưng bày v.v
    Chính vì vậy việc đi sâu nghiên cứu các đặc trưng của ngôn ngữ tiếng Việt, khai
    thác, áp dụng các đặc trưng đó vào các hệ thống nhận dạng, tổng hợp tiếng nói để nâng
    cao chất lượng tổng hợp và nhận dạng tiếng Việt đang là vấn đề cần thiết nhằm tiến tới
    xây dựng các ứng dụng phù hợp với đặc thù của ngôn ngữ tiếng Việt, đáp ứng các nhu
    cầu ứng dụng ngày càng cao của xã hội.
    Xuất phát từ thực tế và những lý do trên, việc lựa chọn đề tài “Nghiên cứu các
    đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng Tổng hợp và Nhận
    dạng tiếng Việt”, nghiên cứu các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ
    tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để nâng cao
    chất lượng Tổng hợp và nhận dạng tiếng Việt trong các ứng dụng giao tiếp người máy.
    Đề tài này cũng nghiên cứu hướng tới các ứng dụng tương tác điều khiển thiết bị, robot
    dịch vụ, ứng dụng hỗ trợ người khuyết tật, những ứng dụng mà công nghệ nhận dạng
    và tổng hợp tiếng Việt có vai trò quan trọng. 4

    2. Mục tiêu, phạm vi nghiên cứu của luận án.
    Mục tiêu chính của đề tài là tập trung chủ yếu ở vấn đề về xử lý ngôn điệu và đặc
    trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt.
    Các hiện tượng ngôn điệu có thể là đường F0, trường độ và âm lượng của âm tiết
    hoặc từ đa âm tiết trong ngữ cảnh câu. Nghiên cứu về các ràng buộc ngôn điệu cho
    tổng hợp tiếng Việt còn ít được đề cập tới, trong khi để đạt được độ tự nhiên cao của
    tiếng nói tổng hợp cũng như để tăng độ chính xác của các hệ thống nhận dạng tiếng nói
    (nhận dạng khẩu lệnh, nhận dạng tên, nhận dạng đối thoại v.v ) đều đòi hỏi phải tích
    hợp các đặc trưng ngôn điệu của tiếng nói trong ngữ lưu và trong môi trường sử dụng
    thực tế của tiếng nói. Ngoài phương pháp học ngôn điệu dựa trên các mô hình thống
    kê, các tác giả của Viện Ứng dụng Công nghệ, Đại học Quốc gia TP HCM cũng đã giới
    thiệu một hệ thống tổng hợp tiếng Việt VOS với giọng đọc gần tiếng nói tự nhiên dựa
    trên tiếp cận kiểu kho ngữ liệu (corpus-based), mô hình này đòi hỏi rất nhiều dữ liệu
    được gán nhãn (dựa trên công nghệ phân đoạn tự động câu tiếng nói thành các đơn vị
    tiếng nói kết hợp với điều chỉnh tay) và chỉ phù hợp với ứng dụng cho môi trường
    server, bên cạnh đó tiếp cận này cũng có điểm hạn chế là đọc không chuẩn các ngữ
    đoạn ít thông dụng.
    Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu,
    các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một
    vấn đề quan trọng nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về
    xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường
    dựa trên đặc trưng chuẩn MFCC. Khi ứng dụng thuật toán nhận dạng HMM với các
    đặc trưng MFCC cơ sở cho việc nhận dạng tiếng nói liên tục không phụ thuộc người
    nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng
    nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM.
    Xuất phát từ mục tiêu trên, phạm vi nghiên cứu của đề tài tập trung vào các vấn
    đề sau: 5

     Nghiên cứu các mô hình dự báo các hiện tượng ngôn điệu như trường độ, âm lượng,
    thanh điệu của các âm tiết tiếng Việt trong ngữ lưu, tích hợp trong các hệ thống tổng
    hợp tiếng Việt, tối ưu hiệu quả sử dụng tài nguyên lưu trữ và tính toán ứng dụng cho
    hệ thống nhúng.
     Nghiên cứu các phương pháp giảm thiểu sự sai lệch về cấu âm, phổ của tập giọng
    nói huấn luyện và giọng của người sử dụng dựa trên đặc trưng ngữ âm tiếng Việt để
    tăng độ chính xác nhận dạng tiếng nói cho các hệ thống nhận dạng tiếng Việt độc lập
    người nói.
    Đối tượng nghiên cứu của đề tài là:
     Các mô hình học máy như HMM, CART.
     Các đặc trưng tiếng nói (MFCC, F0, formant, VTL v.v )
     Mô hình biểu diễn, cách điệu đường F0, mô hình xử lý nhiễu, cân bằng tần số v.v
     Phương pháp tổng hợp ghép nối.
     Phép chuẩn hóa VTLN cho các hệ thống nhận dạng tiếng nói độc lập người nói.
    3. Phương pháp và nội dung nghiên cứu
    Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên cứu lý
    thuyết và thực nghiệm. Các tư liệu và thông tin liên quan chủ yếu được thu thập, tổng
    hợp từ các nguồn tạp chí khoa học chuyên ngành trong và ngoài nước, qua các buổi
    seminar hoặc tham gia báo cáo tại các hội thảo khoa học, qua trao đổi với thầy hướng
    dẫn và các đồng nghiệp cùng lĩnh vực nghiên cứu v.v Tổng hợp các thông tin liên
    quan, lựa chọn các cách tiếp cận đã được áp dụng thành công, tiến hành thử nghiệm
    với tiếng Việt, đánh giá kết quả, từ đó sẽ tiến hành nghiên cứu sâu hơn về giải pháp cải
    tiến có thể để phát hiện các quy luật, ràng buộc cơ bản của đặc trưng ngôn điệu tiếng
    Việt cho tổng hợp và nhận dạng tiếng Việt.
    Cấu trúc luận án gồm: phần mở đầu, 4 chương nội dung, kết luận, danh mục tài
    liệu tham khảo và phụ lục.
    Chương 1: Tổng quan về tổng hợp và nhận dạng tiếng nói. 6

    Chương này trình bày khái quát về tổng hợp và nhận dạng tiếng nói dựa trên
    phương pháp Corpus-based theo cả hai phương pháp là chọn đơn vị để ghép nối và mô
    hình tổng hợp dựa trên HMM cho vấn đề tổng hợp tiếng nói và mô hình HMM cho vấn
    đề nhận dạng tiếng nói. Chương này còn phân tích một số hệ thống tổng hợp và nhận
    dạng tiếng nói cũng như mô hình Fujisaki để tổng hợp đường F0.

    Chương 2: Xử lý tiếng nói và các mô hình học máy.
    Chương này trình bày các công cụ cơ bản trong tiền xử lý tiếng nói, trích chọn
    đặc trưng tiếng nói, đặc trưng ngôn điệu và các mô hình học máy cho vấn đề dự báo,
    học và nhận dạng tiếng nói.
    Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng Việt
    Chương này trình bày một số kết quả của luận án về tổng hợp tiếng Việt:
     Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt.
     Thanh điệu.
     Dự báo trường độ và âm lượng của âm tiết trong ngữ lưu.
     Tổng hợp tiếng Việt trên các hệ thống tài nguyên hạn chế.
    Chương 4. Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất
    lượng nhận dạng tiếng Việt
     Nghiên cứu về nhận dạng thanh điệu tiếng Việt.
     Nghiên cứu đưa đặc trưng thanh điệu, tham số formant và tham số cấu âm của
    người nói để nâng cao chất lượng nhận dạng tiếng Việt.
     Nhận dạng tiếng Việt trên các hệ thống tài nguyên hạn chế.
    4. Kết quả đạt được của luận án
    Các kết quả đạt được của luận án đã được công bố trong 2 bài báo tại chí chuyên
    ngành năm 2011, 3 bài báo cáo đăng tại kỷ yếu hội nghị trong nước năm 2012, 2014.
    Ngoài ra nghiên cứu sinh cũng là đồng tác giả của một số báo cáo tại hội nghị trong 7

    nước, nước ngoài thời gian trước khi là nghiên cứu sinh. Những kết quả đạt được của
    luận án có thể tóm tắt như sau:
    Bài tạp chí
     “Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt“, Tạp chí Tin học
    và Điều khiển học”, trang 273 – 282, Tập 27, số 3, 2011. Bài báo trình bày nghiên
    cứu và thử nghiệm hiệu ứng của tổ hợp đặc trưng F0 và chuẩn hóa độ dài bộ phận
    cấu âm (VTLN, vocal tract length normalisation) để nâng cao chất lượng nhận dạng
    tiếng tên tiếng Việt trong mô hình nhận dạng tiếng nói phát âm liên tục dựa trên
    HMM. Các kết quả của bài báo chứng tỏ rằng hệ nhận dạng tiếng nói độc lập người
    nói với đặc trưng tiếng nói dựa trên đường F0 và đặc trưng MFCC biến đổi theo
    VTLN đã chuẩn hóa tốt biến thiên tần số của người nói mới và cải tiến được kết
    quả nhận dạng.
     “Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng hợp”, Tạp chí Công
    nghệ Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang 236-241. Bài
    báo trình bày các kết quả nghiên cứu và thử nghiệm tích hợp các giá trị ngôn điệu
    tiếng Việt được dự báo như trường độ và âm lượng cho câu tiếng nói tổng hợp sử
    dụng mô hình học thống kê CART.
    Các kết quả trình bày trong bài báo chứng tỏ việc đưa giá trị ngôn điệu được dự
    báo từ văn bản vào trong bộ tổng hợp tiếng Việt được thống kê chi tiết cho cơ sở dữ
    liệu âm huấn luyện mô hình kết hợp các ngữ cảnh mức âm vị khác nhau đã cải tiến
    được chất lượng dự báo các tham số ngôn điệu như trường độ và âm lượng, dẫn đến
    thay đổi đáng kể chất lượng câu tiếng nói được tổng hợp.

    Kỷ yếu hội thảo
     “Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến thể của MFCC với
    ước lượng VTLN từ các giá trị formant”. Hội nghị quốc gia lần thứ VII "Nghiên
    cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014. Bài báo cáo trình bày 8

    ứng dụng phương pháp ước lượng tham số VTLN dựa trên bộ phát hiện tiếng nói
    và các giá trị formant thay thế cho phương pháp ML (Maximum likelihood) để tối
    ưu hóa về tính toán khi xây dựng một hệ thống nhận dạng tên tiếng Việt.
     “Tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên
    ghép nối”, Hội nghị quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công
    nghệ thông tin", FAIR 2014. Bài báo cáo trình bày kết quả xây dựng hệ tổng hợp
    tiếng Việt theo phương pháp ghép nối âm cơ bản trên môi trường chip với tài
    nguyên hạn chế.
     “Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên
    nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN – MFCC”, hội nghị
    VCM-2012. Bài báo cáo trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu
    lệnh tiếng Việt để điều khiển thiết bị tự hành, tích hợp hoàn toàn trong một chip vi
    hệ thống điện năng thấp như họ PSoC5 lõi (ARMCortex M3 chip, 64KB RAM,
    256KB Flash) hoặc họ OMAP3 (lõi ARM7,128MB RAM), được phát triển dựa
    trên mô hình nhận dạng Markov ẩn kết hợp mạng nơ ron dự báo.
    Các công bố trước thời gian làm nghiên cứu sinh
     Phân lớp các đường thanh điệu trong ngữ cảnh câu, kỷ yếu Hội thảo Quốc gia,
    NXB KHKT, 2006, tr 279-284.
     Nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói, kỷ yếu
    Hội thảo Quốc gia, NXB KH&KT, tr 443-449, 2006.
     Sử dụng mô hình Fujisaki và mạng nơ ron trong nhận dạng và tổng hợp thanh điệu
    tiếng Việt" (2006), kỷ yếu hội thảo: “Nghiên cứu cơ bản và ứng dụng công nghệ
    thông tin FAIR2005”, Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT,
    Hà Nội.
     Toward integrating the Fujisaki model into Vietnamese TTS, proceeding of the
    International Conference on Spoken Language Processing, Korea 2004. 9

     Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,” Proc. in
    EUROSPEECH, Geneva, pages 177-180, 2004.
     Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, kỷ yếu báo cáo
    hội nghị FAIR nghiên cứu cơ bản và ứng dụng công nghệ thông tin, trang 349 –
    357, 2003.
     Development of Automatic Data Entry Systems with Pattern Recognition
    Techniques, International Symposium on Knowledge Creation in
    Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp 72-78.
     Vietnamese text normalize and processing, Proceedings of National IT
    Conference.
     
Đang tải...