Báo Cáo Xây dựng công cụ khảo sát ảnh hưởng của các tham số cơ bản đến chất lượng tiếng nói bộ tổng hợp tiến

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    BỘ GIÁO DỤC VÀ ĐÀO TẠO
    TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
    -----------------------------------
    LUẬN VĂN THẠC SĨ KHOA HỌC
    XÂY DỰNG CÔNG CỤ KHẢO SÁT ẢNH HƯỞNG CỦA CÁC
    THAM SỐ CƠ BẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ
    TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA


    NGÀNH: XỬ LÝ THÔNG TIN & TRUYỀN THÔNG
    MÃ SỐ:
    LÊ TRUNG DŨNG
    Người hướng dẫn khoa học: TS. TRỊNH VĂN LOAN
    HÀ NỘI 2006

    MỤC LỤC
    LỜI NÓI ĐẦU 6
    CHƯƠNG 1: LÝ THUYẾT VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI .8
    1.1. MỞ ĐẦU 8
    1.2. BỘ MÁY PHÁT ÂM .8
    1.2.1. Bộ máy phát âm .8
    1.2.2. Cơ chế phát âm .9
    1.3. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI 9
    1.3.1. Xác định tần số lấy mẫu .12
    1.3.2. Lượng tử hoá 12
    1.3.3. Nén tín hiệu tiếng nói .12
    1.3.4. Mã hoá tín hiệu tiếng nói. 13
    1.3.4.1. Mã hoá trực tiếp tín hiệu .13
    1.3.4.2. Mã hoá tham số tín hiệu 14
    1.4. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI .15
    1.4.1. Âm hữu thanh và âm vô thanh .15
    1.4.1.1. Âm hữu thanh 15
    1.4.1.2. Âm vô thanh .15
    1.4.2. Âm vị 16
    1.4.2.1. Nguyên âm .16
    1.4.2.2. Phụ âm 16
    1.4.3. Các đặc tính khác .16
    1.4.3.1. Tỷ suất thời gian 16
    1.4.3.2. Hàm năng lượng thời gian ngắn .16
    1.4.3.3. Tần số cơ bản 17
    1.4.3.4. Formant .17
    1.5. MÔ HÌNH TẠO TIẾNG NÓI 18
    1.6. XỬ LÝ TIẾNG NÓI 22
    1.6.1. Tổng hợp tiếng nói .23
    1.6.1.1. Tổng hợp tiếng nói theo cách phát âm 23
    1.6.1.2. Tổng hợp đầu cuối tự nhiên 23
    1.6.2. Nhận dạng tiếng nói .24
    1.6.2.1. Nhận dạng ngữ nghĩa 24
    1.6.2.2. Nhân dạng người nói 24
    CHƯƠNG 2: TỔNG HỢP TIẾNG NÓI 25
    2.1. CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 25
    2.1.1. Phương pháp mô phỏng hệ thống phát âm .25
    2.1.2. Phương pháp tổng hợp Formant .25
    2.1.2.1. Bộ tổng hợp formant nối tiếp 25
    2.1.2.2. Bộ tổng hợp formant song song 26
    2.1.3. Phương pháp ghép nối 26
    2.1.3.1. Phương pháp tổng hợp PSOLA .27
    2.1.3.2. Các phiên bản của PSOLA 27
    2.2. MÔ HÌNH TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN .29
    2.2.1. Tổng hợp mức cao 29
    2.2.1.1. Xử lý văn bản 29
    2.2.1.2. Phân tích cách phát âm .30
    2.2.1.3. Ngôn điệu 30
    2.2.2. Tổng hợp mức thấp 31
    2.3. SO SÁNH CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 31
    CHƯƠNG 3: GIẢI THUẬT TD-PSOLA 33
    3.1. GIẢI THUẬT PSOLA 33
    3.1.1. Phân tích PSOLA .33
    3.1.1.1. Bước 1: Tìm cực đại địa phương của hàm năng lượng. .34
    3.1.1.2. Bước 2: Tối ưu tính tuần hoàn và năng lượng cực đại .34
    3.1.2. Tổng hợp PSOLA .35
    3.2. THAY ĐỔI TẦN SỐ CỦA TÍN HIỆU 36
    3.3. TD-PSOLA VÀ TÍN HIỆU TIẾNG NÓI 38
    3.4. CÁC VẤN ĐỀ LIÊN QUAN 39
    3.4.1 Xác định tần số cơ bản 40
    3.4.1.1. Dùng hàm tự tương quan 40
    3.4.1.2. Dùng hàm vi sai biên độ trung bình 42
    3.4.2. Làm trơn tín hiệu khi ghép nối .43
    3.4.2.1. Phương pháp Microphonemic .43
    3.4.2.2. Mô hình hình sine 43
    3.4.3 Cân bằng năng lượng 46
    CHƯƠNG 4: THIẾT KẾ XÂY DỰNG ỨNG DỤNG TỔNG HỢP TIẾNG
    VIỆT 48
    4.1. PHÂN TÍCH GIẢI THUẬT .48
    4.2. DIPHONE TRONG TIẾNG VIỆT 50
    4.3. XÂY DỰNG CƠ SỞ DỮ LIỆU 53
    4.3.1. Thu âm .53
    4.3.1.1. Quá trình thu âm .53
    4.3.1.2. Xử lý sau khi thu 53
    4.3.2. Tách diphone 53
    4.3.3. Lưu trữ dữ liệu .55
    4.4. XỬ LÝ VÀ PHÂN TÍCH VĂN BẢN .55
    4.4.1. Phân tích văn bản tiếng Việt thành các từ 55
    4.4.1.1. Xác định câu trong văn bản 56
    4.4.1.2. Phân tích câu thành các từ .57
    4.4.2. Xác định dấu (thanh điệu) của từ và tách từ thành diphone 58
    4.4.2.1. Xác định dấu (thanh điệu) của từ 58
    4.4.2.2. Tách từ thành hai diphone 59
    4.5. GHÉP NỐI CÁC DIPHONE VÀ THAY ĐỔI TẦN SỐ CƠ BẢN .60
    4.5.1.Ghép nối các diphone tạo thành các từ không dấu. 61
    4.5.1.1. Đặt vấn đề. 61
    4.5.1.2. Phân tích vấn đề 61
    4.5.1.3. Giải pháp và các bước thực hiện. .61
    4.5.2.Ghép nối các diphone tạo thành các từ có dấu 64
    4.5.2.1. Từ tạo thành từ các diphone thông thường .64
    4.5.2.2. Từ tạo thành từ các diphone đặc biệt. 68
    4.6. ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 69
    4.6.1. Giao diện chính 69
    4.6.2. Minh hoạ một số chức năng chính của chương trình .71
    TÀI LIỆU THAM KHẢO .76


    DANH MỤC CÁC HÌNH VẼ
    Hình 1.1: Bộ máy phát âm của con người 9
    Hình 1.2: Biểu diễn tín hiệu tiếng nói 10
    Hình 1.3: Thông lượng cho các phương pháp biểu diễn tiếng nói .11
    Hình 1.4: Mô Hình hoá nguồn âm đối với âm hữu thanh 18
    Hình 1.5: Chuỗi 5 đoạn ống âm học lý tưởng 19
    Hình 1.6: Cách biểu diễn lý học và toán học .20
    Hình 1.7: Mô hình số của hệ thống phát âm 21
    Hình 1.8: Một vài ứng dụng xử lý tiếng nói 22
    Hình 2.1: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp .26
    Hình 2.2: Cấu trúc cơ bản của một bộ tổng hợp formant song song .26
    Hình 2.3: Mô hình tổng hợp tiếng nói 29
    Hình 2.4: Sự phụ thuộc của ngôn điệu vào các yếu tố .30
    Hình 3.1: Xác định cực đại địa phương của hàm năng lượng 34
    Hình 3.2: Cộng xếp chồng các đoạn tín hiệu .36
    Hình 3.3: Quá trình làm thay đổi tần số của tín hiệu .37
    Hình 3.4: Sự thay đổi tần số và thời gian với TD-PSOLA 38
    Hình 3.5: Hàm tự tương quan đối với âm hữu thanh (a) và (b); và vô thanh (c)
    dùng của sổ Hamming với N=401. 41
    Hình 3.6: Mô tả hàm vi sai biên độ trung bình 42
    Hình 3.7: Ảnh phổ đã qua xử lý làm trơn tuyến tính trên miền thời gian 44
    Hình 3.8: Xử lý làm trơn tuyến tính miền thời gian 45
    Hình 3.9: Sơ đồ giải thuật cân bằng năng lượng 46
    Hình 3.10: Tín hiệu diphone -cha khi chưa cân bằng năng lượng .47
    Hình 3.11: Tín hiệu diphone -cha sau khi cân bằng năng lượng .47
    Hình 3.12: Tín hiệu từ chao trước khi cân bằng năng lượng .47
    Hình 3.13: Tín hiệu từ chao sau khi cân bằng năng lượng 47
    Hình 4.1: Sơ đồ tổng hợp tiếng Việt từ văn bản 50
    Hình 4.2: Tách diphone “-xi” từ từ mẫu “xi” .54
    Hình 4.3: Điểm cắt bên phải của diphone “-xi” .54
    Hình 4.4: Các loại dấu câu .56
    Hình 4.5: Lưu đồ thuật toán xác định câu trong văn bản .57
    Hình 4.6: Lưu đồ thuật toán xác định từ trong câu 58
    Hình 4.7: Lưu đồ thuật toán xác định dấu của từ .59
    Hình 4.8: Lưu đồ thuật toán tách từ thành 2 diphone 60
    Hình 4.9: Cộng xếp chồng các tín hiệu thành phần .62
    Hình 4.10: Lưu đồ ghép nối 2 diphone để tạo thành từ. 63
    Hình 4.11: Ghép nối hai diphone .63
    Hình 4.12: Vị trí lấy cửa sổ 64
    Hình 4.13: Biểu diễn tần số cơ bản của từ theo thời gian 64
    Hình 4.14: Tín hiệu âm a và đường biểu diễn Fo của thanh bằng .65
    Hình 4.15: Tín hiệu âm à và đường biểu diễn Fo của thanh huyền .65
    Hình 4.16: Tín hiệu âm á và đường biểu diễn Fo của thanh sắc 66
    Hình 4.17: Tín hiệu âm ả và đường biểu diễn Fo của thanh hỏi 66
    Hình 4.18: Tín hiệu âm ạ và đường biểu diễn Fo của thanh nặng .66
    Hình 4.19: Tín hiệu âm ã và đường biểu diễn Fo của thanh ngã .67
    Hình 4.20: Tính chu kỳ cơ bản F0 tại điểm i 68
    Hình 4.21: Sơ đồ khối tổng hợp diphone đặc biệt .68
    Hình 4.22: Giao diện chính của chương trình 70
    Hình 4.23: Tạo hai từ xin và chao 71
    Hình 4.24: Biểu diễn tín hiệu 2 từ xin và chao 72
    Hình 4.25: Thay đổi tần số cơ bản Fo để tạo thanh huyền 72
    Hình 4.26: Xử dụng công cụ biến đổi cân bằng năng lượng .73
    Hình 4.27: Sau khi cân bằng năng lượng .73
    Hình 4.28: Cơ sở dữ liệu diphone 74
    Hình 4.29: Chức năng đọc văn bản 75



    LỜI NÓI ĐẦU
    Máy tính đóng vai trò quan trọng và không thể thiếu trong cuộc sống hiện đại.
    Ngày nay, hầu hết mọi lĩnh vực như: cơ khí, điện tử, giao thông liên lạc . đều có
    sự tham gia của máy tính. Máy tính đã trở thành một công cụ hữu hiệu của con
    người trong xử lý thông tin. Sự phát triển của xã hội khiến cho khối lượng công
    việc cần xử lý tăng theo, nhu cầu tính toán, trao đổi thông tin cũng nằm trong sự
    tăng trưởng này. Việc cải tiến, nâng cao tốc độ tính toán, bộ nhớ cho máy tính
    diễn ra rất mạnh mẽ và hoàn toàn đáp ứng với nhu cầu cần thiết. Cùng với sự phát
    triển nhanh chóng của máy tính, các hình thức trao đổi thông tin giữa con người
    và máy tính cũng trở nên đa dạng. Hiện tại việc trao đổi thông tin phổ biến giữa
    người và máy thông qua bàn phím, chuột, cảm biến, màn hình, máy in . Tuy
    nhiên một phương pháp trao đổi thông tin mới được đánh giá cao và khá gần gũi
    đối với con người đó là sử dụng giọng nói. Để đạt được phương pháp này đòi hỏi
    sự kết hợp của nhiều ngành nghiên cứu như trí tuệ nhân tạo, ngôn ngữ học, xử lý
    tiếng nói . Vấn đề tổng hợp tiếng nói trong xử lý tiếng nói là một trong những vấn
    đề cần nghiên cứu và được trình bày trong luận văn này.
    Tổng hợp tiếng nói đã được biết đến và nghiên cứu khá rộng rãi trên thế giới. Kết
    quả thu được rất khả quan và làm tiền đề quan trọng cho sự giao tiếp người máy.
    Có khá nhiều ngôn ngữ được tổng hợp thành công với chất lượng khá tốt như
    tiếng Anh, tiếng Pháp . Ở Việt Nam tuy xử lý tiếng nói mới được chú trọng
    nghiên cứu trong thời gian gần đây nhưng cũng đã thu được một số kết quả đáng
    khích lệ.
    Với mục đích góp phần vào sự phát triển của tổng hợp tiếng Việt, đề tài này
    nghiên cứu phương pháp tổng hợp tiếng Việt dựa trên việc ghép nối các âm tiết cơ
    bản sử dụng giải thuật TD-PSOLA. Đề tài này xây dựng một ứng dụng hoàn chỉnh
    về tổng hợp tiếng việt dựa trên nghiên cứu trên. Ứng dụng này cho phép theo dõi
    một cách trực quan quá trình ghép nối tín hiệu, quá tình thay đổi tần số của tín
    hiệu, quá trình cân bằng năng lượng, và cuối cùng là tiếng nói được phát ra với
    chất lượng chấp nhận được.
    Báo cáo được chia làm 4 chương:

    Chương I: Lý thuyết về tiếng nói và xử lý tiếng nói. Chương này đề cập tới
    những vấn đề cơ bản nhất về các đặc trưng của tín hiệu tiếng nói và các lĩnh
    vực của xử lý tiếng nói.
    ã Chương II: Tổng hợp tiếng nói sẽ trình bày các phương pháp khác nhau
    trong tổng hợp tiếng nói đồng thời đưa ra đánh giá về hiệu quả của các phương
    pháp này.
    ã Chương III: Giải thuật TD-PSOLA. Chương này trình bày chi tiết về giải
    thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA, đồng thời cũng đề
    cập tới các vấn đề liên quan như vấn đề lọc nhiễu, cân bằng năng lượng .
    ã Chương IV: Thiết kế xây dựng ứng dụng tổng hợp tiếng Việt. Dựa trên
    nghiên cứu lý thuyết trong các chương trước, chương này sẽ trình bày cách áp
    dụng thuật toán TD-PSOLA để xây dựng chương trình tổng hợp tiếng Việt từ
    văn bản và đánh giá các kết quả thu được.
    Trong quá trình viết luận văn chắc chắn không thể tránh khỏi những thiếu sót, vì
    vậy mong được hội đồng châm trước.
    Cuối cùng xin gửi lời cảm ơn tới toàn thể hội đồng, các thầy cô giáo trong khoa
    Công nghệ thông tin, các thầy cô giáo trong bộ môn Kỹ thuật máy tính. Cảm ơn
    thầy giáo Trịnh Văn Loan đã tận tình giúp đỡ, hướng dẫn tôi hoàn thành luận văn
    này.
    Học viên
    Lê Trung Dũng
     

    Các file đính kèm:

Đang tải...