Báo Cáo Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA

    LỜI NÓI ĐẦU


    Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đó là một
    công cụ vô cùng hữu ích trợ giúp con người xử lý thông tin. Cùng với sự phát
    triển của xã hội, khối lượng thông tin mà máy tính cần xử lý tăng rất nhanh
    trong khi thời gian dành cho những công việc này lại giảm đi. Vì vậy, việc tăng
    tốc độ xử lý thông tin, trong đó có tốc độ trao đổi thông tin giữa con người và
    máy tính, trở thành một yêu cầu cấp thiết. Hiện tại, giao tiếp người-máy được
    thực hiện bằng các thiết bị như bàn phím, chuột, màn hình, . với tốc độ tương
    đối chậm nên cần có các phương pháp trao đổi thông tin mới giúp con người
    làm việc hiệu quả hơn với máy tính. Một trong những hướng nghiên cứu này là
    sử dụng tiếng nói trong trao đổi thông tin người-máy. Những nghiên cứu này
    liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó
    có tổng hợp tiếng nói.
    Tổng hợp tiếng nói là lĩnh vực đang được nghiên cứu khá rộng rãi trên thế
    giới và đã cho những kết quả khá tốt. Có ba phương pháp cơ bản dùng để tổng
    hợp tiếng nói là mô phỏng bộ máy phát âm, tổng hợp bằng formant và tổng hợp
    bằng cách ghép nối. Phương pháp mô phỏng bộ máy phát âm cho chất lượng
    tốt nhưng đòi hỏi nhiều tính toán vì việc mô phỏng chính xác bộ máy phát âm
    rất phức tạp. Phương pháp tổng hợp formant không đòi hỏi chi phí cao trong
    tính toán nhưng cho kết quả chưa tốt. Phương pháp tổng hợp ghép nối cho chất
    lượng tốt, chí phí tính toán không cao nhưng số lượng từ vựng phải rất lớn.
    Ở các nước phát triển, những nghiên cứu xử lý tiếng nói, đã cho các kết
    quả khả quan, làm tiền đề cho việc giao tiếp người-máy bằng tiếng nói. Ở Việt
    Nam, các nghiên cứu trong lĩnh vực này tuy mới được phát triển trong những
    năm gần đây nhưng cũng đã có một số kết quả khả quan.
    Với mục đích góp phần vào sự phát triển của tổng hợp tiếng Việt, đề tài
    này nghiên cứu về phương pháp tổng hợp tiếng Việt bằng phương pháp ghép
    nối dựa trên giải thuật TD-PSOLA.
    TD-PSOLA là phiên bản trên miền thời gian của giải thuật PSOLA (Pitch
    Synchronous Overlap-Add). Với PSOLA, tín hiệu tổng hợp được tạo nên bằng
    cách cộng xếp chồng (Overlap-Add) các đoạn tín hiệu thành phần. Giải thuật
    này cho phép thao tác trực tiếp với tín hiệu tiếng nói trên miền thời gian, thay
    đổi tần số cơ bản và độ dài của tín hiệu. Để giảm số lượng từ vựng khi xây
    dựng ứng dụng, các từ tiếng Việt sẽ được tổng hợp từ các diphone.

    Sau khi nghiên cứu về mặt lý thuyết, báo cáo này cũng trình bày việc áp
    dụng thuật toán để xây dựng một ứng dụng tổng hợp tiếng Việt từ văn bản.
    Với nội dụng như vậy, báo cáo được chia làm 4 chương:
    Chương I: Tiếng nói và xử lý tiếng nói. Chương này đề cập tới
    những vấn đề cơ bản nhất về các đặc trưng của tín hiệu tiếng nói và
    các lĩnh vực của xử lý tiếng nói.
    Chương II: Tổng hợp tiếng nói sẽ trình bày các phương pháp khác
    nhau trong tổng hợp tiếng nói đồng thời đưa ra đánh giá về hiệu quả
    của các phương pháp này.
    Chương III: Giải thuật TD-PSOLA. Chương này trình bày chi tiết
    về giải thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA,
    đồng thời cũng đề cập tới các vấn đề liên quan khi áp dụng cho tín
    hiệu tiếng nói.
    Chương IV: Thiết kế chương trình tổng hợp tiếng Việt. Dựa trên
    các nghiên cứu lý thuyết trong chương III, chương này sẽ trình bày
    cách áp dụng thuật toán TD-PSOLA để xây dựng chương trình tổng
    hợp tiếng Việt từ văn bản và các kết quả liên quan.
    Các kết quả thu được khi áp dụng:
    Có thể biến đổi tần số cơ bản của tín hiệu tiếng nói để tạo các thanh
    điệu trong tiếng Việt.
    Có thể thay đổi thời gian, biên độ và ngữ điệu của từ, làm cơ sở cho
    việc tổng hợp câu trong tiếng Việt.
    Khắc phục được khó khăn về số lượng dữ liệu: Số lượng diphone
    không lớn (389 diphone).
    Với những kết quả này, trong tương lai có thể phát triển tiếp đề tài theo
    những hướng nghiên cứu như mở rộng cơ sở dữ liệu, xử lý văn bản ở mức
    cao .


    MỤC LỤC
    LỜI NÓI ĐẦU 1
    MỤC LỤC 3
    CHƯƠNG 1. TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI .7
    1.1. MỞ ĐẦU .7
    1.2. BỘ MÁY PHÁT ÂM .7
    1.2.1. Bộ máy phát âm 7
    1.2.2. Cơ chế phát âm .8
    1.3. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI 8
    1.3.1. Xác định tần số lấy mẫu .10
    1.3.2. Lượng tử hoá .11
    1.3.3. Nén tín hiệu tiếng nói .11
    1.3.4. Mã hoá tín hiệu tiếng nói 12
    a. Mã hoá trực tiếp tín hiệu .12
    b. Mã hoá tham số tín hiệu .13
    1.4. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI .14
    1.4.1. Âm hữu thanh và âm vô thanh 14
    a. Âm hữu thanh .14
    b. Âm vô thanh .14
    1.4.2. Âm vị 14
    a. Nguyên âm 15
    b. Phụ âm 15
    1.4.3. Các đặc tính khác 15
    a. Tỷ suất thời gian .15
    b. Hàm năng lượng thời gian ngắn .15
    c. Tần số cơ bản 16
    d. Formant .16
    1.5. MÔ HÌNH TẠO TIẾNG NÓI .17
    1.6. XỬ LÝ TIẾNG NÓI 21
    1.6.1. Tổng hợp tiếng nói 21
    a. Tổng hợp tiếng nói theo cách phát âm 21
    b. Tổng hợp đầu cuối tự nhiên 22
    1.6.2. Nhận dạng tiếng nói 22
    a. Nhận dạng ngữ nghĩa 22
    b. Nhân dạng người nói 22
    CHƯƠNG 2. TỔNG HỢP TIẾNG NÓI 24
    2.1. CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 24
    2.1.1. Phương pháp mô phỏng hệ thống phát âm .24
    2.1.2. Phương pháp tổng hợp Formant .24
    a. Bộ tổng hợp formant nối tiếp 25
    b. Bộ tổng hợp formant song song 25
    2.1.3. Phương pháp ghép nối 26
    a. Phương pháp tổng hợp PSOLA .26
    b. Các phiên bản của PSOLA 27
    2.2. MÔ HÌNH TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN 28
    2.2.1. Tổng hợp mức cao 28
    a. Xử lý văn bản 29
    b. Phân tích cách phát âm .29
    c. Ngôn điệu 29
    2.2.2. Tổng hợp mức thấp .30
    2.3. SO SÁNH CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 31
    CHƯƠNG 3. GIẢI THUẬT TD-PSOLA .33
    3.1. GIẢI THUẬT PSOLA .33
    3.1.1. Phân tích PSOLA 33
    3.1.2. Tổng hợp PSOLA .35
    3.2. GIẢI THUẬT TD-PSOLA 36
    3.3. TD-PSOLA VÀ TÍN HIỆU TIẾNG NÓI 39
    3.4. CÁC VẤN ĐỀ LIÊN QUAN 39
    3.4.1 Xác định tần số cơ bản .40
    a. Dùng hàm tự tương quan 40
    b. Dùng hàm vi sai biên độ trung bình .42
    3.4.2. Làm trơn tín hiệu khi ghép nối .43
    a. Phương pháp Microphonemic .43
    b. Mô hình hình sine .44
    CHƯƠNG 4. THIẾT KẾ CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT 46
    4.1. PHÂN TÍCH GIẢI THUẬT 46
    4.2. DIPHONE TRONG TIẾNG VIỆT 47
    4.3. XÂY DỰNG CƠ SỞ DỮ LIỆU 50
    4.3.1. Thu âm 50
    a. Quá trình thu âm .50
    b. Xử lý sau khi thu .50
    4.3.2. Tách diphone 51
    4.3.3. Lưu trữ dữ liệu 52
    4.4. PHÂN TÍCH VĂN BẢN THÀNH CÁC DIPHONE 54
    4.4.1. Phân tích văn bản tiếng Việt thành các từ 54
    a. Xác định câu trong văn bản 54
    b. Xử lý câu .55
    4.4.2. Tách từ thành các diphone 57
    a. Chuyển từ biểu diễn tiếng Việt sang biểu diễn dạng telex .57
    b. Tách từ thành hai diphone 57
    4.5. GHÉP NỐI CÁC DIPHONE VÀ ĐIỀU KHIỂN TẦN SỐ CƠ
    BẢN .59
    4.5.1. Ghép nối các diphone .59
    4.5.2. Biến đổi tần số cơ bản 60
    4.6. SỰ BIẾN ĐỔI THÔNG SỐ TÍN HIỆU TRONG CÁC THANH
    ĐIỆU VÀ CÂU .61
    4.6.1. Biến đổi tần số cơ bản trong các thanh điệu .61
    a. Không dấu .61
    b. Dấu huyền .61
    c. Dấu sắc 62
    d. Dấu nặng .62
    e. Dấu hỏi 63
    f. Dấu ngã 63
    4.6.2. Sự biến đổi các thông số trong phát âm câu tiếng Việt 64
    a. Câu trần thuật 64
    b. Câu hỏi 65
    4.7. CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT 67
    4.7.1. Tách diphone từ mẫu tiếng nói có sẵn 67
    4.7.2. Phát âm tiếng Việt 68
    4.8. KẾT QUẢ ĐẠT ĐƯỢC 69
    4.8.1. Tổng hợp các nguyên âm 69
    a. Nguyên âm a .69
    b. Các âm e, è, é, ẻ, ẽ, ẹ .73
    c. Các âm i, ì, í, ỉ, ĩ, ị .73
    d. Các âm o, ò, ó, ỏ, õ, ọ .74
    4.8.2. Tổng hợp từ 75
    a. Từ to 75
    b. Từ tò 76
    c. Từ tó 77
    d. Từ tỏ 78
    e. Từ tõ 79
    f. Từ tọ 80
    4.8.3. Tổng hợp từ “Xin chào” .81
    4.8.4. Tổng hợp câu 82
    a. Câu trần thuật Tò tò tò. .82
    b. Câu hỏi tò tò tò? 82
    c. Tổng hợp câu hỏi Cậu đang làm gì? 83
    d. Tổng hợp câu trần thuật Tớ đang ôn bài. .83
    KẾT LUẬN 84
    1. Đánh giá kết quả .84
    a. Biến đổi tần số cơ bản tạo ra các thanh điệu .84
    b. Tổng hợp các loại câu đơn giản trong tiếng Việt .84
    c. Cơ sở dữ liệu diphone .85
    2. Phương hướng phát triển đề tài 85
    PHỤ LỤC 86
    1. Phụ lục 1: Bảng các diphone tiếng Việt .86
    2. Phụ lục 2: Bảng mã TCVN3-ABC của các ký tự tiếng Việt 88
    3. Phụ lục 3: Tên các diphone dài trong cơ sở dữ liệu .89
    TÀI LIỆU THAM KHẢO 91
     

    Các file đính kèm:

Đang tải...