Thạc Sĩ Nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 5/1/16.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    v

    MỤC LỤC

    LỜI CẢM ƠN ii
    LỜI CAM ĐOAN . iv
    MỤC LỤC v
    DANH MỤC BẢNG . viii
    DANH MỤC HÌNH ix
    DANH MỤC CHỮ VIẾT TẮT . xi
    MỞ ĐÂU 1
    1. Lý do chọn đề tài . 1
    2. Mục tiêu của đề tài 2
    3. Đối tượng và phạm vi nghiên cứu . 3
    4. Phương pháp nghiên cứu . 3
    5. Ý nghĩa khoa học và thực tiễn . 3
    CHƯƠNG 1. TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI
    THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 4
    1.1. Thông tin tiếng nói . 4
    1.2. Tín hiệu tiếng nói . 4
    1.3. Quá trình tạo tiếng nói . 6
    1.4. Cơ quan thính giác . 9
    1.5. Xử lý tiếng nói 12
    1.6. Thông tin người nói trong tiếng nói . 13
    1.7. Biến đổi thông tin người nói trong tiếng nói và ứng dụng 14
    CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN
    NGƯỜI NÓI TRONG TIẾNG NÓI 17
    2.1. Phương pháp biến đổi tham số trực tiếp 17
    2.1.1. Phân khung 17
    2.1.2. Đặc trưng biên độ 18
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    vi

    2.1.3. Đặc trưng cao độ . 19
    2.1.4. Đặc trưng phổ 20
    2.1.5. Mô hình nguồn âm / bộ lọc . 24
    2.1.6. Ưu nhược điểm của phương pháp . 25
    2.2. Phương pháp thay thế khung tiếng nói 25
    2.2.1. Phương pháp tìm kiếm mẫu tiếng nói thay thế . 26
    2.2.2. Thuật toán tìm kiếm khung tiếng nói thay thế 28
    2.2.3. Làm trơn điểm ghép nối 28
    2.2.4. Ưu nhược điểm của phương pháp . 29
    2.3. Phương pháp sử dụng học máy thống kê GMM 29
    2.3.1. Phân bố Gauss . 29
    2.3.2. Mô hình Gaussian hỗn hợp . 30
    2.3.3. Mô hình hóa người nói bằng mô hình GMM . 31
    2.3.4. Huấn luyện 32
    2.3.5. Biến đổi . 33
    CHƯƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP
    BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI . 35
    3.1. Ngữ âm tiếng Việt 35
    3.2. Cơ sở dữ liệu tiếng nói tiếng Việt 37
    3.3. Tổng hợp tiếng nói tiếng Việt 40
    3.4. Lựa chọn cơ sở dữ liệu . 40
    3.5. Cài đặt các phương pháp biến đổi thông tin người nói 41
    3.5.1. Phương pháp thay đổi tham số trực tiếp . 41
    3.5.2. Phương pháp thay thế tiếng nói theo mẫu . 44
    3.5.3. Phương pháp biến đổi sử dụng học máy thống kê 47
    3.6. Đánh giá các phương pháp . 49
    3.6.1. Tiêu chí đánh giá . 49
    3.6.2. Đánh giá thực nghiệm . 50
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    vii

    3.6.3. Kết quả đánh giá . 51
    3.6.4. Nhận xét chung về kết quả đánh giá . 51
    KẾT LUẬN 53
    TÀI LIỆU THAM KHẢO 54

    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    viii

    DANH MỤC BẢNG
    Bảng 3.1Cấu trúc âm tiết tiếng Việt 37
    Bảng 3.2: Sáu thanh điệu tiếng Việt . 37
    Bảng 3.3. Các tham số thực nghiệm . 50
    Bảng 3.4: Kết quả đánh giá khách quan 51
    Bảng 3.5: Kết quả đánh giá chủ quan ABX 51
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    ix

    DANH MỤC HÌNH
    Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt . 5
    Hình 1.2: Tiếng nói hữu thanh 5
    Hình 1.3: Bộ phận cung cấp làn hơi 6
    Hình 1.4: Dây thanh âm 7
    Hình 1.5: Cấu trúc cơ quan phát âm . 8
    Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm 8
    Hình 1.7: Mô hình hóa cơ quan phát âm . 9
    Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 9
    Hình 1.9: Mô hình cơ quan thính giác 10
    Hình 1.10: Thang tần số Bark . 10
    Hình 1.11: Ngưỡng nghe 11
    Hình 1.12: Mặt nạ thời gian 11
    Hình 1.13: Mặt nạ tần số . 11
    Hình 1.14: Một số ứng dụng của xử lý tiếng nói 12
    Hình 1.15: Hệ thống nhận dạng người nói 13
    Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
    nhau dẫn tới tiếng nói khác nhau 14
    Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm . 14
    Hình 1.18: Tính toán vector đặc trưng 15
    Hình 1.19: Mô hình học máy thống kê GMM . 16
    Hình 2.1: Phân đoạn tiếng nói thành các khung chồng lấp 18
    Hình 2.2:Đặc trưng trường độ . 19
    Hình 2.3: Đặc trưng phổ và đường bao phổ 21
    Hình 2.4: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz . 22
    Hình 2.5: Các bước trích đặc trưng MFCC 22
    Hình 2.6: Bộ lọc trên thang Mel . 22
    Hình 2.7: Bộ lọc trên tần số thật . 23
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    x

    Hình 2.8: Minh họa các bước biến đổi MFCC . 23
    Hình 2.9: Mô hình nguồn âm / bộ lọc 24
    Hình 2.10: Đặc trưng F0, Gain và LSF . 27
    Hình 2.11: Quá trình tìm kiếm và thay thế mẫu có khoảng cách ngắn nhất . 28
    Hình 2.12: Quá trình làm trơn biên ghép nối 29
    Hình 2.13: Hàm mật độ xác suất Gauss 30
    Hình 2.14: Mô hình GMM Biến đổi người nói theo mô hình GMM . 32
    Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt. 36
    Hình 3.2: Phân tích phổ, F0 và tái tạo bằng STRAIGHT . 41
    Hình 3.3: Thuật toán điều chỉnh trực tiếp tham số tiếng nói 43
    Hình 3.4: Giao diện chương trình điều chỉnh trực tiếp tham số tiếng nói 44
    Hình 3.5: Lưu đồ thuật toán tính khoảng cách giữa 2 khung tiếng nói 45
    Hình 3.6: Thuật toán tìm kiếm kết hợp . 46
    Hình 3.7: Huấn luyện mô hình GMM cho tham số phổ LSF . 47
    Hình 3.8: Chuyển đổi mô hình GMM cho tham số phổ LSF . 48
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    xi

    DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU

    Ký tự Ý nghĩa
    F0 Tần số dao động cơ bản
    AMDF Hàm hiệu biên độ trung bình
    LP Phương pháp dự đoán tuyến tính
    PCM Kỹ thuật điều chế xung mã
    WAV Dữ liệu âm thanh không nén
    PSTN Mạng điện thoại chuyển mạch công cộng
    LSF Tham số phổ đường
    ABX Thang điểm đánh giá theo cặp
    GMM Mô hình Gaussian hỗn hợp
    PI Chỉ số hiệu năng
    MOS Thang điểm đánh giá chủ quan trung bình

    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    1

    MỞ ĐÂU

    1. Lý do chọn đề tài
    Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng
    nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống
    viễn thông. Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn ngữ,
    thông tin về người nói, thông tin về sắc thái tình cảm khi nói,
    Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý
    các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [6].
    Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp
    dụng rộng rãi trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần
    được quan tâm và cũng đã được quan tâm nghiên cứu trong thời gian gần đây
    [4]. Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp) được tự
    nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về người
    nói, bao gồm cả các thông tin chung về người nói như giới tính, độ tuổi,
    đến các thông tin chi tiết như thông tin nhận danh chính xác người nói
    [7,9,15,17,22,33].
    Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra
    tiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máy
    tính. Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến
    đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng. Một số
    ví dụ điển hình như:
    - Trong các bộ phim lịch sử cần diễn viên nói với giọng giống với
    giọng của nhân vật lịch sử [22].
    - Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát
    của diễn viên theo các tiêu chí cụ thể khác nhau như cao hơn, trầm hơn, giống
    với nhân vật thật hơn, [22].
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    2

    - Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người
    nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống
    nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như
    văn bản với tốc độ bit cực thấp [21]. Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng
    truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy nhiên để
    tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong
    thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được
    bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được
    biến đổi theo người nói cụ thể.
    Trên thế giới đã có nhiều nghiên cứu về biến đổi thông tin người nói
    trong tiếng nói [7,9,15,17,22,23]. Tại Việt Nam cũng có một số nghiên cứu
    ban đầu về thông tin người nói trong tiếng nói như xây dựng các hệ thống
    nhận dạng người nói [16]. Tuy nhiên vẫn chưa có các nghiên cứu đánh giá
    một cách tổng hợp vấn đề biến đổi thông tin người nói trong tiếng nói và thử
    nghiệm trên các cơ sở dữ liệu tiếng nói tiếng Việt. Vì vậy, luận văn này
    nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói,
    đánh giá thực nghiệm các phương pháp với cơ sở dữ liệu tiếng nói tiếng Việt,
    và đưa ra những khuyến nghị.
    2. Mục tiêu của đề tài
    Luận văn này nghiên cứu một số phương pháp biến đổi thông tin người
    nói trong tiếng nói bao gồm:
    - Phương pháp biến đổi trực tiếp tham số,
    - Phương pháp thay thế khung,
    - Phương pháp biến đổi bằng học máy.
    Sau đó đánh giá thực nghiệm các phương pháp trên với cơ sở dữ liệu
    tiếng Việt, và đưa ra những khuyến nghị.

    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
    3

    3. Đối tượng và phạm vi nghiên cứu
    Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi thông
    tin người nói trong tiếng nói. Đây là đối tượng nghiên cứu được nhiều nhà
    nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
    Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
    nói và thông tin người nói trong tiếng nói, một số phương pháp biến đổi thông
    tin người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương
    pháp thay thế tiếng nói theo mẫu [15,17], và phương pháp biến đổi sử dụng
    học máy thống kê [7]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các
    phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt để đưa ra các khuyến
    nghị.
    4. Phương pháp nghiên cứu
    Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
    trên thế giới [4,6,7,15-17,21-23] để phân tích, đánh giá về các phương pháp
    biến đổi thông tin người nói trong tiếng nói.
    Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng
    sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi thông tin người nói
    trong tiếng nói. Cơ sở dữ liệu để đánh giá thực nghiệm là cơ sở dữ liệu tiếng
    nói tiếng Việt. Môi trường để thực nghiệm là MATLAB 7.0.
    5. Ý nghĩa khoa học và thực tiễn
    Nghiên cứu về thông tin người nói trong tiếng nói và cá kỹ thuật biến
    đổi tiếng nói theo mục tiêu có vai trò quan trọng trong các hệ thống truyền
    thông đa phương tiện hiện đại. Đây không phải vấn đề nghiên cứu mới trên
    thế giới nhưng còn khá mới mẻ ở Việt Nam. Đặc biệt, nghiên cứu tổng hợp về
    các phương pháp biến đổi thông tin người nói trong tiếng nói tiếng Việt chưa
    được nghiên cứu ở Việt Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý
    nghĩa khoa học và thực tiễn.
     
Đang tải...