Thạc Sĩ Nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói

Phí Lan Dương · 5/1/16

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
v

MỤC LỤC

LỜI CẢM ƠN ii
LỜI CAM ĐOAN . iv
MỤC LỤC v
DANH MỤC BẢNG . viii
DANH MỤC HÌNH ix
DANH MỤC CHỮ VIẾT TẮT . xi
MỞ ĐÂU 1
1. Lý do chọn đề tài . 1
2. Mục tiêu của đề tài 2
3. Đối tượng và phạm vi nghiên cứu . 3
4. Phương pháp nghiên cứu . 3
5. Ý nghĩa khoa học và thực tiễn . 3
CHƯƠNG 1. TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI
THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 4
1.1. Thông tin tiếng nói . 4
1.2. Tín hiệu tiếng nói . 4
1.3. Quá trình tạo tiếng nói . 6
1.4. Cơ quan thính giác . 9
1.5. Xử lý tiếng nói 12
1.6. Thông tin người nói trong tiếng nói . 13
1.7. Biến đổi thông tin người nói trong tiếng nói và ứng dụng 14
CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN
NGƯỜI NÓI TRONG TIẾNG NÓI 17
2.1. Phương pháp biến đổi tham số trực tiếp 17
2.1.1. Phân khung 17
2.1.2. Đặc trưng biên độ 18
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
vi

2.1.3. Đặc trưng cao độ . 19
2.1.4. Đặc trưng phổ 20
2.1.5. Mô hình nguồn âm / bộ lọc . 24
2.1.6. Ưu nhược điểm của phương pháp . 25
2.2. Phương pháp thay thế khung tiếng nói 25
2.2.1. Phương pháp tìm kiếm mẫu tiếng nói thay thế . 26
2.2.2. Thuật toán tìm kiếm khung tiếng nói thay thế 28
2.2.3. Làm trơn điểm ghép nối 28
2.2.4. Ưu nhược điểm của phương pháp . 29
2.3. Phương pháp sử dụng học máy thống kê GMM 29
2.3.1. Phân bố Gauss . 29
2.3.2. Mô hình Gaussian hỗn hợp . 30
2.3.3. Mô hình hóa người nói bằng mô hình GMM . 31
2.3.4. Huấn luyện 32
2.3.5. Biến đổi . 33
CHƯƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP
BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI . 35
3.1. Ngữ âm tiếng Việt 35
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt 37
3.3. Tổng hợp tiếng nói tiếng Việt 40
3.4. Lựa chọn cơ sở dữ liệu . 40
3.5. Cài đặt các phương pháp biến đổi thông tin người nói 41
3.5.1. Phương pháp thay đổi tham số trực tiếp . 41
3.5.2. Phương pháp thay thế tiếng nói theo mẫu . 44
3.5.3. Phương pháp biến đổi sử dụng học máy thống kê 47
3.6. Đánh giá các phương pháp . 49
3.6.1. Tiêu chí đánh giá . 49
3.6.2. Đánh giá thực nghiệm . 50
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
vii

3.6.3. Kết quả đánh giá . 51
3.6.4. Nhận xét chung về kết quả đánh giá . 51
KẾT LUẬN 53
TÀI LIỆU THAM KHẢO 54

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
viii

DANH MỤC BẢNG
Bảng 3.1Cấu trúc âm tiết tiếng Việt 37
Bảng 3.2: Sáu thanh điệu tiếng Việt . 37
Bảng 3.3. Các tham số thực nghiệm . 50
Bảng 3.4: Kết quả đánh giá khách quan 51
Bảng 3.5: Kết quả đánh giá chủ quan ABX 51
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
ix

DANH MỤC HÌNH
Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt . 5
Hình 1.2: Tiếng nói hữu thanh 5
Hình 1.3: Bộ phận cung cấp làn hơi 6
Hình 1.4: Dây thanh âm 7
Hình 1.5: Cấu trúc cơ quan phát âm . 8
Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm 8
Hình 1.7: Mô hình hóa cơ quan phát âm . 9
Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 9
Hình 1.9: Mô hình cơ quan thính giác 10
Hình 1.10: Thang tần số Bark . 10
Hình 1.11: Ngưỡng nghe 11
Hình 1.12: Mặt nạ thời gian 11
Hình 1.13: Mặt nạ tần số . 11
Hình 1.14: Một số ứng dụng của xử lý tiếng nói 12
Hình 1.15: Hệ thống nhận dạng người nói 13
Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau 14
Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm . 14
Hình 1.18: Tính toán vector đặc trưng 15
Hình 1.19: Mô hình học máy thống kê GMM . 16
Hình 2.1: Phân đoạn tiếng nói thành các khung chồng lấp 18
Hình 2.2:Đặc trưng trường độ . 19
Hình 2.3: Đặc trưng phổ và đường bao phổ 21
Hình 2.4: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz . 22
Hình 2.5: Các bước trích đặc trưng MFCC 22
Hình 2.6: Bộ lọc trên thang Mel . 22
Hình 2.7: Bộ lọc trên tần số thật . 23
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
x

Hình 2.8: Minh họa các bước biến đổi MFCC . 23
Hình 2.9: Mô hình nguồn âm / bộ lọc 24
Hình 2.10: Đặc trưng F0, Gain và LSF . 27
Hình 2.11: Quá trình tìm kiếm và thay thế mẫu có khoảng cách ngắn nhất . 28
Hình 2.12: Quá trình làm trơn biên ghép nối 29
Hình 2.13: Hàm mật độ xác suất Gauss 30
Hình 2.14: Mô hình GMM Biến đổi người nói theo mô hình GMM . 32
Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt. 36
Hình 3.2: Phân tích phổ, F0 và tái tạo bằng STRAIGHT . 41
Hình 3.3: Thuật toán điều chỉnh trực tiếp tham số tiếng nói 43
Hình 3.4: Giao diện chương trình điều chỉnh trực tiếp tham số tiếng nói 44
Hình 3.5: Lưu đồ thuật toán tính khoảng cách giữa 2 khung tiếng nói 45
Hình 3.6: Thuật toán tìm kiếm kết hợp . 46
Hình 3.7: Huấn luyện mô hình GMM cho tham số phổ LSF . 47
Hình 3.8: Chuyển đổi mô hình GMM cho tham số phổ LSF . 48
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
xi

DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU

Ký tự Ý nghĩa
F0 Tần số dao động cơ bản
AMDF Hàm hiệu biên độ trung bình
LP Phương pháp dự đoán tuyến tính
PCM Kỹ thuật điều chế xung mã
WAV Dữ liệu âm thanh không nén
PSTN Mạng điện thoại chuyển mạch công cộng
LSF Tham số phổ đường
ABX Thang điểm đánh giá theo cặp
GMM Mô hình Gaussian hỗn hợp
PI Chỉ số hiệu năng
MOS Thang điểm đánh giá chủ quan trung bình

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
1

MỞ ĐÂU

1. Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng
nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống
viễn thông. Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn ngữ,
thông tin về người nói, thông tin về sắc thái tình cảm khi nói,
Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý
các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [6].
Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp
dụng rộng rãi trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần
được quan tâm và cũng đã được quan tâm nghiên cứu trong thời gian gần đây
[4]. Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp) được tự
nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về người
nói, bao gồm cả các thông tin chung về người nói như giới tính, độ tuổi,
đến các thông tin chi tiết như thông tin nhận danh chính xác người nói
[7,9,15,17,22,33].
Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra
tiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máy
tính. Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến
đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng. Một số
ví dụ điển hình như:
- Trong các bộ phim lịch sử cần diễn viên nói với giọng giống với
giọng của nhân vật lịch sử [22].
- Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát
của diễn viên theo các tiêu chí cụ thể khác nhau như cao hơn, trầm hơn, giống
với nhân vật thật hơn, [22].
Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
2

- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người
nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống
nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như
văn bản với tốc độ bit cực thấp [21]. Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng
truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy nhiên để
tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong
thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được
bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được
biến đổi theo người nói cụ thể.
Trên thế giới đã có nhiều nghiên cứu về biến đổi thông tin người nói
trong tiếng nói [7,9,15,17,22,23]. Tại Việt Nam cũng có một số nghiên cứu
ban đầu về thông tin người nói trong tiếng nói như xây dựng các hệ thống
nhận dạng người nói [16]. Tuy nhiên vẫn chưa có các nghiên cứu đánh giá
một cách tổng hợp vấn đề biến đổi thông tin người nói trong tiếng nói và thử
nghiệm trên các cơ sở dữ liệu tiếng nói tiếng Việt. Vì vậy, luận văn này
nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói,
đánh giá thực nghiệm các phương pháp với cơ sở dữ liệu tiếng nói tiếng Việt,
và đưa ra những khuyến nghị.
2. Mục tiêu của đề tài
Luận văn này nghiên cứu một số phương pháp biến đổi thông tin người
nói trong tiếng nói bao gồm:
- Phương pháp biến đổi trực tiếp tham số,
- Phương pháp thay thế khung,
- Phương pháp biến đổi bằng học máy.
Sau đó đánh giá thực nghiệm các phương pháp trên với cơ sở dữ liệu
tiếng Việt, và đưa ra những khuyến nghị.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
3

3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi thông
tin người nói trong tiếng nói. Đây là đối tượng nghiên cứu được nhiều nhà
nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và thông tin người nói trong tiếng nói, một số phương pháp biến đổi thông
tin người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương
pháp thay thế tiếng nói theo mẫu [15,17], và phương pháp biến đổi sử dụng
học máy thống kê [7]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các
phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt để đưa ra các khuyến
nghị.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [4,6,7,15-17,21-23] để phân tích, đánh giá về các phương pháp
biến đổi thông tin người nói trong tiếng nói.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng
sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi thông tin người nói
trong tiếng nói. Cơ sở dữ liệu để đánh giá thực nghiệm là cơ sở dữ liệu tiếng
nói tiếng Việt. Môi trường để thực nghiệm là MATLAB 7.0.
5. Ý nghĩa khoa học và thực tiễn
Nghiên cứu về thông tin người nói trong tiếng nói và cá kỹ thuật biến
đổi tiếng nói theo mục tiêu có vai trò quan trọng trong các hệ thống truyền
thông đa phương tiện hiện đại. Đây không phải vấn đề nghiên cứu mới trên
thế giới nhưng còn khá mới mẻ ở Việt Nam. Đặc biệt, nghiên cứu tổng hợp về
các phương pháp biến đổi thông tin người nói trong tiếng nói tiếng Việt chưa
được nghiên cứu ở Việt Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý
nghĩa khoa học và thực tiễn.

Thạc Sĩ Nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói

Phí Lan Dương New Member
Thành viên vàng

Tiến Sĩ Nghiên cứu một số kỹ thuật phân hạng trong tra cứu ảnh dựa vào nội dung

Tiến Sĩ Nghiên cứu thành phần hóa học và hoạt tính sinh học một số loài Ardisia thuộc họ Myrsinaceae ở Việt

Tiến Sĩ Nghiên cứu sử dụng kết hợp enzyme trong chiết tách và làm giàu một số sản phẩm nguồn gốc thiên nhiên

Tiến Sĩ Nghiên cứu một số phương pháp tổng hợp pregnan và một số dẫn xuất của chúng từ 9a-hydroxy androstend

Tiến Sĩ Nghiên cứu một số đặc điểm sinh học, phân bố và thành phần hóa học tinh dầu của các loài trong họ Hồ

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Thạc Sĩ Nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói

Phí Lan Dương New Member Thành viên vàng

Tiến Sĩ Nghiên cứu một số kỹ thuật phân hạng trong tra cứu ảnh dựa vào nội dung

Tiến Sĩ Nghiên cứu thành phần hóa học và hoạt tính sinh học một số loài Ardisia thuộc họ Myrsinaceae ở Việt

Tiến Sĩ Nghiên cứu sử dụng kết hợp enzyme trong chiết tách và làm giàu một số sản phẩm nguồn gốc thiên nhiên

Tiến Sĩ Nghiên cứu một số phương pháp tổng hợp pregnan và một số dẫn xuất của chúng từ 9a-hydroxy androstend

Tiến Sĩ Nghiên cứu một số đặc điểm sinh học, phân bố và thành phần hóa học tinh dầu của các loài trong họ Hồ

Phí Lan Dương New Member
Thành viên vàng