Đồ Án Xử lý tiếng nói qua Thuật toán Spectral Subtraction và Wiener Filtering

Thảo luận trong 'Điện - Điện Tử' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC

    LỜI CAM ĐOAN 1
    MỤC LỤC 2
    DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH 8
    MỞ ĐẦU 10
    CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 12
    1.1 Giới thiệu chương. 12
    1.2 Nâng cao chất lượng tiếng nói là gì ?. 12
    1.3 Lý thuyết về tín hiệu và nhiễu. 14
    1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu. 14
    1.3.1.1 Tín hiệu. 14
    1.3.1.2 Nguồn tín hiệu. 14
    1.3.1.3 Hệ thống và xử lý tín hiệu. 15
    1.3.1.4 Phân loại tín hiệu. 15
    1.4 Lý thuyết về nhiễu. 16
    1.4.1 Nguồn nhiễu. 16
    1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau. 18
    1.5 Tín hiệu rời rạc theo thời gian. 19
    1.5.1 Tín hiệu bước nhảy đơn vị 20
    1.5.2 Tín hiệu xung đơn vị 20
    1.5.3 Tín hiệu hàm mũ. 20
    1.5.4 Tín hiệu hàm sin rời rạc. 20
    1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT 21
    1.6.1 Sự hội tụ của phép biến đổi Fourier. 21
    1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier. 21
    1.6.3 Phép biến đổi Fourier ngược. 22
    1.6.4 Các tính chất của phép biến đổi Fourier. 22
    1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc. 23
    1.6.6 Phổ tín hiệu và phổ pha. 24
    1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 25
    1.7.1 Trừ phổ. 25
    1.7.2 Mô hình thống kê. 25
    1.8 Tín hiệu tiếng nói 25
    1.9 Cơ chế tạo tiếng nói 27
    1.9.1.1 Bộ máy phát âm của con người 27
    1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói 27
    1.9.3 Phân loại âm 28
    1.9.4 Thuộc tính âm học của tiếng nói 28
    1.10 Kết luận chương. 28
    CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 29
    2.1 Giới thiệu chương. 29
    2.2 Phương pháp đánh giá chủ quan. 29
    2.2.1 Các phương pháp đánh giá tuyệt đối 30
    2.2.1.1 Phương pháp đánh giá tuyệt đối ACR 30
    2.2.2 Các phương pháp đánh giá tương đối 30
    2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu. 30
    2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng. 31
    2.3 Phương pháp đánh giá khách quan. 32
    2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung. 32
    2.3.2 Đo khoảng cách phổ dựa trên LPC 34
    2.3.2.1 Phương pháp đo LLR 34
    2.3.2.2 Phương pháp đo IS. 34
    2.3.2.3 Phương pháp đo theo khoảng cách cepstrum 35
    [FONT=MingLiU_HKSCS]2.3.3 [FONT=MingLiU_HKSCS]Đánh giá mô phỏng theo cảm nhận nghe của con người 35
    2.3.3.1 Phương pháp đo Weighted Spectral Slope. 36
    2.3.3.2 Phương pháp đo Bark Distortion. 37
    2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 37
    2.4 Kết luận chương. 37
    CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING 39
    3.1 Giới thiệu chương. 39
    3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering. 39
    3.3 Thuật toán Spectral Subtraction. 39
    3.3.1 Giới thiệu chung. 39
    3.3.2 Spectral subtraction đối với phổ biên độ. 40
    3.3.3 Spectral subtraction đối với phổ công suất 41
    3.4 Thuật toán Wiener Filtering. 43
    3.4.1 Giới thiệu chung. 43
    3.4.2 Nguyên lý cơ bản của Wiener Filtering. 44
    3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói 46
    3.5.1 Phân tích tín hiệu theo từng frame. 46
    3.5.2 Overlap và Adding. 47
    3.6 Ước lượng và cập nhật nhiễu. 48
    3.6.1 Voice activity detection. 49
    3.6.2 Quá trình ước lượng và cập nhật nhiễu. 49
    3.7 Kết luận chương. 50
    CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 51
    4.1 Giới thiệu chương. 51
    4.2 Quy trình thực hiện và đánh giá thuật toán. 51
    4.3 Lưu đồ thuật toán Spectral Subtraction. 53
    4.4 Lưu đồ thuật toán Wiener Filtering. 54
    4.5 Thực hiện thuật toán. 55
    4.6 Đánh giá chất lượng tiếng nói đã được xử lý. 57
    4.6.1 Cơ sở dữ liệu cho việc đánh giá. 57
    4.6.2 Tổng quan về quy trình đánh giá. 57
    4.6.3 Kiểm tra độ tin cậy của các phương pháp đánh giá. 58
    4.6.4 Thực hiện đánh giá. 60
    4.6.4.1 Đánh giá thuật toán với các hệ số dự đoán ban đầu. 60
    4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF. 63
    4.6.4.3 Hệ số gamma cho thuật toán SS. 65
    4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu. 66
    4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác. 67
    4.6.5 Kết luận chương. 69
    TÀI LIỆU THAM KHẢO 70
    KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 73
    PHỤ LỤC



    MỞ ĐẦU

    Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại.
    Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế.
    Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3 thành viên :
    - Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói sử dụng phương pháp Spectral Subtraction.
    - Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử dụng bộ lọc Wiener.
    - Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế.
    Để thực hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương :
    Phần 1 : Lý thuyết
    Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói. Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giới thiệu khái quát về một số thuật toán trong Speech Enhancement .
    Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu một số phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói. Gồm có đánh giá chủ quan và đánh giá khách quan.
    Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán.
    Phần 2 : Thực hiện và đánh giá
    Chương 4 : Thực hiện và đánh giá thuật toán. Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
    Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế.
    Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở để đánh giá tính hiệu quả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu.

    74
     

    Các file đính kèm:

Đang tải...