Báo Cáo Final Project - DSP 2, tìm hiểu về Speech Enhancement

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    I. Lý thuyết :


    1. Giới thiệu :Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay.Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng khi sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại.
    Đây cũng là đề tài của Final Project - DSP 2. Do đó nhóm đã bắt tay vào tìm hiểu về “Speech Enhancement”, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế .

    2. Thuật toán Spectral Subtraction :2.1 Giới thiệu chung :Spectral – subtraction là thuật toán dựa trên một nguyên tắc cơ bản, thừa nhận sự có mặt của nhiễu, nó có thể đạt được mục đích ước lượng phổ của tiếng nói sạch bằng cách trừ đi phổ của nhiễu với phổ của tiếng nói đã bị nhiễu. Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu. Sự thừa nhận đó chỉ được thực hiện đối với nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể giữa các khoảng thời gian cập nhật. Việc tăng cường tín hiệu đạt được bằng cách tính IDFT (biến đổi Fourier rời rạc ngược) của phổ tín hiệu đã được ước lượng có sử dụng pha của tín hiệu có nhiễu. Thuật toán này là một phép tính ước lượng đơn giản vì nó chỉ gồm biến đổi DFT thuận và DFT ngược.
    Quá trình xử lý tín hiệu đơn giản như vậy nên khi quá trình xử lý không được thực hiện một cách cẩn thận thì tiếng nói của chúng ta sẽ bị méo. Nếu như việc lấy hiệu quá lớn thì có thể loại bỏ đi một phần thông tin của tiếng nói, còn nếu việc thực hiện lấy hiệu đó nhỏ thì nhiễu sẽ vẫn còn được giữ lại trong tín hiệu.
     

    Các file đính kèm:

Đang tải...