Báo Cáo Nghiên cứu các thuật tóan mờ để giảm nhiễu tiếng vang trong miền phổ nhằm nâng cao chất lượng tiếng

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    NGHIÊN CỨU CÁC THUẬT TÓAN MỜ ĐỂ GIẢM NHIỄU TIẾNG VANG
    TRONG MIỀN PHỔ NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI

    STUDY ON SPECTRAL-BASED BLIND DEREVERBERATION ALGORITHMS FOR
    SPEECH ENHANCEMENT

    SVTH: Nguyễn Thị Phương Mai, Trần Thủy Nguyên, Đỗ Thị Hoàng Yến
    Lớp 05DT1,2, Khoa Điện tử Viễn thông, Trường Đại học Bách khoa
    GVHD : TS. Phạm Văn Tuấn
    Khoa Điện tử Viễn thông, Trường Đại họcBách khoa

    TÓM TẮT
    Bài báo này nghiên cứu và đánh giá hiệu quả của hai kĩ thuật nâng cao chất lượng tín hiệu
    tiếng nói trong môi trường nhiễu tiếng vang. Phương pháp thứ nhất loại bỏ thành phần phổ tiếng
    vang bằng cách trừ giá trị trung bình ước lượng của logarit của phổ tần số. Phương pháp thứ hai
    thực hiện việc ước lượng hằng số thời gian của nhiễu tiếng vang ở các băng tần số khác nhau, rồi
    xây dựng mặt nạ loại bỏ phần nhiễu tiếng vang. Các thuật toán này được kiểm tra trên cơ sở dữ
    liệu tiếng nói tiếng Việt. Kết quả đánh giá khách quan cho thấy hai thuật tóan trên đều nâng cao
    chất lượng tiếng nói bị nhiễu tiếng vang. Thuật tóan mặt nạ, nhìn chung, cho tín hiệu ra có chất
    lượng tốt hơn và ổn định hơn. Hiệu quả của thuật toán thể hiện rõ ở vùng nhiễu tiếng vang xa.
    ABSTRACT

    The objective of this paper is performance assessment of two techniques for speech
    enhancement in reverberant environment. The estimation of clean signal is done by subtracting the
    mean of logarithm of spectrum in the spectral subtraction algorithm while in the masking algorithm,
    T60 of acoustic channel is estimated and part of the signal dominated largely by reverberation is
    then removed. The algorithms are tested on a Vietnamese speech corpus. The objective evaluation
    results show that these two algorithms improve speech quality and intelligibility of degraded signal.
    In general, the making method performs better than mean subtraction in sense of speech quality
    improvement. The efficiency of blind technique is more obvious in far field.
    1. Giới thiệu
    Nhiễu tiếng vang sinh ra do đế
    , nhiễu này ảnh hưởng nhiều đến chất lượng và tính hiểu được
    của tiếng nói (hình 1). Xử lý triệt/giảm tiếng vang (dereverberation) là vấn đề không đơn
    giản vì thông thường thông tin về tính chất của nguồn tín hiệu và điều kiện của kênh truyền
    âm thanh không được biết trước hoặc chỉ có rất ít kiến thức liên quan được cung cấp.

    Hình 1 : Tín hiệu tiếng nói bị nhiễu tiếng vang
    Cho đến nay, kỹ thuật xử lý tiếng vang được phân thành hai loại là các kỹ thuật
    giảm tiếng vang và các kỹ thuật loại bỏ tiếng vang [3] tùy thuộc kĩ thuật đó có ước lượng
    đáp ứng xung của kênh truyền hay không. Bài báo này đánh giá hiệu quả nâng cao chất
    lượng tiếng nói của 2 thuật tóan giảm tiếng vang: thuật tóan trừ phổ (spectral subtraction)
    [1] và thuật tóan tạo mặt nạ (spectral masking) [6]. Hiệu quả hai thuật tóan này được thử
    nghiệm trên cơ sở dữ liệu tiếng Việt, ảnh hưởng của các thông số đến hiệu quả thuật toán
    cũng được khảo sát, hiệu quả của 2 thuật tóan được so sánh ở các khỏang cách nguồn-
    microphone khác nhau. Bài báo chia làm ba phần, lần lượt đề cập đến hai thuật toán trên và
    các phương pháp đánh giá chất lượng của các thuật toán và kết quả đánh giá đạt được.
    2. Thuật toán trừ phổ
    2.1. Thuật toán


    Hình 2: Sơ đồ khối spectral subtraction
    Thuật toán này được đề xuất cho hệ thống nhận dạng tiếng nói tự động (ASR) [2].
    Sơ đồ khối thuật toán được trình bày trong hình 2. Tín hiệu bị nhiễu tiếng vang được biến
    đổi Fourier thời gian ngắn (cửa sổ Hanning, tỉ lệ chồng lấp 75%). Bằng cách chọn cửa sổ
    có chiều dài lớn hơn nhiều so với chiều dài đáp ứng xung với giả thiết đáp ứng xung qua
    các khung thời gian khác nhau là không đổi. Bằng cách trừ đi giá trị trung bình của logarit
    của phổ tần số, ảnh hưởng của tiêng vang lên tín hiệu sẽ được giảm xuống.
    Do sử dụng cửa sổ có chiều dài lớn nên độ phân giải tần số cao, sau khi áp dụng trừ
    phổ sẽ làm xuất hiện nhiễu nhân tạo (artifact noise). Nhiễu nhân tạo ảnh hưởng nhiều đến
    chất lượng và tính dễ hiểu được của tín hiệu tiếng nói (điều này không quan trọng lắm với
    hệ thống ASR). Vì thể cần thiết có quá trình xử lý sau để giảm nhiễu nhân tạo.
    2.2. Post Processing
    Post Processing là thủ tục xử lý nhiễu nhân tạo sinh ra do trừ phổ, thực hiện như
    sau. Thực hiện normalize logarit biên độ của cả tín hiệu bị nhiễu và tín hiệu sau khi qua trừ
    phổ, dùng cửa sổ win có chiều dài bé hơn nhiều so với N. So sánh biên độ của hai tín hiệu
    trên ở cùng một tần số và khung thời gian, nếu biên độ ở tín hiệu sau khi qua trừ phổ lớn
    hơn thì cho rằng phần biên độ lớn hơn là do nhiễu nhân tạo, và làm suy giảm biên độ này
    bằng một hệ số tùy thuộc mức năng lượng dôi ra. Với những ô mà năng lượng sau khi xử
    lý bé hơn năng lượng trước khi xử lý, hệ số này bằng 1.
    3. Thuật toán tạo mặt nạ phổ

    Hình 3: Sơ đồ khối thuật tóan spectral masking
    Sơ đồ thuật toán được trình bày trong hình 3. Tín hiệu được phân tích thành các dải
    tần số khác nhau sau đó tính toán đường bao của mỗi dải tần số này rồi chuyển sang thang
    dB. Hằng số thời gian a của nhiễu tiếng vang được ước lượng ở mỗi tần số bằng cách tính
    độ dốc của đường bao trên N mẫu (N được chọn qua thử nghiệm nhiều giá trị khác nhau).
    Một cửa sổ có chiều dài N sẽ được dịch trên đường bao của tín hiệu qua từng mẫu, dùng
    phép đệ quy tuyến tính để tính độ dốc . Theo cách ước lượng trong [7], giá trị chính xác
    Phân đoạn
    tín hiệu

    Ước lượng đáp ứng
    xung của kênh truyền
    Trừ ước lượng này
    ra khỏi tín hiệu

    Khôi phục lại tín
    hiệu ban đầu

    Phân đoạn
    tín hiệu
    theo dải tần

    Ước lượng RT60 của
    kênh truyền ở các dải
    tần
    Xây dựng mặt
    nạ
    Nhân mặt nạ với tín
    hiệu bị nhiễu + khôi
    phục lại tín hiệu
     

    Các file đính kèm:

Đang tải...