Thạc Sĩ Ghi nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room

Thảo luận trong 'Khoa Học Công Nghệ' bắt đầu bởi Lan Chip, 13/10/11.

  1. Lan Chip

    Lan Chip New Member

    Bài viết:
    1,976
    Được thích:
    1
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục
    LỜI CẢM ƠN i
    Mục lục ii
    Danh mục các ký hiệu, các chữ viết tắt . v
    Danh mục các bảng . vi
    Danh mục các hình vẽ, đồ thị vii
    MỞ ĐẦU 1
    Chương 1 GIỚI THIỆU SMART MEETING ROOM 4
    1.1. Tại sao phải nghiên cứu về lĩnh vực hội nghị? 4
    1.2. Những thách thức của việc xử lý tiếng nói trong lĩnh vực hội nghị 4
    1.2.1. Nhiều hình thức hội nghị và loại từ vựng 4
    1.2.2. Tiếng nói đồng thời/tương tác cao . 5
    1.2.3. Nhiều microphone . 5
    1.2.4. Nhiều góc nhìn camera 5
    1.2.5. Tích hợp thông tin đa phương tiện 5
    1.3. Giới thiệu về Smart Meeting Room (SMR) . 5
    Chương 2 BÀI TOÁN GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 7
    2.1. Giới thiệu bài toán . 7
    2.2. Phát biểu bài toán 9
    2.3. Độ đo đánh giá . 10
    2.4. Các hướng tiếp cận giải quyết bài toán . 11
    2.4.1. Bài toán phân đoạn theo người nói 11
    iii
    2.4.2. Bài toán phân nhóm theo người nói . 13
    2.4.3. Hướng tiếp cận phổ biến trong môi trường SMR 14
    2.5. Phương pháp phân nhóm nhanh cải tiến (Fast Clustering) 15
    Chương 3 HỆ THỐNG GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 17
    3.1. Mô hình hệ thống xử lý đa kênh . 17
    3.2. Mô hình hệ thống xử lý nhanh . 19
    3.3. Các kĩ thuật tiền xử lý . 21
    3.3.1. Kỹ thuật lọc nhiễu 21
    3.3.2. Kỹ thuật tính TDOA 23
    3.3.3. Đặc trưng ngữ âm 24
    3.4. Mô hình ngữ âm . 27
    3.4.1. Mô hình Markov ẩn (HMM) . 27
    3.4.2. Mô hình Gaussian Mixture Model (GMM) . 28
    3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) 29
    3.6. Kỹ thuật phân đoạn theo người nói . 31
    3.6.1. Phân đoạn dựa trên đặc trưng 31
    3.6.1.1. Phân đoạn dựa trên mức năng lượng . 31
    3.6.1.2. Phân đoạn dựa trên thông tin TDOA . 32
    3.6.2. Phân đoạn dựa trên mô hình 32
    3.6.3. Phân đoạn dựa trên độ đo khoảng cách . 33
    3.7. Kỹ thuật phân nhóm theo người nói 34
    3.7.1. Phân nhóm lượng hoá vector . 34
    3.7.2. Phân nhóm tích tụ 34
    iv
    3.8. Kỹ thuật post-processing 37
    3.9. Các kỹ thuật được sử dụng trong Hệ thống xử lý nhanh 37
    3.9.1. Kỹ thuật tính TDOA theo GCC-PHAT . 37
    3.9.2. Kỹ thuật phát hiện tiếng nói theo AMR1-VAD 38
    3.9.3. Lượng giá TDOA . 39
    3.9.4. Chuẩn hoá TDOA 41
    3.9.5. Kỹ thuật phân nhóm nhanh Fast Clustering 42
    Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 45
    4.1. Dữ liệu thực nghiệm 45
    4.2. Độ đo đánh giá . 46
    4.3. Các kĩ thuật áp dụng và tham số 47
    4.3.1. Kĩ thuật lọc nhiễu . 47
    4.3.2. Kĩ thuật tính TDOA . 47
    4.3.3. Đặc trưng ngữ âm cho Hệ thống xử lý đa kênh . 48
    4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) 48
    4.3.5. Phương pháp phân đoạn và phân nhóm theo người nói 50
    4.3.6. Kỹ thuật post-processing . 51
    4.4. Kết quả thực nghiệm và thảo luận . 51
    4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh 51
    4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh . 53
    4.4.3. So sánh phương pháp Fast Clustering với các phương pháp Phân đoạn và Phân nhóm khác . 60
    4.5. Kết luận và hướng phát triển . 62
    TÀI LIỆU THAM KHẢO 65
     

    Các file đính kèm:

  2. Lan Chip

    Lan Chip New Member

    Bài viết:
    1,976
    Được thích:
    1
    Điểm thành tích:
    0
    Xu:
    0Xu
    Danh mục các bảng
    Bảng 4-1 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2007. Tổng thời gian là 3h, tổng số người tham gia là 35. Số tập tin tương ứng với số microphone trong cuộc họp đó 45
    Bảng 4-2 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2009. Tổng thời gian là 3h, tổng số người tham gia là 38. Số tập tin tương ứng với số microphone trong cuộc họp đó 45
    Bảng 4-3 Thông tin về các cuộc họp trong bộ dữ liệu tự tạo. Tổng thời gian là 51 phút, tổng số người tham gia là 15. Số tập tin tương ứng với số microphone trong cuộc họp đó . 46
    Bảng 4-4 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2007 52
    Bảng 4-5 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009 52
    Bảng 4-6 Giá trị lỗi SER của thuật toán tính VAD trong Hệ thống xử lý đa kênh . 53
    Bảng 4-7 Bảng kết quả thực nghiệm của Hệ thống PerfectVAD cho bộ dữ liệu RT2007 và RT2009: (a) Kết quả cho bộ RT2007 – (b) Kết quả cho bộ RT2009 53
    Bảng 4-8 Bảng kết quả thực nghiệm của Hệ thống NonPerfectVAD cho bộ dữ liệu RT2007 và RT2009: (c) Kết quả cho bộ RT2007 – (d) Kết quả cho bộ RT2009 54
    Bảng 4-9 Bảng kết quả thực nghiệm của Hệ thống Fast Clustering cho bộ dữ liệu Lab test 58
    Bảng 4-10 Bảng chi phí tính toán của Hệ thống xử lý nhanh: . 59
    Bảng 4-11 Bảng chi phí tính toán của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009 60
    Bảng 4-12 Bảng thông tin của các Hệ thống sẽ được so sánh . 60
    Bảng 4-13 Bảng kết quả lỗi DER của Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh cải tiến cùng với các hệ thống báo cáo tại hội thảo NIST Rich Transcription 2009 . 61
    vii
    Danh mục các hình vẽ, đồ thị
    Hình 1.1 Minh hoạ thiết kế của một Smart Meeting Room . 6
    Hình 2.1 Ví dụ về Ghi nhật ký âm thanh cho bản tin truyền hình. Các thông tin được đánh dấu bao gồm nhiều vùng âm thanh có cấu trúc như đoạn quảng cáo, các sự kiện âm thanh như tiếng nhạc hay tiếng ồn, và tiếng người nói. . 7
    Hình 2.2 Bài toán Ghi nhật ký người nói cho dữ liệu hội nghị . 9
    Hình 2.3 Các loại lỗi trong DER. . 11
    Hình 2.4 Dãy thời gian của độ đo phân kỳ nhận được khi cửa sổ trượt trượt theo toàn dữ liệu âm thanh. Các điểm cực đại đại diện cho các lượt chuyển người nói. 12
    Hình 2.5 Phân nhóm tích tụ theo bottom-up hoặc top-down. . 14
    Hình 2.6 Ý tưởng chuẩn hoá TDOA. . 16
    Hình 3.1 Mô hình hệ thống xử lý đa kênh . 19
    Hình 3.2 Mô hình hệ thống xử lý nhanh 21
    Hình 3.3 Một số ví dụ về nhiễu: (a) Tiếng xe hơi (b) Tiếng ồn trên đường 22
    Hình 3.4 Mô hình hoạt động của phương pháp Delay-and-Sum beamforming . 23
    Hình 3.5 Minh hoạ hướng đến của tiếng nói: c là tốc độ âm thanh, d là khoảng cách giữa các microphone 24
    Hình 3.6 Đặc trưng LPCC 25
    Hình 3.7 Các bước tính toán hệ số MFCC . 25
    Hình 3.8 Minh hoạ cho việc phát hiện VAD trong dãy tín hiệu âm thanh 29
    Hình 3.9 Sơ đồ khối của kỹ thuật tính VAD theo mức năng lượng . 30
    Hình 3.10 Sơ đồ thuật toán phân đoạn theo TDOA. . 32
    Hình 3.11 Dãy thời gian của độ đo phân kỳ nhận được khi cửa sổ trượt trượt theo toàn dữ liệu âm thanh. Các điểm cực đại đại diện cho các lượt chuyển người nói. 33
    Hình 3.12 Cửa sổ trượt trong thuật toán Phân đoạn theo độ đo khoảng cách. . 34
    Hình 3.13 Mã nguồn Matlab của thuật toán tính TDOA theo GCC-PHAT . 38
    Hình 3.14 Sơ đồ hoạt động của AMR1-VAD 39
    Hình 3.15 Lượng giá TDOA 40
    viii
    Hình 3.16 Chuẩn hoá TDOA. 41
    Hình 3.17 Khoảng cách Manhattan d(X,Y) = 5 và d(Y,Z) = 5. Tuy nhiên có thể nhận ra Y và Z có độ tương đồng cao hơn Y và X. . 43
    Hình 3.18 Mã giả thuật toán phân nhóm nhanh. 44
    Hình 4.1 Thuật toán tính VAD của Hệ thống xử lý đa kênh . 49
    Hình 4.2 Lỗi DER với nhiều giá trị K2 khác nhau. . 57
    Hình 4.3 Lỗi DER và thời gian tính toán (s) với nhiều giá trị K1 khác nhau . 58
    Hình 4.4 So sánh lỗi DER của Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh cải tiến với các hệ thống báo cáo tại hội thảo NIST Rich Transcription 2009. . 61
     
Đang tải...