Luận Văn Nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm

Thảo luận trong 'Viễn Thông' bắt đầu bởi Phí Lan Dương, 14/12/13.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này. Xử lý tiếng nói có nhiều lĩnh vực nghiên cứu: nhận dạng tiếng nói, nhận dạng người nói, mã hóa tiếng nói, tổng hợp tiếng nói, phân tích giọng nói,
    Nhận dạng người nói là một lĩnh vực nghiên cứu của xử lý tiếng nói. Mục đích của nhận dạng người nói là để nhận ra người nói là ai hoặc là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói). Nhận dạng người nói có nhiều ứng dụng: thanh toán thẻ tín dụng qua điện thoại; đăng nhập vào các hệ thống an ninh, máy tính bằng tiếng nói; giám định tư pháp tiếng nói Chính vì vậy hiện nay trên thế giới lĩnh vực nhận dạng người nói nhận được rất nhiều sự quan tâm, nghiên cứu. Tuy nhiên hiện nay ở Việt Nam mới có rất ít công trình nghiên cứu về vấn đề này.
    Luận văn này tập trung nghiên cứu bài toán xác thực người nói không phụ thuộc vào từ khóa – một bài toán trong lĩnh vực nhận dạng người nói. Mục đích của bài toán xác thực người nói không phụ thuộc vào từ khóa là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói) nhưng không phụ thuộc vào nội dung người nói.
    Cấu trúc của luận văn gồm: phần mở đầu; chương 1, 2, 3, 4; phần kết luận và kiến nghị; tài liệu tham khảo; phụ lục.
    Nội dung chính của luận văn:

    • Chương 1 nghiên cứu tổng quan về bài toán nhận dạng người nói:
      • Cơ sở khoa học của nhận dạng người nói, phân loại bài toán nhận dạng người nói, các ứng dụng của nhận dạng người nói.
      • Giới thiệu tổng quan bài toán xác thực người nói không phụ thuộc vào từ khóa, các thành phần của một hệ thống xác thực người nói, các giai đoạn hoạt động của một hệ thống xác thực người nói không phụ thuộc vào từ khóa.
    • Chương 2 nghiên cứu phương pháp trích chọn đặc trưng người nói: cả trong giai đoạn huấn luyện và giai đoạn kiểm thử của một hệ thống xác thực người nói không phụ thuộc vào từ khóa đều phải trải qua bước trích chọn đặc trưng người nói, đây sẽ là nội dung nghiên cứu chính của chương 2:
      • Đặc tính vật lý, âm học của tiếng nói: nghiên cứu các đặc tính này sẽ là cơ sở cho việc xác định các đặc trưng người nói.
      • Tiền xử lý tín hiệu tiếng nói: tín hiệu tiếng nói sau khi được thu và trước khi trích chọn đặc trưng, phải được tiến hành tiền xử lý. Mục đích của việc tiền xử lý tín hiệu tiếng nói là để loại bỏ nhiễu, chuẩn hóa biên độ, làm rõ tín hiệu
      • Trích chọn đặc trưng người nói: mục đích của việc trích chọn đặc trưng người nói, phân loại các đặc trưng người nói, trình bày chi tiết các bước trích chọn đặc trưng MFCC- đặc trưng được lựa chọn sử dụng chủ yếu cho các hệ thống nhận dạng người nói.
    • Chương 3 nghiên cứu về các mô hình ứng dụng xác thực người nói không phụ thuộc vào từ khóa: sau bước trích chọn đặc trưng đã được trình bày ở chương hai, bước tiếp theo của các hệ thống xác thực người nói không phụ thuộc vào từ khóa đối với giai đoạn huấn luyện là bước xây dựng mô hình người nói, trong giai đoạn xác thực là bước so khớp và đưa ra quyết định:
      • Phân loại các mô hình: phân loại các mô hình thường được sử dụng trong nhận dạng người nói và chọn mô hình sử dụng cho bài toán xác thực người nói không phụ thuộc vào từ khóa.
      • Mô hình lượng tử hóa vector (Vector Quantization): khái niệm VQ, tính chất VQ, thiết kế codebook theo thuật toán LBG. Đây là cơ sở lý thuyết quan trọng cho việc ứng dụng mô hình VQ trong xác thực người nói không phụ thuộc vào từ khóa.
      • Mô hình hỗn hợp Gauss (Gaussian Mixture Model): khái niệm GMM, thuật toán EM. Đây là cơ sở lý thuyết quan trọng cho việc ứng dụng GMM xác thực người nói không phụ thuộc vào từ khóa.
      • Mô hình hóa người nói: cách sử dụng phương pháp VQ và GMM để mô hình hóa người nói.
      • So khớp mẫu: đưa ra phương pháp so khớp mẫu trong giai đoạn kiểm thử ứng với từng mô hình hóa người nói VQ hay GMM.
    • Chương 4 trình bày về cấu hình hệ thống và kết quả thử nghiệm:
      • Cấu trúc tổng quát của một hệ thống xác thực người nói.
      • Dữ liệu tiếng nói: trình bày cách thu thập dữ liệu tiếng nói để phục vụ cho hệ thống.
      • Tần số lỗi: trình bày cách đánh giá mức độ gây lỗi của một hệ thống xác thực người nói.
      • Kết quả thực nghiệm: trình bày kết quả thực nghiệm được tiến hành với nhiều tiêu chí khác nhau.
     

    Các file đính kèm:

Đang tải...