Báo Cáo Kỹ thuật nhận dạng tiếng nói và ứng dụng trong điều khiển

Thảo luận trong 'Điện - Điện Tử' bắt đầu bởi Ác Niệm, 1/12/11.

  1. Ác Niệm

    Ác Niệm New Member

    Bài viết:
    3,584
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu
    1 ĐẶT VẤN ĐỀ
    1.1 Giới thiệu
    Ngày nay, cùng với sự phát triển của ngành điện tử và tin học, các hệ thống máy tự động đã dần thay thế con người trong nhiều công đoạn của công việc. Máy có khả năng làm việc hiệu quả và năng suất cao hơn con người rất nhiều. Song cho đến nay, vấn đề giao tiếp người – máy tuy đã được cải thiện nhiều nhưng vẫn còn rất thủ công: thông qua bàn phím và các thiết bị nhập dữ liệu khác. Giao tiếp với thiết bị máy bằng tiếng nói sẽ là phương thức giao tiếp văn minh và tự nhiên nhất, dấu ấn giao tiếp người – máy sẽ mất đi mà thay vào đó là cảm nhận của sự giao tiếp giữa người với người, nếu hoàn thiện thì đây sẽ là một phương thức giao tiếp tiện lợi và hiệu quả nhất. Do có sự khác biệt về mặt ngữ âm giữa các ngôn ngữ nên ta không thể áp dụng các chương trình nhận dạng khác để nhận dạng tiếng Việt. Một hệ thống nhận dạng tiếng nói ở nước ta phải được xây dựng trên nền tảng của tiếng nói tiếng Việt. 1.2 Tình hình nghiên cứu trong và ngoài nước Vấn đề nhận dạng tiếng nói tiếng Việt chỉ mới được quan tâm nghiên cứu trong những năm gần đây và chưa có một chương trình nhận dạng hoàn chỉnh nào được công bố. Trên thế giới đã có rất nhiều hệ thống nhận dạng tiếng nói (tiếng Anh) đã và đang được ứng dụng rất hiệu quả như: Via Voice của IBM, Spoken Toolkit của CSLU (Central of Spoken Laguage Understanding) nhưng trong tiếng Việt thì còn rất nhiều hạn chế.
    1.3 Mục tiêu của đề tài
    Đề tài này nghiên cứu thử nghiệm một hướng nhận dạng tiếng nói - tiếng Việt dựa trên việc trích đặc trưng của tiếng nói bằng phương pháp MFCC(MelFrequency Ceptrums Coefficients), và nhận dạng bằng mô hình HMM (Hidden Markov Models). Đồng thời, một mô hình điều khiển bằng tiếng nói – tiếng Việt được xây dựng với bộ từ vựng nhỏ, thiết lập hệ thống điều khiển bằng tiếng nói với một tập lệnh cố định. Tập lệnh này dùng để điều khiển Robot, và mô hình điều khiển xe bằng tiếng nói hoàn chỉnh là một ứng dụng thực tế mang tính thử nghiệm của đề tài.
    2 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI
    Một hệ thống nhận dạng nói chung thường bao gồm hai phần: phần huấn luyện (training phase) và phần nhận dạng (recognition phase). “Huấn luyện” là quá trình hệ thống “học” những mẫu chuẩn được cung cấp bởi những tiếng khác nhau (từ hoặc âm), để từ đó hình thành bộ từ vựng của hệ thống. “Nhận dạng” là quá trình quyết định xem từ nào được đọc căn cứ vào bộ từ vựng đã được huấn luyện. Sơ đồ tổng quát của hệ thống nhận dạng tiếng nói được thể hiện trên hình 1. Để thuận tiện cho việc kiểm tra và đánh giá kết quả, từ sơ đồ trên chúng tôi chia chương trình nhận dạng thành ba mô-đun riêng biệt:
    ! Mô-đun 1: Thực hiện việc ghi âm tín hiệu tiếng nói, tách tiếng nói khỏi nền nhiễu và lưu vào cơ sở dữ liệu.
    ! Mô-đun 2: Trích đặc trưng tín hiệu tiếng nói đã thu ở mô-đun 1 bằng phương pháp MFCC, đồng thời thực hiện ước lượng vector các vector đặc trưng này.
    ! Mô-đun 3: xây dựng mô hình Markov ẩn với 6 trạng thái, tối ưu hóa các hệ số của HMM tương ứng với từng từ trong bộ từ vựng, tiến hành nhận dạng một từ được đọc vào micro.
     

    Các file đính kèm:

Đang tải...