Báo Cáo Kỹ thuật nhận dạng tiếng nói và ứng dụng trong điều khiển

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    1 ĐẶT VẤN ĐỀ
    1.1 Giới thiệu

    Ngày nay, cùng với sự Phát triển của ngành Điện tử
    và tin học, các hệ thống máy tự động đã dần thay
    thế con người trong nhiều công đoạn của công việc.
    Máy có khả năng làm việc hiệu quả và năng suất
    cao hơn con người rất nhiều. Song cho đến nay, vấn
    đề giao tiếp người – máy tuy đã được cải thiện
    nhiều nhưng vẫn còn rất thủ công: thông qua bàn
    phím và các thiết bị nhập dữ liệu khác. Giao tiếp
    với thiết bị máy bằng tiếng nói sẽ là phương thức
    giao tiếp văn minh và tự nhiên nhất, dấu ấn giao
    tiếp người – máy sẽ mất đi mà thay vào đó là cảm
    nhận của sự giao tiếp giữa người với người, nếu
    hoàn thiện thì đây sẽ là một phương thức giao tiếp
    tiện lợi và hiệu quả nhất.
    Do có sự khác biệt về mặt ngữ âm giữa các ngôn
    ngữ nên ta không thể áp dụng các chương trình
    nhận dạng khác để nhận dạng tiếng Việt. Một hệ
    thống nhận dạng tiếng nói ở nước ta phải được xây
    dựng trên nền tảng của tiếng nói tiếng Việt.
    1.2 Tình hình nghiên cứu trong và ngoài nước
    Vấn đề nhận dạng tiếng nói tiếng Việt chỉ mới được
    quan tâm nghiên cứu trong những năm gần đây và
    chưa có một chương trình nhận dạng hoàn chỉnh
    nào được công bố.
    Trên thế giới đã có rất nhiều hệ thống nhận dạng
    tiếng nói (tiếng Anh) đã và đang được ứng dụng rất
    hiệu quả như: Via Voice của IBM, Spoken Toolkit
    của CSLU (Central of Spoken Laguage Understanding)
    nhưng trong tiếng Việt thì còn rất nhiều
    hạn chế.
    1.3 Mục tiêu của đề tài
    Đề tài này nghiên cứu thử nghiệm một hướng nhận
    dạng tiếng nói - tiếng Việt dựa trên việc trích đặc
    trưng của tiếng nói bằng phương pháp MFCC
    (MelFrequency Ceptrums Coefficients), và nhận dạng
    bằng mô hình HMM (Hidden Markov Models).
    Đồng thời, một mô hình điều khiển bằng tiếng nói –
    tiếng Việt được Xây dựng với bộ từ vựng nhỏ, thiết
    lập hệ thống điều khiển bằng tiếng nói với một tập
    lệnh cố định. Tập lệnh này dùng để điều khiển
    Robot, và mô hình điều khiển xe bằng tiếng nói
    hoàn chỉnh là một ứng dụng thực tế mang tính thử
    nghiệm của đề tài.
    2 Xây dựng HỆ THỐNG NHẬN DẠNG
    TIẾNG NÓI

    Một hệ thống nhận dạng nói chung thường bao gồm
    hai phần: phần huấn luyện (training phase) và phần
    nhận dạng (recognition phase). “Huấn luyện” là quá
    trình hệ thống “học” những mẫu chuẩn được cung
    cấp bởi những tiếng khác nhau (từ hoặc âm), để từ
    đó hình thành bộ từ vựng của hệ thống. “Nhận
    dạng” là quá trình quyết định xem từ nào được đọc
    căn cứ vào bộ từ vựng đã được huấn luyện. Sơ đồ
    tổng quát của hệ thống nhận dạng tiếng nói được
    thể hiện trên hình 1.
    Để thuận tiện cho việc kiểm tra và đánh giá kết quả,
    từ sơ đồ trên chúng tôi chia chương trình nhận dạng
    thành ba mô-đun riêng biệt:
    ! Mô-đun 1: Thực hiện việc ghi âm tín hiệu tiếng
    nói, tách tiếng nói khỏi nền nhiễu và lưu vào
    cơ sở dữ liệu.
    ! Mô-đun 2: Trích đặc trưng tín hiệu tiếng nói đã
    thu ở mô-đun 1 bằng phương pháp MFCC,
    đồng thời thực hiện ước lượng vector các
    vector đặc trưng này.
    ! Mô-đun 3: Xây dựng mô hình Markov ẩn với 6
    trạng thái, tối ưu hóa các hệ số của HMM
    tương ứng với từng từ trong bộ từ vựng, tiến
    hành nhận dạng một từ được đọc vào micro.
     
Đang tải...