Đồ Án xây dựng hệ thống nhận dạng 10 từ khoá âm thanh để điều khiển thiết bị, máy móc

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC​ MỞ ĐẦU 4
    I. Nội dung đồ án. 4
    II. Trung tâm nghiên cứu quốc tế MICA 5
    CHƯƠNG I: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI. 6
    I. Các khái niệm và đặc điểm âm học của tiếng nói 7
    II. Các hướng tiếp cận trong việc tự động nhận dạng tiếng nói 8
    III. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói 10
    1. Mô hình LPC (Linear Predictive Coding model) 10
    2. Phương pháp MFCC (Mel-Frequency Ceptrum Coefficients) 16
    IV. Một số vấn đề khác. 18
    1. Vấn đề xác định điểm đầu và điểm cuối của tín hiệu (speech detection) 18
    2. Lượng tử hoá Vector 19
    CHƯƠNG II: CÁC THUẬT TOÁN VÀ MÔ HÌNH NHẬN DẠNG TIẾNG NÓI. 22
    1. Mô hình Markov ẩn (HMM) 22
    2. Các thành phần của HMM . 22
    3. 3 vấn đề của HMM . 23
    4. Áp dụng vào bài toán nhận dạng các từ riêng biệt 23
    5. Giải quyết 3 vấn đề của HMM . 24
    6. So sánh 2 mô hình HMM . 28
    7. Các cấu trúc mô hình HMM và lựa chọn mô hình cho bài toán. 29
    8. Mô hình sử dụng mạng Neuron. 30
    1. Một số khái niệm cơ bản về mạng Neuron. 30
    2. Kiến trúc mạng Neuron. 32
    3. Những điểm mạnh của kiến trúc mạng Neuron. 34
    4. Qui trình học cho mạng tiến MLP 1 lớp ẩn: 34
    CHƯƠNG III : THỰC HIỆN BÀI TOÁN NHẬN DẠNG 37
    I. Sử dụng mô hình HMM . 37
    1. Xây dựng thuật toán trên nền công cụ Matlab. 37
    2. Chạy thử và kiểm tra kết quả. 39
    II. Sử dụng mạng Neuron. 42
    1. Xây dựng thuật toán trên công cụ Matlab. 42
    2. Các kết quả thu được ứng với từng phương pháp trích đặc trưng. 44
    III. Nhận xét kết quả : 44
    CHƯƠNG IV : CÀI ĐẶT THUẬT TOÁN NHẬN DẠNG TRÊN VI XỬ LÍ DSP. 46
    I. Giới thiệu về DSP C6713. 46
    1. Một số đặc điểm kĩ thuật của DSP C6713. 46
    2. Bộ DSK 6713. 47
    3. Bộ Codec AIC23. 48
    4. Code Compose Studio (CCS) 49
    II. Cài đặt thuật toán nhận dạng trên DSP 6713. 50
    1. Thu tín hiệu âm thanh trên DSK 6713. 50
    2. Cài đặt thuật toán trích đặc trưng MFCC và mạng Neuron lên chip DSP. 50
    KẾT LUẬN 51
    TÀI LIỆU THAM KHÁO 52


    MỞ ĐẦU

    I.Nội dung đồ án

    Nằm trong khuôn khổ của dự án VLSR . Nhằm hoàn thiện một hệ thống phân tích, tổng hợp, nhận dạng và xây dựng giao diện tương tác Người-Máy bằng ngôn ngữ tiếng Việt, đề tài tốt nghiệp của em nhằm mục đích xây dựng mộT hệ thống nhận dạng 10 từ khoá âm thanh để điều khiển thiết bị, máy móc.
    Những công việc cần làm khi thực hiện đề tài:
    · Nghiên cứu thuật toán nhận dạng từ khoá độc lập: Tìm hiểu về nhận dạng tiếng nói, đặc biệt là nhận dạng từ khoá rời rạc. Trong đó cần tìm hiểu các nghiên cứu về các thuật toán phân tích đặc trưng âm thanh (Tần số, cường độ, các hệ số quan trọng: MFCC, LPC ) và các mô hình nhận dạng phổ biến (Mô hình Markov ẩn, mô hình Neuron )
    · Chạy thử, nhận xét kết quả để tìm mô hình và tham số tối ưu cho bài toán với 10 từ điều khiển : Tắt, Bật, Chạy, Dừng, Tiến, Lùi, Trái, Phải, Trên, Dưới.
    · Cài đặt thuật toán trên chip điều khiển DSP (Texas Intrusments): Chuẩn thuật toán nhận dạng về dạng code C để nạp vào chip DSP (vi xử lý được dùng ở đây là TMS320C713).
    Với nội dung như trên, đồ án được trình bày với kết cấu như sau:



    Phạm vi ứng dụng của đề tài này rất rộng, bài toán nhận dạng tiếng nói tự động có thể ứng dụng để thiết kế hệ thống giao tiếp với máy tính bằng lời nói, các hệ thống điều khiển tự động, điều khiển robot, hỗ trợ người tàn tật, quay số điện thoại bằng lời nói, cửa đóng mở tự động,
    Do hạn chế về kiến thức và thời gian có hạn, đồ án này khó tránh khỏi những thiếu sót. Vì vậy em rất mong nhận được sự chỉ dẫn và góp ý của các thầy cô giáo đề đồ án được hoàn thiện hơn.
     

    Các file đính kèm:

Đang tải...