Đồ Án thiết kế bộ nhận dạng tiếng nói dựa trên nền tảng dsp tms320c2812 ￷

Thảo luận trong 'Điện - Điện Tử' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    Trang.
    Phần 1: Giới thiệu. 3
    I. Một số ứng dụng của nhận dạng giọng nói. 3
    II. Các khó khăn và hạn chế của hệ thống nhận dạng giọng nói( Automatic 5
    Speech Recognition - ASR) cho đến thời điểm hiện nay.
    III.Mục tiêu của luận văn. 5
    Phần 2: Tổng quan về nhận dạng âm thanh, lựa chọn giải thuật sẽ nhúng vào DSP 6
    I. Tổng quan về hệ ASR 6
    1. Nguyên tắc hoạt động của hệ thống ASR. 6
    2. Hệ thống Text - Dependence ASR và Text - Independence ASR. 8
    3. Tách đặc trưng. 8
    4. Huấn luyện các đặc trưng 9
    II. Lựa chọn giải thuật sẽ nhúng vào DSP. 11
    1. Quy trình tách đặc trưng 24
    2. Huấn luyện và nhận dạng. 30
    3. Thử nghiệm trên MATLAB 33
    Phần 3: Hệ nhúng
    I. Board eZdsp 33
    II. TMS320F2812. 35
    III.Phân vùng bộ nhớ cho ứng dụng Standalone. 39
    IV. Code Composer Studio 42
    Phần 4: Giải thuật nhúng vào DSP.
    I. Thiết kế nguồn, giao diện, lấy mẫu. 45
    1. Phần chuyển đổi tín hiệu. 45
    2. Giao tiếp với EEPROM 46
    3. Giao tiếp với LCD. 47
    Trang - 1 e 82 -




    SVTT: Nguyễn Quốc Đính. GVHD: TS. Huỳnh Thái Hoàng.
    4. Nguồn 49
    II. Chưfng trình cho DSP 50
    1. Tách đặc trưng Acoustic Vector 50
    a) Lấy mẫu, lọc thgng cao loại bh Oiiset dùng IIR 51
    b) Tách thành các irame. Tách tj dựa trên năng lưkng. 56
    c) lindoming và FFT 58
    d) Mel - irequency - Rapping. 60
    e) Cepstrum. 62
    2. Huấn luyện theo thuật toán LBG. 63
    3. Sf đồ giải thuật của toàn bộ chưfng trình 65
    III.nết quả và nhận xot 69
    Phụ lục 72
    Tài liệu tham khảo. 82

    Phần 1:
    Giới thiệu.
    I. Một số ứng dụng của hệ thống nhận dạng tiếng nói.
    Hệ thống nhận dạng tiếng nói ( Automatic Speech Recognition - ASR ) sẽ có nhpng ứng dụng
    tuyệt vời trong tất cả các lqnh vực của đời sống, nếu đưkc áp dụng thành cgng sẽ là một cuộc cách
    mạng trong giao tiếp người mày (Human Machine Interiace ), các ứng dụng của nó bao trjm trên nhiều
    lqnh vực như cgng nghiệp, an ninh và giải trí.
    ➢ Trong lĩnh vực điều khiển:
    Các hệ thống với bộ tj vựng nhh, nhập tj rời rạc có thể áp dụng trong nhpng ứng dụng tưfng
    đối đfn giản để cải thiện hiệu quả nhập thgng tin vào máy (nhập tiếng nói nhanh gấp hai lần nhập
    thgng tin brng cách gs chp) trong mgi trường sản xuất (cgng việc phân loại), trong nhpng ứng dụng mà
    đgi tay khgng ctn giá tru (chvng hạn như trong phtng tối, trong buồng láiw), trong các ứng dụng điều
    khiển tj xa với thiết bu, điều khiển robot, điều khiển đồ chfi trx em, hay trong các thiết bu yêu cầu thu
    nhh phải loại bh hệ thống phím nhấn, và nếu có thể sẽ là một phưfng pháp hpu hiệu giúp cho người
    khiếm thu dễ dàng giao tiếp điều khiển với thiết bu. Nói chung là trong nhpng nhiệm vụ đặc biệt có
    khuynh hướng giới hạn bộ tj vựng và nội dung thgng điệp. Trong đề tài này, người thực hiện quan tâm
    nhiều cho một hệ thống nhận dạng trên một bộ tj vựng nhh (nhh hfn 10 tj) để ứng dụng trong các hệ
    thống điều khiển với tập lệnh cố đunh.
    Nhpng ứng dụng thực tiễn mà hệ thống này sẽ mang lại là vg cùng to lớn như các máy tính của

    chúng ta sẽ khgng cần các bàn phím, các hệ thống điều khiển sẽ khgng cần bảng điều khiển phức tạp,
    máy điện thoại sẽ khgng ctn cần đến các bàn quay sốw Phía trước tài xế xe hfi sẽ có một vi mạch tự
    động trả lời đưkc khi hhi hướng đi và trong nhà mọi người sẽ có tấm luch biết nhắc nhpng việc chưa
    làm khi bạn lên tiếng hhi có thể xem là một bước đột phá trên tất cả các lqnh vực trong cuộc sống của
    chúng ta.
    Các hệ thống như thế này có thể tìm thấy y nhpng đời điện thoại di động hiện đại như iPhone
    của Apple hay dtng Nseries của Nokia.
    ➢ Trong lĩnh vực chuyển đổi tín hiệu:
    Một cuộc phhng vấn đưkc đăng lên một tờ báo, nếu có một hệ thống nhận dạng câu nói hoàn
    thiện, người phóng viên khgng cần phải đánh lại bài phhng vấn của mình. Trong các cuộc hội thảo trực
    tiếp hay các buổi toạ đàm tj xa, văn bản cuộc họp sẽ tự động đưkc in ra mà khgng cần thư kz soạn
    thảo. Hệ thống nhận dạng tiếng nói sẽ tự động chuyển đổi lời nói thành văn bản.
    Trong các cuộc nói chuyện do bất đồng nggn ngp, hay do nhpng vấn đề tế nhu về tự ái dân tộc,
    để chuyển đổi qua lại gipa hai nggn ngp, cùng với hệ thống duch thuật trên văn bản kết hkp với hai hệ
    thống nhận dạng tiếng nói sẽ cho phop cuộc nói chuyện diễn ra bình thường và tự nhiên. Hệ thống
    chuyển đổi nggn ngp trực tiếp này rất hpu ích trong các cuộc hội thảo lớn có nhiều quốc gia, dân tộc
    tham dự.
    Hệ thống kiểu như thế này đti hhi khả năng nhận dạng rất lớn, cho tới thời điểm hiện tại mức
    độ ứng dụng ctn hạn chế.
    ➢ Trong lĩnh vực nhận diện:
    Hệ thống nhận dạng tiếng nói kết hkp với xử lz tổng hkp giọng nói ctn đưkc ứng dụng trong
    lqnh vực nhận diện tiếng nói. Hệ thống mật m{ giọng nói cho phop nhận dạng người thgng qua tiếng
    nói, chvng hạn rút tiền ra khhi ngân hàng hay các tác vụ khác mà khgng cần kiểm tra chp kz hay các
    giấy tờ khác vì có yêu cầu bí mật về nhân thân. Hoặc ứng dụng trong các hệ thống khoá tự động mà
    chìa khoá là tiếng nói.
    Hệ ASR như vậy đ{ có nhpng áp dụng trong thực tế.
    Có thể tham khảo thêm tại đua ch| http:eeen.mikipedia.orgemikieSpeech}recognition cho các ứng
    dụng của hệ thống ASR trong thực tế.

    II. Các khó khăn và hạn chế của hệ thống ASR cho đến thời điểm hiện nay:
    Việc ứng dụng hệ thống ASR cho đến thời điểm hiện nay vẫn ctn nhiều hạn chế là vì một số
    khó khăn do bản thân đối tưkng mà nó nhắm đến, trong trường hkp này là tiếng nói hay âm thanh, là
    một đối tưkng khgng ổn đunh. Các khó khăn có thể kể đến như:
    - Sự biến động của người nói trong việc phát âm:
    ã Tiếng nói thay đổi theo thời gian, theo độ tuổi.
    ã Tình trạng sức khhe. Một người khi khhe mạnh sẽ phát âm khác hvn so với khi gặp ốm đau,
    ví dụ như cảm cứm chvng hạn.
    ã Tốc độ nói.
    ã Với một người, trong một khoảng thời gian ngắn, việc phát âm một tj trong nhiều lần khác
    nhau có thể khác nhau.
    - ~nh hưyng của ngoại cảnh:
    ã Nhiễu, tiếng ồn của mgi trường xung quanh. Ví dụ một người nói trong khgng gian yên tqnh
    sẽ dễ nghe hfn là y ngoài đường phố
    ã Handset để thu âm có thể khác nhau trong nhpng tình huống khác nhau.
    ã nhoảng cách tj miệng người nói đến Handset.
    Điều kiện lz tưyng cho việc thực hiện nhận dạng tiếng nói nói chung và âm thanh nói riêng là
    tiếng nói sẽ ổn đunh kể cả trong lúc huấn luyện và lúc nhận dạng. Tiếng nói của m i người là duy nhất,
    khgng trùng lẫn với nhpng người khác. Do đó, cho đến thời điểm hiện tại, việc nhận dạng âm thanh,
    tiếng nói là một cgng việc rất khó khăn.
    III. Mục tiêu của luận văn.
    – Viết chưfng trình nhúng vào DSP để thực hiện cgng việc nhận dạng tiếng nói. Lựa chọn giải
    thuật phù hkp với tài nguyên của phần cứng.
    - Với mục tiêu là tập trung vào giải thuật, nên khgng cần xây dựng các phần cứng demo khác ( ví
    dụ như chiếc xe để điều khiển brng giọng nói ). Ä luận văn này, để thể hiện kết quả của nhận
    dạng, tgi ch| thể hiện lên bảng LCD và các LED.
    - Đánh giá khả năng thực hiện đưkc.
     
Đang tải...