Đồ Án Nhận dạng giọng nói bằng mạng neural hồi quy_ HVKT (TM+chương trình)

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    LỜI NÓI ĐẦU

    Mọi người có thể dễ dàng hiểu được người khác nói gì và có thể chỉ cần nghe giọng nói là có thể phân biệt được đó là ai. Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm được điều này là vô cùng khó khăn. Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói đã trở thành vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau như tin học, toán học, điều khiển, điện tử, sinh học
    Trong thời gian gần đây, các nhà nghiên cứu đang tập trung vào công nghệ nhận dạng giọng nói và đã có một số thành công đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví dụ như các phần mềm Via Voice Gold của hãng IBM, Speech SDK của Microsoft, Dragon Natural Speaking của Dragon System. Đối với nước ta, đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng giọng nói (Speech Recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo và cũng đã có những sản phẩm thương mại. Tuy nhiên những kết quả đó độ chính xác chưa cao. Vì vậy trong đồ án tốt nghiệp của mình em đã chọn đề tài “Nhận dạng giọng nói bằng mạng neural hồi quy” để có thể hiểu thêm về công nghệ xử lý âm thanh và các ứng dụng thực tế của nó.
    Mục tiêu của đồ án là tìm hiểu được đặc điểm của tiếng Việt, các phương pháp trích chọn đặc trưng, nghiên cứu về mạng Neural và xây dựng một ứng dụng nhận dạng một số từ tiếng Việt. Đồ án được trình bày trong bốn chương với bố cục như sau:

    Chương 1: Âm thanh và số hóa âm thanh.
    Chương 2: Tiếng việt và các đặc trưng.
    Chương 3: Mạng neural và ứng dụng trong nhận dạng giọng nói.
    Chương 4: Thiết kế chương trình nhận dạng.
    Trong quá trình thực hiện em xin chân thành cảm ơn thầy giáo . đã tận tình hướng dẫn, chỉ bảo từng nội dung của đề tài, các thầy, cô giáo trong khoa Công Nghệ Thông Tin - Học viện Kỹ Thuật Quân Sự đã có nhiều giúp đỡ chuyên sâu về công nghệ xử lý tiếng nói, để em có thể hoàn thành nội dung đồ án.

    Hà Nội, ngày 05 tháng 6 năm 2009




    MỤC LỤC

    LỜI NÓI ĐẦU
    CHƯƠNG 1: ÂM THANH VÀ SỐ HÓA ÂM THANH
    1.1. Đặc trưng sóng âm
    1.1.1.Các đặc trưng.
    1.1.2. Đơn vị vật lý của âm thanh.
    1.2. Quá trình số hóa âm thanh.
    1.2.1. Quá trình lấy mẫu âm thanh tương tự.
    1.2.2. Quá trình lượng tử hóa.
    1.3. Cấu trúc file Wave.
    1.3.1. Các loại file âm thanh.
    1.3.2. Cấu trúc file Wave.
    1.3.3. Xử lý file Wave.

    CHƯƠNG 2: TIẾNG VIỆT VÀ CÁC ĐẶC TRƯNG

    2.1. Quá trình phát âm
    2.2. Ngữ âm tiếng việt
    2.2.1. Các đặc tính cơ bản của tiếng Việt
    2.2.2. Khái niệm âm tiết
    2.2.3. Cấu trúc âm tiết tiếng việt
    2.3. Kỹ thuật trích chọn đặc trưng.
    2.3.1. Tiền xử lý.
    2.3.2. Phân tích và lượng tử các hệ số dự báo tuyến tính.
    2.3.2.1. Tính toán cửa sổ và các hệ số tự tương quan.
    2.3.2.2. Thuật toán Levinson- Durbin.
    2.3.2.3. Quá trình chuyển đổi LP sang LSP.
    2.3.2.4. Lượng tử hóa các hệ số LSP.
    2.3.3. Thuật toán VAD tách nhiễu nền.
    2.3.3.1. Mô tả chi tiết thuật toán.
    2.3.3.2. Trích chọn tham số.
    2.3.3.3. Khởi tạo trung bình trượt của các đặc trưng nhiễu nền.
    2.3.3.4. Tạo năng lượng tối thiểu.
    2.3.4.5. Tạo độ lệch các tham số.
    2.3.4.6. Khởi tạo đa đường quyết định giọng nói
    2.3.4.7. Làm trơn quyết định vùng hoạt động giọng nói
    2.3.4.8. Cập nhật trung bình trượt các đặc trưng nhiễu nền.

    CHƯƠNG 3: MẠNG NEURAL VÀ ỨNG DỤNG TRONG NHẬN DẠNG GIỌNG NÓI

    3.1. Các phương pháp nhận dạng.
    3.1.1. Khái niệm
    3.1.2. Phương pháp nhận dạng dùng tập mẫu.
    3.1.3. Phương pháp nhận dạng dùng mô hình thống kê.
    3.1.4. Phương pháp nhận dạng dùng mạng neural
    3.2. Mạng neural
    3.2.1. Giới thiệu chung.
    3.2.2. Mạng neural nhân tạo.
    3.2.3. Cấu trúc mạng neural
    3.2.4. Luật học mạng neural
    3.2.5. Phân loại mạng neural
    3.3. Mạng neural hồi quy trong ứng dụng nhận dạng giọng nói
    3.3.1. Giới thiệu chung.
    3.3.2. Mạng Haming.
    CHƯƠNG 4: THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG
    4.1. Phân tích yêu cầu của bài toán.
    4.2. Phương án xây dựng bài toán.
    4.3. Thiết kế chương trình.
    4.3.1 Thiết kế hệ thống.
    4.3.2. Giao diện chương trình chính.
    4.3.3. Chức năng thu âm
    4.3.4. Chức năng trích chọn đặc trưng.
    4.3.5. Chức năng khởi tạo và huấn luyện mạng.
    4.3.6. Chức năng nhận dạng.

    KẾT LUẬN VÀ KIẾN NGHỊ

    1. Đánh giá kết quả đạt được.
    2. Hạn chế của đề tài
    3. Hướng phát triển tiếp theo.
    4. Lời cảm ơn.
    TÀI LIỆU THAM KHẢO






    Nguyen Van Quan
     

    Các file đính kèm:

Đang tải...