Tài liệu Nghiên cứu các kỹ thuật trong nhận dạng tiếng nói

Thảo luận trong 'Lập Trình' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    172
    Điểm thành tích:
    0
    Xu:
    0Xu
    Đề tài: Nghiên cứu các kỹ thuật trong nhận dạng tiếng nói

    [TABLE=width: 100%]
    [TR]
    [TD]ĐẠI HỌC QUỐC GIA HÀ NỘI
    TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


    Đàm Tiến Dũng

    NGHIÊN CỨU CÁC KỸ THUẬT TRONG NHẬN DẠNG TIẾNG NÓI




    KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
    Ngành: Khoa học máy tính










    HÀ NỘI - 2010

    [/TD]
    [/TR]
    [/TABLE]












































    [TABLE=width: 100%]
    [TR]
    [TD]ĐẠI HỌC QUỐC GIA HÀ NỘI
    TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


    Đàm Tiến Dũng

    NGHIÊN CỨU CÁC KỸ THUẬT TRONG NHẬN DẠNG TIẾNG NÓI)




    KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
    Ngành: Công nghệ thông tin

    Cán bộ hướng dẫn: TS. Lê Anh Cường








    HÀ NỘI - 2010

    [/TD]
    [/TR]
    [/TABLE]







    LỜI CẢM ƠN
    Đầu tiên, tôi xin bày tỏ sự biết ơn sâu sắc tới TS. Lê Anh Cường (công tác tại trường ĐH Công Nghệ - ĐH Quốc gia Hà Nội), người đă tận t́nh theo sát hướng dẫn tôi trong suốt quá tŕnh thực hiện luận văn này.
    Tiếp theo, tôi xin dành lời cảm ơn chân thành tới TS. Lê Sỹ Vinh (công tác tại trường ĐH Công Nghệ - Đại học Quốc Gia Hà Nội), người đă nhiệt t́nh giúp đỡ, cho tôi những lời khuyên hữu ích để hoàn thiện luận văn.
    Tôi xin gửi lời cảm ơn đến cô Lương Chi Mai và anh Vũ Tất Thắng (công tác tại viện Khoa học và Công nghệ Việt Nam), hai người đă sẵn ḷng giải đáp khúc mắc và chia sẻ kinh nghiệm cho tôi khi gặp bế tắc trong quá tŕnh nghiên cứu.
    Tôi cũng xin gửi lời cảm ơn đến người đồng nghiên cứu với tôi, bạn Hà Thanh Tùng, người đă sát cánh cùng tôi vượt qua rất nhiều khó khăn trong thời gian hoàn luận văn này.
    Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ tôi, các anh chị tôi và cùng với bạn bè đă luôn ở bên cạnh khuyến khích, động viên, giúp đỡ tôi vượt qua những khó khăn trong quá tŕnh thực hiện luận văn.
    Hà Nội, tháng 05 năm 2010.
    Sinh viên
    Đàm Tiến Dũng

    Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng và có nhiều ứng dụng trong cuộc sống. Cho đến nay, có rất nhiều nghiên cứu về nhận dạng tiếng nói đă được đưa ra, và kỹ thuật đều có điểm mạnh, điểm yếu riêng. Trong luận văn này, tôi sẽ giới thiệu một số kỹ thuật tiêu biểu trong nhận dạng tiếng nói, bao gồm kỹ thuật trích chọn đặc trưng MFCC, các kỹ thuật nhận dạng bằng mô h́nh Markov ẩn và bằng đối sánh mẫu. Song song với việc nghiên cứu lư thuyết, tôi cũng xây dựng một hệ thống nhận dạng tiếng nói thử nghiệm dựa trên các lư thuyết đó, với mục đích là kiểm tra tính đúng đắn và so sánh các kỹ thuật trong nhận dạng tiếng nói. Cuối cùng, thông qua nghiên cứu này, tôi xin đề xuất ra một số phương hướng phát triển, nghiên cứu tiếp theo, cùng với những ứng dụng của nghiên cứu vào các bài toán trong thực tế.



    MỤC LỤC
    Chương 1. MỞ ĐẦU
    1.1. GIỚI THIỆU BÀI TOÁN NHẬN DẠNG TIẾNG NÓI
    1.2. MỤC ĐÍCH CỦA NGHIÊN CỨU
    Chương 2. TIẾNG NÓI VÀ SỰ BIỂU DIỄN TIẾNG NÓI
    2.1. ÂM VỊ VÀ SỰ TẠO THÀNH TIẾNG NÓI
    2.2. PHIÊN ÂM
    2.3. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI TRONG MÁY TÍNH
    Chương 3. KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG NÓI
    3.1. ĐỊNH NGHĨA
    3.2. TRÍCH CHỌN ĐẶC TRƯNG MFCC
    3.2.1. Pre-emphasis
    3.2.2. Windowing
    3.2.3. DFT (Dicrete fourier transform)
    3.2.4. Mel filter-bank and log
    3.2.5. DCT (Discrete consinse transform)
    3.2.6. Feature extraction
    Chương 4. KỸ THUẬT NHẬN DẠNG TIẾNG NÓI SỬ DỤNG MÔ H̀NH MARKOV ẨN
    4.1. GIỚI THIỆU MÔ H̀NH MARKOV ẨN
    4.2. NHỮNG VẤN ĐỀ CHÍNH CỦA HMM
    4.2.1. Ước lượng xác suất mô h́nh
    4.2.2. Nhận dạng
    4.2.3. Huấn luyện
    4.3. MÔ H̀NH MARKOV ẨN CHO NHẬN DẠNG TIẾNG NÓI
    4.3.1. Xây dựng mô h́nh Markov ẩn cho nhận dạng tiếng nói
    4.3.2. Phương pháp tính xác suất đoán nhận âm học b[SUB]j[/SUB](o[SUB]t[/SUB])
    4.3.3. Phương pháp huấn luyện nhúng (Embedded Training)
    4.4. VẤN ĐỀ TÍNH TOÁN XÁC SUẤT TRONG LẬP TR̀NH
    Chương 5. NHẬN DẠNG TIẾNG NÓI BẰNG ĐỐI SÁNH MẪU
    5.1. THUẬT TOÁN SO SÁNH THỜI GIAN ĐỘNG (DTW)
    5.2. ÁP DỤNG VÀO BÀI TOÁN NHẬN DẠNG TIẾNG NÓI
    Chương 6. KẾT QUẢ THỰC NGHIỆM
    6.1. MÔ TẢ THỰC NGHIỆM
    6.2. KẾT QUẢ
    6.3. ĐÁNH GIÁ KẾT QUẢ
    Chương 7. KẾT LUẬN
    7.1. TỔNG KẾT NỘI DUNG
    7.2. HƯỚNG PHÁT TRIỂN
    PHỤ LỤC
    TÀI LIỆU THAM KHẢO



    DANH MỤC BẢNG BIỂU
    Bảng 1: Kết quả của một số hệ thống nhận dạng tiếng nói trên thế giới
    Bảng 2: Khởi tạo tham số
    Bảng 3: Khởi tạo tham số a[SUB]ij[/SUB]
    Bảng 4: Từ điển và phiên âm các từ trong bộ số đếm tiếng Việt 0-9
    Bảng 5: Kết quả thực nghiệm trên bộ dữ liệu tiếng nói đồng đều cao
    Bảng 6: Kết quả thực nghiệm trên bộ dữ liệu tiếng nói đồng đều thấp



    DANH MỤC H̀NH ẢNH
    H́nh 1: Số hóa tín hiệu âm thanh
    H́nh 2: Các bước trích chọn đặc trưng MFCC
    H́nh 3: Cắt tín hiệu bằng cửa sổ trượt (window)
    H́nh 4: tương quan giữa thang đo tần số thường và tần số Mel
    H́nh 5: HMM với N=5
    H́nh 6: HMM với N=3, T=5
    H́nh 7: Tính xác suất Forward [2]
    H́nh 8: Tính xác suất Backward [2]
    H́nh 9: HMM cho từ ONE
    H́nh 10: Biến thiên trong âm vị ah
    H́nh 11: HMM ba trạng thái cho từ ONE
    H́nh 12: Phổ tín hiệu của 2 từ ONE TWO phát âm liên tiếp
    H́nh 13: HMM kết hợp
    H́nh 14: HMM cho từ ONE
    H́nh 15: mô h́nh thuật toán DTW




    BẢNG KƯ HIỆU VIẾT TẮT
    [TABLE]
    [TR]
    [TD]
    Viết tắt
    [/TD]
    [TD]Tên đầy đủ
    [/TD]
    [TD]Ư nghĩa
    [/TD]
    [/TR]
    [TR]
    [TD]DTW
    [/TD]
    [TD]Dynamic Time Warping
    [/TD]
    [TD]So sánh thời gian động
    [/TD]
    [/TR]
    [TR]
    [TD]HMM
    [/TD]
    [TD]Hidden Markov Model
    [/TD]
    [TD]Mô h́nh Markov ẩn
    [/TD]
    [/TR]
    [TR]
    [TD]IPA
    [/TD]
    [TD]International Phonetics Alphabet
    [/TD]
    [TD]Bảng chữ cái ngữ âm quốc tế
    [/TD]
    [/TR]
    [TR]
    [TD]MFCC
    [/TD]
    [TD]Mel frequency cepstral coefficients
    [/TD]
    [TD]Các hệ số phổ tần số Mel
    [/TD]
    [/TR]
    [TR]
    [TD]NNs
    [/TD]
    [TD]Neural Networks
    [/TD]
    [TD]Các mạng nơ ron
    [/TD]
    [/TR]
    [/TABLE]



    Chương 1. MỞ ĐẦUTrong chương này, tôi sẽ nêu lên tính cần thiết, mục đích cùng với những ư nghĩa khoa học, tính thực tiễn của đề tài nghiên cứu này.
    1.1. GIỚI THIỆU BÀI TOÁN NHẬN DẠNG TIẾNG NÓITrong cuộc sống hàng ngày, tiếng nói tự nhiên chính là phương tiện giao tiếp đơn giản, hiệu quả và thông dụng nhất giữa người với người. Tiếng nói đă trở nên quá quen thuộc đối với con người ngay từ khi mới lọt ḷng. Tầm quan trọng của tiếng nói trong cuộc sống thường ngày là không thể phủ nhận. Tuy nhiên, ngày nay khi mà máy móc có ở khắp nơi xung quanh chúng ta th́ loại h́nh giao tiếp cơ bản nhất giữa con người và máy móc lại là các ḍng lệnh, các chỉ thị thông qua việc gơ bàn phím. Các ḍng lệnh đó thường rất máy móc và khó nhớ đối với con người, đồng thời thao tác bằng tay cũng thường chậm hơn so với việc sử dụng tiếng nói. Hăy thử tưởng tượng, cuộc sống sẽ trở nên dễ dàng thế nào nếu chúng ta có thể giao tiếp với máy móc bằng tiếng nói tự nhiên. Khi đó, chúng ta có thể soạn thảo văn bản bằng tiếng nói, quay số điện thoại bằng tiếng nói, hay t́m kiếm thông tin trên Internet bằng giọng nói chứ không qua thao tác bằng tay.
    Nhận dạng tiếng nói, đứng trên quan điểm học máy là một bài toán nhận dạng mẫu phức tạp. Mục đích của bài toán này là phân lớp tín hiệu tiếng nói đầu vào thành một dăy liên tiếp các mẫu đă được học sẵn. Trong đó một mẫu có thể là một từ, hoặc một âm vị (đơn vị nhỏ nhất có thể phân biệt được cấu tạo nên từ). Về cơ bản, bài toán nhận dạng tiếng nói được chia ra thành các loại sau[19]:
    Nhận dạng tiếng nói rời rạc/liên tục
    Nhận dạng tiếng nói phụ thuộc người nói/không phục thuộc người nói
    Nhận dạng tiếng nói với bộ từ vựng nhỏ/bộ từ vựng lớn
    Lĩnh vực nhận dạng tiếng nói đang ngày càng được quan tâm hơn trong những năm gần đây. Nhiều lư thuyết đă được xây dựng, như kỹ thuật trích chọn đặc trưng LPC hay MFCC, các kỹ thuật nhận dạng như mô h́nh Markov ẩn (HMM), các mạng nơ ron (NNs) hay so sánh thời gian động (DTW). Bàng dưới đây chỉ ra kết quả đạt được của một số hệ thống nhận dạng tiếng nói hiện thời trên thế giới [7]:


    Bảng 1: Kết quả của một số hệ thống nhận dạng tiếng nói trên thế giới
    [TABLE=width: 631, align: center]
    [TR]
    [TD]Hệ thống
    [/TD]
    [TD]Lượng từ vựng
    [/TD]
    [TD]Tỉ lệ lỗi (%)
    [/TD]
    [/TR]
    [TR]
    [TD]TI Digits
    [/TD]
    [TD]11 (bộ số tiếng Anh)
    [/TD]
    [TD]0.5
    [/TD]
    [/TR]
    [TR]
    [TD]Wall street Journal read speech
    [/TD]
    [TD]5.000
    [/TD]
    [TD]3
    [/TD]
    [/TR]
    [TR]
    [TD]Wall street Journal read speech
    [/TD]
    [TD]20.000
    [/TD]
    [TD]3
    [/TD]
    [/TR]
    [TR]
    [TD]Broadcast News
    [/TD]
    [TD]64.000+
    [/TD]
    [TD]10
    [/TD]
    [/TR]
    [TR]
    [TD]Conversation Telephone Speech (CTS)
    [/TD]
    [TD]64.000+
    [/TD]
    [TD]20
    [/TD]
    [/TR]
    [/TABLE]

    Mặc dù có rất nhiều lư thuyết đă được đưa ra, tuy nhiên những ǵ đạt được vẫn là chưa đủ để tiếng nói có thể thay hoàn toàn những ḍng lệnh trong giao tiếp giữa người với máy. Tuy nhiên, những thành tựu đạt được đó cũng đă giúp con người giải quyết khá nhiều bài toán trong cuộc sống. Một số mày điện thoại di động đă có thể cho phép quay số tự động khi người dùng đọc tên người cần gọi trong danh bạ vào. Con người đă có thể điều khiển sự hoạt động của rô bốt bằng giọng nói, mặc dù những chỉ thị đó thường ngắn gọn và nằm trong một tập hữu hạn các chỉ thị đă được huấn luyện.
    1.2. MỤC ĐÍCH CỦA NGHIÊN CỨUNgày nay, hướng nghiên cứu chủ đạo trong lĩnh vực nhận dạng tiếng nói là các kỹ thuật để tách biệt hệ thống nhận dạng tiếng nói ra khỏi sự phụ thuộc vào người nói, bộ từ vựng hay môi trường. Ở Việt Nam hiện nay, các nghiên cứu về nhận dạng tiếng nói không nhiều, và thường tập trung vào các tập từ vựng nhỏ nhằm giải quyết một số bài toán thực tế nhất định.
    Dựa trên những lư thuyết đă được xây dựng, nghiên cứu này được thực hiện nhằm đạt được những mục đích sau đây:
    T́m hiểu các kỹ thuật trong nhận dạng tiếng nói, trong đó tập trung vào hai phần chính là kỹ thuật trích chọn đặc trưng MFCC và kỹ thuật nhận dạng sử dụng mô h́nh Markov ẩn.
    Tự cài đặt hệ thống nhận dạng tiếng nói trên tập số đếm tiếng Việt từ 0 đến 9 bằng mô h́nh Markov ẩn và bằng phương pháp đối sánh mẫu, dựa trên phương pháp trích chọn đặc trưng MFCC. Sau đó so sánh các kết quả đạt được để đưa ra kết luận về các phương pháp trên.
    Đề ra những định hướng phát triển tiếp theo sau nghiên cứu này.

    Chương 2. TIẾNG NÓI VÀ SỰ BIỂU DIỄN TIẾNG NÓICác hệ thống nhận dạng như nhận dạng chữ viết tay hay nhận dạng tiếng nói đều cố gắng mô phỏng tốt nhất quá tŕnh mà vật cần nhận dạng được h́nh thành trong thực tế. Chính v́ vậy ,trước khi đi vào t́m hiểu các kỹ thuật trong nhận dạng tiếng nói, chúng ta cần nắm được một số kiến thức về tiếng nói như cách một tiếng nói được tạo thành hay cách biểu diễn tiếng nói.
    2.1. ÂM VỊ VÀ SỰ TẠO THÀNH TIẾNG NÓITrong ngữ âm học, âm vị là một đơn vị phân đoạn nhỏ nhất của tiếng nói được dùng để tạo nên các từ có nghĩa. Nói cách khác, âm vị là đơn vị nhỏ nhất có thể phân biệt của tiếng nói. Như vậy, một từ được phát âm ra thực chất là sự kết hợp của một tập các âm vị liên tiếp nhau.
    Tiếng nói của con người được h́nh thành nhờ sự kết hợp của các bộ phận trong bộ máy phát âm như lưỡi, họng, môi, răng, mũi Khi những bộ phận đó ở những vị trí khác, các âm thanh khác nhau sẽ được tạo thành. Chính v́ vậy, chúng ta hoàn toàn có thể phân biệt âm này với âm khác trên cơ sở đánh giá cách kết hợp của các cơ quan trong bộ máy phát âm, hay vị trí của chúng khi phát âm.
    2.2. PHIÊN ÂM [1]Tổ chức ngữ âm quốc tế (International Phonetic Association), đă phát minh ra bảng chữ cái ngữ âm quốc tế (International Phonetic Alphabet), viết tắt là IPA, dựa trên các đặc tính của âm vị và sự tạo thành tiếng nói. IPA là một hệ thống chuẩn các kư hiệu bằng chữ latin được dùng để biểu diễn tiếng nói, trong đó mỗi kư hiệu tương ứng với một âm vị. Việc biểu diễn tiếng nói bằng các kư hiệu này được gọi là phiên âm. Ví dụ, từ PEN trong tiếng Anh sẽ được phiên âm là /p ε n/. Phiên âm, nói cách khác, chính là sự biểu diễn của tiếng nói dưới dạng văn bản.
     
Đang tải...