Luận Văn Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt nội dung



    Mô hình ngôn ngữ là một thành phần quan trọng trong các ứng dụng như nhận dạng tiếng nói, phân đoạn từ, dịch thống kê, Và chúng thường được mô hình hóa sử dụng các n-gram. Trong khóa luận này, chúng tôi nghiên cứu và tìm hiểu mô hình ngôn ngữ xây dựng dựa trên cấu trúc dữ liệu Bloom Filter. Không lưu trữ toàn bộ tập n-gram giống như các mô hình truyền thống, loại mô hình ngôn ngữ này sử dụng một quy trình mã hóa đặc biệt, cho phép chia sẻ một cách hiệu quả các bit khi lưu trữ thông tin thống kê n-gram, nhờ đó tiết kiệm đáng kể bộ nhớ. Sau khi tìm hiểu sơ lược về mô hình ngôn ngữ, chúng ta sẽ nghiên cứu hai kiểu cấu trúc dữ liệu dựa trên Bloom Filter là Log-Frequency Bloom Filter và Bloom Map. Qua các thử nghiệm, chúng tôi chỉ ra sự ưu việt của các mô hình ngôn ngữ dựa trên Bloom Filter trên cả phương diện dung lượng và tính hiệu quả khi ứng dụng trong thực tế, cụ thể ở đây là hệ thống dịch máy bằng phương pháp thống kê với Moses [21].



    Mục lục


    TÓM TẮT NỘI DUNG i

    MỤC LỤC ii

    LỜI CẢM ƠN iv

    DANH MỤC TỪ VIẾT TẮT v

    DANH MỤC HÌNH vi

    MỞ ĐẦU 1

    CHƯƠNG 1 - Tổng quan về mô hình ngôn ngữ 3

    1.1 N-gram 3

    1.2 Xây dựng mô hình ngôn ngữ 4

    1.2.1 Ước lượng cực đại hóa khả năng (MLE) 5

    1.2.2 Các phương pháp làm mịn 5

    1.2.2.1 Kneser-Ney 7

    1.2.2.2 Kneser-Ney cải tiến (Modified Kneser-Ney) 8

    1.2.2.3 Stupid Backoff 9

    1.3 Đánh giá mô hình ngôn ngữ 10

    1.3.1 Perplexity 10

    1.3.2 MSE 11

    CHƯƠNG 2 - Các cấu trúc dữ liệu dựa trên Bloom Filter 13

    2.1 Các cấu trúc dữ liệu xác suất (PDS) 14

    2.2 Hàm băm 16

    2.3 Bloom Filter cơ bản 17

    2.4 Mô hình ngôn ngữ sử dụng Bloom Filter 22

    2.4.1 Bloom Filter tần số log 23

    2.4.2 Bộ lọc dựa vào chuỗi con 25

    2.4.3 Bloom Map 26

    CHƯƠNG 3 - Thử nghiệm: Xây dựng LM với RandLM và SRILM 32

    3.1 Ngữ liệu 33

    3.2 Thuật toán làm mịn 35

    3.3 Xây dựng LM với SRILM và RandLM 35

    CHƯƠNG 4 - Thử nghiệm: Dịch máy thống kê với Moses 40

    4.1 Dịch máy thống kê 40

    4.1.1 Giới thiệu về dịch máy thống kê 40

    4.1.2 Dịch máy thống kê dựa trên cụm 43

    4.1.3 Điểm BLEU 45

    4.2 Baseline System 46

    4.3 Ngữ liệu 46

    4.4 Kết quả thử nghiệm 48

    KẾT LUẬN 50

    PHỤ LỤC 51
     

    Các file đính kèm:

Đang tải...