Luận Văn Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter

Thúy Viết Bài · 5/12/13

Tóm tắt nội dung

Mô hình ngôn ngữ là một thành phần quan trọng trong các ứng dụng như nhận dạng tiếng nói, phân đoạn từ, dịch thống kê, Và chúng thường được mô hình hóa sử dụng các n-gram. Trong khóa luận này, chúng tôi nghiên cứu và tìm hiểu mô hình ngôn ngữ xây dựng dựa trên cấu trúc dữ liệu Bloom Filter. Không lưu trữ toàn bộ tập n-gram giống như các mô hình truyền thống, loại mô hình ngôn ngữ này sử dụng một quy trình mã hóa đặc biệt, cho phép chia sẻ một cách hiệu quả các bit khi lưu trữ thông tin thống kê n-gram, nhờ đó tiết kiệm đáng kể bộ nhớ. Sau khi tìm hiểu sơ lược về mô hình ngôn ngữ, chúng ta sẽ nghiên cứu hai kiểu cấu trúc dữ liệu dựa trên Bloom Filter là Log-Frequency Bloom Filter và Bloom Map. Qua các thử nghiệm, chúng tôi chỉ ra sự ưu việt của các mô hình ngôn ngữ dựa trên Bloom Filter trên cả phương diện dung lượng và tính hiệu quả khi ứng dụng trong thực tế, cụ thể ở đây là hệ thống dịch máy bằng phương pháp thống kê với Moses [21].

Mục lục

TÓM TẮT NỘI DUNG i

MỤC LỤC ii

LỜI CẢM ƠN iv

DANH MỤC TỪ VIẾT TẮT v

DANH MỤC HÌNH vi

MỞ ĐẦU 1

CHƯƠNG 1 - Tổng quan về mô hình ngôn ngữ 3

1.1 N-gram 3

1.2 Xây dựng mô hình ngôn ngữ 4

1.2.1 Ước lượng cực đại hóa khả năng (MLE) 5

1.2.2 Các phương pháp làm mịn 5

1.2.2.1 Kneser-Ney 7

1.2.2.2 Kneser-Ney cải tiến (Modified Kneser-Ney) 8

1.2.2.3 Stupid Backoff 9

1.3 Đánh giá mô hình ngôn ngữ 10

1.3.1 Perplexity 10

1.3.2 MSE 11

CHƯƠNG 2 - Các cấu trúc dữ liệu dựa trên Bloom Filter 13

2.1 Các cấu trúc dữ liệu xác suất (PDS) 14

2.2 Hàm băm 16

2.3 Bloom Filter cơ bản 17

2.4 Mô hình ngôn ngữ sử dụng Bloom Filter 22

2.4.1 Bloom Filter tần số log 23

2.4.2 Bộ lọc dựa vào chuỗi con 25

2.4.3 Bloom Map 26

CHƯƠNG 3 - Thử nghiệm: Xây dựng LM với RandLM và SRILM 32

3.1 Ngữ liệu 33

3.2 Thuật toán làm mịn 35

3.3 Xây dựng LM với SRILM và RandLM 35

CHƯƠNG 4 - Thử nghiệm: Dịch máy thống kê với Moses 40

4.1 Dịch máy thống kê 40

4.1.1 Giới thiệu về dịch máy thống kê 40

4.1.2 Dịch máy thống kê dựa trên cụm 43

4.1.3 Điểm BLEU 45

4.2 Baseline System 46

4.3 Ngữ liệu 46

4.4 Kết quả thử nghiệm 48

KẾT LUẬN 50

PHỤ LỤC 51

Luận Văn Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter

Thúy Viết Bài New Member
Thành viên vàng

Các file đính kèm:

nguyen-thac-huy_k51khmt_khoa-luan-tot-nghiep-dai-hoc-.doc

Đồ Án Tìm hiểu ngôn ngữ c# và viết một ứng dụng minh họa

Đồ Án Thiết kế lắp đặt phòng game và tìm hiểu các công nghệ mới

Tiểu Luận Tìm hiểu về mobile-learning và các nguyên lý khoa học trong mobile-learning

Đồ Án Thực hành tìm hiểu mô hình mạng lan tại công ty TNHH vận tải Đất Việt

Luận Văn Tìm hiểu và xây dựng mô hình fuzzy logic ứng dụng trong bài toán dự báo tài chính

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Luận Văn Tìm hiểu mô hình ngôn ngữ sử dụng phương pháp bloom filter

Thúy Viết Bài New Member Thành viên vàng

Các file đính kèm:

nguyen-thac-huy_k51khmt_khoa-luan-tot-nghiep-dai-hoc-.doc

Đồ Án Tìm hiểu ngôn ngữ c# và viết một ứng dụng minh họa

Đồ Án Thiết kế lắp đặt phòng game và tìm hiểu các công nghệ mới

Tiểu Luận Tìm hiểu về mobile-learning và các nguyên lý khoa học trong mobile-learning

Đồ Án Thực hành tìm hiểu mô hình mạng lan tại công ty TNHH vận tải Đất Việt

Luận Văn Tìm hiểu và xây dựng mô hình fuzzy logic ứng dụng trong bài toán dự báo tài chính

Thúy Viết Bài New Member
Thành viên vàng