Luận Văn Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Thúy Viết Bài · 5/12/13

Tóm tắt nội dung

Trích chọn thông tin là lĩnh vực quan trọng trong khai phá dữ liệu, trong đó trích chọn thực thể là một bài toán con, cơ bản nhưng đóng vai trò hết sức quan trọng. Nó có thể được sử dụng để hỗ trợ cho phương pháp tìm kiếm mới – tìm kiếm hướng thực thể, và góp phần quan trọng cho việc xây dựng web ngữ nghĩa.

Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thể như phương pháp học máy HMM, Trong khóa luận này em trình bày một phương pháp để trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trường Web. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toán DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sách tiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệp của con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS – tag). Kết quả thực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp này tương đối khả quan.

Mục lục

Lời cảm ơn 3

Tóm tắt nội dung 4

Bảng từ viết tắt 1

Mở đầu 2

CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC 3

1.1. Tổng quan về trích chọn thông tin 3

1.2. Bài toán rút trích thực thể tên tổ chức 4

1.3. Ý nghĩa của bài toán rút trích thực thể tên tổ chức 5

CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ 6

2.1. Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web 6

2.1.1. Occurrences của sách 6

2.1.2. Patterns của sách 7

2.1.3. Quy trình rút trích 7

2.1.4. Thuật toán sinh Patterns 8

2.2. Thu thập tên và miền tương ứng từ tập tài liệu web 9

2.3. Hệ thống Snowball 13

2.3.1. Sinh patterns 13

2.3.2. Sinh cặp quan hệ 15

2.4. Tổng kết chương 16

CHƯƠNG 3. 17

3.1. Mô hình tổng quát 17

3.2. Mô hình chi tiết 19

3.2.1. Find_IndexsOfPrefixPattern 20

3.2.2. Extract_CandidateStrings 21

3.2.3. Trim 22

3.2.4. Filter_Entities 22

3.2.5. Find_PrefixStrings 23

3.2.6. Generate_NewPrefixPattern 23

3.3. Biểu diễn PrefixString và quy tắc cho PrefixPattern 24

3.3.1. Biểu diễn PrefixString 24

3.3.2. Thuật toán sinh PrefixPattern 25

3.4. Quy tắc cắt tỉa 27

3.4.1. Extract_By_Capitalize_Rule 29

3.4.2. Extract_By_Left_Rule 29

3.4.3. Extract_Standard_Name 30

3.4.4. Compare_Discard_Name 30

3.4.5. Các trường hợp cắt tỉa khác 30

CHƯƠNG 4. THỰC NGHIỆM 31

4.1. Chuẩn bị đầu vào 31

4.1.1. Thu thập dữ liệu 31

4.1.2. Xây dựng PrefixPattern (Initial) 31

4.1.3. Xây dựng các Luật (Rule) 31

4.2. Môi trường thực nghiệm 32

4.2.1. Phần cứng 32

4.2.2. Phần mềm 33

4.3. Kết quả thực nghiệm 33

4.4. Nhận xét 35

Kết Luận 35

Tài liệu tham khảo: 37

Luận Văn Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Thúy Viết Bài New Member
Thành viên vàng

Các file đính kèm:

vu-quoc-dat_k50httt_khoa-luan-tot-nghiep-dai-hoc-1-.doc

Tiểu Luận Phương pháp nghiên cứu khoa học trong tin học ứng dụng vào xây dựng nền tảng trí tuệ kinh doanh trên

Tiểu Luận Phương pháp nghiên cứu khoa học trong hệ thống nhận dạng mặt người

Thạc Sĩ Xây dựng phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực

Luận Văn Một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt

Luận Văn Nghiên cứu về học máy và phương pháp học khái niệm

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Luận Văn Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

Thúy Viết Bài New Member Thành viên vàng

Các file đính kèm:

vu-quoc-dat_k50httt_khoa-luan-tot-nghiep-dai-hoc-1-.doc

Tiểu Luận Phương pháp nghiên cứu khoa học trong tin học ứng dụng vào xây dựng nền tảng trí tuệ kinh doanh trên

Tiểu Luận Phương pháp nghiên cứu khoa học trong hệ thống nhận dạng mặt người

Thạc Sĩ Xây dựng phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực

Luận Văn Một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt

Luận Văn Nghiên cứu về học máy và phương pháp học khái niệm

Thúy Viết Bài New Member
Thành viên vàng