Thạc Sĩ Phân loại nội dung tài liệu Web

Nhu Ely · 16/1/14

LUẬN VĂN THẠC SĨ
NĂM 2012

MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN . ii
MỤC LỤC iii
DANH MỤC HÌNH vi
DANH MỤC BẢNG . vii
DANH MỤC CÁC TỪVIẾT TẮT viii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀPHÂN LOẠI TÀI LIỆU . 4
1.1 Tổng quan vềphân loại tài liệu . 4
1.1.1 Giới thiệu vềbài toán phân loại 4
1.1.2 Tổng quan . 5

1.2 Quy trình phân loại văn bản 7
CHƯƠNG 2: MỘT SỐKỸTHUẬT TRONG PHÂN LOẠI VĂN BẢN 9
2.1 Xửlý văn bản 9
2.1.1 Đặc điểm của từtrong tiếng việt 9
2.1.2 Tách từ 9
2.1.2.1 Phương pháp Maximum Matching: Forward / Backward . 10
2.1.2.2 Phương pháp Transformation – based Learning (TBL) 11
2.1.2.3 Mô hình tách từbằng WFST và mạng Neural . 11
2.1.2.4 Phương pháp tách tách từtiếng Việt dựa trên thống kê từInternet
và thuật giải di truyền . 13
2.1.2.5 Loại bỏtừdừng 13
2.1.3 Đặc trưng văn bản . 13
2.2 Biểu diễn văn bản 15
2.2.1 Mô hình logic 15
2.2.2 Mô hình phân tích cú pháp . 17
2.2.3 Mô hình không gian vector . 17
2.2.3.1 Mô hình boolean . 19
2.2.3.2 Mô hình tần suất . 20
2.3 Độtương đồng 22
2.3.1 Khái niệm độtương đồng . 22
2.3.2 Độtương đồng 23
2.3.3 Các phương pháp tính độtương đồng 23
2.3.3.1 Phương pháp tính độtương đồng sửdụng độ đo Cosine . 24
2.3.3.2 Phương pháp tính độtương đồng dựa vào độ đo khoảng cách Euclide 25
2.3.3.3 Phương pháp tính độtương đồng dựa vào độ đo khoảng cách Manhattan . 25
2.4 Các phương pháp phân loại văn bản . 26
2.4.1 Phương pháp pháp Naïve Bayes (NB) 26
2.4.2 Phương pháp Support Vector Machine (SVM) 28
2.4.3 Phương pháp K-Nearest Neighbor (KNN) . 29
2.4.4 Phương pháp Linear Least Square Fit (LLSF) . 30
2.4.5 Phương pháp Centroid – based vector 31
2.4.6 Kết luận . 32

CHƯƠNG 3: CHƯƠNG TRÌNH THỬNGHIỆM 34
3.1 Quy trình thực hiện . 34
3.1.1 Xửlý dữliệu . 34
3.1.1.1 Tách từtiếng Việt . 34
3.1.1.2 Loại bỏtừdừng, từtầm thường . 36
3.1.2 Xây dựng bộdữliệu tập đặc trưng phục vụcho phân loại . 41
3.1.2.1 Giới thiệu mô hình phân tích chủ đề ẩn . 41
3.1.2.2 Mô hình Latent Dirichlet Allocation 42
3.1.3 Phân loại văn bản sửdụng tần suất chủ đề . 45
3.1.4 Phân loại văn bản sửdụng hệsốCosine 45
3.2 Kết quảthực nghiệm . 47
3.2.1 Môi trường thực nghiệm . 47
3.2.1.1 Môi trường 47
3.2.1.2 Công cụ . 47
3.2.1.3 Dữliệu 48
3.2.2 Kết quảthực nghiệm . 48
3.2.2.1 Tiền xửlý văn bản 49
3.2.2.2 Tìm đặc trưng cho từng thểloại . 51
3.2.2.3 Phân loại văn bản . 59
PHẦN KẾT LUẬN 62

MỞ ĐẦU
Trong những năm gần đây, sựphát triển vượt bậc của Công nghệthông tin đã làm tăng sốlượng giao dịch thông tin trên mạng Internet một cách đáng kể đặc biệt là thưviện điện tử, tin tức điện tử, Do đó mà sốlượng văn bản xuất hiện trên mạng Internet cũng tăng với một tốc độchóng mặt, và tốc độthay đổi thông tin là cực kỳnhanh chóng. Với sốlượng thông tin đồsộnhưvậy, một yêu cầu lớn đặt ra là làm sao tổchức và tìm kiếm thông tin, dữliệu có hiệu quảnhất. Bài toán phân lớp là một trong những giải pháp hợp lý cho yêu cầu trên. Nhưng một thực tếlà khối lượng thông tin quá lớn, việc phân lớp dữliệu thủcông là điều không thể.
Hướng giải quyết là một chương trình máy tính tự động phân lớp các thông tin dữ liệu trên. Trong các loại dữliệu thì văn bản là loại dữliệu phổbiến mà con người thường gặp phải nhất. Mô hình biểu diễn văn bản phổbiến hiện nay là mô hình không gian vector, trong đó mỗi văn bản được biểu diễn bằng một vector của các từkhóa. Tuy nhiên bài toán khai phá dữliệu văn bản thường gặp phải một sốkhó khăn nhưtính nhiều chiều của văn bản, tính nhặp nhằng của ngôn ngữ Đồng thời, khi xửlý các bài toán phân lớp tự động thì cũng gặp phải một sốkhó
khăn là đểxây dựng được bộphân lớp có độtin cậy cao đòi hỏi phải có một lượng các mẫu dữliệu huấn luyện tức là các văn bản đã được gán nhãn chủ đề lớp tương ứng. Các dữliệu huấn luyện này thường rất hiếm và đắt vì đỏi hỏi thời gian và công sức của con người. Do vậy, cần phải có hệthống xửlý văn bản hiệu quảvà một phương pháp học không cần nhiều dữliệu được phân loại và có khả năng tận dụng được các nguồn dữliệu chưa phân loại rất phong phú nhưhiện nay. Nhận thấy đây là lĩnh vực mang tính khoa học cao, ứng dụng rất nhiều trong các bài toán thực tếví dụnhư: ứng dụng lọc nội dung văn bản, bài toán phân lớp sau tìm kiếm, Tác giảquyết định chọn đềtài “Phân loại nội dung tài liệu web” là một việc làm không chỉcó ý nghĩa khoa học, mà còn mang tính thực tiễn.
Trong luận văn sẽtrình bày một sốthuật toán phân lớp tiêu biểu và đưa ra hướng thực nghiệm cho hệthống phân lớp.
Luận văn áp dụng phân tích chủ đề ẩn cụthểlà thuật toán Latent Dirichlet Allocation đểxác định chủ đềphục vụcho việc tiến hành phân lớp. Thực nghiệm cho thấy độchính xác cao, phù hợp đểáp dụng vào hệthống phân lớp tự động.

Mục tiêu của luận văn:
- Nghiên cứu các kỹthuật xửlý ngôn ngữtiếng Việt
- Phân loại nội dung tài liệu trên văn bản tiếng Việt.
Đối tượng nghiên cứu
Các tài liệu văn bản tin tức dạng text chuẩn tiếng Việt, không chứa hình ảnh, âm thanh,
Phạm vi nghiên cứu
Phân loại văn bản vào các thểloại phổbiến giống nhưtrên các trang báo điện tử hiện nay, như trang http://vnexpress.net, http://vietnamnet.vn, các thểloại được nghiên cứu xửlý trong luận văn: đời sống, kinh doanh, khoa học, ô tô – xe máy, pháp luật, thếgiới, thểthao, văn hóa, vi tính, xã hội.
Những vẫn đềcần giải quyết trong phạm vi luận văn:
- Tìm hiểu tổng quan vềvấn đềnghiên cứu.
- Tìm hiểu cách thức tương tác với tài liệu, văn bản tiếng Việt.
- Tìm hiểu các phương pháp học máy.
- Xây dựng bộdữliệu chủquan dựa trên văn bản đã được phân loại sẵn.
- Nghiên cứu các thuật toán xửlý và so khớp văn bản.
- Xây dựng quy trình phân loại văn bản.
- Hiện thực quy trình phân loại văn bản.

Bốcục trình bày của luận văn
Chương 1: Giới thiệu tổng quan vềbài toán phân lớp văn bản và đưa ra quy trình phân lớp văn bản.
Chương 2: Trình bày cụthểhơn vềquy trình phân lớp văn bản và đềcập đến các vấn đềliên quan trong quá trình thực hiện bài toán.
Chương 3: Trình bày các bước thực hiện quy trình và đưa ra kết quảchương trình thực nghiệm.
Kết luận những điểm chính, chỉ ra những điểm cần khắc phục đồng thời đặt ra hướng phát triển.

Thạc Sĩ Phân loại nội dung tài liệu Web

Nhu Ely New Member

Các file đính kèm:

Phân loại nội dung tài liệu Web.pdf

Tiến Sĩ Sự biến đổi về thành phần loài và số lượng thực vật nổi ở hồ EaNhái và EaSup tỉnh Đăk Lăk

Thạc Sĩ Sự biến đổi về thành phần loài và số lượng thực vật nổi ở hồi Ea Nhái và Ea Súp

Thạc Sĩ Tìm hiểu thành phần loài và phân bố của giun đất ở xã hương sơn, mỹ đức, hà nội

Tiến Sĩ Nghiên cứu thành phần hóa học và hoạt tính sinh học một số loài Ardisia thuộc họ Myrsinaceae ở Việt

Tiến Sĩ Nghiên cứu thành phần hóa học và hoạt tính sinh học của các loài lá kim: Pinus dalatensis, Pinus kes

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Thạc Sĩ Phân loại nội dung tài liệu Web

Nhu Ely New Member

Các file đính kèm:

Phân loại nội dung tài liệu Web.pdf

Tiến Sĩ Sự biến đổi về thành phần loài và số lượng thực vật nổi ở hồ EaNhái và EaSup tỉnh Đăk Lăk

Thạc Sĩ Sự biến đổi về thành phần loài và số lượng thực vật nổi ở hồi Ea Nhái và Ea Súp

Thạc Sĩ Tìm hiểu thành phần loài và phân bố của giun đất ở xã hương sơn, mỹ đức, hà nội

Tiến Sĩ Nghiên cứu thành phần hóa học và hoạt tính sinh học một số loài Ardisia thuộc họ Myrsinaceae ở Việt

Tiến Sĩ Nghiên cứu thành phần hóa học và hoạt tính sinh học của các loài lá kim: Pinus dalatensis, Pinus kes