Thạc Sĩ Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản

Phí Lan Dương · 23/11/13

Luận văn thạc sĩ
Đề tài: NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP CẢI TIẾN, ỨNG DỤNG VÀO HỆ TRUY TÌM VĂN BẢN

MỤC LỤC
Trang
MỤC LỤC . i
DANH MỤC CÁC BẢNG iii
DANH MỤC CÁC HÌNH VẼ . iv
MỞ ĐẦU . 1
CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN . 4
1.1 Giới thiệu bài toán phân lớp văn bản 4
1.1.1 Phân lớp văn bản dựa trên cách tiếp cận hệ chuyên gia . 4
1.1.2 Phân lớp văn bản dựa trên cách tiếp cận máy học . 5
1.2 Phương pháp tách từ 8
1.2.1 Các đặc điểm của văn bản tiếng Việt 9
1.2.2 Phương pháp tách từ bằng cách xây dựng các ôtômát . 10
1.3 Phương pháp biểu diễn văn bản 15
1.3.1 Các kỹ thuật trích chọn đặc trưng của văn bản . 15
1.3.2 Phương pháp biểu diễn văn bản bằng mô hình không gian vector . 18
1.4 Phương pháp đánh giá hiệu quả phân lớp . 20
CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN PHỔ BIẾN 22
2.1 Thuật toán K-trung bình (K-means) 22
2.2 Thuật toán cây quyết định (Decision tree) 24
2.3 K-láng giềng gần nhất (K-Nearest Neighbor) . 27
2.4 Support Vector Machines (SVM) . 31
2.4.1 Giới thiệu 31
2.4.2 Bài toán và cách giải quyết . 32
2.4.3 Hàm nhân Kernel 38
2.4.4 Thuật toán huấn luyện Sequential Minimal Optimization (SMO) . 38
2.5 Đánh giá các thuật toán phân lớp văn bản phổ biến 39
CHƯƠNG 3: CÁC THUẬT TOÁN CẢI TIẾN DỰA TRÊN PHƯƠNG PHÁP
PHÂN LỚP VĂN BẢN SUPPORT VECTOR MACHINES . 42
-ii-3.1 Fuzzy Support Vector Machines (FSVM) . 42
3.1.1 Bài toán và cách giải quyết . 42
3.1.2 Hàm thành viên . 44
3.1.3 Thuật toán huấn luyện Kernel-Adatron 47
3.2 Support Vector Machines Nearest Neighbor (SVM-NN) 47
3.2.1 Ý tưởng của thuật toán SVM-NN . 48
3.2.2 Thuật toán SVM-NN 48
3.3 Chiến lược phân lớp đa lớp . 51
3.3.1 Chiến lược One-against-Rest (OAR) 51
3.3.2 Chiến lược One-against-One (OAO) 53
3.3.3 Phân lớp đa lớp mờ (Fuzzy OAO) 57
3.4 Đánh giá các thuật toán phân lớp cải tiến 59
CHƯƠNG 4: TỔNG QUAN VỀ BÀI TOÁN TRUY TÌM VĂN BẢN . 61
4.1 Hệ truy tìm văn bản . 61
4.2 Các mô hình của hệ truy tìm văn bản 62
4.3 Hệ truy tìm văn bản theo mô hình không gian vector (VSM) . 65
4.3.1 Giới thiệu mô hình VSM 65
4.3.2 Số hóa văn bản theo mô hình VSM 66
4.3.3 Ma trận biểu diễn tập văn bản theo mô hình VSM . 66
4.3.4 Truy vấn văn bản theo mô hình VSM 68
CHƯƠNG 5: XÂY DỰNG THỬ NGHIỆM HỆ PHÂN LỚP VÀ TRUY TÌM VĂN
BẢN 70
5.1. Phân hệ phân lớp văn bản . 72
5.1.1 Thiết kế phân hệ phân lớp văn bản . 72
5.1.2 Module lựa chọn các từ đặc trưng và biểu diễn văn bản tiếng Việt . 73
5.1.3 Module phân lớp 2 lớp sử dụng SVM-NN . 73
5.1.4 Phân lớp đa lớp . 75
5.1.5 Cài đặt phân hệ phân lớp văn bản . 76
5.1.6 Kết quả thử nghiệm của phân hệ phân lớp văn bản 79
-iii-5.2. Phân hệ truy tìm văn bản VSM 80
5.2.1 Thiết kế phân hệ truy tìm văn bản VSM 80
5.2.2 Cài đặt phân hệ truy tìm văn bản VSM 84
5.2.3 Đánh giá kết quả cải tiến của phân hệ truy tìm văn bản VSM . 86
CHƯƠNG 6: KẾT LUẬN 88
6.1 Đánh giá kết quả 88
6.2 Hướng phát triển 89
TÀI LIỆU THAM KHẢO . 90

MỞ ĐẦU
Ngày nay, việc tìm kiếm thông tin nói chung cũng như thông tin văn bản nói
riêng có vai trò rất quan trọng trong mọi lĩnh vực hoạt động của con người, nó trở
đã thành một nhu cầu thiết yếu không thể thiếu. Với sự xuất hiện của internet thì
khối lượng thông tin văn bản trên mạng ngày càng tăng, hình thành một kho văn
bản khổng lồ, làm cho việc tìm kiếm những thông tin văn bản cần thiết, hữu ích thì
ngày càng trở nên khó khăn hơn.
Xuất phát từ thực tế đó, đã có một số nghiên cứu xây dựng các hệ truy tìm
văn bản theo các mô hình khác nhau, trong đó hệ truy tìm văn bản theo mô hình
không gian vector được đánh giá là có nhiều ưu điểm nhất. Tuy nhiên, đối với một
hệ truy tìm văn bản theo mô hình không gian vector cơ bản, việc xử lý truy tìm phải
thực hiện trên toàn bộ tập văn bản. Điều này làm mất rất nhiều thời gian xử lý, tốc
độ truy tìm sẽ chậm, đồng thời phải tiêu tốn nhiều không gian lưu trữ, tài nguyên
tính toán, nếu tập văn bản lớn (hoặc số lượng từ đặc trưng lớn).
Bài toán đặt ra là làm thế nào để xây dựng một hệ thống tự động phân lớp và
phục vụ truy tìm thông tin văn bản theo mô hình không gian vector VSM có cải tiến
so với hệ thống truy tìm theo mô hình không gian vector VSM cơ bản, để việc truy
tìm được nhanh chóng và hiệu quả hơn.
Hướng tiếp cận giải quyết như sau: Việc cải tiến hệ thống truy tìm văn bản
theo mô hình không gian vector VSM được thực hiện bằng cách kết hợp sử dụng
các kết quả phân lớp văn bản trên kho văn bản trước khi thực hiện các kỹ thuật xử
lý truy tìm. Kết quả của việc cải tiến này là phân hệ truy tìm văn bản sẽ cải thiện
đáng kể tốc độ, hiệu quả truy tìm vì không phải thực hiện xử lý truy tìm trên toàn bộ
kho văn bản mà chỉ thực hiện truy tìm trên một hoặc vài nhóm văn bản có liên quan
với câu truy vấn.
Hiện tại, đã có một số nghiên cứu về kỹ thuật phân lớp văn bản cũng như về
kỹ thuật truy tìm thông tin văn bản. Luận văn này nhằm mục đích tìm hiểu các kỹ
-2-thuật trên và áp dụng vào việc xây dựng thử nghiệm một hệ thống tự động phân lớp
và phục vụ truy tìm thông tin văn bản thực tế.
Đối với các kỹ thuật phân lớp văn bản, luận văn tìm hiểu cụ thể kỹ thuật
phân lớp văn bản Support Vector Machines (SVM) do kết quả phân lớp rất tốt của
phương pháp này theo các đề tài đã nghiên cứu trước đây. Ý tưởng chính của SVM
là tìm một siêu phẳng “tốt nhất” trong không gian n-chiều để phân chia các điểm dữ
liệu (văn bản) sao cho các điểm dữ liệu thuộc 2 lớp khác nhau nằm ở 2 phía của siêu
phẳng. Luận văn cũng nghiên cứu các thuật toán phân lớp văn bản cải tiến dựa trên
kỹ thuật SVM là thuật toán Fuzzy SVM cho phép loại bỏ các dữ liệu nhiễu trong
quá trình huấn luyện và cải thiện độ chính xác của quá trình phân lớp, nghiên cứu
và cài đặt áp dụng thuật toán SVM Nearest Neighbor với việc kết hợp ý tưởng của
thuật toán K-Nearest Neighbor và thuật toán SVM để cải thiện hiệu quả phân lớp.
Đồng thời luận văn còn nghiên cứu và cài đặt áp dụng các chiến lược phân lớp văn
bản đa lớp OAR (One - against - Rest), OAO (One - against - One) và kỹ thuật cải
tiến việc phân lớp đa lớp này là phân lớp đa lớp mờ Fuzzy OAO (Fuzzy One -against - One).
Đối với các kỹ thuật phục vụ truy tìm văn bản, luận văn tìm hiểu sử dụng mô
hình truy tìm văn bản theo mô hình không gian vector VSM (Vector Space Model).
Nguyên lý hoạt động cốt lõi của hệ truy tìm văn bản VSM là tự động hóa quy trình
tìm kiếm các văn bản có liên quan bằng cách tính độ đo tương tự giữa câu truy vấn
và các văn bản đó.
Từ kết quả nghiên cứu trên, các kỹ thuật phân lớp và phục vụ truy tìm văn
bản sẽ được cài đặt áp dụng để xây dựng thử nghiệm một hệ thống tự động phân lớp
và phục vụ truy tìm thông tin văn bản thực tế theo mô hình không gian vector VSM
có cải tiến so với hệ thống truy tìm theo mô hình VSM cơ bản.
-3-Nội dung luận văn gồm 6 chương:
- Chương 1: Tổng quan về bài toán phân lớp văn bản.
- Chương 2: Các phương pháp phân lớp văn bản truyền thống.
- Chương 3: Các thuật toán cải tiến dựa trên phương pháp phân lớp văn bản
Support Vector Machines.
- Chương 4: Tổng quan về bài toán truy tìm văn bản.
- Chương 5: Xây dựng thử nghiệm hệ phân lớp và truy tìm văn bản.
- Chương 6: Kết luận.

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN
1.1 Giới thiệu bài toán

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Nguyễn Kim Anh, Nguyễn Thị Kim Ngân (2006), “Phân lớp văn bản
tiếng Việt sử dụng phương pháp Support Vector Machines”, Khoa
Công nghệ thông tin, ĐHBK Hà Nội.
[2] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003),
“Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt”,
Kỷ yếu Hội thảo ICT.rda’03, trang 22-23.
[3] Trang Nhật Quang (2007), “Đề xuất một công cụ hỗ trợ thu thập và
phân loại thông tin tiếng Việt trên internet”, Luận văn Thạc sĩ, Đại học
Khoa học Tự nhiên TP.HCM, TP.HCM.
Tiếng Anh
[4] Enrico Blanzieri, Anton Bryl (2007), “Evaluation of the Highest
Probability SVM Nearest Neighbor Classifier With Variable Relative
Error Cost”, University of Trento, Italy.
[5] Enrico Blanzieri, Anton Bryl (2007), “Instance-Based Spam Filtering
Using SVM Nearest Neighbor Classifier”, University of Trento, Italy.
[6] Li-Cheng Jin (2004), “Application of Fuzzy Support Vector Machines in
Medical Engineering and Bioinformatics”, Master Thesis, Institute of
Electronics and Information Engineering National Kaohsiung
University of Applied Sciences, Taiwan.
[7] Shigeo Abe and Takuya Inoue (2002), “Fuzzy Support Vector
Machines for Multiclass Problems”, ESANN‟2002 proceedings, pp.
113-118.
[8] Shigeo Abe and Takuya Inoue (2001), “Fuzzy Support Vector
Machines for Pattern Classification”, In Proceeding of International
-91-Joint Conference on Neural Networks (IJCNN ‟01), volume 2, pp.
1449-1454.
[9] Tsui-Feng Hu (2004), “Fuzzy Correlation and Support Vector Learning
Approach to Multi-Categorization of Documents”, Master Thesis,
Institute of Information Management I-Shou University, Taiwan.
[10] T.Joachims (1998), “Text Categorization with Support Vector
Machines: Learning with Many Relevant Features” in Proceedings of
ECML-98, 10
th
European Conference on Machine Learning, number
1398, pp. 137–142.
[11] Xiufeng Jiang, Zhang Yi and Jian Cheng Lv (2006), “Fuzzy SVM with
a new fuzzy membership function”, Neural Computing and
Applications, Volume 15(3), pp. 268-276.
[12] Yiming Yang, Jan O. Pedersen (1997), "A comparative Study on
Feature Selection in Text Categorization", Proceedings of {ICML}-97,
14th International Conference on Machine Learning, pp. 412-420.

Thạc Sĩ Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản

Phí Lan Dương New Member
Thành viên vàng

Các file đính kèm:

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP CẢ.pdf

Tiến Sĩ Nghiên cứu một số kỹ thuật phân hạng trong tra cứu ảnh dựa vào nội dung

Tiến Sĩ Nghiên cứu thành phần hóa học và hoạt tính sinh học một số loài Ardisia thuộc họ Myrsinaceae ở Việt

Tiến Sĩ Nghiên cứu sử dụng kết hợp enzyme trong chiết tách và làm giàu một số sản phẩm nguồn gốc thiên nhiên

Tiến Sĩ Nghiên cứu một số phương pháp tổng hợp pregnan và một số dẫn xuất của chúng từ 9a-hydroxy androstend

Tiến Sĩ Nghiên cứu một số đặc điểm sinh học, phân bố và thành phần hóa học tinh dầu của các loài trong họ Hồ

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Thạc Sĩ Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản

Phí Lan Dương New Member Thành viên vàng

Các file đính kèm:

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP CẢ.pdf

Tiến Sĩ Nghiên cứu một số kỹ thuật phân hạng trong tra cứu ảnh dựa vào nội dung

Tiến Sĩ Nghiên cứu thành phần hóa học và hoạt tính sinh học một số loài Ardisia thuộc họ Myrsinaceae ở Việt

Tiến Sĩ Nghiên cứu sử dụng kết hợp enzyme trong chiết tách và làm giàu một số sản phẩm nguồn gốc thiên nhiên

Tiến Sĩ Nghiên cứu một số phương pháp tổng hợp pregnan và một số dẫn xuất của chúng từ 9a-hydroxy androstend

Tiến Sĩ Nghiên cứu một số đặc điểm sinh học, phân bố và thành phần hóa học tinh dầu của các loài trong họ Hồ

Phí Lan Dương New Member
Thành viên vàng