Luận Văn Ứng dụng Case-Based Reasoning phân tích hệ thống học máy lọc thư rác

Thúy Viết Bài · 5/12/13

Tóm tắt nội dung khóa luận
Khóa luận trình bày một số nội dung cơ bản nhất về thư rác (khái niệm, tác hại, các
hình thức phát tán thư rác .), tập trung định hướng tới các phương pháp lọc thư rác, đặc
biệt là phương pháp lọc dựa trên nội dung.
Trong các phương pháp lọc theo nội dung, khóa luận quan tâm mô tả, phân tích hệ
thống hệ thống Email Classification Using Examples (ECUE), một phương pháp lọc spam
dựa trên nội dung do Delany và Cunningham đề xuất năm 2004 [4]. Khóa luận mô tả kiến
trúc của CBR và kiến trúc hệ thống ECUE. Hệ thống ECUE có khả năng giải quyết được
vấn đề concept drift, hệ thống được xây dựng dựa trên phương pháp Case-Based
Reasoning (CBR) [1] với việc coi các email là các case, tập các case đã được phân lớp
spam, non-spam được sử dụng làm tập dữ liệu huấn luyện gọi là case-base. Để giải quyết
vấn đề concept drift ECUE có hai thành phần chính là: Case-base Editing và case-base
update policy [5]. Phần cuối cùng của khóa luận trình bày về kết quả thực nghiệm tiến
hành trên hệ thống lọc thư rác sử dụng thuật toán Bayes theo chương trình Spambayes.

Mở đầu
Một trong những dịch vụ mà Internet mang lại đó là dịch vụ thư điện tử, đó là
phương tiện giao tiếp rất đơn giản, tiện lợi, rẻ và hiệu quả giữa mọi người trong cộng
đồng sử dụng dịch vụ Internet. Tuy nhiên chính vì những lợi ích của dịch vụ thư điện tử
mang lại mà số lượng thư trao đổi trên Internet ngày càng tăng, và một số không nhỏ
trong số đó là thư rác (spam). Thư rác thường được gửi với số lượng rất lớn, không được
người dùng mong đợi, thường với mục đích quảng cáo, đính kèm virus, gây phiền toái
khó chịu cho người dùng, làm giảm tốc độ truyền internet và tốc độ xử lý của email
server, gây thiệt hại rất lớn về kinh tế.
Đã có rất nhều phương pháp đưa ra để giảm số lượng thư rác. Như việc đưa ra các
luật lệ để hạn chế việc gửi thư rác, đưa ra các phương pháp kĩ thuật lọc thư rác như: lọc
dựa trên địa chỉ IP (whitelist, balacklist), lọc dựa trên danh tính người gửi, lọc dựa trên
chuỗi hỏi đáp, phương pháp lọc dựa trên mạng xã hội, và phương pháp lọc nội
dung Mỗi phương pháp đều có ưu nhược điểm riêng, không có phương pháp nào là
hoàn hảo vì vậy để có bộ lọc thư rác tốt cần phải kết hợp các phương pháp với nhau.
Trong các phương pháp lọc thư rác phương pháp lọc dựa trên nội dung hiện đang được
quan tâm nhiều, và được đánh giá là có triển vọng đưa ra kết quả cao. Phương pháp lọc
nội dung dựa trên việc phân tích nội dung của email để phân biệt spam email và nonspam
email.
Tuy đã có nhiều biện pháp ngăn chặn thư rác nhưng số lượng thư rác vẫn càng
ngày càng nhiều, tác hại gây ra càng lớn, cấu trúc nội dung của thư càng ngày càng thay
đổi tinh vi hơn để vượt qua các bộ lọc vì vậy cần có một hệ thống lọc có khả năng giải
quyết được vấn đề thư rác ngày càng tăng, nội dung, cấu trúc của thư ngày càng phức tạp
tinh vi hơn (concept drift).
Đã có nhiều hệ thống học máy lọc thư rác sử dụng các thuật toán Naïve bayes,
phân lớp dựa trên thống kê (Lewis and Ringuette 1994, Lewis 1998), Support Vector
Machines (Joachims 1998, Dumais et al. 1998) các phương pháp này đều cho kết quả lọc
khá tốt[17]. Tuy nhiên các mô hình này chưa giải quyết được vấn đề concept drift . Một
mô hình mới đã được Delany(2006) đề xuất, dựa trên hệ thống học máy sử dụng phương
2

pháp Case-Based Reasoning (CBR)(Riesbeck and Shank 1989)[17] có khả năng giải
quyết được concept drift. Phương pháp CBR, sử dụng các vấn đề trước đây đã được giải
quyết để đưa ra giải pháp cho vấn đề mới. Các vấn đề đã được giải quyết được lưu vào tập
dữ liệu dùng để huấn luyện gọi là case-base. Các case được biểu diễn dưới dạng véc tơ n
chiều, mỗi thành phần là một token đã được trích chọn từ việc phân tích cú pháp, phân
tích từ tố của tài liệu (email). Các vector cũng chứa thêm một thành phần nữa chỉ lớp mà
tài liệu đó được phân (nonspam, spam).
Trong việc ứng dụng CBR để lọc thư rác có hai vấn đề chính là: làm thế nào để
quản lý được tập dữ liệu huấn luyện(case-base), chứa một số lượng lớn email của người
dùng. Thứ hai là làm thế nào để điều khiển được vấn đề concept drift. Để quản lý được dữ
liệu huấn luyện CBR áp dụng các luật để điều chỉnh case-base(case-base Editing), nhằm
đưa ra tập case-base chứa các case có khả năng dự đoán cao nhất cho việc phân lớp case
mới. Để giải quyết được concept drift CBR thực hiện việc lựa chọn lại các đặc trưng và
case mới tốt nhất cho việc xác định lớp cho case mới.
Trong khóa luận này tôi xin trình bày hướng tiệp cận của Email Classification
Using Example (ECUE)(Delany, Cunningham, 2004), phương pháp học máy lọc thư rác
dựa trên CBR. Trong ECUE có hai phần chính cần quan tâm là: Công nghệ sử dụng cho
Case-base Editing là Competence Based Editing(CBE)(Smyth và McKenna 1998); và
Case-base update policity. CBE có hai chức năng chính là loại bỏ case nhiễu và case dư
thừa, việc loại bỏ case nhiễu áp dụng thuật toán Blame Based Noise Reduction (BBNR),
việc loại bỏ case dư thừa áp dụng thuật toán Conservative Redundancy Reduction
(CRR)(Riesbeck and Shank 1989) [17]. Case-base update policy thực hiện việc đưa các
case đã được phân lớp là spam, nonspam vào case-base để đưa dự đoán lớp cho case tiếp
theo, trong trường hợp cho case học lại, case-base update policy thực hiện lựa chọn lại các
đặc trưng để tìm ra đặc trưng có ích trong việc dự đoán lớp cho case mới.

Luận Văn Ứng dụng Case-Based Reasoning phân tích hệ thống học máy lọc thư rác

Thúy Viết Bài New Member
Thành viên vàng

Các file đính kèm:

94007543-k48-trinh-thi-thanh-hien-thesis-.pdf

Tiểu Luận Tìm Hiểu Và Ứng Dụng Dropbox

Luận Văn Ứng dụng GIS trong phát triển mô hình quản lý cấp giấy chứng nhận quyền sử dụng đất

Đồ Án Tìm hiểu ngôn ngữ c# và viết một ứng dụng minh họa

Báo Cáo Xây dựng thành công một mô hình mô phỏng mạng dùng VPN để bảo mật

Luận Văn Ứng dụng OpenVPN trong bảo mật hệ thống mạng cho doanh nghiệp

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Luận Văn Ứng dụng Case-Based Reasoning phân tích hệ thống học máy lọc thư rác

Thúy Viết Bài New Member Thành viên vàng

Các file đính kèm:

94007543-k48-trinh-thi-thanh-hien-thesis-.pdf

Tiểu Luận Tìm Hiểu Và Ứng Dụng Dropbox

Luận Văn Ứng dụng GIS trong phát triển mô hình quản lý cấp giấy chứng nhận quyền sử dụng đất

Đồ Án Tìm hiểu ngôn ngữ c# và viết một ứng dụng minh họa

Báo Cáo Xây dựng thành công một mô hình mô phỏng mạng dùng VPN để bảo mật

Luận Văn Ứng dụng OpenVPN trong bảo mật hệ thống mạng cho doanh nghiệp

Thúy Viết Bài New Member
Thành viên vàng