Chuyên Đề Nghiên cứu xây dựng hệ thống lọc thư rác có khả năng lọc thư rác tiếng Anh và tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục

    Mở đầu. 4
    Chương 1: Thư rác và tác hại của thư rác. 6

    1.1. Định nghĩa thư rác. 6
    1.2. Các loại thư rác. 6
    1.3. Tác hại của thư rác. 7
    1.4. Quy trình và thủ đoạn gửi thư rác. 8
    1.4.1. Thu thập địa chỉ email 8
    1.4.2. Tìm kiếm các máy tính trên Internet cho phép gửi thư. 9
    Chương 2: Các giải pháp phòng chống thư rác. 12
    2.1. Lọc thư thông qua địa chỉ IP. 12
    2.1.1. Sử dụng danh sách đen (Blacklists). 12
    2.1.2. Sử dụng danh sách các địa chỉ tin cậy (Safe Sender Lists). 12
    2.2. Lọc thư theo nội dung. 13
    2.2.1. Lọc thư rác dựa vào các dấu hiệu nhận biết 13
    2.2.2. Lọc thư rác thông qua bỏ phiếu trên các danh sách trắng. 14
    2.2.3. Lọc thư sử dụng phương pháp heuristic. 14
    2.2.4. Lọc thư sử dụng phương pháp xác suất thống kê và học máy. 15
    2.3. Các phương pháp khác. 16
    2.3.1. Yêu cầu xác thực thư. 16
    2.3.2. Xác thực tự động. 17
    2.3.3. Yêu cầu trả tiền. 17
    2.3.4. Phản công. 17
    Chương 3: Lọc thư bằng cách phân loại tự động theo nội dung. 19
    3.1. Giới thiệu chung. 19
    3.2. Biểu diễn nội dung thư. 20
    3.3. Các phương pháp phân loại 22
    3.4. Lọc thư sử dụng phân loại Bayes đơn giản. 25
    3.5. Lọc thư sử dụng Support Vector Machines (SVM). 28
    3.6. Lọc thư tiếng Việt 31
    3.6.1. Tình hình nghiên cứu và các vấn đề cần giải quyết 31
    3.6.2. Biểu diễn thư bằng các đặc trưng - từ. 33
    3.6.3. Lựa chọn số lượng đặc trưng. 34
    3.6.4. Phân loại đồng thời thư tiếng Việt và thư tiếng Anh. 35
    3.6.5. Tiếng Việt có dấu và không dấu. 36
    3.7. Thử nghiệm và kết quả. 36
    3.7.1. Dữ liệu thử nghiệm 36
    3.7.2. Phương pháp thử nghiệm 37
    3.7.3. So sánh phương pháp phân loại 37
    3.7.4. Lựa chọn độ dài và số lượng đặc trưng. 38
    3.7.5. Phân biệt theo ngôn ngữ trước khi lọc. 39
    3.7.6. Nhận xét về kết quả thử nghiệm 39
    Chương 4. Xây dựng hệ thống lọc thư rác theo nội dung. 41
    4.1. Vị trí hệ thống lọc thư. 41
    4.2. Kiến trúc hệ thống lọc thư. 42
    4.3. Các thành phần chức năng. 44
    4.4. Thiết kế chi tiết 45
    4.5. Sử dụng chương trình. 49
    4.6. Thử nghiệm hệ thống. 51
    Kết luận. 53
    Tài liệu tham khảo. 54

    Mở đầu

    Thư rác (spam) là thư điện tử được gửi hàng loạt với nội dung mà người nhận không mong đợi, không muốn xem, hay chứa những nội dung không liên quan đến người nhận và thường được sử dụng để gửi thông tin quảng cáo[1]. Do có giá thành tương đối thấp so với các phương pháp quảng cáo khác, thư rác hiện chiếm một tỷ lệ lớn và ngày càng tăng trong tổng số thư điện tử được gửi qua Internet. Sự xuất hiện và gia tăng thư rác không những gây khó chịu và làm mất thời gian của người nhận mà còn ảnh hưởng tới đường truyền Internet và làm chậm tốc độ xử lý của máy chủ thư điện tử, gây thiệt hại lớn về kinh tế.
    Để loại bỏ hoặc giảm thiểu ảnh hưởng của thư rác, nhiều cách tiếp cận khác nhau đã được nghiên cứu và sử dụng. Giải pháp đấu tranh với thư rác rất đa dạng, bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thư rác cho tới những giải pháp kỹ thuật nhằm phát hiện và ngăn chặn thư rác trong những giai đoạn khác nhau của quá trình tạo và phát tán thư. Trong số giải pháp được sử dụng, lọc thư theo nội dung đang là một trong những giải pháp được sử dụng rộng rãi và có triển vọng nhất. Lọc thư theo nội dung là phương pháp phân tích nội dung thư để phân biệt thư rác với thư bình thường, kết quả phân tích sau đó được sử dụng để quyết định chuyển tiếp thư đến người nhận hay không (trong phạm vi nghiên cứu này, nội dung thư được giới hạn là những nội dung trình bày dưới dạng văn bản).
    Do việc lọc theo nội dung đòi hỏi phân tích phần văn bản chứa trong tiêu đề hay nội dung thư, thuật toán lọc nội dung cần được xây dựng phù hợp với ngôn ngữ mà thư sử dụng. Hiện nay, nhiều thuật toán lọc nội dung hiệu quả đã được nghiên cứu và sử dụng cho thư viết bằng tiếng Anh.
    Trong vòng vài năm gần đây, việc sử dụng Internet nói chung và thư điện tử nói riêng ngày càng phổ biến tại Việt nam. Một trong những hệ quả của sự phát triển này là ngày càng có nhiều thư rác gửi tới các tài khoản thư điện tử tại Việt nam (tài khoản có đuôi .vn). Những thư rác này bao gồm cả thư viết bằng tiếng Anh và thư viết bằng tiếng Việt. Việc xuất hiện ngày càng nhiều thư rác tiếng Việt đặt ra yêu cầu cấp thiết phải có những phương pháp lọc thư có thể xử lý được thư rác loại này.
    Do các thuật toán lọc thư thông dụng mới chỉ được nghiên cứu và thử nghiệm cho tiếng Anh, để có thể sử dụng giải pháp lọc nội dung cho thư tiếng Việt cần nghiên cứu làm rõ hiệu quả của thuật toán khi phân tích nội dung thư viết bằng tiếng Việt. Bên cạnh đó cần thực hiện những cải tiến cho phù hợp khi chuyển từ phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt. Để giải quyết những vấn đề vừa nêu, trong phạm vi đề tài này, chúng tôi tiến hành nghiên cứu một số giải pháp lọc nội dung cho thư rác tiếng Việt và tiếng Anh. Nội dung nghiên cứu bao gồm thử nghiệm làm rõ khả năng lọc thư tiếng Việt, đề xuất và phân tích so sánh các cải tiến với thuật toán, thử nghiệm trên dữ liệu thực. Sau khi thử nghiệm so sánh, giải pháp lọc thư có hiệu quả cao sẽ được cài đặt trong một bộ lọc thư có khả năng tích hợp vào máy chủ thư điện tử.




    [HR][/HR] [1] Định nghĩa về thư rác chỉ mang tính tương đối do các khái niệm như “không mong đợi”, “không liên quan” có thể phụ thuộc vào từng người nhận cụ thể.
     

    Các file đính kèm:

Đang tải...